Jedním z nejmocnějších a nejpřitažlivějších typů umělé inteligence je počítačové vidění, se kterým jste se téměř jistě setkali v mnoha ohledech, aniž byste o tom věděli. Podívejte se, co to je, jak funguje a proč je tak úžasné (a bude se jen zlepšovat).
Počítačové vidění je obor informatiky, který se zaměřuje na replikaci části složitosti lidského zrakového systému a umožňuje počítačům identifikovat a zpracovávat objekty na obrázcích a videích stejným způsobem jako lidé. Až donedávna fungovalo počítačové vidění pouze v omezené míře.
Díky pokroku v oblasti umělé inteligence a inovacím v oblasti hlubokého učení a neuronových sítí dokázal tento obor v posledních letech udělat velký skok a v některých úlohách souvisejících s detekcí a označováním objektů dokázal překonat člověka.
Jedním z hnacích faktorů růstu počítačového vidění je množství dat, která dnes generujeme a která jsou následně využívána k trénování a zdokonalování počítačového vidění.
Společně s obrovským množstvím vizuálních dat (každý den jsou online sdíleny více než 3 miliardy obrázků) je nyní dostupný i výpočetní výkon potřebný k jejich analýze. S tím, jak se oblast počítačového vidění rozrůstá o nový hardware a algoritmy, roste i míra přesnosti identifikace objektů. Za méně než deset let dosáhly dnešní systémy z 50 % přesnosti 99 %, takže jsou při rychlé reakci na vizuální vstupy přesnější než člověk.
Počáteční experimenty v oblasti počítačového vidění začaly v 50. letech 20. století a v 70. letech bylo poprvé komerčně využito k rozlišení psaného textu od ručně psaného, dnes se aplikace počítačového vidění exponenciálně rozrostly.
Očekává se, že do roku 2022 dosáhne trh s počítačovým viděním a hardwarem 48,6 miliardy dolarů
Jednou z hlavních otevřených otázek v oblasti neurověd i strojového učení je: Jak přesně funguje náš mozek a jak se tomu můžeme přiblížit pomocí vlastních algoritmů? Skutečnost je taková, že existuje jen velmi málo funkčních a ucelených teorií mozkových výpočtů; takže navzdory tomu, že neuronové sítě mají „napodobovat způsob, jakým pracuje mozek“, nikdo si není zcela jistý, zda je to skutečně pravda.
Stejný paradox platí i pro počítačové vidění – protože nejsme rozhodnuti, jak mozek a oči zpracovávají obrazy, je těžké říci, jak dobře se algoritmy používané při výrobě přibližují našim vlastním vnitřním duševním procesům.
Na určité úrovni je počítačové vidění především o rozpoznávání vzorů. Jedním ze způsobů, jak vycvičit počítač, jak porozumět vizuálním datům, je tedy podat mu obrázky, spoustu obrázků, tisíce, pokud možno miliony, které byly označeny, a ty pak podrobit různým softwarovým technikám nebo algoritmům, které počítači umožní lovit vzory ve všech prvcích, které se vztahují k těmto označením.
Tak například, když nakrmíte počítač milionem obrázků koček (všichni je milujeme😄😹), podrobí je všechny algoritmům, které mu umožní analyzovat barvy na fotografii, tvary, vzdálenosti mezi tvary, místa, kde se objekty vzájemně ohraničují, a tak dále, takže identifikuje profil toho, co znamená „kočka“. Až bude počítač hotov, bude (teoreticky) schopen využít své zkušenosti, pokud mu budou podávány další neoznačené obrázky, a najít ty, které jsou kočičí.
Nechme naše chlupaté kočičí kamarády na chvíli stranou a pojďme se věnovat techničtějším věcem🤔😹. Níže je jednoduchá ilustrace vyrovnávací paměti pro obrázky ve stupních šedi, ve které je uložen náš obrázek Abrahama Lincolna. Jas každého pixelu je reprezentován jedním 8bitovým číslem, jehož rozsah je od 0 (černá) do 255 (bílá):
V podstatě jsou hodnoty pixelů na hardwarové úrovni téměř univerzálně uloženy v jednorozměrném poli. Například data z výše uvedeného obrázku jsou uložena podobně jako tento dlouhý seznam znaků bez znaménka:
Tento způsob ukládání obrazových dat může být v rozporu s vaším očekáváním, protože při zobrazení se data jistě jeví jako dvourozměrná. Přesto tomu tak je, protože paměť počítače se jednoduše skládá ze stále se zvětšujícího lineárního seznamu adresních prostorů.