Hluboké učení je v posledních 6 letech trendem v technologiích a každý týden vycházejí stovky výzkumných prací s novými technikami řešení různých úloh zpracování přirozeného jazyka, porozumění přirozenému jazyku a počítačového vidění.
Jako začátečník se však člověk musí zaměřit na základy a musí pochopit, jak věci fungují.
Úloha: Úkol: Předpovědět označení vstupního obrázku
Obecné přístupy:
1)Budování konvolučních neuronových sítí od základu tak, aby dokázaly detekovat hrany v obrázku a pomohly klasifikovat vstupní data
2) Učení přenosem pomocí předtrénovaných modelů, jako je VGG-16
Datasety:
- MNIST
- CIFAR-10
- IMAGENET
- SVHN
- DOGS vs CATS
Použití v reálném čase: Fotky Google
Reference:
2)Segmentace obrázků :
Úloha: Předpovědět masku v pixelech pro každý objekt na obrázku
Obecné přístupy:
1)Vytvoření konvoluční neuronové sítě s kodérem a dekodérem od nuly
2) Učení přenosem pomocí předtrénovaných modelů, jako je U-net
Případ použití v reálném světě: Autonomní automobily
Datové sady:
- Cityscapes
- COCO
- Indická řidičská data
3)Sumarizace textu:
Úloha: Vytvořit smysluplné shrnutí odstavce nebo zpravodajského článku
Obecné přístupy:
1)Vzhledem k tomu, že je třeba generovat text, bude potřeba dekodér a pro zakódování informací z daného článku nebo odstavce by měl být zapotřebí kodér Takže pokud je délka vstupní sekvence malá, funguje dobře Lstm kodér-dekodér, jinak musí jít o mechanismus pozornosti a transformační modely
2) Jemné doladění předtrénovaných transformátorů pro generování jazyka s našimi daty.
Případ použití v reálném světě: Inshorts
Datové sady:
- Xsum
- CNN/Dailymail
4) Titulky obrázků:
Úloha: Předpovědět titulek k danému obrázku
Postupy: Extrakce rysů z obrázků pomocí konvoluční neuronové sítě a generování titulků pomocí dekodéru
Datový soubor:
.