Djupinlärning är ett trendigt ord inom tekniken sedan sex år tillbaka och hundratals forskningsartiklar har publicerats varje vecka med nya tekniker för att lösa olika uppgifter inom behandling av naturligt språk, förståelse av naturligt språk och datorseende.
Som nybörjare måste man dock fokusera på grunderna och måste förstå hur saker och ting fungerar.
Uppgift: Att förutsäga etiketten för den inmatade bilden
Generella metoder:
1) Att bygga upp konvolutionsneurala nätverk från grunden så att de kan upptäcka kanter i bilden och hjälpa till att klassificera inmatningen
2) Överföringsinlärning med hjälp av förinlärda modeller som VGG-16
Databasuppsättningar: 1:
- MNIST
- CIFAR-10
- IMAGENET
- SVHN
- DOGS vs CATS
Realtidsanvändning: Google photos
Referens:
2)Bildsegmentering :
Task: Att förutsäga en pixelvis mask för varje objekt i bilden
Generella tillvägagångssätt:
1) Skapa ett encoder-decoder-falsningsneuronnät från grunden
2) Överföringsinlärning med hjälp av förtränade modeller som U-net
Användningsfall i den verkliga världen: Självkörande bilar
Dataset:
- Stadslandskap
- COCO
- Indianska kördata
3)Sammanfattning av text:
Uppgift: Att generera en meningsfull sammanfattning av stycken eller nyhetsartiklar
Generella tillvägagångssätt:
1) Eftersom text måste genereras behövs en avkodare och för att koda information från en viss artikel eller ett visst stycke behövs en kodare. Om inmatningssekvensens längd är liten fungerar Lstm-kodare-dekodare bra, annars måste man använda sig av uppmärksamhetsmekanismer och transformatormodeller
2) Finjustering av förtränade transformatorer för språkgenerering med våra data.
Användningsfall i den verkliga världen: Inshorts
Dataset:
- Xsum
- CNN/Dailymail
4) Bildtextning:
Uppgift: Att förutsäga bildtexten för en given bild
Angreppssätt: Utdrag av egenskaper från bilder med hjälp av ett neuralt konvolutionsnätverk och generering av bildtexter med hjälp av en avkodare
Dataset: