L’apprendimento profondo è una parola di tendenza nella tecnologia negli ultimi 6 anni e centinaia di articoli di ricerca sono stati pubblicati ogni settimana con nuove tecniche per risolvere vari compiti di elaborazione del linguaggio naturale, comprensione del linguaggio naturale e visione artificiale.
Tuttavia, come principiante, bisogna concentrarsi sulle basi e capire come funzionano le cose.
Task: Predire l’etichetta dell’immagine di input
Approcci generali:
1)Costruire reti neurali di convoluzione da zero in modo che possano rilevare i bordi nell’immagine e aiutare a classificare l’input
2) Apprendimento di trasferimento usando modelli preaddestrati come VGG-16
Dataset:
- MNIST
- CIFAR-10
- IMAGENET
- SVHN
- DOGS vs CATS
Uso in tempo reale: Google foto
Riferimento:
2)Segmentazione dell’immagine :
compito: Prevedere una maschera pixel-wise per ogni oggetto nell’immagine
Approcci generali:
1)Creazione di una rete neurale di convoluzione encoder-decoder da zero
2) Apprendimento di trasferimento usando modelli preaddestrati come U-net
Caso d’uso reale: Auto a guida autonoma
Dataset:
- Cityscapes
- COCOCO
- Dati di guida indiani
3)Riassunto del testo:
Task: Generare un riassunto significativo di articoli di paragrafi o notizie
Approcci generali:
1)Come il testo deve essere generato ci sarà bisogno di un decodificatore e per codificare le informazioni da un dato articolo o paragrafo dovrebbe essere richiesto un codificatore Quindi se la lunghezza della sequenza di input è piccola il codificatore-decodificatore Lstm funziona bene altrimenti dobbiamo andare per il meccanismo di attenzione e modelli di trasformatori
2) Messa a punto di trasformatori pre-addestrati per la generazione della lingua con i nostri dati.
Caso d’uso reale: Inshorts
Datasets:
- Xsum
- CNN/Dailymail
4) Image Captioning:
Task: Prevedere la didascalia per una data immagine
Approcci: Estrarre le caratteristiche dalle immagini usando una rete neurale di convoluzione e generare una didascalia usando un decoder
Dataset: