Deep learning to słowo trend w technologii od 6 lat, a setki prac badawczych są publikowane co tydzień z nowymi technikami rozwiązywania różnych zadań z zakresu przetwarzania języka naturalnego, rozumienia języka naturalnego i wizji komputerowej.
Jednakże, jako początkujący, należy skupić się na podstawach i trzeba zrozumieć, jak rzeczy działają.
Zadanie: Przewidzieć etykietę obrazu wejściowego
Podejścia ogólne:
1)Budowanie sieci neuronowych Convolution od podstaw tak, że może wykryć krawędzie w obrazie i pomaga klasyfikować dane wejściowe
2) Uczenie transferowe przy użyciu wstępnie wytrenowanych modeli, takich jak VGG-16
Zestawy danych:
- MNIST
- CIFAR-10
- IMAGENET
- SVHN
- DOGS vs CATS
Realtime Usage: Zdjęcia Google
Referencja:
2)Segmentacja obrazu :
Zadanie: Przewidzieć maskę pikselową dla każdego obiektu w obrazie
Podejścia ogólne:
1)Tworzenie od podstaw sieci neuronowej convolution encoder-decoder
2) Transfer learning using pretrained models like U-net
Przypadek użycia w realnym świecie: Self-driving cars
Datasets:
- Cityscapes
- COCO
- Indian Driving Data
3)Text Summarization:
Task: Wygenerowanie sensownego streszczenia paragrafu lub artykułów informacyjnych
Podejścia ogólne:
1)Ponieważ tekst musi być generowany będzie potrzeba dekodera i do kodowania informacji z danego artykułu lub akapitu koder powinien być wymagany Więc jeśli długość sekwencji wejściowej jest mała Lstm koder-dekoder działa dobrze w przeciwnym razie trzeba iść do mechanizmu uwagi i modeli Transformer
2) Fine-tuning pre-trained transformers for language generation with our data.
Real-world use case: Inshorts
Datasets:
- Xsum
- CNN/Dailymail
4) Image Captioning:
Zadanie: Przewidzieć podpis dla danego obrazu
Podejścia: Ekstrakcja cech z obrazów za pomocą sieci neuronowej convolution i generowanie napisów za pomocą dekodera
Dataset:
.