Deep-Learning ist seit 6 Jahren ein Trendwort in der Technologie und jede Woche werden hunderte von Forschungsarbeiten mit neuen Techniken veröffentlicht, um verschiedene Aufgaben in den Bereichen Natural Language Processing, Natural Language Understanding und Computer Vision zu lösen.
Als Einsteiger muss man sich jedoch auf die Grundlagen konzentrieren und verstehen, wie die Dinge funktionieren.
Aufgabe: Vorhersage der Beschriftung des Eingabebildes
Allgemeine Ansätze:
1) Aufbau von neuronalen Faltungsnetzen von Grund auf, so dass sie Kanten im Bild erkennen können und bei der Klassifizierung der Eingabe helfen
2) Transferlernen unter Verwendung von vortrainierten Modellen wie VGG-16
Datensätze:
- MNIST
- CIFAR-10
- IMAGENET
- SVHN
- DOGS vs CATS
Realtime Usage: Google Fotos
Referenz:
2)Bildsegmentierung :
Aufgabe: Vorhersage einer pixelweisen Maske für jedes Objekt im Bild
Allgemeine Ansätze:
1) Erstellen eines Encoder-Decoder-Faltungsnetzes von Grund auf
2) Transfer-Lernen unter Verwendung von vortrainierten Modellen wie U-Netz
Realweltlicher Anwendungsfall: Selbstfahrende Autos
Datensätze:
- Stadtansichten
- COCO
- Indische Fahrdaten
3)Textzusammenfassung:
Aufgabe: Eine sinnvolle Zusammenfassung von Paragraphen oder Nachrichtenartikeln zu erstellen
Allgemeine Ansätze:
1) Da Text generiert werden muss, wird ein Decoder benötigt, und um die Informationen eines bestimmten Artikels oder Absatzes zu kodieren, sollte ein Encoder benötigt werden. Wenn die Länge der Eingabesequenz klein ist, funktioniert der Lstm-Encoder-Decoder gut, ansonsten müssen Aufmerksamkeitsmechanismen und Transformer-Modelle verwendet werden
2) Feinabstimmung von vortrainierten Transformatoren für die Sprachgenerierung mit unseren Daten.
Real-world use case: Inshorts
Datensätze:
- Xsum
- CNN/Dailymail
4) Image Captioning:
Aufgabe: Vorhersage der Bildunterschrift für ein gegebenes Bild
Vorgehensweisen: Extrahieren von Merkmalen aus Bildern mit Hilfe eines neuronalen Faltungsnetzwerks und Erzeugen von Beschriftungen mit einem Decoder
Datensatz: