El aprendizaje profundo es una palabra de tendencia en la tecnología durante los últimos 6 años y cientos de artículos de investigación han sido publicados cada semana con nuevas técnicas para resolver diversas tareas de Procesamiento del Lenguaje Natural, Comprensión del Lenguaje Natural y Visión por Computador.
Sin embargo, como principiante, uno tiene que centrarse en lo básico y necesita entender cómo funcionan las cosas.

Tarea: Predecir la etiqueta de la imagen de entrada
Enfoques generales:
1)Construir redes neuronales de convolución desde cero para que puedan detectar bordes en la imagen y ayude a clasificar la entrada
2) Aprendizaje de transferencia utilizando modelos preentrenados como VGG-16
Conjuntos de datos:
- MNIST
- CIFAR-10
- IMAGENET
- SVHN
- DOGS vs CATS
Uso en tiempo real: Fotos de Google
Referencia:
2)Segmentación de imágenes :
Tarea: Predecir una máscara a nivel de píxel para cada objeto de la imagen

Enfoques generales:
1)Creación de una red neuronal de convolución codificadora-decodificadora desde cero
2) Aprendizaje de transferencia utilizando modelos preentrenados como U-net
Caso de uso en el mundo real: Coches que se conducen solos
Conjuntos de datos:
- Paisajes urbanos
- COCO
- Datos de conducción de la India
3)Resumir textos:
Tarea: Generar un resumen significativo de artículos de párrafo o de noticias

Enfoques generales:
1)Como el texto necesita ser generado habrá una necesidad de un decodificador y para codificar la información de un artículo o párrafo dado se debe requerir un codificador Así que si la longitud de la secuencia de entrada es pequeña Lstm codificador-decodificador funciona bien de lo contrario tienen que ir para el mecanismo de atención y los modelos de transformadores
2) Ajuste fino de los transformadores pre-entrenados para la generación del lenguaje con nuestros datos.
Caso de uso en el mundo real: Inshorts
Conjuntos de datos:
- Xsum
- CNN/Dailymail
4) Subtitulado de imágenes:
Tarea: Predecir el pie de foto de una imagen dada

Enfoques: Extraer características de las imágenes mediante una red neuronal de convolución y generar un pie de foto mediante un decodificador
Conjunto de datos: