El aprendizaje profundo es una palabra de tendencia en la tecnología durante los últimos 6 años y cientos de artículos de investigación han sido publicados cada semana con nuevas técnicas para resolver diversas tareas de Procesamiento del Lenguaje Natural, Comprensión del Lenguaje Natural y Visión por Computador.

Sin embargo, como principiante, uno tiene que centrarse en lo básico y necesita entender cómo funcionan las cosas.

https://blog.edugrad.com/image-classification-using-convolutional-neural-network/

Tarea: Predecir la etiqueta de la imagen de entrada

Enfoques generales:

1)Construir redes neuronales de convolución desde cero para que puedan detectar bordes en la imagen y ayude a clasificar la entrada

2) Aprendizaje de transferencia utilizando modelos preentrenados como VGG-16

Conjuntos de datos:

  1. MNIST
  2. CIFAR-10
  3. IMAGENET
  4. SVHN
  5. DOGS vs CATS

Uso en tiempo real: Fotos de Google

Referencia:

2)Segmentación de imágenes :

Tarea: Predecir una máscara a nivel de píxel para cada objeto de la imagen

Enfoques generales:

1)Creación de una red neuronal de convolución codificadora-decodificadora desde cero

2) Aprendizaje de transferencia utilizando modelos preentrenados como U-net

Caso de uso en el mundo real: Coches que se conducen solos

Conjuntos de datos:

  1. Paisajes urbanos
  2. COCO
  3. Datos de conducción de la India

3)Resumir textos:

Tarea: Generar un resumen significativo de artículos de párrafo o de noticias

https://www.youtube.com/watch?v=9PoKellNrBc

Enfoques generales:

1)Como el texto necesita ser generado habrá una necesidad de un decodificador y para codificar la información de un artículo o párrafo dado se debe requerir un codificador Así que si la longitud de la secuencia de entrada es pequeña Lstm codificador-decodificador funciona bien de lo contrario tienen que ir para el mecanismo de atención y los modelos de transformadores

2) Ajuste fino de los transformadores pre-entrenados para la generación del lenguaje con nuestros datos.

Caso de uso en el mundo real: Inshorts

Conjuntos de datos:

  1. Xsum
  2. CNN/Dailymail

4) Subtitulado de imágenes:

Tarea: Predecir el pie de foto de una imagen dada

https://github.com/danieljl/keras-image-captioning

Enfoques: Extraer características de las imágenes mediante una red neuronal de convolución y generar un pie de foto mediante un decodificador

Conjunto de datos:

Deja una respuesta

Tu dirección de correo electrónico no será publicada.