L’un des types d’IA les plus puissants et les plus convaincants est la vision par ordinateur, que vous avez presque certainement expérimentée de nombreuses façons sans même le savoir. Voici un aperçu de ce que c’est, comment cela fonctionne et pourquoi c’est si génial (et ne fera que s’améliorer).
La vision par ordinateur est le domaine de l’informatique qui se concentre sur la reproduction de certaines parties de la complexité du système de vision humain et permet aux ordinateurs d’identifier et de traiter les objets dans les images et les vidéos de la même manière que les humains. Jusqu’à récemment, la vision par ordinateur ne fonctionnait que de manière limitée.
Grâce aux progrès de l’intelligence artificielle et aux innovations dans l’apprentissage profond et les réseaux neuronaux, le domaine a pu faire de grands bonds ces dernières années et a pu dépasser les humains dans certaines tâches liées à la détection et à l’étiquetage des objets.
L’un des facteurs moteurs de la croissance de la vision par ordinateur est la quantité de données que nous générons aujourd’hui et qui sont ensuite utilisées pour former et améliorer la vision par ordinateur.
A côté d’une énorme quantité de données visuelles (plus de 3 milliards d’images sont partagées en ligne chaque jour), la puissance de calcul nécessaire pour analyser ces données est désormais accessible. Le domaine de la vision par ordinateur s’est enrichi de nouveaux matériels et algorithmes, tout comme les taux de précision de l’identification des objets. En moins d’une décennie, les systèmes d’aujourd’hui ont atteint une précision de 99 % à partir de 50 %, ce qui les rend plus précis que les humains pour réagir rapidement aux entrées visuelles.
Les premières expériences de la vision par ordinateur ont commencé dans les années 1950 et elle a été mise à profit commercialement pour distinguer les textes dactylographiés et manuscrits dans les années 1970, aujourd’hui les applications de la vision par ordinateur ont connu une croissance exponentielle.
D’ici 2022, le marché de la vision par ordinateur et du matériel devrait atteindre 48,6 milliards de dollars
L’une des principales questions ouvertes à la fois dans les neurosciences et l’apprentissage automatique est la suivante : comment fonctionne exactement notre cerveau, et comment pouvons-nous nous en approcher avec nos propres algorithmes ? La réalité est qu’il y a très peu de théories fonctionnelles et complètes sur le calcul du cerveau ; ainsi, malgré le fait que les réseaux neuronaux sont censés « imiter la façon dont le cerveau fonctionne », personne n’est tout à fait sûr que c’est réellement vrai.
Le même paradoxe vaut pour la vision par ordinateur – puisque nous ne sommes pas décidés sur la façon dont le cerveau et les yeux traitent les images, il est difficile de dire dans quelle mesure les algorithmes utilisés dans la production se rapprochent de nos propres processus mentaux internes.
À un certain niveau, la vision par ordinateur est tout au sujet de la reconnaissance des formes. Donc une façon d’entraîner un ordinateur à comprendre des données visuelles est de lui fournir des images, beaucoup d’images des milliers, des millions si possible qui ont été étiquetées, puis de les soumettre à diverses techniques logicielles, ou algorithmes, qui permettent à l’ordinateur de traquer des modèles dans tous les éléments qui se rapportent à ces étiquettes.
Donc, par exemple, si vous nourrissez un ordinateur d’un million d’images de chats (nous les aimons tous😄😹), il les soumettra toutes à des algorithmes qui leur permettent d’analyser les couleurs de la photo, les formes, les distances entre les formes, où les objets se bordent, et ainsi de suite, afin qu’il identifie un profil de ce que signifie « chat ». Lorsqu’il aura terminé, l’ordinateur sera (en théorie) capable d’utiliser son expérience si nourri d’autres images non étiquetées pour trouver celles qui sont de chat.
Laissons un instant de côté nos amis les chats en peluche et devenons plus techniques🤔😹. Voici une illustration simple du tampon d’image en niveaux de gris qui stocke notre image d’Abraham Lincoln. La luminosité de chaque pixel est représentée par un seul nombre de 8 bits, dont la plage va de 0 (noir) à 255 (blanc) :
En fait, les valeurs des pixels sont presque universellement stockées, au niveau matériel, dans un tableau unidimensionnel. Par exemple, les données de l’image ci-dessus sont stockées d’une manière similaire à cette longue liste de caractères non signés :
Cette façon de stocker les données d’image peut aller à l’encontre de vos attentes, puisque les données semblent certainement être bidimensionnelles lorsqu’elles sont affichées. Pourtant, c’est le cas, puisque la mémoire des ordinateurs consiste simplement en une liste linéaire toujours croissante d’espaces d’adressage.
De nombreuses applications populaires de vision par ordinateur consistent à essayer de reconnaître des choses dans des photographies ; par exemple :
Classification des objets : Quelle grande catégorie d’objet se trouve dans cette photographie?
Identification d’objets : Quel type d’un objet donné se trouve dans cette photographie?
Vérification de l’objet : L’objet est-il dans la photographie?
Détection d’objets : Où se trouvent les objets dans la photographie?
Détection des points de repère de l’objet : Quels sont les points clés de l’objet dans la photographie?
Segmentation d’objets : Quels pixels appartiennent à l’objet dans l’image?
Reconnaissance d’objets : Quels sont les objets présents sur cette photographie et où sont-ils ?
En dehors de la simple reconnaissance, les autres méthodes d’analyse comprennent :
L’analyse du mouvement vidéo utilise la vision par ordinateur pour estimer la vitesse des objets dans une vidéo, ou de la caméra elle-même.
Dans la segmentation d’images, les algorithmes partitionnent les images en plusieurs ensembles de vues.
La reconstruction de scènes crée un modèle 3D d’une scène entrée par des images ou des vidéos.
Dans la restauration d’images, le bruit tel que le flou est supprimé des photos en utilisant des filtres basés sur l’apprentissage automatique.
Toute autre application qui implique la compréhension des pixels par le biais d’un logiciel peut sans risque être étiquetée comme vision par ordinateur.
Conclusion
Malgré les progrès récents, qui ont été impressionnants, nous ne sommes toujours pas près de résoudre la vision par ordinateur. Cependant, il existe déjà de multiples institutions et entreprises de santé qui ont trouvé des moyens d’appliquer des systèmes de CV, alimentés par des CNN, à des problèmes du monde réel. Et cette tendance n’est pas prête de s’arrêter.
Si vous voulez entrer en contact et qu’au passage, vous connaissez une bonne blague, vous pouvez vous connecter avec moi sur Twitter ou LinkedIn.