Spoiler Alert: L'Intelligence Artificielle Peut Prédire Comment Les Scènes Se Dérouleront

{h1}

Selon une nouvelle étude, un nouveau système d'intelligence artificielle peut prendre des images fixes et générer de courtes vidéos qui simulent ce qui se passe ensuite, ce qui ressemble à la façon dont les humains peuvent imaginer comment une scène évoluera.

Selon une nouvelle étude, un nouveau système d'intelligence artificielle peut prendre des images fixes et générer de courtes vidéos qui simulent ce qui se passe ensuite, ce qui ressemble à la façon dont les humains peuvent imaginer comment une scène évoluera.

Les humains comprennent intuitivement le fonctionnement du monde, ce qui permet aux gens, par opposition aux machines, d’envisager plus facilement le déroulement d’une scène. Mais les objets d'une image fixe pourraient se déplacer et interagir de multiples façons, rendant très difficile la tâche des machines pour réaliser cet exploit, ont déclaré les chercheurs. Mais un nouveau système dit d'apprentissage en profondeur a été capable de tromper les humains 20% du temps par rapport aux séquences réelles.

Des chercheurs du Massachusetts Institute of Technology (MIT) ont opposé deux réseaux de neurones, l'un essayant de distinguer les vidéos réelles de celles générées par machine, l'autre essayant de créer des vidéos suffisamment réalistes pour tromper le premier système. [Machines super intelligentes: 7 Futurs robotiques]

Ce type de configuration s'appelle un "réseau contradictoire génératif" (GAN), et la concurrence entre les systèmes aboutit à des vidéos de plus en plus réalistes. Lorsque les chercheurs ont demandé aux travailleurs de la plate-forme de crowdsourcing Mechanical Mechanical d'Amazon de choisir les vidéos réelles, les utilisateurs ont sélectionné les vidéos générées par machine plutôt que les vidéos authentiques 20% du temps, ont indiqué les chercheurs.

Étapes préliminaires

Néanmoins, les réalisateurs en herbe n'ont probablement pas à se préoccuper de la possibilité que les machines reprennent leur travail: les vidéos ne duraient que 1 à 1,5 seconde et ont été réalisées à une résolution de 64 x 64 pixels. Mais les chercheurs ont déclaré que cette approche pourrait éventuellement aider les robots et les voitures autonomes à naviguer dans des environnements dynamiques et à interagir avec les humains, ou laisser Facebook marquer automatiquement les vidéos avec des étiquettes décrivant ce qui se passe.

"Notre algorithme peut générer une vidéo raisonnablement réaliste de l'avenir, ce qui montre qu'il comprend à un certain niveau ce qui se passe dans le présent", a déclaré Carl Vondrick, Ph.D. étudiant au laboratoire d'informatique et d'intelligence artificielle du MIT, qui a dirigé la recherche. "Notre travail est une avancée encourageante en suggérant que les informaticiens peuvent imprégner les machines d'une compréhension situationnelle beaucoup plus avancée."

Le système est également capable d'apprendre sans surveillance, ont indiqué les chercheurs. Cela signifie que les deux millions de vidéos (l'équivalent d'environ un an de séquences) sur lesquelles le système a été formé n'ont pas besoin d'être étiquetées par un humain, ce qui réduit considérablement le temps de développement et le rend adaptable aux nouvelles données.

Dans une étude qui doit être présentée à la conférence NIPS (Neural Information Processing Systems), qui se tiendra du 5 au 10 décembre à Barcelone, en Espagne, les chercheurs expliquent comment ils ont formé le système en utilisant des vidéos de plages et de gares., hôpitaux et terrains de golf.

"Dans les premiers prototypes, l'un des défis que nous avons découverts était que le modèle prédirait que l'arrière-plan se déformerait et se déformerait", a déclaré Vondrick à WordsSideKick.com. Pour résoudre ce problème, ils ont modifié la conception afin que le système apprenne des modèles distincts pour un arrière-plan statique et un avant-plan mobile avant de les combiner pour produire la vidéo.

Cinéastes de l'IA

L'équipe du MIT n'est pas la première à tenter d'utiliser l'intelligence artificielle pour générer de la vidéo à partir de rien. Mais les approches précédentes ont eu tendance à construire de la vidéo image par image, ce qui permet aux erreurs de s'accumuler à chaque étape. Au lieu de cela, la nouvelle méthode traite la scène entière en une fois - normalement 32 images en une fois.

Ian Goodfellow, chercheur à OpenAI, une organisation à but non lucratif, qui a inventé le GAN, a déclaré que les systèmes effectuant des travaux antérieurs dans ce domaine ne pouvaient pas générer à la fois des images et des mouvements nets de la même manière que cette approche. Cependant, il a ajouté qu'une nouvelle approche dévoilée le mois dernier par l'unité de recherche Google DeepMind AI, appelée Video Pixel Networks (VPN), permet de produire des images et des mouvements nets. [Les 6 robots les plus étranges jamais créés]

"Comparativement aux GAN, les VPN sont plus faciles à former, mais prennent beaucoup plus de temps pour générer une vidéo", a-t-il déclaré à WordsSideKick.com. "Le VPN doit générer la vidéo pixel par pixel, alors que les GAN peuvent générer plusieurs pixels simultanément."

Vondrick souligne également que leur approche fonctionne avec des données plus difficiles, telles que des vidéos extraites du Web, alors que le VPN a été démontré avec des ensembles de vidéos de référence spécialement conçus, illustrant des chiffres rebondissants ou des bras de robots.

Les résultats sont loin d'être parfaits, cependant. Les objets à l'avant-plan semblent souvent plus grands qu'ils ne le devraient et les humains peuvent apparaître dans les images sous forme de blobs flous, ont déclaré les chercheurs. Les objets peuvent également disparaître d'une scène et d'autres peuvent apparaître de nulle part, ont-ils ajouté.

"Le modèle informatique commence par ne rien savoir du monde. Il doit apprendre à quoi ressemblent les gens, comment les objets bougent et ce qui pourrait arriver", a déclaré Vondrick. "Le modèle n'a pas encore complètement appris ces choses. Développer sa capacité à comprendre des concepts de haut niveau tels que les objets améliorera considérablement les générations."

Selon M. Vondrick, la création de vidéos plus longues constituera un autre défi de taille, car cela obligera le système à suivre davantage de relations entre les objets de la scène et plus longtemps.

"Pour surmonter ce problème, il serait peut-être bon d'ajouter une intervention humaine afin d'aider le système à comprendre les éléments de la scène qu'il serait difficile pour lui d'apprendre par eux-mêmes", a-t-il déclaré.

Article original sur WordsSideKick.com.


Supplément Vidéo: .




Recherche


Des Impulsions Laser Téléportées? La Téléportation Quantique Approche Le Niveau De Science-Fiction
Des Impulsions Laser Téléportées? La Téléportation Quantique Approche Le Niveau De Science-Fiction

Comment Les Cerveaux Humains Pourraient Être Piratés
Comment Les Cerveaux Humains Pourraient Être Piratés

Nouvelles De La Science


Une Femme Étrange Et À Longue Tête De L'Ancien Royaume Révélée
Une Femme Étrange Et À Longue Tête De L'Ancien Royaume Révélée

La Consommation De Chocolat Réduit Le Risque D'Accident Vasculaire Cérébral Chez Les Hommes
La Consommation De Chocolat Réduit Le Risque D'Accident Vasculaire Cérébral Chez Les Hommes

High Time: Les Vraies Origines De 420
High Time: Les Vraies Origines De 420

Planète Naine Pluton: Faits Sur L'Ancienne Planète Glacée
Planète Naine Pluton: Faits Sur L'Ancienne Planète Glacée

Escargots Naviguer À Travers La Vie Sur Des Bulles De Mucus
Escargots Naviguer À Travers La Vie Sur Des Bulles De Mucus


FR.WordsSideKick.com
Tous Droits Réservés!
La Reproduction De Tout Permis Seulement Prostanovkoy Lien Actif Vers Le Site FR.WordsSideKick.com

© 2005–2020 FR.WordsSideKick.com