Des experts du MIT développent PIGINet pour aider les robots domestiques à réduire de moitié le temps de planification
MaisonMaison > Nouvelles > Des experts du MIT développent PIGINet pour aider les robots domestiques à réduire de moitié le temps de planification

Des experts du MIT développent PIGINet pour aider les robots domestiques à réduire de moitié le temps de planification

May 28, 2023

Votre tout nouveau robot ménager est livré chez vous, et vous lui demandez de vous préparer une tasse de café. Bien qu'il connaisse certaines compétences de base acquises lors de pratiques antérieures dans des cuisines simulées, il peut effectuer beaucoup trop d'actions : ouvrir le robinet, tirer la chasse d'eau, vider le récipient à farine, etc. Mais il existe un petit nombre d’actions qui pourraient être utiles. Comment le robot peut-il déterminer quelles étapes sont judicieuses dans une nouvelle situation ? Il pourrait utiliser PIGINet, un nouveau système qui vise à améliorer efficacement les capacités de résolution de problèmes des robots domestiques. Des chercheurs du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT utilisent l'apprentissage automatique pour réduire le processus itératif typique de planification des tâches qui prend en compte toutes les actions possibles. PIGINet élimine les plans de tâches qui ne peuvent pas satisfaire aux exigences sans collision et réduit le temps de planification de 50 à 80 % lorsqu'il est formé sur seulement 300 à 500 problèmes. En règle générale, les robots tentent divers plans de tâches et affinent leurs mouvements de manière itérative jusqu'à ce qu'ils trouvent une solution réalisable, ce qui peut s'avérer inefficace et prendre du temps, en particulier lorsqu'il existe des obstacles mobiles et articulés. Peut-être qu'après la cuisson, par exemple, vous souhaitez mettre toutes les sauces dans le placard. Ce problème pourrait prendre de deux à huit étapes, selon l’apparence du monde à ce moment-là. Le robot doit-il ouvrir plusieurs portes d'armoire, ou y a-t-il des obstacles à l'intérieur de l'armoire qui doivent être déplacés afin de libérer de l'espace ? Vous ne voulez pas que votre robot soit trop lent – ​​et ce serait pire s'il brûlait le dîner pendant qu'il réfléchissait. Les robots domestiques sont généralement considérés comme suivant des recettes prédéfinies pour effectuer des tâches, ce qui n'est pas toujours adapté à des environnements divers ou changeants. . Alors, comment PIGINet évite-t-il ces règles prédéfinies ? PIGINet est un réseau neuronal qui rassemble « des plans, des images, des objectifs et des faits initiaux », puis prédit la probabilité qu'un plan de tâche puisse être affiné pour trouver des plans de mouvement réalisables. En termes simples, il utilise un encodeur à transformateur, un modèle polyvalent et de pointe conçu pour fonctionner sur des séquences de données. La séquence d'entrée, dans ce cas, est constituée d'informations sur le plan de tâche envisagé, d'images de l'environnement et d'encodages symboliques de l'état initial et de l'objectif souhaité. L'encodeur combine les plans de tâches, l'image et le texte pour générer une prédiction concernant la faisabilité du plan de tâches sélectionné. En gardant les choses dans la cuisine, l'équipe a créé des centaines d'environnements simulés, chacun avec des dispositions différentes et des tâches spécifiques qui nécessitent de réorganiser les objets entre les comptoirs, les réfrigérateurs, les armoires, les éviers et les marmites. En mesurant le temps nécessaire pour résoudre les problèmes, ils ont comparé PIGINet aux approches antérieures. Un plan de tâche correct peut inclure l'ouverture de la porte gauche du réfrigérateur, le retrait d'un couvercle de casserole, le déplacement du chou de la casserole au réfrigérateur, le déplacement d'une pomme de terre au réfrigérateur, le ramassage de la bouteille dans l'évier, la mise de la bouteille dans l'évier, le ramassage du tomate, ou placer la tomate. PIGINet a considérablement réduit le temps de planification de 80 pour cent dans des scénarios plus simples et de 20 à 50 pour cent dans des scénarios plus complexes comportant des séquences de plan plus longues et moins de données de formation. « Des systèmes tels que PIGINet, qui utilisent la puissance des méthodes basées sur les données pour gérer efficacement des cas familiers. , mais peut toujours s'appuyer sur des méthodes de planification fondées sur les « principes premiers » pour vérifier les suggestions basées sur l'apprentissage et résoudre de nouveaux problèmes, offrant le meilleur des deux mondes, en fournissant des solutions générales fiables et efficaces à une grande variété de problèmes », déclare le MIT. Leslie Pack Kaelbling, professeur et chercheur principal du CSAIL. L'utilisation par PIGINet d'intégrations multimodales dans la séquence d'entrée a permis une meilleure représentation et une meilleure compréhension des relations géométriques complexes. L'utilisation de données d'image a aidé le modèle à saisir les arrangements spatiaux et les configurations d'objets sans connaître les maillages 3D de l'objet pour une vérification précise des collisions, permettant une prise de décision rapide dans différents environnements. L'un des défis majeurs rencontrés lors du développement de PIGINet était la rareté de bonnes données de formation, car tous les plans réalisables et irréalisables doivent être générés par des planificateurs traditionnels, ce qui est lent au départ. Cependant, en utilisant des modèles de langage de vision pré-entraînés et des astuces d'augmentation des données, l'équipe a pu relever ce défi, montrant une réduction impressionnante du temps de planification non seulement pour les problèmes avec les objets vus, mais également une généralisation sans tir à des objets auparavant invisibles. est différent, les robots devraient être des résolveurs de problèmes adaptables au lieu de simplement suivre des recettes. Notre idée clé est de laisser un planificateur de tâches à usage général générer des plans de tâches candidats et d'utiliser un modèle d'apprentissage en profondeur pour sélectionner les plus prometteurs. Le résultat est un robot domestique plus efficace, adaptable et pratique, capable de naviguer avec agilité même dans des environnements complexes et dynamiques. De plus, les applications pratiques de PIGINet ne se limitent pas aux ménages », explique Zhutian Yang, doctorant au MIT CSAIL et auteur principal des travaux. « Notre objectif futur est d'affiner davantage PIGINet pour suggérer des plans de tâches alternatifs après avoir identifié des actions irréalisables, ce qui accélérera encore la génération de plans de tâches réalisables sans avoir besoin de grands ensembles de données pour former un planificateur généraliste à partir de zéro. Nous pensons que cela pourrait révolutionner la manière dont les robots sont formés pendant le développement, puis appliqués dans les foyers de chacun. "Cet article aborde le défi fondamental lié à la mise en œuvre d'un robot à usage général : comment tirer les leçons de l'expérience passée pour accélérer le processus de prise de décision dans des environnements non structurés remplis d'un grand nombre d'obstacles articulés et mobiles", explique Beomjoon Kim PhD '20. , professeur adjoint à la Graduate School of AI du Korea Advanced Institute of Science and Technology (KAIST). « Le principal goulot d'étranglement dans de tels problèmes est de savoir comment déterminer un plan de tâche de haut niveau de telle sorte qu'il existe un plan de mouvement de bas niveau qui réalise le plan de haut niveau. En règle générale, vous devez osciller entre la planification des mouvements et la planification des tâches, ce qui entraîne une inefficacité informatique importante. Le travail de Zhutian aborde ce problème en utilisant l'apprentissage pour éliminer les plans de tâches irréalisables, et constitue un pas dans une direction prometteuse. » Yang a écrit l'article avec le chercheur scientifique NVIDIA Caelan Garrett SB '15, MEng '15, PhD '21 ; Tomás Lozano-Pérez et Leslie Kaelbling, professeurs du Département de génie électrique et d'informatique du MIT et membres du CSAIL ; et directeur principal de la recherche en robotique chez NVIDIA et professeur Dieter Fox de l'Université de Washington. L’équipe a été soutenue par AI Singapore et par des subventions de la National Science Foundation, du Bureau de recherche scientifique de l’Armée de l’Air et du Bureau de recherche de l’Armée. Ce projet a été partiellement réalisé alors que Yang était stagiaire chez NVIDIA Research. Leurs recherches seront présentées en juillet lors de la conférence Robotics: Science and Systems.