La nueva aventura de Xiaomi: enseñar a robots a ver, comprender y decidir con Xiaomi-Robotics-0

Un modelo que además es de código abierto 

Cyberone
Sin comentarios Facebook Twitter Flipboard E-mail
cesar-otero

César Otero

Editor

En 2011, recién inaugurada, Xiaomi lanza su primer teléfono móvil al mercado. En 2026, 15 años después, la compañía de Lei Jun es uno de los gigantes tecnológicos del sector, con un ecosistema que nadie más posee y que incluye coches eléctricos. ¿Su siguiente aventura? La Robótica. 

Y es que Xiaomi quiere enseñar a otros robots, entrenarlos con su propio modelo de lenguaje, el Xiaomi-Robotics-0. La compañía no es nueva en esto, pero lanzar su propio lenguaje robótico es sin duda una nueva y ambiciosa apuesta. 

Xiaomi y la Robótica: de sus perros robot al humanoide CyberOne y sus factorías automatizadas 

Con una mira puesta en la Robótica desde hace unos años, Xiaomi no es nueva en este rodeo: 

Y además, no podemos olvidarnos de las tres mega-factorías que posee, totalmente automatizadas con robots, procesos dirigidos y supervisados por IA y líneas de producción a oscuras:

Xiaomi-Robotics-O, el primer lenguaje y modelo robótico de Xiaomi de código abierto

Xiaomi-Robotics-0 es en palabras de Xiaomi "un modelo avanzado de visión-lenguaje-acción (VLA) optimizado para un alto rendimiento y una ejecución rápida y fluida en tiempo real". 

Xiaomi-Robotics-0 se preentrena primero con una gran cantidad de trayectorias de robots de diferentes encarnaciones y datos de visión-lenguaje, lo que le permite adquirir un conocimiento amplio y generalizable sobre la generación de acciones, al tiempo que conserva unas sólidas capacidades VLM. 

El método consta de un pre-entrenamiento dividido en dos partes y un post-entrenamiento. 

Pre-entrenamiento

Parte 1: Modelo de visión y lenguaje

En esta primera toma de contacto, el sistema de Xiaomi-Robotics-0 enseña visualmente al robot con datos de distinta naturaleza, como ponerle imágenes y que indentifique los objetos que podría manipular a escribir una descripción para una foto de un cielo nocturno estrellado, contar cuántas manos hay en una imagen intentando coger un frisbee o cómo recogería los platos y cubiertos de un lavavajillas.

Data 1

Fase 2: Datos de trayectorias robóticas

Ahora que el cerebro del robot ha sido adiestrado, toca enseñarle a hacer acciones físicas para que el algoritmo vaya aprendiendo su futura tarea, por ejemplo cómo doblar una toalla usando los dos brazos u organizar una estantería usando sólo un brazo. También se le enseña a montar y desmontar con LEGOs.

Post-Entrenamiento

De la teoría se pasa a la práctica, y el lenguaje de Xiaomi le enseña al robot no solamente a cumplir una tarea repetitiva y punto, sino a asegurarse que la máquina pueda realizar una serie de movimientos predichos de forma fluida. También a asegurarse de que pueda hacer "acciones reactivas y receptivas".

Data 2

Un modelo de éxito en pruebas

Según Xiaomi, su índice de éxito está siendo considerable, alcanzando "un rendimiento de vanguardia en tres pruebas de simulación": 

LIBERO

  • Una tasa de éxito media del 98,7 % 

SimplerEnv

  • Rendimiento en Visual Matching: 85,5 %
  • Visual Aggregation: 74,7 %
  • WidowX: 79,2 %

CALVIN

  • Longitud media de 4,75 en la división ABC-D 
  • Longitud media de 4,80 en la división ABCD-D

En las evaluaciones con robots reales, Xiaomi-Robotics-0 "alcanza altas tasas de éxito y un gran rendimiento en dos tareas de manipulación bimanual difíciles: el desmontaje de Lego y el plegado de toallas". 

Y, tal y como ha publicado Lei Jun en Weibo, lo mejor de  Xiaomi-Robotics-0 es que su código es ya abierto, por lo que cualquiera puede acceder a él y usarlo. De hecho, Jun deja claras las intenciones al publicar el código: "Damos la bienvenida a más personas con talento para que se unan a nuestro equipo de robótica."

Vía | Xiaomi 

En Mundo Xiaomi | 


Inicio