Xiaomi se está haciendo un hueco dentro del mundillo de las IA generativas, y este es un nuevo paso hacia ello
La inteligencia artificial generativa ya no se está limitando únicamente a crear imágenes o responder preguntas como si fuese un chatbot, y es algo que estamos experimentando todos. Otra de las grandes guerras tecnológicas del momento está en las voces sintéticas, y ahí Xiaomi acaba de mover ficha anunciando la liberación de OmniVoice, un nuevo modelo de texto a voz desarrollado por su AI Lab que llega con una propuesta bastante ambiciosa: generar voces naturales en más de 600 idiomas distintos y hacerlo además con funciones avanzadas como clonación de voz o personalización del habla.
Lo curioso de todo esto es que Xiaomi no está presentando OmniVoice como un simple experimento de laboratorio, sino como una alternativa real frente a sistemas comerciales mucho más asentados como Eleven Labs. De hecho, la empresa asegura que su modelo consigue resultados especialmente sólidos tanto en chino como en inglés, pero donde realmente quiere marcar diferencias es en idiomas minoritarios o con muy poca presencia digital, un terreno donde la mayoría de soluciones actuales siguen teniendo bastantes limitaciones dado que le dan mayor importancia a idiomas mucho más populares.
Xiaomi quiere que la IA pueda hablar prácticamente cualquier idioma
Según la documentación técnica publicada por el equipo responsable del proyecto, OmniVoice ha sido entrenado utilizando alrededor de 581.000 horas de datos multilingües obtenidos de bases open source, algo que le habría permitido alcanzar una cobertura enorme para este tipo de tecnologías. La clave está en que no depende únicamente de idiomas ampliamente utilizados, sino que también puede desenvolverse con lenguas regionales o muy poco representadas online para abarcar a un mayor público potencial.
Y esto es totalmente clave porque, sin lugar a dudas, uno de los grandes problemas del sector TTS (text to speech) es que muchos idiomas apenas cuentan con material suficiente para entrenar modelos de IA de calidad. Xiaomi asegura que OmniVoice sigue ofreciendo resultados bastante convincentes incluso cuando un idioma dispone de menos de diez horas de grabaciones para entrenamiento, algo que podría abrir la puerta a que muchas lenguas pequeñas empiecen a tener soporte real en asistentes virtuales, doblaje automático o incluso herramientas de accesibilidad más avanzadas.
Otra de las funciones más llamativas es la clonación de voz, y es que el sistema permite replicar voces reales utilizando pequeñas muestras de audio, además de crear timbres personalizados ajustando diferentes características del habla. Todo ello bajo una arquitectura que, según Xiaomi, mejora tanto la naturalidad de la voz como la velocidad de generación frente a otros modelos similares y cuyos resultados, si bien aún no se conocen, sobre el papel serían de lo mejorcito que nos podemos encontrar dentro del sector.
Habrá que ver cómo evoluciona realmente OmniVoice fuera de las demos y pruebas internas, pero lo cierto es que tiene una pinta fantástica y más viendo todo lo que ha avanzado Xiaomi en el mundillo de la IA a lo largo de los últimos meses. Entre sus nuevos modelos MiMo, sistemas multimodales y ahora esta apuesta por la generación de voz, queda bastante claro que la marca quiere hacerse un hueco importante en este terreno.
En Mundo Xiaomi | El próximo Ultra de Xiaomi será mucho más importante de lo que parece: debutará con un chip totalmente nuevo que tiene una pinta bestial
Ver todos los comentarios en https://www.mundoxiaomi.com
VER 0 Comentario