El contenido de este sitio se ha traducido mediante inteligencia artificial (IA) o tecnología de traducción automática, y puede contener errores.

Skip to content

Revolucionando la creación en Roblox con IA generativa

Revolutionizing Creation on Roblox with Generative AI

A principios de este año, compartimos nuestra visión sobre la inteligencia artificial generativa (IA) en Roblox y las nuevas herramientas intuitivas que permitirán a todos los usuarios convertirse en creadores. Dado que estas herramientas evolucionan rápidamente en todo el sector, quería ofreceros algunas novedades sobre los avances que hemos logrado, el camino que aún nos queda por recorrer para democratizar la creación con IA generativa y por qué creemos que la IA generativa es un elemento fundamental para el futuro de Roblox. 

Los avances en IA generativa y en los grandes modelos de lenguaje (LLM) ofrecen una oportunidad increíble para abrir las puertas al futuro de las experiencias inmersivas, al permitir una creación más fácil y rápida, manteniendo la seguridad y sin requerir enormes recursos informáticos. Además, los avances en los modelos de IA multimodales —es decir, aquellos entrenados con múltiples tipos de contenido, como imágenes, código, texto, modelos 3D y audio— abren la puerta a nuevos avances en las herramientas de creación. Estos mismos modelos están empezando a producir también resultados multimodales, como un modelo capaz de generar un texto, así como elementos visuales que complementan dicho texto. Consideramos que estos avances en IA son una enorme oportunidad para aumentar la eficiencia de los creadores más experimentados y, al mismo tiempo, permitir que aún más personas den vida a grandes ideas en Roblox. En la Conferencia de Desarrolladores de Roblox (RDC) de este año, anunciamos varias herramientas nuevas que incorporarán la IA generativa a Roblox Studio y más allá, para ayudar a cualquier usuario de Roblox a escalar más rápido, iterar con mayor rapidez y mejorar sus habilidades para crear contenidos aún mejores. 

Roblox Assistant

Roblox siempre ha proporcionado a los creadores las herramientas, los servicios y el apoyo que necesitan para crear experiencias 3D inmersivas. Al mismo tiempo, hemos visto cómo nuestros creadores empiezan a utilizar IA generativa y conversacional de terceros para ayudarles a crear. Aunque son útiles para ayudar a reducir la carga de trabajo de los creadores, estas versiones estándar no se diseñaron para los flujos de trabajo de Roblox de principio a fin ni se entrenaron con el código, la jerga y el lenguaje de Roblox. Eso significa que los creadores se enfrentan a un trabajo adicional significativo para utilizar estas versiones y crear contenido para Roblox. Hemos estado trabajando en formas de llevar el valor de estas herramientas a Roblox Studio, y en la RDC compartimos un primer ejemplo de Assistant.

Assistant es nuestra IA conversacional que permite a los creadores de todos los niveles dedicar mucho menos tiempo a las tareas rutinarias y repetitivas que conlleva la creación, y más tiempo a actividades de alto valor, como la narrativa, la jugabilidad y el diseño de experiencias. Roblox se encuentra en una posición única para desarrollar este modelo de IA conversacional para mundos 3D inmersivos, gracias a nuestro acceso a un amplio conjunto de modelos 3D públicos con los que entrenar, nuestra capacidad para integrar un modelo con las API de nuestra plataforma y nuestro creciente conjunto de soluciones innovadoras de IA. Los creadores podrán utilizar indicaciones de texto en lenguaje natural para crear escenas, editar modelos 3D y aplicar comportamientos interactivos a los objetos. El Asistente dará soporte a las tres fases de la creación: aprendizaje, programación y construcción:

  • Aprendizaje: tanto si un creador es nuevo en el desarrollo en Roblox como si es un veterano experimentado, Roblox Assistant le ayudará a responder preguntas sobre una amplia variedad de temas utilizando lenguaje natural. 
  • Codificación: Assistant ampliará nuestra reciente herramienta Code Assist. Por ejemplo, los desarrolladores podrán pedirle a Assistant que mejore su código, explique una sección del mismo o ayude a depurar y sugiera soluciones para el código que no funciona correctamente.
  • Creación: Assistant ayudará a los creadores a prototipar rápidamente nuevas ideas. Por ejemplo, un creador novato podría generar escenas completas y probar diferentes versiones simplemente escribiendo una indicación como «Añade algunas farolas a lo largo de esta carretera» o «Crea un bosque con diferentes tipos de árboles. Ahora añade algunos arbustos y flores».

El trabajo con Assistant será colaborativo, interactivo e iterativo, lo que permitirá a los creadores aportar comentarios y hacer que Assistant trabaje para ofrecer la solución adecuada. Será como tener como socio a un creador experto con el que intercambiar ideas y probarlas hasta dar con la solución correcta.

Para que Assistant sea el mejor compañero posible, hicimos otro anuncio en la RDC: invitamos a los desarrolladores a participar voluntariamente para aportar sus datos de scripts Luau anonimizados. Estos datos de scripts ayudarán a que nuestras herramientas de IA, como Code Assist y Assistant, mejoren significativamente a la hora de sugerir y crear código más eficiente, lo que beneficiará a los desarrolladores de Roblox que las utilizan. Además, si los desarrolladores optan por compartir más allá de Roblox, sus datos de scripts se añadirán a un conjunto de datos que se pondrá a disposición de terceros para entrenar sus herramientas de chat con IA y que estas puedan sugerir mejor código Luau, beneficiando así a los desarrolladores de Luau de todo el mundo.

Para que quede claro, a través de una investigación exhaustiva de los usuarios y conversaciones transparentes con los principales desarrolladores, hemos diseñado esto como un programa de participación voluntaria y nos aseguraremos de que todos los participantes entiendan y den su consentimiento a lo que implica el programa. Como agradecimiento a quienes decidan participar en el intercambio de datos de scripts con Roblox, les daremos acceso a las versiones más potentes de Assistant y Code Assist, que funcionan con este modelo entrenado por la comunidad. Quienes no se hayan inscrito seguirán teniendo acceso a nuestra versión actual de Assistant y Code Assist.

Creación de avatares más sencilla 

En última instancia, queremos que cada uno de nuestros 65,5 millones de usuarios diarios tenga un avatar que realmente los represente y exprese quiénes son. Recientemente hemos lanzado la posibilidad de que los miembros de nuestro Programa de Contenido Generado por el Usuario (UGC) puedan crear y vender tanto cuerpos de avatar como cabezas independientes. Hoy en día, ese proceso requiere acceso a Studio o a nuestro Programa de UGC, un nivel de habilidad bastante alto y varios días de trabajo para habilitar expresiones faciales, movimientos corporales, rigging 3D, etc. Esto hace que la creación de avatares requiera mucho tiempo y, hasta la fecha, ha limitado el número de opciones disponibles. Queremos ir aún más lejos.

Para que todos los usuarios de Roblox puedan tener un avatar personalizado y expresivo, necesitamos que los avatares sean muy fáciles de generar y personalizar. En RDC, anunciamos una nueva herramienta que lanzaremos en 2024 y que permitirá crear fácilmente un avatar personalizado a partir de una imagen o de varias imágenes. Con esta herramienta, cualquier creador con acceso a Studio o a nuestro programa UGC podrá subir una imagen, generar un avatar a su medida y luego modificarlo a su gusto. A largo plazo, también pretendemos que esto esté disponible directamente dentro de las experiencias de Roblox.

Para que esto sea posible, estamos entrenando modelos de IA con el esquema de avatares de Roblox y un conjunto de modelos de avatares 3D propiedad de Roblox. Un enfoque aprovecha la investigación para generar avatares 3D estilizados a partir de imágenes 2D. También estamos estudiando el uso de modelos de difusión de texto a imagen preentrenados para ampliar los limitados datos de entrenamiento 3D con técnicas generativas 2D, y el uso de una red de generación 3D basada en redes generativas adversarias (GAN) para el entrenamiento. Por último, estamos trabajando en el uso de ControlNet para superponer poses predefinidas que guíen las imágenes multivista resultantes de los avatares. 

Este proceso produce una malla 3D para el avatar. A continuación, aprovechamos la investigación en segmentación semántica 3D, entrenada en poses de avatares 3D, para tomar esa malla 3D y ajustarla con el fin de añadir rasgos faciales, armazón, rigging y texturas adecuados; en esencia, convirtiendo la malla 3D estática en un avatar de Roblox. Por último, una herramienta de edición de mallas permite a los usuarios transformar y ajustar el modelo para que se parezca más a la versión que están imaginando. Y todo esto ocurre rápidamente —en cuestión de minutos— generando un nuevo avatar que se puede importar a Roblox y utilizar en una experiencia.

Moderación de la comunicación por voz

Para nosotros, la IA no se limita a la creación, sino que también es un sistema mucho más eficiente para garantizar una comunidad diversa, segura y respetuosa a gran escala. A medida que comenzamos a implementar nuevas funciones de voz, como el chat de voz y Roblox Connect, la nueva función de llamar como tu avatar y las API anunciadas en la RDC, nos enfrentamos a un nuevo reto: moderar el lenguaje hablado en tiempo real. El estándar actual del sector para esto es un proceso conocido como reconocimiento automático del habla (ASR), que básicamente toma un archivo de audio, lo transcribe para convertirlo en texto y, a continuación, analiza el texto en busca de lenguaje inapropiado, palabras clave, etc. 

Esto funciona bien para empresas que lo utilizan a menor escala, pero al explorar el uso de este mismo proceso de ASR para moderar la comunicación de voz, nos dimos cuenta rápidamente de que resulta difícil e ineficaz a nuestra escala. Este enfoque también pierde información increíblemente valiosa que está codificada en el volumen y el tono de voz del hablante, así como en el contexto más amplio de la conversación. De los millones de minutos de conversación que tendríamos que transcribir cada día, en diferentes idiomas, solo un porcentaje muy pequeño podría parecer inapropiado. Y a medida que seguimos creciendo, ese sistema requeriría cada vez más potencia de cálculo para mantenerse al día. Así que analizamos más detenidamente cómo podríamos hacerlo de forma más eficiente, creando un proceso que pasara directamente del audio en directo al etiquetado del contenido para indicar si incumple nuestras políticas o no.

Finalmente, pudimos crear un sistema interno de detección de voz a medida utilizando ASR para clasificar nuestros conjuntos de datos de voz internos y, a continuación, utilizar esos datos de voz clasificados para entrenar el sistema. Más concretamente, para entrenar este nuevo sistema, comenzamos con el audio y creamos una transcripción. A continuación, pasamos la transcripción por nuestro sistema de filtrado de texto de Roblox para clasificar el audio. Este sistema de filtrado de texto es excelente para detectar lenguaje que incumple las políticas en Roblox, ya que llevamos años optimizando este mismo sistema de filtrado para la jerga, las abreviaturas y el lenguaje específico de Roblox. Al final de estas capas de entrenamiento, contamos con un modelo capaz de detectar incumplimientos de las políticas directamente a partir del audio en tiempo real.

Aunque este sistema tiene la capacidad de detectar palabras clave específicas, como las palabrotas, las infracciones de las políticas rara vez se reducen a una sola palabra. Una palabra puede parecer problemática en un contexto y perfectamente aceptable en otro. En esencia, este tipo de infracciones tienen que ver con lo que se dice, cómo se dice y el contexto en el que se hacen las declaraciones.

Para comprender mejor el contexto, aprovechamos la potencia nativa de una arquitectura basada en transformadores, que es muy eficaz en la síntesis de secuencias. Puede tomar una secuencia de datos, como un flujo de audio, y resumirla. Esta arquitectura nos permite conservar una secuencia de audio más larga, de modo que podamos detectar no solo palabras, sino también el contexto y las entonaciones. Una vez que todos estos elementos se unen, obtenemos un sistema final en el que la entrada es audio y la salida es una clasificación: incumple la política o no. Este sistema puede detectar palabras clave y frases que infringen la política, pero también el tono, el sentimiento y otros aspectos del contexto que son importantes para determinar la intención. Este nuevo sistema, que detecta el lenguaje que infringe la política directamente a partir del audio, es significativamente más eficiente en términos de computación que un sistema ASR tradicional, lo que facilitará mucho su escalabilidad a medida que seguimos reinventando la forma en que las personas se relacionan.

También necesitábamos una nueva forma de advertir a los usuarios de nuestras herramientas de comunicación por voz de las posibles consecuencias de este tipo de lenguaje. Con este innovador sistema de detección a nuestra disposición, ahora estamos experimentando con formas de influir en el comportamiento en línea para mantener un entorno seguro. Sabemos que a veces la gente incumple nuestras políticas sin intención y queremos saber si un recordatorio ocasional podría ayudar a evitar nuevas infracciones. Para ello, estamos probando la retroalimentación en tiempo real a los usuarios a través de notificaciones. Si el sistema detecta que has dicho algo que incumple nuestras políticas un cierto número de veces, mostraremos una notificación emergente en tu pantalla informándote de que tu lenguaje incumple nuestras políticas y te redirigiremos a nuestras políticas para obtener más información.

Sin embargo, las notificaciones en las transmisiones de voz son solo un elemento del sistema de moderación. También analizamos los patrones de comportamiento en la plataforma, así como las quejas de otros usuarios de Roblox, para tomar nuestras decisiones generales de moderación. La suma de estas señales podría dar lugar a consecuencias más severas, como la revocación del acceso a las funciones de audio o, en el caso de infracciones más graves, la expulsión total de la plataforma. Mantener nuestra comunidad segura y respetuosa es fundamental, ya que estos avances en modelos de IA multimodal, IA generativa y LLM se combinan para ofrecer nuevas e increíbles herramientas y capacidades a los creadores. 

Creemos que proporcionar estas herramientas a los creadores reducirá las barreras de entrada para los creadores menos experimentados y liberará a los más experimentados de las tareas más tediosas de este proceso. Esto les permitirá dedicar más tiempo a los aspectos creativos del ajuste y la ideación. Nuestro objetivo con todo esto es permitir que todo el mundo, en cualquier lugar, pueda dar vida a sus ideas y aumentar enormemente la diversidad de avatares, objetos y experiencias disponibles en Roblox. También estamos compartiendo información y herramientas para ayudar a proteger las nuevas creaciones

Ya estamos imaginando posibilidades increíbles: supongamos que alguien es capaz de crear un avatar doppelganger directamente a partir de una foto; entonces podría personalizar su avatar para hacerlo más alto o representarlo en estilo anime. O podría crear una experiencia pidiendo al Asistente que añada coches, edificios y paisajes, que configure la iluminación o las condiciones del viento, o que cambie el terreno. A partir de ahí, podría iterar para perfeccionar las cosas simplemente escribiendo mensajes con el Asistente. Sabemos que la realidad de lo que la gente cree con estas herramientas, a medida que estén disponibles, irá mucho más allá de lo que podemos siquiera imaginar.