Revolucionando a criação no Roblox com IA generativa

No início deste ano, compartilhamos nossa visão sobre a inteligência artificial (IA) generativa no Roblox e as novas ferramentas intuitivas que permitirão que todos os usuários se tornem criadores. À medida que essas ferramentas evoluem rapidamente em todo o setor, gostaria de apresentar algumas atualizações sobre o progresso que alcançamos, o caminho que ainda temos pela frente para democratizar a criação com IA generativa e por que acreditamos que a IA generativa é um elemento essencial para o futuro do Roblox.
Os avanços na IA generativa e nos grandes modelos de linguagem (LLMs) representam uma oportunidade incrível para abrir as portas para o futuro das experiências imersivas, permitindo uma criação mais fácil e rápida, mantendo a segurança e sem exigir recursos computacionais massivos. Além disso, os avanços em modelos de IA multimodais — ou seja, treinados com vários tipos de conteúdo, como imagens, código, texto, modelos 3D e áudio — abrem as portas para novos avanços nas ferramentas de criação. Esses mesmos modelos estão começando a produzir resultados multimodais, como um modelo capaz de gerar um texto, além de elementos visuais que complementam o texto. Vemos esses avanços em IA como uma enorme oportunidade para, simultaneamente, aumentar a eficiência de criadores mais experientes e permitir que ainda mais pessoas deem vida a grandes ideias no Roblox. Na Roblox Developers Conference (RDC) deste ano, anunciamos várias novas ferramentas que trarão a IA generativa para o Roblox Studio e além, a fim de ajudar qualquer pessoa no Roblox a escalar mais rápido, iterar mais rapidamente e aprimorar suas habilidades para criar um conteúdo ainda melhor.
Roblox Assistant
O Roblox sempre forneceu aos criadores as ferramentas, os serviços e o suporte de que precisam para construir experiências 3D imersivas. Ao mesmo tempo, vimos nossos criadores começarem a usar IA generativa e conversacional de terceiros para ajudá-los a criar. Embora sejam úteis para ajudar a reduzir a carga de trabalho do criador, essas versões prontas para uso não foram projetadas para fluxos de trabalho completos do Roblox nem treinadas com o código, a gíria e o jargão do Roblox. Isso significa que os criadores enfrentam um trabalho adicional significativo para usar essas versões na criação de conteúdo para o Roblox. Temos trabalhado em maneiras de trazer o valor dessas ferramentas para o Roblox Studio e, na RDC, compartilhamos um dos primeiros exemplos do Assistant.
O Assistant é nossa IA conversacional que permite que criadores de todos os níveis de habilidade gastem significativamente menos tempo com as tarefas rotineiras e repetitivas envolvidas na criação e mais tempo em atividades de alto valor, como narrativa, jogabilidade e design de experiência. A Roblox está em uma posição única para construir esse modelo de IA conversacional para mundos 3D imersivos, graças ao nosso acesso a um grande conjunto de modelos 3D públicos para treinamento, nossa capacidade de integrar um modelo às APIs da nossa plataforma e nosso crescente conjunto de soluções inovadoras de IA. Os criadores poderão usar comandos de texto em linguagem natural para criar cenas, editar modelos 3D e aplicar comportamentos interativos a objetos. O Roblox Assistant dará suporte às três fases da criação: aprendizagem, codificação e construção:
- Aprendizagem: seja o criador um novato no desenvolvimento no Roblox ou um veterano experiente, o Roblox Assistant ajudará a responder a perguntas sobre uma ampla variedade de assuntos usando linguagem natural.
- Codificação: o Assistant ampliará nossa recente ferramenta Code Assist. Por exemplo, os desenvolvedores poderão pedir ao Assistant para melhorar seu código, explicar uma seção do código ou ajudar a depurar e sugerir correções para código que não esteja funcionando corretamente.
- Construção: O Assistant ajudará os criadores a prototipar rapidamente novas ideias. Por exemplo, um criador iniciante poderá gerar cenas inteiras e experimentar diferentes versões simplesmente digitando um comando como “Adicione alguns postes de luz ao longo desta estrada” ou “Crie uma floresta com diferentes tipos de árvores. Agora adicione alguns arbustos e flores.”
Trabalhar com o Assistant será colaborativo, interativo e iterativo, permitindo que os criadores deem feedback e que o Assistant trabalhe para fornecer a solução certa. Será como ter um criador especialista como parceiro, com quem você pode trocar ideias e testá-las até acertar.
Para tornar o Assistant o melhor parceiro possível, fizemos outro anúncio na RDC: convidamos os desenvolvedores a optar por contribuir com seus dados de scripts Luau anonimizados. Esses dados de scripts ajudarão a tornar nossas ferramentas de IA, como o Code Assist e o Assistant, significativamente melhores na sugestão e criação de códigos mais eficientes, retribuindo aos desenvolvedores do Roblox que as utilizam. Além disso, se os desenvolvedores optarem por compartilhar além do Roblox, seus dados de script serão adicionados a um conjunto de dados disponibilizado a terceiros para treinar suas ferramentas de chat de IA a serem melhores na sugestão de código Luau, retribuindo aos desenvolvedores Luau em todos os lugares.
Para deixar claro, por meio de uma pesquisa abrangente com usuários e conversas transparentes com os principais desenvolvedores, projetamos isso para ser opcional e ajudaremos a garantir que todos os participantes entendam e consintam com o que o programa envolve. Como forma de agradecimento àqueles que optarem por participar do compartilhamento de dados de scripts com a Roblox, concederemos acesso às versões mais avançadas do Assistant e do Code Assist, que são alimentadas por esse modelo treinado pela comunidade. Aqueles que não aderirem continuarão tendo acesso à nossa versão atual do Assistant e do Code Assist.
Criação de avatares mais fácil
Em última análise, queremos que cada um dos nossos 65,5 milhões de usuários diários tenha um avatar que realmente os represente e expresse quem eles são. Recentemente, lançamos a funcionalidade para que os membros do nosso Programa de Conteúdo Gerado pelo Usuário (UGC) possam criar e vender tanto corpos de avatares quanto cabeças independentes. Atualmente, esse processo requer acesso ao Studio ou ao nosso Programa de UGC, um nível bastante alto de habilidade e vários dias de trabalho para habilitar expressões faciais, movimentos corporais, rigging 3D, etc. Isso torna a criação de avatares demorada e, até o momento, limitou o número de opções disponíveis. Queremos ir ainda mais longe.
Para permitir que todos no Roblox tenham um avatar personalizado e expressivo, precisamos tornar os avatares muito fáceis de gerar e personalizar. No RDC, anunciamos uma nova ferramenta que lançaremos em 2024 e que permitirá a criação fácil de um avatar personalizado a partir de uma imagem ou de várias imagens. Com essa ferramenta, qualquer criador com acesso ao Studio ou ao nosso programa de UGC poderá enviar uma imagem, ter um avatar criado para si e, em seguida, modificá-lo como quiser. A longo prazo, pretendemos também disponibilizar isso diretamente nas experiências no Roblox.
Para tornar isso possível, estamos treinando modelos de IA no esquema de avatares do Roblox e em um conjunto de modelos de avatares 3D de propriedade do Roblox. Uma abordagem aproveita pesquisas para gerar avatares 3D estilizados a partir de imagens 2D. Também estamos estudando o uso de modelos de difusão de texto para imagem pré-treinados para ampliar os dados de treinamento 3D limitados com técnicas generativas 2D, e o uso de uma rede de geração 3D baseada em redes adversariais generativas (GAN) para o treinamento. Por fim, estamos trabalhando no uso do ControlNet para sobrepor poses predefinidas a fim de orientar as imagens multivistas resultantes dos avatares.
Esse processo produz uma malha 3D para o avatar. Em seguida, aproveitamos a pesquisa de segmentação semântica 3D, treinada em poses de avatares 3D, para pegar essa malha 3D e ajustá-la para adicionar características faciais, estrutura, rigging e texturas apropriadas, essencialmente transformando a malha 3D estática em um avatar do Roblox. Por fim, uma ferramenta de edição de malha permite que os usuários transformem e ajustem o modelo para que ele se pareça mais com a versão que estão imaginando. E tudo isso acontece rapidamente — em questão de minutos —, gerando um novo avatar que pode ser importado para o Roblox e usado em uma experiência.
Moderação da comunicação por voz
Para nós, a IA não se resume apenas à criação; é também um sistema muito mais eficiente para garantir uma comunidade diversificada, segura e civilizada, em grande escala. À medida que começamos a lançar novos recursos de voz, incluindo o chat de voz e o Roblox Connect, o novo recurso de chamadas como seu avatar e as APIs anunciadas na RDC, enfrentamos um novo desafio: moderar a linguagem falada em tempo real. O padrão atual da indústria para isso é um processo conhecido como Reconhecimento Automático de Fala (ASR), que basicamente pega um arquivo de áudio, o transcreve para convertê-lo em texto e, em seguida, analisa o texto para procurar linguagem inadequada, palavras-chave etc.
Isso funciona bem para empresas que o utilizam em menor escala, mas, ao explorarmos o uso desse mesmo processo de ASR para moderar a comunicação por voz, rapidamente percebemos que é difícil e ineficiente em nossa escala. Essa abordagem também perde informações incrivelmente valiosas que estão codificadas no volume e no tom de voz de quem fala, bem como no contexto mais amplo da conversa. Dos milhões de minutos de conversas que teríamos que transcrever todos os dias, em diferentes idiomas, apenas uma porcentagem muito pequena poderia soar como algo impróprio. E, à medida que continuamos a crescer, esse sistema exigiria cada vez mais poder de computação para acompanhar o ritmo. Por isso, analisamos mais de perto como poderíamos fazer isso de forma mais eficiente, criando um fluxo que vai diretamente do áudio ao vivo para a classificação do conteúdo, a fim de indicar se ele viola nossas políticas ou não.
No fim das contas, conseguimos construir um sistema interno personalizado de detecção de voz usando ASR para classificar nossos conjuntos de dados de voz internos e, em seguida, usar esses dados de voz classificados para treinar o sistema. Mais especificamente, para treinar esse novo sistema, começamos com o áudio e criamos uma transcrição. Em seguida, passamos a transcrição pelo nosso sistema de filtro de texto do Roblox para classificar o áudio. Esse sistema de filtro de texto é excelente para detectar linguagem que viola as políticas no Roblox, já que há anos otimizamos esse mesmo sistema de filtro para gírias, abreviações e jargões específicos do Roblox. Ao final dessas etapas de treinamento, temos um modelo capaz de detectar violações de política diretamente a partir do áudio em tempo real.
Embora esse sistema tenha a capacidade de detectar palavras-chave específicas, como palavrões, as violações de política raramente se resumem a uma única palavra. Uma palavra pode muitas vezes parecer problemática em um contexto e perfeitamente aceitável em outro. Essencialmente, esses tipos de violações envolvem o que você está dizendo, como você está dizendo e o contexto em que as declarações são feitas.
Para entender melhor o contexto, aproveitamos o poder nativo de uma arquitetura baseada em transformadores, que é muito boa em resumo de sequências. Ela pode pegar uma sequência de dados, como um fluxo de áudio, e resumir para você. Essa arquitetura nos permite preservar uma sequência de áudio mais longa para que possamos detectar não apenas palavras, mas também contexto e entonações. Quando todos esses elementos se unem, temos um sistema final em que a entrada é áudio e a saída é uma classificação — viola a política ou não. Esse sistema pode detectar palavras-chave e frases que violam a política, mas também o tom, o sentimento e outros contextos importantes para determinar a intenção. Esse novo sistema, que detecta discursos que violam a política diretamente a partir do áudio, é significativamente mais eficiente em termos de computação do que um sistema ASR tradicional, o que tornará muito mais fácil escalar à medida que continuamos a repensar como as pessoas se conectam.
Também precisávamos de uma nova maneira de alertar os usuários de nossas ferramentas de comunicação por voz sobre as possíveis consequências desse tipo de linguagem. Com esse sistema de detecção inovador à nossa disposição, agora estamos testando maneiras de influenciar o comportamento online para manter um ambiente seguro. Sabemos que as pessoas às vezes violam nossas políticas sem intenção e queremos entender se um lembrete ocasional pode ajudar a evitar novas infrações. Para ajudar nisso, estamos testando o feedback em tempo real aos usuários por meio de notificações. Se o sistema detectar que você disse algo que viola nossas políticas um certo número de vezes, exibiremos uma notificação pop-up na sua tela informando que sua linguagem viola nossas políticas e direcionando você às nossas políticas para obter mais informações.
No entanto, as notificações de transmissão de voz são apenas um elemento do sistema de moderação. Também analisamos padrões de comportamento na plataforma, bem como reclamações de outros usuários do Roblox, para orientar nossas decisões gerais de moderação. O conjunto desses sinais pode resultar em consequências mais severas, incluindo a revogação do acesso a recursos de áudio ou, para infrações mais graves, o banimento total da plataforma. Manter nossa comunidade segura e civilizada é fundamental, à medida que esses avanços em modelos de IA multimodal, IA generativa e LLMs se unem para possibilitar novas ferramentas e recursos incríveis para os criadores.
Acreditamos que fornecer essas ferramentas aos criadores reduzirá a barreira de entrada para criadores menos experientes e libertará os criadores mais experientes das tarefas mais tediosas desse processo. Isso lhes permitirá dedicar mais tempo aos aspectos criativos do ajuste fino e da concepção de ideias. Nosso objetivo com tudo isso é permitir que todos, em qualquer lugar, deem vida às suas ideias e aumentem significativamente a diversidade de avatares, itens e experiências disponíveis no Roblox. Também estamos compartilhando informações e ferramentas para ajudar a proteger novas criações.
Já estamos imaginando possibilidades incríveis: digamos que alguém consiga criar um avatar doppelganger diretamente a partir de uma foto; essa pessoa poderia então personalizar seu avatar para torná-lo mais alto ou renderizá-lo no estilo anime. Ou poderia construir uma experiência pedindo ao Assistente para adicionar carros, prédios e cenários, definir condições de iluminação ou vento, ou alterar o terreno. A partir daí, poderia refinar as coisas simplesmente trocando mensagens com o Assistente. Sabemos que a realidade do que as pessoas criarão com essas ferramentas, à medida que elas forem disponibilizadas, irá muito além do que podemos imaginar.




