A infraestrutura que sustenta experiências recordistas
Alcançando novos patamares todos os fins de semana no Roblox

A capacidade do Roblox de escalar e dar suporte a dezenas de milhões de usuários jogando juntos em milhões de experiências únicas não é resultado de uma única inovação. É a soma de uma cultura mais ampla de inovação e de milhares de pequenas coisas bem feitas em toda a empresa. Foi assim que construímos a infraestrutura que atualmente suporta um tráfego recorde para muitas das experiências no Roblox. Uma dessas experiências, Grow a Garden, recentemente bateu o recorde do Guinness World Records® de videogame com o maior número de jogadores simultâneos, com 21,6 milhões de usuários jogando ao mesmo tempo. E, nesse processo, a plataforma Roblox continuou a bater novos recordes de pico de simultaneidade (como vem fazendo há quase duas décadas), ultrapassando mais recentemente 30 milhões de jogadores simultâneos.
A Roblox enfrenta desafios únicos na construção e manutenção de infraestrutura para milhões de experiências criadas por desenvolvedores, incluindo Dress to Impress, Adopt Me e Dead Rails, o que exige metodologias de engenharia inovadoras. A plataforma suporta dezenas de atualizações por hora e mais de 30 milhões de usuários simultâneos com uma infraestrutura que se adapta durante picos inesperados de tráfego. Essa infraestrutura deve suportar situações de “thundering herd”, nas quais mais de 21 milhões de usuários participam de uma única experiência simultaneamente (e o código de atualização veio de criadores independentes). Os engenheiros da Roblox inovam com soluções que desafiam o senso comum — soluções inspiradas em nossos quatro valores fundamentais.
Infraestrutura na Roblox

Visão de longo prazo: previsão proativa da capacidade
Em um mundo ideal, nossos criadores nunca deveriam ter que se preocupar com a capacidade — a infraestrutura deveria ser invisível para eles, funcionando nos bastidores. Quando um criador publica uma experiência no Roblox, nosso trabalho é garantir a capacidade necessária, independentemente do número de jogadores que participem. No início, planejávamos a capacidade uma vez por ano para os próximos um ou dois anos. Mas, nos últimos anos, experiências de sucesso como Dress to Impress, Fisch, Dead Rails e Grow a Garden nos levaram a repensar nossa estrutura de planejamento de capacidade.
Em linha com nosso valor de ter uma visão de longo prazo, agora prevemos as necessidades de capacidade com até dois anos de antecedência, equilibrando a demanda dos usuários com a utilização eficiente dos servidores. Nosso ciclo de planejamento envolve aquisição de data centers, atualizações de hardware de servidores e rede física, com novos data centers, como o do Brasil, sendo planejados com anos de antecedência. A equipe de rede também mantém capacidade “reserva” para garantir a operação contínua, mesmo diante de problemas como cortes nos cabos de rede.

A capacidade que a Roblox possui hoje se baseia em previsões feitas há dois anos, quando não poderíamos ter previsto que experiências passariam de desconhecidas a imensamente populares em questão de semanas. Jogos populares como Dress to Impress e Grow a Garden, que ajudaram a dobrar o pico de jogadores simultâneos do Roblox de 13,9 milhões em abril para 30,6 milhões em junho de 2025, não existiam quando essas previsões de capacidade foram feitas. Por exemplo, em março de 2025, Dead Rails atingiu um pico de 1 milhão de usuários simultâneos, utilizando toda a capacidade de CPU disponível.
Aprendendo com esses picos de popularidade, passamos a adotar um ciclo de planejamento mais ágil. Para dar suporte consistente a números recordes de jogadores no Roblox, a equipe de engenharia emprega um rigoroso ciclo semanal de planejamento, testes e ajustes de capacidade. A segunda-feira é dedicada à análise de incidentes, seguida pelo planejamento de capacidade na terça-feira. Ao longo da semana, há testes contínuos de cenários de caos. A quinta-feira se concentra na revisão da capacidade para quaisquer grandes atualizações que nossos criadores nos tenham informado que devemos esperar. Na sexta-feira, recursos adicionais de nuvem são provisionados para garantir que a plataforma esteja preparada para o pico de uso no fim de semana. Ao longo da semana, continuamos lançando recursos totalmente novos e não restringimos a implantação contínua por parte de todos os engenheiros.
Respeite a comunidade: capacidade sem esforço para criadores
O throttling é um conceito amplamente aceito na ciência da computação. Mas essa é a alavanca mais mal utilizada e mal compreendida da ciência da computação. Quando novos engenheiros ingressam na Roblox, suas primeiras soluções geralmente incluem: “Se pudéssemos simplesmente dizer aos nossos criadores para ajustar essa configuração ou desacelerar seus eventos…”. Os engenheiros veteranos da Roblox então explicam gentilmente nosso valor de respeitar a comunidade e que não dizemos aos nossos criadores o que fazer.
Por exemplo, a maioria dos sistemas de jogos tem uma solução simples para o matchmaking quando milhões de jogadores clicam em “jogar” simultaneamente. Eles limitam as entradas, fazem os jogadores esperarem ou os enviam para servidores aleatórios, ignorando o algoritmo de matchmaking. Na Roblox, fazemos o oposto. Redesenhamos todos os nossos sistemas de matchmaking para lidar com multidões de jogadores. Em picos de tráfego, esse sistema avalia até 4 bilhões de combinações possíveis de entradas por segundo. Anos atrás, estabelecemos a meta de 10 milhões de conexões em 10 segundos e continuamos a iterar em direção a esse objetivo.
Para evitar restrições devido à capacidade, estamos experimentando o cloud bursting como parte de nossa transição para uma infraestrutura celular, permitindo um escalonamento dinâmico e eficiente em termos de computação. Essa arquitetura lida com a demanda de pico ao conectar usuários tanto a células de data centers locais quanto a células de data centers de borda na nuvem. Estamos trabalhando para obter uma ativação e desativação totalmente automatizadas de data centers de borda baseados em nuvem que sejam totalmente abstraídos para o algoritmo de correspondência.
Outro exemplo é nosso sistema de filtragem de texto, que, em picos, lida com 250.000 solicitações por segundo. Trata-se de uma inferência de modelo de grande porte processando 250.000 tokens com janelas de contexto em constante expansão. E com mais de 300 pipelines de inferência de IA em execução em produção, os proprietários de serviços da Roblox investem muito tempo na busca pela combinação ideal de perfis de inferência entre GPUs e CPUs. Mesmo sob cargas de pico, os engenheiros da Roblox respeitam a comunidade, priorizando a liberdade dos criadores e a segurança dos usuários.
Faça o que tem que ser feito: Testes de estresse do sistema para avaliar a resiliência
Com nosso planejamento, desenvolvemos a capacidade e os algoritmos para dar suporte às atualizações mais empolgantes dos criadores. Mas precisamos ter certeza de que esses sistemas aguentam até mesmo os picos de tráfego mais intensos ou interrupções pontuais de serviços. As informações coletadas a partir dos picos de uso em mais de 1.600 microsserviços ajudam a identificar quais serviços devem passar por testes de estresse adicionais.
Fiel ao nosso valor de “fazer acontecer”, todos os dias selecionamos alguns desses serviços e restringimos sua capacidade em produção. Observamos os atributos e, em seguida, corrigimos os problemas antes do fim de semana. Chamamos isso de “testar a capacidade real” (TACO) às terças-feiras. Nossa equipe de confiabilidade também executa a verificação contínua da capacidade (C3). Cada equipe de engenharia usa um painel C3 para prever e gerenciar a capacidade de CPU de seus serviços. Isso permite que os proprietários de serviços aprendam continuamente com o último pico para aumentar ou diminuir a capacidade para o próximo pico. Também lançamos um sistema que rastreia padrões de chamadas no mecanismo central do Roblox para novos lançamentos. Isso ajuda a garantir que estejamos mais bem preparados durante uma atualização.
Mesmo com toda essa preparação, ainda nos deparamos ocasionalmente com cenários em que a natureza imprevisível dos padrões de tráfego pode fazer com que um único serviço ou fluxo de produto derrube a plataforma. Por exemplo, o pipeline de análise de eventos de 2 trilhões pode ter um aumento de 30% no tráfego devido a uma atualização popular. É aí que nossos mecanismos de resiliência, como o controle adaptativo de simultaneidade (ACC), o disjuntor e a redução de tentativas, entram em ação para proteger a plataforma. Este ano, também criamos uma plataforma de testes de caos para fortalecer a resiliência e a escalabilidade de nossa infraestrutura, injetando falhas aleatoriamente, esgotando recursos e encerrando processos aleatoriamente em produção.
Assuma a responsabilidade: mobilizando todos
Passamos a semana inteira testando e nos preparando para essas grandes atualizações de fim de semana. Mas, quando o fim de semana chega, ainda temos trabalho a fazer. Antes das atualizações de fim de semana, os engenheiros da Roblox colaboram para monitorar as mudanças que estão por vir e prever a capacidade restante, provisionando recursos de nuvem adicionais conforme necessário para acomodar milhões de jogadores extras por meio de data centers de borda virtuais.
Na sexta-feira, decidimos se precisamos adicionar capacidade extra com recursos de nuvem. Esse processo dá uma orientação clara à nossa equipe de nuvem híbrida para disponibilizar capacidade extra suficiente para acomodar milhões de jogadores adicionais. A qualquer momento, nossos 24 data centers físicos de borda estão em operação, mas, após todos os testes, podemos decidir que precisamos de data centers de borda adicionais. Não há como montar e empilhar servidores em 12 horas, então trabalhamos com nossos parceiros de nuvem para construir vários data centers virtuais de borda. Nós os testamos na sexta-feira e, então, estamos prontos para o fim de semana.

No verdadeiro espírito de assumir responsabilidades, todos, incluindo nossos executivos de mais alto nível, fazem turnos de plantão — mesmo nos finais de semana. O aumento repentino de milhões de usuários no sábado pode frequentemente gerar centenas de alertas. As equipes resolvem esses alertas de forma preventiva, permitindo-nos lidar com desafios durante uma grande atualização ou um pico histórico em toda a plataforma.
Como costuma ser atribuído a Leonardo da Vinci: “O aprendizado nunca esgota a mente”. Cada pico nos inspirou a aprender e inventar novas técnicas para tornar nossa infraestrutura mais confiável e invisível. Nossos criadores publicam ou atualizam, e, por meio da magia da infraestrutura invisível, dezenas de milhões de usuários começam a desfrutar de uma experiência totalmente nova quase que imediatamente. Somos eternamente gratos aos nossos criadores e usuários por nos desafiarem a ultrapassar os limites da ciência da computação.


