El contenido de este sitio se ha traducido mediante inteligencia artificial (IA) o tecnología de traducción automática, y puede contener errores.

Skip to content

La infraestructura que sustenta experiencias sin precedentes

Alcanzando nuevas cotas cada fin de semana en Roblox

SEO image for The Infrastructure Supporting Record-Breaking Experiences

La capacidad de Roblox para escalar y dar soporte a decenas de millones de usuarios que juegan juntos en millones de experiencias únicas no es el resultado de una sola innovación. Es la suma de una cultura de innovación más amplia y de mil pequeñas cosas bien hechas en toda la empresa. Así es como hemos construido la infraestructura que actualmente soporta un tráfico récord en muchas de las experiencias de Roblox. Una de esas experiencias, Grow a Garden, batió recientemente el récord Guinness® al videojuego con más jugadores simultáneos, con 21,6 millones de usuarios jugando al mismo tiempo. Y, en el proceso, la plataforma Roblox ha seguido batiendo nuevos récords de picos de concurrencia (como lo ha hecho durante casi dos décadas), superando recientemente los 30 millones de jugadores simultáneos.

Roblox se enfrenta a retos únicos a la hora de construir y mantener la infraestructura para millones de experiencias creadas por los propios usuarios, como Dress to Impress, Adopt Me y Dead Rails, lo que requiere metodologías de ingeniería innovadoras. La plataforma admite docenas de actualizaciones cada hora y más de 30 millones de usuarios simultáneos con una infraestructura que se adapta a picos de tráfico inesperados. Esta infraestructura debe soportar situaciones de «manada atronadora» en las que más de 21 millones de usuarios se unen a una misma experiencia al mismo tiempo (y el código de actualización proviene de creadores independientes). Los ingenieros de Roblox innovan con soluciones que desafían la sabiduría tradicional, soluciones inspiradas en nuestros cuatro valores fundamentales.

Infraestructura en Roblox
Los ingenieros de Roblox gestionan 24 centros de datos periféricos en todo el mundo, que alojan los servidores de los juegos. Cuando un usuario se une a una experiencia, se le asigna el centro de datos más cercano y la instancia más adecuada dentro de ese centro para minimizar la latencia. También gestionamos dos centros de datos centrales, que son mucho más grandes y ejecutan servicios centralizados como el sitio web, los algoritmos de recomendación, los filtros de seguridad, la economía virtual y la plataforma de publicación, necesarios para el funcionamiento de los centros de datos periféricos. Una red privada global interconecta todos los centros de datos periféricos con los centrales, y los centros de datos periféricos actúan como cortafuegos para proteger los servicios que se ejecutan en el centro de datos central.
Adopta una visión a largo plazo: predicción proactiva de la capacidad

En un mundo ideal, nuestros creadores nunca deberían tener que pensar en la capacidad: la infraestructura debería ser invisible para ellos y funcionar entre bastidores. Cuando un creador publica una experiencia en Roblox, nuestro trabajo consiste en garantizar la capacidad necesaria, independientemente del número de jugadores que participen. En los primeros tiempos, planificábamos la capacidad una vez al año para el año o los dos años siguientes. Pero en los últimos años, experiencias de éxito como Dress to Impress, Fisch, Dead Rails y Grow a Garden nos han llevado a replantearnos nuestro marco de planificación de la capacidad.

En línea con nuestro valor de adoptar una visión a largo plazo, ahora predecimos las necesidades de capacidad con hasta dos años de antelación, equilibrando la demanda de los usuarios con una utilización eficiente de los servidores. Nuestro ciclo de planificación incluye la adquisición de centros de datos, la renovación del hardware de los servidores y las redes físicas, con nuevos centros de datos, como el de Brasil, planificados con años de antelación. El equipo de redes también mantiene una capacidad «oculta» para garantizar el funcionamiento continuo a pesar de problemas como cortes en los cables de red.

La capacidad que tiene Roblox hoy en día se basa en predicciones realizadas hace dos años, cuando no podíamos prever que algunas experiencias pasarían de ser desconocidas a alcanzar una enorme popularidad en cuestión de semanas. Juegos populares como Dress to Impress y Grow a Garden, que contribuyeron a duplicar el número máximo de jugadores simultáneos de Roblox de 13,9 millones en abril a 30,6 millones en junio de 2025, no existían cuando se realizaron estas predicciones de capacidad. Por ejemplo, en marzo de 2025, Dead Rails alcanzó un pico de 1 millón de usuarios simultáneos, utilizando toda la capacidad de CPU disponible. 

Aprendiendo de este tipo de picos de popularidad, hemos pasado a un ciclo de planificación más ágil. Para dar soporte de forma constante a los récords de número de jugadores en Roblox, el equipo de ingeniería emplea un riguroso ciclo semanal de planificación, pruebas y ajustes de capacidad. El lunes se dedica a la revisión de incidencias, seguido de la planificación de la capacidad el martes. A lo largo de la semana, se realizan pruebas de caos continuas. El jueves se centra en revisar la capacidad para cualquier actualización importante que nuestros creadores nos hayan indicado que esperemos. El viernes se aprovisionan recursos adicionales en la nube para garantizar que la plataforma esté preparada para el pico de uso del fin de semana. A lo largo de la semana, seguimos lanzando funciones totalmente nuevas y no bloqueamos la implementación continua por parte de todos los ingenieros. 

Respeta a la comunidad: capacidad sin esfuerzo para los creadores

La limitación de tráfico es un concepto muy aceptado en la informática. Sin embargo, es la herramienta más mal utilizada e incomprendida de la informática. Cuando los nuevos ingenieros se incorporan a Roblox, sus primeras soluciones suelen incluir: «Si pudiéramos decirles a nuestros creadores que ajusten esta configuración o que ralenticen sus eventos...». Los ingenieros veteranos de Roblox les explican entonces con delicadeza nuestro valor de respetar a la comunidad y que no les decimos a nuestros creadores lo que tienen que hacer. 

Por ejemplo, la mayoría de los sistemas de juegos tienen una solución sencilla para el emparejamiento cuando millones de jugadores pulsan «jugar» simultáneamente. Limitan las uniones, hacen esperar a los jugadores o los envían a servidores aleatorios saltándose el algoritmo de emparejamiento. En Roblox, hacemos lo contrario. Rediseñamos todos nuestros sistemas de emparejamiento para gestionar multitudes de jugadores. En horas punta, este sistema evalúa hasta 4000 millones de posibles combinaciones de unión por segundo. Hace años, nos fijamos el objetivo de 10 millones de conexiones en 10 segundos, y seguimos trabajando para alcanzar esa meta.

Para evitar la limitación de velocidad por motivos de capacidad, estamos experimentando con el cloud bursting como parte de nuestra transición a una infraestructura celular, lo que permite un escalado dinámico y eficiente en términos de computación. Esta arquitectura gestiona los picos de demanda emparejando a los usuarios con celdas de centros de datos tanto locales como en la periferia de la nube. Estamos trabajando para lograr una puesta en marcha y desmantelamiento totalmente automatizados de los centros de datos periféricos basados en la nube, que están completamente abstraídos para el algoritmo de emparejamiento.

Otro ejemplo es nuestro sistema de filtrado de texto, que en momentos de máxima actividad gestiona 250 000 solicitudes por segundo. Se trata de una inferencia de modelo a gran escala que procesa 250 000 tokens con ventanas de contexto en constante expansión. Y con más de 300 canalizaciones de inferencia de IA en producción, los responsables de los servicios de Roblox invierten mucho tiempo en encontrar la combinación ideal de perfiles de inferencia entre GPU y CPU. Incluso bajo cargas máximas, los ingenieros de Roblox respetan a la comunidad dando prioridad a la libertad de los creadores y a la seguridad de los usuarios.

Hacer las cosas: pruebas de estrés del sistema para evaluar su resiliencia

Con nuestra planificación, desarrollamos la capacidad y los algoritmos necesarios para dar soporte a las actualizaciones más interesantes de los creadores. Pero debemos asegurarnos de que estos sistemas puedan soportar incluso los picos de tráfico más intensos o las interrupciones puntuales de algún servicio. La información recopilada de los picos de uso en más de 1.600 microservicios nos ayuda a identificar los servicios que deben someterse a pruebas de estrés adicionales.

Fieles a nuestro valor de «hacer las cosas», cada día seleccionamos algunos de estos servicios y limitamos su capacidad en producción. Observamos los atributos y los corregimos antes del fin de semana. A esto lo llamamos los martes de «prueba de capacidad real» (TACO). Nuestro equipo de fiabilidad también ejecuta la «corrección continua de la capacidad» (C3). Cada equipo de ingeniería utiliza un panel de control C3 para predecir y gestionar la capacidad de CPU de sus servicios. Esto permite a los responsables de los servicios aprender continuamente de la última hora punta para aumentar o reducir la capacidad de cara a la siguiente. También hemos lanzado un sistema que rastrea los patrones de llamadas en el motor central de Roblox para los nuevos lanzamientos. Esto ayuda a garantizar que estemos mejor preparados durante una actualización. 

A pesar de toda esta preparación, en ocasiones nos encontramos con situaciones en las que la naturaleza impredecible de los patrones de tráfico podría hacer que un solo servicio o flujo de producto colapsara la plataforma. Por ejemplo, el canal de análisis de eventos de 2 billones podría experimentar un 30 % más de tráfico debido a una actualización popular. Aquí es donde entran en juego nuestros mecanismos de resiliencia, como el control adaptativo de concurrencia (ACC), el disyuntor y la eliminación de reintentos, para proteger la plataforma. Este año también hemos creado una plataforma de pruebas de caos para reforzar la resiliencia y la escalabilidad de nuestra infraestructura mediante la inyección aleatoria de fallos, el agotamiento de recursos y la terminación aleatoria de procesos en producción.

Asumir la responsabilidad: poner a todos manos a la obra

Dedicamos toda la semana a probar y prepararnos para estas grandes actualizaciones de fin de semana. Pero cuando llega el fin de semana, todavía nos queda trabajo por hacer. Antes de las actualizaciones de fin de semana, los ingenieros de Roblox colaboran para supervisar los próximos cambios y predecir la capacidad restante, aprovisionando recursos adicionales en la nube según sea necesario para dar cabida a millones de jugadores adicionales a través de centros de datos periféricos virtuales. 

El viernes decidimos si necesitamos añadir capacidad adicional con recursos en la nube. Este proceso proporciona una orientación clara a nuestro equipo de nube híbrida para que prepare la capacidad extra suficiente para dar cabida a millones de jugadores adicionales. En todo momento, nuestros 24 centros de datos físicos perimetrales están en funcionamiento, pero tras todas las pruebas, es posible que decidamos que necesitamos centros de datos perimetrales adicionales. No hay forma de montar y apilar servidores en 12 horas, por lo que trabajamos con nuestros socios de la nube para crear múltiples centros de datos perimetrales virtuales. Los probamos el viernes y, entonces, estamos listos para el fin de semana. 

Fieles al verdadero espíritu de asumir responsabilidades, todos, incluidos nuestros ejecutivos de más alto nivel, se turnan para estar de guardia, incluso los fines de semana. La avalancha de millones de usuarios los sábados a menudo puede desencadenar cientos de alertas. Los equipos resuelven estas alertas de forma preventiva, lo que nos permite hacer frente a los retos durante una gran actualización o un pico histórico en toda la plataforma. 

Como se suele atribuir a Leonardo da Vinci: «El aprendizaje nunca agota la mente». Cada pico nos ha inspirado a aprender e inventar nuevas técnicas para hacer que nuestra infraestructura sea más fiable e invisible. Nuestros creadores publican o actualizan, y gracias a la magia de la infraestructura invisible, decenas de millones de usuarios comienzan a disfrutar de una experiencia totalmente nueva casi de inmediato. Estamos eternamente agradecidos a nuestros creadores y usuarios por desafiarnos a traspasar los límites de la informática.