De content op deze site is vertaald met behulp van kunstmatige intelligentie (AI) of machinevertalingstechnologie en kan fouten bevatten.

Skip to content

De infrastructuur die recordbrekende ervaringen mogelijk maakt

Elk weekend nieuwe hoogten bereiken op Roblox

SEO image for The Infrastructure Supporting Record-Breaking Experiences

Het vermogen van Roblox om op te schalen en tientallen miljoenen gebruikers te ondersteunen die samen miljoenen unieke ervaringen beleven, is niet het resultaat van één enkele innovatie. Het is de som van een bredere innovatiecultuur en duizend kleine dingen die binnen het hele bedrijf goed zijn uitgevoerd. Zo hebben we de infrastructuur opgebouwd die momenteel het recordbrekende verkeer naar veel van de ervaringen op Roblox ondersteunt. Een van die ervaringen, Grow a Garden, heeft onlangs het Guinness World Records®-record voor de meest gelijktijdig gespeelde videogame verbroken, met 21,6 miljoen gebruikers die tegelijkertijd speelden. En daarbij is het Roblox-platform nieuwe pieken in gelijktijdige gebruikers blijven bereiken (zoals het al bijna twee decennia doet), met recentelijk meer dan 30 miljoen gelijktijdige spelers.

Roblox staat voor unieke uitdagingen bij het bouwen en onderhouden van infrastructuur voor miljoenen door makers gebouwde ervaringen, waaronder Dress to Impress, Adopt Me en Dead Rails, waarvoor innovatieve engineeringmethodologieën nodig zijn. Het platform ondersteunt tientallen updates per uur en meer dan 30 miljoen gelijktijdige gebruikers met een infrastructuur die schaalbaar is tijdens onverwachte pieken in het verkeer. Deze infrastructuur moet 'thundering herd'-situaties aankunnen, waarbij meer dan 21 miljoen gebruikers tegelijkertijd deelnemen aan één ervaring (en de updatecode afkomstig is van onafhankelijke makers). De engineers van Roblox innoveren oplossingen door traditionele wijsheid ter discussie te stellen – oplossingen die zijn geïnspireerd door onze vier kernwaarden.

Infrastructuur bij Roblox
De technici van Roblox beheren 24 edge-datacenters over de hele wereld, waar de gameservers draaien. Wanneer een gebruiker deelneemt aan een ervaring, wordt hij gekoppeld aan het dichtstbijzijnde datacenter en de meest geschikte instantie binnen dat centrum om de vertraging tot een minimum te beperken. We beheren ook twee kern-datacenters, die veel groter zijn en gecentraliseerde diensten draaien zoals de website, aanbevelingsalgoritmen, veiligheidsfilters, de virtuele economie en het publicatieplatform, die nodig zijn om de edge-datacenters te laten functioneren. Een wereldwijd privénetwerk verbindt alle edge-datacenters met de kern-datacenters, waarbij de edge-datacenters fungeren als een firewall om de diensten te beschermen die in het kern-datacenter draaien.
Kijk naar de lange termijn: proactieve capaciteitsvoorspelling

In een ideale wereld zouden onze makers nooit over capaciteit hoeven na te denken – de infrastructuur zou voor hen onzichtbaar moeten zijn en achter de schermen moeten werken. Wanneer een maker een ervaring op Roblox publiceert, is het onze taak om de benodigde capaciteit te ondersteunen, ongeacht hoeveel spelers er komen opdagen. In het begin planden we de capaciteit één keer per jaar voor het komende jaar of twee jaar. Maar de afgelopen jaren hebben succesvolle ervaringen zoals Dress to Impress, Fisch, Dead Rails en Grow a Garden ons ertoe aangezet ons raamwerk voor capaciteitsplanning te herzien.

In lijn met onze waarde om de lange termijn in het oog te houden, voorspellen we nu de capaciteitsbehoeften tot twee jaar van tevoren, waarbij we de vraag van gebruikers afwegen tegen een efficiënt servergebruik. Onze planningscyclus omvat de aanschaf van datacenters, vernieuwing van serverhardware en fysieke netwerken, waarbij nieuwe datacenters, zoals die in Brazilië, jaren van tevoren worden gepland. Het netwerkteam onderhoudt ook 'dark' capaciteit om een continue werking te garanderen, ondanks problemen zoals doorgesneden netwerkkabels.

De capaciteit waarover Roblox vandaag beschikt, is gebaseerd op voorspellingen van twee jaar geleden, toen we nog niet konden voorzien dat ervaringen binnen enkele weken van onbekend naar enorme populariteit zouden groeien. Populaire games zoals Dress to Impress en Grow a Garden, die hebben bijgedragen aan een verdubbeling van het piekaantal gelijktijdige spelers op Roblox van 13,9 miljoen in april naar 30,6 miljoen in juni 2025, bestonden nog niet toen deze capaciteitsvoorspellingen werden gedaan. In maart 2025 piekte Dead Rails bijvoorbeeld op 1 miljoen gelijktijdige gebruikers, waarbij alle beschikbare CPU-capaciteit werd gebruikt. 

Lerend van dit soort pieken in populariteit zijn we overgestapt op een meer flexibele planningscyclus. Om het recordaantal spelers op Roblox consistent te ondersteunen, hanteert de engineeringafdeling een rigoureuze wekelijkse cyclus van planning, testen en capaciteitsaanpassingen. Maandag is gewijd aan het evalueren van incidenten, gevolgd door capaciteitsplanning op dinsdag. Gedurende de week vinden er voortdurend chaostests plaats. Donderdag staat in het teken van het beoordelen van de capaciteit voor grote updates die onze makers hebben aangekondigd. Op vrijdag worden extra cloudresources ingezet om ervoor te zorgen dat het platform klaar is voor het piekgebruik in het weekend. Gedurende de week blijven we volledig nieuwe functies uitbrengen en we beperken de continue implementatie door alle engineers niet. 

Respect voor de community: moeiteloze mogelijkheden voor makers

Throttling is een algemeen aanvaard concept in de informatica. Maar dit is het meest misbruikte en verkeerd begrepen instrument van de informatica. Wanneer nieuwe ingenieurs bij Roblox komen werken, bevatten hun eerste oplossingen vaak: "Als we onze makers nu eens konden vertellen dat ze deze configuratie moeten aanpassen of hun events moeten vertragen...". Ervaren Roblox-ingenieurs leggen dan vriendelijk uit dat we de gemeenschap respecteren en dat we onze makers niet vertellen wat ze moeten doen. 

De meeste spelsystemen hebben bijvoorbeeld een eenvoudige oplossing voor matchmaking wanneer miljoenen spelers tegelijkertijd op 'spelen' klikken. Ze beperken het aantal deelnemers, laten spelers wachten of sturen ze naar willekeurige servers door het matchmaking-algoritme over te slaan. Bij Roblox doen we het tegenovergestelde. We hebben onze volledige matchmaking-systemen opnieuw ontworpen voor enorme groepen spelers. Op piekmomenten evalueert dit systeem tot 4 miljard mogelijke combinaties per seconde. Jaren geleden stelden we ons ten doel om 10 miljoen aanmeldingen in 10 seconden te verwerken, en we blijven itereren om dat doel te bereiken.

Om te voorkomen dat we de toegang moeten beperken vanwege capaciteitsproblemen, experimenteren we met cloud bursting als onderdeel van onze overgang naar een mobiele infrastructuur, wat dynamische en reken-efficiënte schaalbaarheid mogelijk maakt. Deze architectuur verwerkt pieken in de vraag door gebruikers te koppelen aan zowel on-premise als cloud edge datacenter-cellen. We werken aan een volledig geautomatiseerde opstart- en afbouwprocedure van cloudgebaseerde edge-datacenters die volledig zijn geabstraheerd voor het matchmaking-algoritme.

Een ander voorbeeld is ons tekstfiltersysteem, dat tijdens pieken 250.000 verzoeken per seconde verwerkt. Dat is een grote modelinference die 250.000 tokens verwerkt met voortdurend uitbreidende contextvensters. En met meer dan 300 AI-inferencepijplijnen die in productie draaien, investeren de service-eigenaren van Roblox veel tijd in het vinden van de ideale mix van inferenceprofielen tussen GPU's en CPU's. Zelfs bij piekbelastingen respecteren de ingenieurs van Roblox de community door prioriteit te geven aan de vrijheid van makers en de veiligheid van gebruikers.

Dingen voor elkaar krijgen: het systeem testen op veerkracht

Met onze planning bouwen we de capaciteit en algoritmen op om de meest opwindende updates van makers te ondersteunen. Maar we moeten er zeker van zijn dat deze systemen zelfs de grootste pieken of uitval van afzonderlijke diensten aankunnen. Informatie verzameld tijdens piekgebruik op meer dan 1.600 microservices helpt bij het identificeren van diensten die verder getest moeten worden.

Trouw aan onze waarde om dingen voor elkaar te krijgen, nemen we elke dag een paar van deze diensten en beperken we hun capaciteit in productie. We observeren de kenmerken en lossen ze vervolgens voor het weekend op. We noemen dit "test actual capacity on" (TACO) dinsdagen. Ons betrouwbaarheidsteam voert ook continu 'capacity correctness' (C3) uit. Elk engineeringteam gebruikt een C3-dashboard om de CPU-capaciteit van hun diensten te voorspellen en te beheren. Dit stelt service-eigenaren in staat om continu te leren van de laatste piek, zodat ze de capaciteit voor de volgende piek kunnen verhogen of verlagen. We hebben ook een systeem gelanceerd dat oproeppatronen in de kern van de Roblox-engine voor nieuwe releases traceert. Dit helpt ervoor te zorgen dat we beter voorbereid zijn tijdens een update. 

Ondanks al deze voorbereidingen komen we nog steeds af en toe scenario's tegen waarin de onvoorspelbare aard van verkeerspatronen ervoor kan zorgen dat één enkele dienst of productstroom het platform platlegt. Zo kan de pijplijn voor de analyse van 2 biljoen gebeurtenissen 30% meer verkeer verwerken als gevolg van een populaire update. Dit is waar onze veerkrachtmechanismen, zoals adaptieve gelijktijdigheidscontrole (ACC), circuitbreakers en het afbouwen van herhalingspogingen, in werking treden om het platform te beschermen. Dit jaar hebben we ook een chaos-testplatform gebouwd om de veerkracht en schaalbaarheid van onze infrastructuur te versterken door willekeurig fouten te injecteren, resources uit te putten en processen in de productie willekeurig te beëindigen.

Neem verantwoordelijkheid: zet alles op alles

We besteden de hele week aan het testen en voorbereiden van deze grote weekendupdates. Maar als het weekend eenmaal is aangebroken, is er nog steeds werk te doen. Voorafgaand aan de weekendupdates werken de ingenieurs van Roblox samen om de aanstaande wijzigingen te monitoren en de resterende capaciteit te voorspellen, waarbij ze indien nodig extra cloudresources inrichten om miljoenen extra spelers te kunnen accommoderen via virtuele edge-datacenters. 

Op vrijdag beslissen we of we extra capaciteit moeten toevoegen met cloudresources. Dit proces geeft ons hybride cloudteam een duidelijke richting om voldoende extra capaciteit te creëren om miljoenen extra spelers te kunnen accommoderen. Onze 24 fysieke edge-datacenters draaien continu, maar na alle tests kunnen we besluiten dat we extra edge-datacenters nodig hebben. Het is onmogelijk om binnen 12 uur servers te installeren en te stapelen, dus werken we samen met onze cloudpartners om meerdere virtuele edge-datacenters te bouwen. We testen deze op vrijdag, en dan zijn we klaar voor het weekend. 

In de ware geest van verantwoordelijkheid nemen, draaien we allemaal, inclusief onze topmanagers, om de beurt dienst – zelfs in het weekend. De piek van miljoenen gebruikers op zaterdag kan vaak honderden waarschuwingen activeren. Teams lossen deze waarschuwingen preventief op, waardoor we uitdagingen tijdens een grote update of een platformbrede recordpiek kunnen opvangen. 

Zoals Leonardo da Vinci vaak wordt geciteerd: "Leren put de geest nooit uit." Elke piek heeft ons geïnspireerd om te leren en nieuwe technieken uit te vinden om onze infrastructuur betrouwbaarder en onzichtbaarder te maken. Onze makers publiceren of updaten, en dankzij de magie van onzichtbare infrastructuur kunnen tientallen miljoenen gebruikers vrijwel onmiddellijk genieten van een geheel nieuwe ervaring. We zijn onze makers en gebruikers eeuwig dankbaar dat ze ons uitdagen om de grenzen van de informatica te verleggen.