Die Inhalte dieser Website wurden mithilfe künstlicher Intelligenz (KI) oder maschineller Übersetzungstechnologie übersetzt und können Fehler enthalten.

Skip to content

Die Infrastruktur, die rekordverdächtige Erlebnisse ermöglicht

Jedes Wochenende neue Höhen auf Roblox

SEO image for The Infrastructure Supporting Record-Breaking Experiences

Die Fähigkeit von Roblox, zu skalieren und Millionen von Nutzern zu unterstützen, die gemeinsam Millionen einzigartiger Erlebnisse spielen, ist nicht das Ergebnis einer einzigen Innovation. Es ist die Summe einer umfassenden Innovationskultur und tausender kleiner Dinge, die im gesamten Unternehmen gut umgesetzt wurden. So haben wir die Infrastruktur aufgebaut, die derzeit den rekordverdächtigen Traffic für viele der Erlebnisse auf Roblox unterstützt. Eine dieser Erlebnisse, „Grow a Garden“, hat kürzlich den Guinness-Weltrekord® für das meistgespielte Videospiel gebrochen, mit 21,6 Millionen Nutzern, die gleichzeitig spielten. Dabei hat die Roblox-Plattform weiterhin neue Spitzenwerte bei der gleichzeitigen Nutzerzahl erreicht (wie schon seit fast zwei Jahrzehnten), zuletzt mit über 30 Millionen gleichzeitigen Spielern.

Roblox steht vor einzigartigen Herausforderungen beim Aufbau und der Wartung der Infrastruktur für Millionen von von Creators erstellten Erlebnissen, darunter „Dress to Impress“, „Adopt Me“ und „Dead Rails“, was innovative technische Methoden erfordert. Die Plattform unterstützt Dutzende von stündlichen Updates und mehr als 30 Millionen gleichzeitige Nutzer mit einer Infrastruktur, die bei unerwarteten Traffic-Spitzen skaliert. Diese Infrastruktur muss „Thundering Herd“-Situationen bewältigen, in denen mehr als 21 Millionen Nutzer gleichzeitig an einem einzigen Erlebnis teilnehmen (und der Update-Code von unabhängigen Entwicklern stammt). Die Ingenieure von Roblox entwickeln innovative Lösungen, indem sie traditionelle Denkweisen hinterfragen – Lösungen, die von unseren vier Grundwerten inspiriert sind.

Infrastruktur bei Roblox
Die Ingenieure von Roblox verwalten weltweit 24 Edge-Rechenzentren, in denen die Spielserver betrieben werden. Wenn ein Nutzer einer Experience beitritt, wird er dem nächstgelegenen Rechenzentrum und der am besten geeigneten Instanz innerhalb dieses Zentrums zugeordnet, um die Latenz zu minimieren. Wir verwalten außerdem zwei Kern-Rechenzentren, die wesentlich größer sind und zentralisierte Dienste wie die Website, Empfehlungsalgorithmen, Sicherheitsfilter, die virtuelle Wirtschaft und die Publishing-Plattform betreiben, die für den Betrieb der Edge-Rechenzentren erforderlich sind. Ein globales privates Netzwerk verbindet alle Edge-Rechenzentren mit den Kern-Rechenzentren, wobei die Edge-Rechenzentren als Firewall dienen, um die im Kern-Rechenzentrum laufenden Dienste zu schützen.
Langfristige Perspektive: Proaktive Kapazitätsprognose

In einer idealen Welt müssten unsere Entwickler nie über Kapazitäten nachdenken – die Infrastruktur sollte für sie unsichtbar sein und hinter den Kulissen arbeiten. Wenn ein Entwickler ein Erlebnis auf Roblox veröffentlicht, ist es unsere Aufgabe, die erforderliche Kapazität bereitzustellen, egal wie viele Spieler sich einloggen. In der Anfangszeit planten wir die Kapazität einmal im Jahr für die nächsten ein bis zwei Jahre. Doch in den letzten Jahren haben uns erfolgreiche Erlebnisse wie „Dress to Impress“, „Fisch“, „Dead Rails“ und „Grow a Garden“ dazu veranlasst, unser Rahmenkonzept für die Kapazitätsplanung zu überdenken.

Im Einklang mit unserem Wert, langfristig zu denken, prognostizieren wir den Kapazitätsbedarf nun bis zu zwei Jahre im Voraus und bringen dabei die Nutzernachfrage mit einer effizienten Serverauslastung in Einklang. Unser Planungszyklus umfasst die Anschaffung von Rechenzentren, die Erneuerung der Serverhardware und die physische Vernetzung, wobei neue Rechenzentren wie das in Brasilien bereits Jahre im Voraus geplant werden. Das Netzwerkteam hält zudem „reserve“ Kapazitäten bereit, um den kontinuierlichen Betrieb trotz Problemen wie unterbrochenen Netzwerkkabeln sicherzustellen.

Die Kapazität, über die Roblox heute verfügt, basiert auf Prognosen, die vor zwei Jahren erstellt wurden, als wir noch nicht vorhersehen konnten, dass bestimmte Erlebnisse innerhalb weniger Wochen von unbekannt zu enormer Beliebtheit aufsteigen würden. Beliebte Spiele wie „Dress to Impress“ und „Grow a Garden“, die dazu beitrugen, die Spitzenzahl der gleichzeitigen Spieler auf Roblox von 13,9 Millionen im April auf 30,6 Millionen im Juni 2025 zu verdoppeln, gab es noch nicht, als diese Kapazitätsprognosen erstellt wurden. So stieg beispielsweise im März 2025 die Zahl der gleichzeitigen Nutzer von „Dead Rails“ auf 1 Million an, wodurch die gesamte verfügbare CPU-Kapazität ausgeschöpft wurde. 

Aus diesen Popularitätsspitzen haben wir gelernt und sind zu einem agileren Planungszyklus übergegangen. Um die Rekordspielerzahlen auf Roblox konsistent zu unterstützen, wendet die Technikabteilung einen strengen wöchentlichen Zyklus aus Planung, Tests und Kapazitätsanpassungen an. Der Montag ist der Nachbereitung von Vorfällen gewidmet, gefolgt von der Kapazitätsplanung am Dienstag. Während der gesamten Woche finden kontinuierlich Chaos-Tests statt. Am Donnerstag liegt der Fokus auf der Überprüfung der Kapazitäten für größere Updates, die uns unsere Entwickler angekündigt haben. Am Freitag werden zusätzliche Cloud-Ressourcen bereitgestellt, um sicherzustellen, dass die Plattform für die Spitzenauslastung am Wochenende gerüstet ist. Während der gesamten Woche veröffentlichen wir weiterhin völlig neue Funktionen und schränken die kontinuierliche Bereitstellung durch alle Entwickler nicht ein. 

Respekt für die Community: Mühelose Möglichkeiten für Kreative

Throttling ist ein in der Informatik weit verbreitetes Konzept. Es ist jedoch der am häufigsten missbrauchte und missverstandene Hebel der Informatik. Wenn neue Ingenieure bei Roblox anfangen, lauten ihre ersten Lösungsvorschläge oft: „Wenn wir unseren Creators nur sagen könnten, diese Konfiguration anzupassen oder ihre Events zu verlangsamen…“. Erfahrene Roblox-Ingenieure erklären ihnen dann behutsam, wie wichtig es uns ist, die Community zu respektieren, und dass wir unseren Creators nicht vorschreiben, was sie zu tun haben. 

Beispielsweise haben die meisten Spielsysteme eine einfache Lösung für das Matchmaking, wenn Millionen von Spielern gleichzeitig auf „Spielen“ klicken. Sie drosseln die Teilnahmen, lassen die Spieler warten oder leiten sie an zufällige Server weiter, indem sie den Matchmaking-Algorithmus überspringen. Bei Roblox machen wir das Gegenteil. Wir haben unsere gesamten Matchmaking-Systeme für riesige Spielerwellen neu gestaltet. In Spitzenzeiten wertet dieses System bis zu 4 Milliarden mögliche Teilnahmekombinationen pro Sekunde aus. Vor Jahren haben wir uns das Ziel von 10 Millionen Beitritten in 10 Sekunden gesetzt, und wir arbeiten weiterhin daran, dieses Ziel zu erreichen.

Um eine Drosselung aufgrund von Kapazitätsengpässen zu vermeiden, experimentieren wir im Rahmen unserer Umstellung auf eine zellulare Infrastruktur mit Cloud-Bursting, was eine dynamische und recheneffiziente Skalierung ermöglicht. Diese Architektur bewältigt Spitzenauslastungen, indem sie Nutzer sowohl mit lokalen als auch mit Cloud-Edge-Rechenzentrumszellen zusammenführt. Wir arbeiten an einer vollständig automatisierten Inbetriebnahme und Abwicklung von cloudbasierten Edge-Rechenzentren, die für den Matchmaking-Algorithmus vollständig abstrahiert sind.

Ein weiteres Beispiel ist unser Textfiltersystem, das in Spitzenzeiten 250.000 Anfragen pro Sekunde verarbeitet. Dabei handelt es sich um eine umfangreiche Modellinferenz, die 250.000 Token mit ständig wachsenden Kontextfenstern verarbeitet. Und da mehr als 300 KI-Inferenz-Pipelines in der Produktion laufen, investieren die Roblox-Serviceverantwortlichen viel Zeit in die Suche nach der idealen Mischung aus Inferenzprofilen zwischen GPUs und CPUs. Selbst bei Spitzenauslastung respektieren die Roblox-Ingenieure die Community, indem sie der Freiheit der Creator und der Sicherheit der Nutzer Vorrang einräumen.

Aufgaben erledigen: Systemtests zur Überprüfung der Ausfallsicherheit

Im Rahmen unserer Planung bauen wir die Kapazitäten und Algorithmen auf, um die spannendsten Updates der Creator zu unterstützen. Wir müssen jedoch sicherstellen, dass diese Systeme selbst bei größten Spitzenauslastungen oder Ausfällen einzelner Dienste standhalten. Informationen, die aus Spitzenauslastungen bei mehr als 1.600 Microservices gewonnen werden, helfen dabei, Dienste zu identifizieren, die weiteren Stresstests unterzogen werden müssen.

Getreu unserem Wert, Dinge zu erledigen, wählen wir jeden Tag einige dieser Dienste aus und schränken ihre Kapazität in der Produktion ein. Wir beobachten die Kennzahlen und beheben die Probleme noch vor dem Wochenende. Wir nennen dies „Test Actual Capacity On“ (TACO) Tuesdays. Unser Zuverlässigkeitsteam führt außerdem Continuous Capacity Correctness (C3) durch. Jedes Entwicklerteam nutzt ein C3-Dashboard, um die CPU-Kapazität seiner Dienste vorherzusagen und zu verwalten. Dies ermöglicht es den Service-Eigentümern, kontinuierlich aus dem letzten Spitzenauslastungszeitraum zu lernen, um die Kapazität für den nächsten Spitzenauslastungszeitraum zu erhöhen oder zu verringern. Wir haben außerdem ein System eingeführt, das Aufrufmuster in der Roblox-Kern-Engine für neue Releases nachverfolgt. Dies trägt dazu bei, dass wir bei einem Update besser vorbereitet sind. 

Trotz all dieser Vorbereitungen stoßen wir gelegentlich immer noch auf Szenarien, in denen die Unvorhersehbarkeit von Traffic-Mustern dazu führen könnte, dass ein einzelner Dienst oder Produktfluss die Plattform zum Absturz bringt. Beispielsweise könnte die 2-Billionen-Event-Analytics-Pipeline aufgrund eines beliebten Updates 30 % mehr Traffic verzeichnen. Hier kommen unsere Resilienzmechanismen wie Adaptive Concurrency Control (ACC), Circuit Breaker und Shedding Retries zum Einsatz, um die Plattform zu schützen. In diesem Jahr haben wir außerdem eine Chaos-Testplattform entwickelt, um die Ausfallsicherheit und Skalierbarkeit unserer Infrastruktur zu stärken, indem wir zufällig Fehler einspeisen, Ressourcen erschöpfen und Prozesse in der Produktion willkürlich beenden.

Verantwortung übernehmen: Alle an einem Strang ziehen

Wir verbringen die ganze Woche damit, diese großen Wochenend-Updates zu testen und vorzubereiten. Aber wenn das Wochenende kommt, haben wir immer noch Arbeit vor uns. Im Vorfeld der Wochenend-Updates arbeiten die Roblox-Ingenieure zusammen, um anstehende Änderungen zu überwachen und die verbleibende Kapazität zu prognostizieren. Bei Bedarf stellen sie zusätzliche Cloud-Ressourcen bereit, um Millionen zusätzlicher Spieler über virtuelle Edge-Rechenzentren unterzubringen. 

Am Freitag entscheiden wir, ob wir zusätzliche Kapazität durch Cloud-Ressourcen bereitstellen müssen. Dieser Prozess gibt unserem Hybrid-Cloud-Team eine klare Vorgabe, genügend zusätzliche Kapazität bereitzustellen, um Millionen zusätzlicher Spieler unterzubringen. Unsere 24 physischen Edge-Rechenzentren sind zwar jederzeit in Betrieb, aber nach Abschluss aller Tests kommen wir möglicherweise zu dem Schluss, dass wir zusätzliche Edge-Rechenzentren benötigen. Da es unmöglich ist, Server innerhalb von 12 Stunden einzurichten, arbeiten wir mit unseren Cloud-Partnern zusammen, um mehrere virtuelle Edge-Rechenzentren aufzubauen. Wir testen diese am Freitag und sind dann bereit für das Wochenende. 

Im Sinne echter Verantwortungsübernahme übernehmen alle, einschließlich unserer Führungskräfte auf höchster Ebene, Bereitschaftsdienste – sogar an Wochenenden. Der Ansturm von Millionen von Nutzern am Samstag kann oft Hunderte von Warnmeldungen auslösen. Die Teams beheben diese Warnmeldungen präventiv, sodass wir Herausforderungen während eines großen Updates oder eines plattformweiten Allzeithochs bewältigen können. 

Wie Leonardo da Vinci oft zugeschrieben wird: „Lernen erschöpft den Geist nie.“ Jeder Spitzenwert hat uns dazu inspiriert, zu lernen und neue Techniken zu entwickeln, um unsere Infrastruktur zuverlässiger und unsichtbarer zu machen. Unsere Entwickler veröffentlichen oder aktualisieren, und dank der Magie der unsichtbaren Infrastruktur können Millionen von Nutzern fast sofort ein völlig neues Erlebnis genießen. Wir sind unseren Entwicklern und Nutzern unendlich dankbar dafür, dass sie uns herausfordern, die Grenzen der Informatik zu erweitern.