Die Infrastruktur hinter den Rekord-Experiences
Jedes Wochenende neue Höhen erreichen auf Roblox
Dass Roblox so viele Benutzer gleichzeitig in Millionen von einzigartigen Experiences zusammenbringen kann, entspringt nicht nur einer einzelnen Innovation. Dieses Ergebnis entstand durch eine umfassende Innovationskultur und tausende kleine Details, die im gesamten Unternehmensweit schlichtweg richtig gemacht werden. So konnten wir eine Infrastruktur aufbauen, die derzeit den rekordverdächtigen Datenverkehr bei vielen Experiences auf Roblox unterstützt. Eine dieser Experiences, Grow a Garden, hat kürzlich mit 21,6 Millionen gleichzeitigen Benutzern den Guinness-Weltrekord für das meistgespielte Videospiel gebrochen. In diesem Zuge hat die Roblox-Plattform (wie schon seit fast zwei Jahrzehnten) wieder neue Rekorde bei der Anzahl der gleichzeitigen Benutzer aufgestellt. Zuletzt wurde eine Zahl von über 30 Millionen gleichzeitigen Spielern erreicht.
Roblox steht beim Aufbau und der Wartung der Infrastruktur für Millionen von Creator-Experiences vor einzigartigen Herausforderungen, die innovative technische Methoden erfordern. Zu diesen Experiences gehören zum Beispiel Dress to Impress, Adopt Me und Dead Rails. Die Plattform unterstützt Dutzende von stündlichen Updates und mehr als 30 Millionen gleichzeitige Benutzer – mit einer Infrastruktur, die bei unerwarteten Spitzen im Datenverkehr skalierbar ist. Diese Infrastruktur muss Situationen bewältigen, in denen mehr als 21 Millionen Benutzer gleichzeitig an einer einzigen Experience teilnehmen (und der Update-Code von unabhängigen Entwicklern stammt). Die Ingenieure von Roblox entwickeln innovative Lösungen, indem sie alte Weisheiten infrage stellen – Lösungen, die auf unseren vier Grundwerten basieren.
Infrastruktur bei Roblox
Die Ingenieure von Roblox kümmern sich um 24 Edge-Rechenzentren auf der ganzen Welt, in denen die Spieleserver ausgeführt werden. Wenn ein Benutzer an einer Experience teilnimmt, wird er dem nächstgelegenen Rechenzentrum und der am besten geeigneten Instanz innerhalb des Zentrums zugeordnet, um die Latenz zu minimieren. Wir verwalten auch zwei Kernrechenzentren, die viel größer sind und über die zentrale Dienste wie die Website, Empfehlungsalgorithmen, Sicherheitsfilter, virtuelle Wirtschaft und Veröffentlichungsplattform laufen, die für den reibungslosen Betrieb der Edge-Rechenzentren erforderlich sind. Ein globales privates Netzwerk verbindet alle Edge-Rechenzentren mit den Kernrechenzentren, wobei die Edge-Rechenzentren als Firewall dienen, um die Dienste im Kernrechenzentrum zu schützen.
Wir denken langfristig: Proaktive Kapazitätsprognose
Im Idealfall sollten unsere Entwickler sich nie Gedanken über die Kapazität machen müssen – die Infrastruktur sollte für sie unsichtbar im Hintergrund ausgeführt werden. Wenn ein Entwickler eine Experience auf Roblox veröffentlicht, besteht unsere Aufgabe darin, die erforderliche Kapazität zu bieten, unabhängig davon, wie viele Spieler teilnehmen. In den Anfangszeiten haben wir die Kapazität einmal im Jahr für das kommende Jahr oder die kommenden zwei Jahre vorausgeplant. Aber in den letzten Jahren haben uns erfolgreiche Experiences wie Dress to Impress, Fisch, Dead Rails und Grow a Garden dazu veranlasst, unser Konzept für die Kapazitätsplanung zu überdenken.
Gemäß unseres Werts, langfristig zu denken, prognostizieren wir jetzt den Kapazitätsbedarf bis zu zwei Jahre im Voraus und gleichen die Nachfrage der Benutzer mit einer effizienten Serverauslastung aus. In dem Planungszyklus berücksichtigen wir die Anschaffung von Rechenzentren, die Erneuerung der Serverhardware und die physische Vernetzung. Neue Rechenzentren wie das in Brasilien werden dabei Jahre im Voraus geplant. Das Netzwerkteam hält außerdem "geheime" Kapazitäten bereit, um einen durchgehenden Betrieb auch bei Problemen wie Netzwerkausfällen zu gewährleisten.
Die Kapazität, über die Roblox heute verfügt, basiert auf Prognosen, die vor zwei Jahren erstellt wurden – als wir noch nicht vorhersehen konnten, dass bestimmte Experiences innerhalb weniger Wochen von der Unbekannten zum großer Star aufsteigen würden. Beliebte Spiele wie "Grow a Garden" und "Dress to Impress", die dazu beigetragen haben, die Spitzenzahl der gleichzeitigen Spieler bei Roblox von 13,9 Millionen im April auf 30,6 Millionen im Juni 2025 zu verdoppeln, gab es bei der Erstellung dieser Kapazitätsprognosen noch nicht. Im März 2025 stieg die Anzahl der gleichzeitigen Benutzer von "Dead Rails" beispielsweise auf 1 Million an. Dafür wurde die gesamte verfügbare CPU-Kapazität genutzt.
Aus diesen Popularitätsspitzen haben wir gelernt und sind zu einem agileren Planungszyklus übergegangen. Um den Rekordzahlen an Spielern auf Roblox jederzeit gerecht zu werden, führt unser Engineering-Team einen strengen wöchentlichen Zyklus aus Planung, Tests und Kapazitätsanpassungen durch. Montags werden Vorfälle geprüft, am Dienstag folgt die Kapazitätsplanung. Während der Woche gibt es kontinuierliche Chaos-Tests. Am Donnerstag wird die Kapazität für alle großen Updates überprüft, die unsere Creator angekündigt haben. Freitags werden zusätzliche Cloud-Ressourcen bereitgestellt, um sicherzustellen, dass die Plattform für die Spitzenauslastung am Wochenende gerüstet ist. Über die Woche hinweg veröffentlichen wir immer neue Funktionen und schränken die kontinuierliche Bereitstellung durch alle Entwickler nicht ein.
Wir respektieren die Community: Kapazitäten ohne Aufwand für Creator
Drosselung ist ein in der Informatik weit verbreitetes Konzept. Aber es ist auch der am meisten missbrauchte und missverstandene Hebel der Informatik. Wenn neue Ingenieure zu Roblox kommen, lautet ihre erste Lösung oft: "Creator sollten diese Konfiguration anpassen oder ihre Events verlangsamen …". Erfahrene Roblox-Ingenieure erklären den neuen Kollegen dann, wie wichtig es uns ist, die Community zu respektieren, und dass wir unseren Creatorn keine Vorschriften machen.
Zum Beispiel haben die meisten Spielesysteme eine einfache Lösung für die Serverzuordnung, wenn Millionen von Spielern gleichzeitig auf Spielen klicken. Sie drosseln die Anzahl der Teilnehmer, lassen die Spieler warten oder schicken sie auf zufällige Server, indem sie den Algorithmus zur Serverzuordnung überspringen. Bei Roblox machen wir das Gegenteil. Wir haben unsere gesamten Serverzuordnungssysteme für riesige Spielerströme neu gestaltet. In Spitzenzeiten wertet dieses System bis zu vier Milliarden mögliche Teilnahmekombinationen pro Sekunde aus. Vor Jahren haben wir uns das Ziel gesetzt, zehn Millionen Teilnehmer in zehn Sekunden zu erreichen – und daran arbeiten wir stetig.
Um eine Drosselung aufgrund von Kapazitätsengpässen zu vermeiden, experimentieren wir im Rahmen unserer Umstellung auf eine zellulare Infrastruktur mit Cloud Bursting, das eine dynamische und effiziente Skalierung ermöglicht. Diese Architektur bewältigt Spitzenlasten, indem sie Benutzer sowohl lokalen als auch Cloud-Edge-Rechenzentrumszellen zuordnet. Wir arbeiten an einer vollständig automatisierten Bereitstellung und Abschaltung von Cloud-basierten Edge-Rechenzentren, die für den Algorithmus zur Serverzuordnung vollständig unabhängig sind.
Ein weiteres Beispiel ist unser Textfiltersystem, das in Spitzenzeiten 250.000 Anfragen pro Sekunde verarbeitet. Das ist eine große Modellinferenz, die 250.000 Tokens mit ständig wachsenden Kontextfenstern ausführt. Und mit mehr als 300 KI-Inferenz-Pipelines, die in der Produktion ausgeführt werden, investieren die Besitzer der Roblox-Dienste viel Zeit in die Suche nach der idealen Mischung aus Inferenzprofilen zwischen GPUs und CPUs. Selbst bei Spitzenauslastung respektieren die Ingenieure von Roblox die Community, indem sie der Freiheit der Creator und der Sicherheit der Benutzer Vorrang einräumen.
Wir liefern Ergebnisse: Systembelastung für mehr Resilienz
Mit unserer Planung bauen wir die Kapazitäten und Algorithmen auf, die die spannendsten Updates der Creator zu unterstützen. Aber wir müssen sicher sein, dass diese Systeme auch bei größten Spitzenauslastungen oder Ausfällen einzelner Dienste standhalten. Informationen, die aus der Spitzenauslastung von mehr als 1.600 Microservices gesammelt werden, helfen dabei, Dienste zu identifizieren, die weiteren Stresstests unterzogen werden müssen.
Getreu unserem Wert, Ergebnisse zu liefern, wählen wir jeden Tag einige dieser Dienste aus und schränken ihre Kapazität in der Produktion ein. Wir beobachten die Attribute und beheben alles noch vor dem Wochenende. Wir nennen dies "test actual capacity on (TACO) Tuesdays" (Testen der tatsächlichen Kapazität am Dienstag). Unser Zuverlässigkeitsteam führt außerdem kontinuierliche Kapazitätsprüfungen (C3, "continuous capacity correctness") durch. Jedes Engineering-Team nutzt ein C3-Dashboard, um die CPU-Kapazität seiner Dienste vorherzusagen und zu verwalten. So können die Besitzer des Dienstes kontinuierlich aus den letzten Spitzenwerten lernen und die Kapazität für die nächsten Spitzenwerte erhöhen oder verringern. Wir haben außerdem ein System eingeführt, das Aufrufmuster in der Roblox-Kern-Engine für neue Releases verfolgt. So sind wir während eines Updates besser vorbereitet.
Trotz all dieser Vorbereitungen kommt es gelegentlich zu Situationen, in denen die Unvorhersehbarkeit der Datenverkehrsmuster dazu führen kann, dass ein einzelner Dienst oder Produkt-Flow die Plattform zum Absturz bringt. Beispielsweise könnte die 2-Billionen-Ereignisanalyse-Pipeline aufgrund eines beliebten Updates 30 % mehr Datenverkehr verzeichnen. In solchen Fällen greifen unsere Ausfallsicherheitsmechanismen wie adaptive Concurrency Control (ACC), Circuit Breaker und Shedding Retries, um die Plattform zu schützen. In diesem Jahr haben wir außerdem eine Chaos-Testplattform aufgebaut, um die Ausfallsicherheit und Skalierbarkeit unserer Infrastruktur zu stärken, indem wir zufällig Fehler einspeisen, Ressourcen erschöpfen und Prozesse in der Produktion willkürlich beenden.
Wir übernehmen Verantwortung: Alle an Deck
Wir verbringen die ganze Woche damit, diese großen Wochenend-Updates zu testen und vorzubereiten. Aber auch wenn das Wochenende dann da ist, haben wir noch viel zu tun. Vor den Wochenend-Updates arbeiten die Roblox-Ingenieure zusammen, überwachen bevorstehende Änderungen und treffen Prognosen über die verbleibende Kapazität. Bei Bedarf stellen sie zusätzliche Cloud-Ressourcen bereit, um Millionen zusätzlicher Spieler über virtuelle Edge-Rechenzentren unterzubringen.
Am Freitag entscheiden wir, ob wir zusätzliche Kapazitäten mit Cloud-Ressourcen hinzufügen müssen. Dieser Prozess gibt unserem Hybrid-Cloud-Team eine klare Richtung vor, um genügend zusätzliche Kapazitäten für Millionen zusätzlicher Spieler bereitzustellen. Unsere 24 physischen Edge-Rechenzentren sind dauerhaft in Betrieb, aber nach allen Tests kann es sein, dass wir zusätzliche Edge-Rechenzentren brauchen. Da es unmöglich ist, Server innerhalb von zwölf Stunden aufzubauen, richten wir mit unseren Cloud-Partnern zusammen mehrere virtuelle Edge-Rechenzentren ein. Diese testen wir am Freitag, damit wir für das Wochenende bereit sind.
Im Sinne dieses Verantwortungsbewusstseins übernehmen alle bei uns, auch die obersten Führungskräfte, Bereitschaftsdienste – sogar am Wochenende. Der Ansturm von Millionen von Benutzern am Samstag löst oft Hunderte von Warnmeldungen aus. Die Teams bearbeiten diese Warnmeldungen bereits im Vorfeld, sodass wir Herausforderungen während eines großen Updates oder eines plattformweiten Spitzenaufkommens bewältigen können.
Leonardo da Vinci soll einmal gesagt haben: "Lernen erschöpft den Geist nie." Jeder Höhepunkt hat uns dazu inspiriert, neue Techniken zu lernen und zu erfinden, um unsere Infrastruktur zuverlässiger und unsichtbarer zu machen. Unsere Creator veröffentlichen oder aktualisieren Inhalte, und dank der Magie der unsichtbaren Infrastruktur können Millionen von Benutzern eine völlig neue Experience fast sofort verwenden. Wir sind unseren Creatorn und Benutzern unendlich dankbar, dass sie uns herausfordern, die Grenzen der Informatik zu verschieben.