A infraestrutura que suporta experiências que quebram recordes

Alcançando novos níveis todo final de semana na Roblox

A capacidade da Roblox de escalar e suportar dezenas de milhões de usuários jogando juntos em milhões de experiências únicas não é o resultado de uma única inovação. É a soma de uma cultura mais ampla de inovação e de mil coisas pequenas bem feitas em toda a empresa. Foi assim que construímos a infraestrutura que atualmente suporta o tráfego que tem quebrado recordes para muitas das experiências na Roblox. Uma dessas experiências, Crescer um Jardim, recentemente quebrou o recorde dos Recordes Mundiais do Guinness® para o videojogo mais jogado simultaneamente, com 21,6 milhões de usuários jogando simultaneamente. E no processo, a plataforma Roblox continuou a atingir novos recordes de pico de jogadores simultâneos (como tem feito ao longo de quase duas décadas), mais recentemente excedendo 30 milhões de jogadores simultâneos.

A Roblox enfrenta desafios únicos na construção e manutenção de infraestrutura para milhões de experiências construídas por criadores, incluindo Vestir para Impressionar, Adopt Me e Trilhos Mortos, que exigem metodologias inovadoras de engenharia. A plataforma suporta dezenas de atualizações horárias e mais de 30 milhões de usuários simultâneos com infraestrutura que se escala durante picos de tráfego inesperados. Esta infraestrutura deve apoiar situações de manada trovejante em que mais de 21 milhões de usuários participam de uma única experiência simultaneamente (e o código de atualização provém de criadores independentes). Os engenheiros da Roblox inovam soluções desafiando a sabedoria tradicional - soluções inspiradas em nossos quatro valores centrais.

Infraestrutura na Roblox

Os engenheiros da Roblox gerenciam 24 centrais de dados com tecnologia de ponta ao redor do mundo, que executam os servidores do jogo. Quando um usuário entra em uma experiência, ele é pareado à central de dados mais próxima e à instância mais apropriada dentro da central para minimizar a latência. Também gerenciamos duas principais cetrais de dados, que são muito maiores e rodam serviços centralizados, como o site, algoritmos de recomendação, filtros de segurança, economia virtual e plataforma de publicação, que são necessários para o funcionamento das centrais de dados de ponta. Uma rede privada global interconecta todos as centrais de dados de ponta às principais centrais de dados, com as centrais de dados de ponta servindo como um firewall para proteger serviços em execução na central de dados principal.

Visão a longo prazo: Previsão proativa de capacidade

Em um mundo ideal, nossos criadores nunca deveriam ter que pensar na capacidade; a infraestrutura deveria ser invisível para eles, trabalhando nos bastidores. Quando um criador publica uma experiência na Roblox, nosso trabalho é apoiar a capacidade necessária, independentemente do número de jogadores que aparecer. Nos primeiros dias, planejamos a capacidade uma vez por ano para um ano ou dois de atencedência. Mas nos últimos anos, experiências de sucesso como Vestir para impressionar, Peixe, Trilhos Mortose Crescer um Jardim nos levaram a repensar o nosso quadro para o planejamento de capacidades.

Em alinhamento com o nosso valor de termos uma visão de longo prazo, agora prevemos a capacidade necessária com até dois anos de antecedência, balanceando a demanda de usuários com a utilização eficiente do servidor. Nosso ciclo de planejamento envolve aquisição de centrais de dados, atualizações de hardware do servidor e rede física, com novas centrais de dados como a do Brasil sendo planejadas com anos de antecedência. A equipe de rede também mantém a capacidade escura (dark capacity) para garantir uma operação contínua, apesar de problemas como cortes no cabo de rede.

A capacidade que a Roblox tem hoje é baseada nas previsões feitas há dois anos, quando nós não poderíamos ter previsto que experiências cresceriam de desconhecidas para uma popularidade enorme em semanas. Juegos populares como Hacer crecer un jardín y Vestirse para impresionar, que han duplicado con creces el número de jugadores simultáneos de 13.9 millones en abril a 30.6 millones en junio de 2025, no existían cuando se hicieron estas predicciones de capacidad. Por exemplo, em março de 2025, Trilhos Mortos alcançou 1 milhão de usuários simultâneos, usando toda a capacidade disponível da CPU.

Aprendendo com esses picos de popularidade, nos movemos para um ciclo de planejamento mais ágil. Para suportar consistentemente os recordes de jogadores simultâneos na Roblox, a engenharia emprega um ciclo semanal rigoroso de planejamento, testes e ajustes de capacidade. Segunda-feira é dedicada a análises de incidentes, seguida de planejamento de capacidades na terça-feira. Durante a semana, há testes de caos contínuos. Quinta-feira concentra-se na capacidade de revisão das grandes atualizações que os nossos criadores nos informaram que viriam. Na sexta-feira, são fornecidos recursos adicionais na nuvem para garantir que a plataforma seja preparada para o uso no pico de final de semana. Ao longo da semana, continuamos a lançar recursos inteiramente novos e não bloqueamos a implantação contínua de todos os engenheiros.

Respeito à Comunidade: Capacidade sem esforço para criadores

A limitação é um conceito muito aceito em ciência da computação. Mas essa é a alavanca mais mal usada e mal compreendida da ciência da computação. Quando novos engenheiros entram para a Roblox, suas primeiras soluções incluem coisas como "poderíamos dizer aos nossos criadores para ajustar esta configuração ou diminuir a frequência de eventos". Os engenheiros veteranos da Roblox então explicam gentilmente sobre nosso valor de respeitar a comunidade e que nós não dizemos aos nossos criadores o que fazer.

Por exemplo, a maioria dos sistemas de jogos tem uma solução simples para o matchmaking quando milhões de jogadores clicam em "jogar" simultaneamente. Eles limitam as entradas, fazem jogadores esperarem ou os enviam para servidores aleatórios, pulando o algoritmo de matchmaking. Na Roblox, fazemos o contrário. Redesenhamos todos os nossos sistemas de matchmaking para manadas trovejantes de jogadores. No pico, este sistema avalia até 4 bilhões de combinações possíveis de adesão por segundo. Hace años, fijamos el objetivo de 10 millones de personas se unen en 10 segundos, y seguimos iterando hacia esa meta.


Para evitar la ralentización debida a la capacidad, estamos experimentando con el cloud bursting como parte de nuestra transición a una infraestructura celular, que permite un escalado dinámico y eficiente desde el punto de vista informático. Essa arquitetura lida com a demanda máxima, correspondendo usuários com células no local e no centro de dados da nuvem. Estamos trabalhando para uma introdução totalmente automatizada e desmontada de centros de dados de borda baseados na nuvem que são totalmente abstraídos para o algoritmo de matchmaking.

Outro exemplo é o nosso sistema de filtro de texto, que no pico lida com 250.000 solicitações por segundo. Este é um grande modelo de inferência, executando 250.000 tokens com janelas de contexto em constante expansão. E com mais de 300 canais de inferência por IA rodando em produção, Os proprietários de serviços Roblox investem muito tempo na procura da mistura ideal de perfis de inferência entre GPUs e CPUs. Mesmo sob cargas de pico, os engenheiros Roblox respeitam a comunidade, priorizando a liberdade do criador e a segurança do usuário.

Fazer acontecer: Estressamento do sistema para resiliência

Com nosso planejamento, nós aumentamos a capacidade e algoritmos para apoiar as atualizações mais empolgantes dos criadores. Mas precisamos de ter a certeza de que estes sistemas podem conter níveis de serviço mais elevados, ou mesmo níveis de prestação de serviços mais elevados. A informação recolhida do pico de uso em mais de 1.600 microserviços ajuda a identificar serviços para mais testes de stress.

Fiel ao nosso valor de fazer acontecer, todo dia escolhemos alguns desses serviços e restringimos sua capacidade em produção. Observamos os atributos, em seguida, os corrijimos antes do fim de semana. Chamamos isto de testes de capacidade real das terças. Nossa equipe de confiabilidade também executa a correção da capacidade contínua (C3). Cada equipe de engenharia usa um painel C3 para prever e gerenciar a capacidade da CPU para seus serviços. Isto permite que os proprietários de serviços aprendam continuamente com o último pico para aumentarem ou reduzirem a capacidade para o próximo pico. Também lançamos um sistema que rastreia padrões de chamada no núcleo Roblox para novos lançamentos. Isso ajuda a garantir que estejamos melhor preparados durante uma atualização.

Mesmo com toda essa preparação, ainda ocasionalmente nos deparamos com cenários em que a natureza imprevisível dos padrões de tráfego pode causar um único serviço ou fluxo de produto interromper a plataforma. Por exemplo, a estrutura de análise de 2 trilhões de eventos poderia ver 30% mais tráfego devido a uma atualização popular. Aqui é onde nossos mecanismos de resiliência, como controle de concorrência adaptável (ACC), disjuntores e re-tentativas de descarte entram para proteger a plataforma. Este ano, também construímos uma plataforma de testes de caos para fortalecer a resiliência e escalabilidade de nossa infraestrutura ao injetar erros aleatoriamente, recursos exaustivos e processos terminados aleatoriamente na produção.

Assuma a responsabilidade: Contando com todos

Nós passamos todas as semanas testando e se preparando para essas grandes atualizações do fim de semana. Mas quando chega o fim-de-semana, ainda temos trabalho a fazer. Antes das atualizações de fim de semana, os engenheiros Roblox colaboram para monitorar as mudanças vindouras e prever a capacidade remanescente, fornecendo recursos adicionais de nuvem à medida do necessário para acomodar milhões de jogadores extras através das centrais de dados de ponta.

Na sexta-feira, decidimos se precisamos aumentar a capacidade com recursos na nuvem. Esse processo dá uma direção clara à nossa equipe de nuvem híbrida para trazer capacidade extra suficiente para acomodar milhões de jogadores adicionais. A qualquer momento, as nossas 24 centrais de dados de ponta físicas estão rodando, mas depois de todos os testes, podemos decidir que precisamos de centrais de dados de ponta adicionais. Não há como montar e empilhar servidores em 12 horas, então trabalhamos com os nossos parceiros na nuvem para construir várias centrais de dados de ponta virtuais. Nós as testamos na sexta-feira e depois estamos prontos para o fim de semana.

No verdadeiro espírito de assumir responsabilidades, todos, incluindo nossos executivos de nível mais alto, assumem rotações de permanência, mesmo nos fins de semana. O aumento de milhões de usuários no sábado pode frequentemente desencadear centenas de alertas. Equipes resolvem preventivamente esses alertas, permitindo-nos lidar com desafios durante uma grande atualização ou um pico excepcional da plataforma.

Como se suele atribuir a Leonardo da Vinci, "Aprender nunca agota la mente". Cada cima nos ha inspirado para aprender e inventar nuevas técnicas para hacer nuestra infraestructura más fiable e invisible. Nossos criadores publicam ou atualizam e, por meio da magia da infraestrutura invisível, dezenas de milhões de usuários começam a desfrutar de uma experiência inteiramente nova quase imediatamente. Somos eternamente gratos aos nossos criadores e usuários por nos desafiarem a ultrapassar os limites da ciência da computação.