Bu sitedeki içerik yapay zeka (AI) veya makine çeviri teknolojisi kullanılarak çevrilmiştir ve hatalar içerebilir.

Skip to content

Rekor kıran deneyimleri destekleyen altyapı

Roblox'ta Her Hafta Sonu Yeni Zirvelere Ulaşıyoruz

SEO image for The Infrastructure Supporting Record-Breaking Experiences

Roblox'un milyonlarca benzersiz deneyimde birlikte oynayan on milyonlarca kullanıcıyı ölçeklendirme ve destekleme yeteneği, tek bir yeniliğin sonucu değildir. Bu, daha geniş bir inovasyon kültürünün ve şirket genelinde iyi yapılan binlerce küçük şeyin toplamıdır. Roblox'taki birçok deneyime rekor kıran trafiği destekleyen altyapıyı işte bu şekilde kurduk. Bu deneyimlerden biri olan Grow a Garden, kısa süre önce 21,6 milyon kullanıcının aynı anda oynamasıyla, en çok eşzamanlı oynanan video oyunu dalında Guinness Dünya Rekorları®'na girdi. Bu süreçte Roblox platformu, (neredeyse yirmi yıldır olduğu gibi) yeni eşzamanlı kullanıcı rekoru kırmaya devam etti ve en son 30 milyon eşzamanlı oyuncuyu aştı.

Roblox, Dress to Impress, Adopt Me ve Dead Rails gibi milyonlarca yaratıcı tarafından geliştirilen deneyim için altyapı oluşturma ve sürdürme konusunda benzersiz zorluklarla karşı karşıya ve bu da yenilikçi mühendislik metodolojileri gerektiriyor. Platform, beklenmedik trafik artışlarında ölçeklenebilen altyapısı ile saat başı düzinelerce güncellemeyi ve 30 milyondan fazla eşzamanlı kullanıcıyı destekliyor. Bu altyapı, 21 milyondan fazla kullanıcının aynı anda tek bir deneyime katıldığı (ve güncelleme kodunun bağımsız yaratıcılardan geldiği) yoğun trafik durumlarını desteklemelidir. Roblox mühendisleri, geleneksel bilgeliğe meydan okuyarak dört temel değerimizden ilham alan yenilikçi çözümler geliştiriyor.

Roblox'taki altyapı
Roblox mühendisleri, oyun sunucularını çalıştıran dünya çapında 24 uç veri merkezini yönetir. Bir kullanıcı bir deneyime katıldığında, gecikmeyi en aza indirmek için en yakın veri merkezine ve merkez içindeki en uygun örneğe eşleştirilir. Ayrıca, çok daha büyük olan ve uç veri merkezlerinin çalışması için gerekli olan web sitesi, öneri algoritmaları, güvenlik filtreleri, sanal ekonomi ve yayın platformu gibi merkezi hizmetleri çalıştıran iki ana veri merkezini de yönetiyoruz. Küresel bir özel ağ, tüm uç veri merkezlerini ana veri merkezlerine bağlar ve uç veri merkezleri, ana veri merkezinde çalışan hizmetleri korumak için bir güvenlik duvarı görevi görür.
Uzun Vadeli Bakış: Proaktif Kapasite Tahmini

İdeal bir dünyada, içerik üreticilerimiz kapasiteyi asla düşünmek zorunda kalmamalıdır; altyapı onlar için görünmez olmalı ve arka planda çalışmalıdır. Bir içerik üreticisi Roblox'ta bir deneyim yayınladığında, bizim görevimiz, kaç oyuncu katılırsa katılsın, gerekli kapasiteyi sağlamaktır. İlk zamanlarda, bir veya iki yıl öncesinden kapasite planlamasını yapardık. Ancak son yıllarda, Dress to Impress, Fisch, Dead Rails ve Grow a Garden gibi başarılı deneyimler, kapasite planlaması için kullandığımız çerçeveyi yeniden düşünmemize neden oldu.

Uzun vadeli bakış açımızla uyumlu olarak, artık kapasite ihtiyaçlarını iki yıl öncesinden tahmin ediyor ve kullanıcı talebini verimli sunucu kullanımıyla dengeliyoruz. Planlama döngümüz, veri merkezi satın alımını, sunucu donanımının yenilenmesini ve fiziksel ağ kurulumunu içeriyor; Brezilya'daki gibi yeni veri merkezleri yıllar öncesinden planlanıyor. Ağ ekibi ayrıca, ağ kablosu kesintileri gibi sorunlara rağmen kesintisiz çalışmayı sağlamak için "yedek" kapasiteyi de koruyor.

Roblox'un bugün sahip olduğu kapasite, iki yıl önce yapılan tahminlere dayanmaktadır; o zamanlar, deneyimlerin birkaç hafta içinde bilinmezlikten büyük bir popülerliğe ulaşacağını tahmin edemezdik. Roblox'un en yüksek eşzamanlı oyuncu sayısını Nisan ayındaki 13,9 milyondan Haziran 2025'te 30,6 milyona çıkarmaya yardımcı olan Dress to Impress ve Grow a Garden gibi popüler oyunlar, bu kapasite tahminleri yapıldığında henüz mevcut değildi. Örneğin, Mart 2025'te Dead Rails, mevcut tüm CPU kapasitesini kullanarak 1 milyon eşzamanlı kullanıcıya ulaştı. 

Bu tür popülerlik artışlarından ders alarak, daha çevik bir planlama döngüsüne geçtik. Roblox'taki rekor oyuncu sayılarını tutarlı bir şekilde desteklemek için mühendislik ekibi, planlama, test ve kapasite ayarlamalarından oluşan sıkı bir haftalık döngü uyguluyor. Pazartesi günü olay incelemelerine ayrılır, ardından Salı günü kapasite planlaması yapılır. Hafta boyunca sürekli kaos testleri yapılır. Perşembe günü, içerik oluşturucularımızın bize bildirdiği büyük güncellemeler için kapasite incelemesine odaklanılır. Cuma günü, platformun hafta sonu kullanım yoğunluğuna hazır olmasını sağlamak için ek bulut kaynakları sağlanır. Hafta boyunca tamamen yeni özellikler yayınlamaya devam ediyoruz ve tüm mühendislerin sürekli dağıtımını kısıtlamıyoruz. 

Topluluğa Saygı: Yaratıcılar için Zahmetsiz Kapasite

Throttling, bilgisayar bilimlerinde çok yaygın bir kavramdır. Ancak bu, bilgisayar bilimlerinde en çok yanlış kullanılan ve yanlış anlaşılan araçtır. Yeni mühendisler Roblox'a katıldıklarında, ilk çözümleri genellikle "Eğer yaratıcılarımıza bu yapılandırmayı değiştirmelerini veya etkinliklerini yavaşlatmalarını söyleyebilsek..." şeklindedir. Deneyimli Roblox mühendisleri ise topluluğa saygı duymanın önemini ve yaratıcılarımıza ne yapmaları gerektiğini söylemediğimizi nazikçe açıklar. 

Örneğin, milyonlarca oyuncu aynı anda oyuna tıkladığında çoğu oyun sistemi eşleştirme için basit bir çözüme sahiptir. Katılımları kısıtlar, oyuncuları bekletir veya eşleştirme algoritmasını atlayarak onları rastgele sunuculara yönlendirirler. Roblox'ta ise tam tersini yapıyoruz. Oyuncu akınlarına hazır olmak için tüm eşleştirme sistemlerimizi yeniden tasarladık. Yoğunluk anlarında bu sistem saniyede 4 milyara kadar olası katılım kombinasyonunu değerlendirir. Yıllar önce, 10 saniyede 10 milyon katılım hedefini belirledik ve bu hedefe doğru ilerlemeye devam ediyoruz.

Kapasite nedeniyle kısıtlamayı önlemek için, hücresel altyapıya geçişimizin bir parçası olarak bulut patlamasını deniyoruz; bu da dinamik ve hesaplama açısından verimli ölçeklendirme sağlıyor. Bu mimari, kullanıcıları hem şirket içi hem de bulut uç veri merkezi hücreleriyle eşleştirerek yoğun talebi yönetiyor. Eşleştirme algoritması için tamamen soyutlanmış bulut tabanlı uç veri merkezlerinin tamamen otomatik olarak kurulması ve kaldırılması için çalışıyoruz.

Bir başka örnek ise, yoğun zamanlarda saniyede 250.000 isteği işleyen metin filtreleme sistemimizdir. Bu, sürekli genişleyen bağlam pencereleriyle 250.000 tokeni çalıştıran büyük bir model çıkarımdır. Üretimde çalışan 300'den fazla AI çıkarım boru hattı ile Roblox hizmet sahipleri, GPU'lar ve CPU'lar arasında ideal çıkarım profili karışımını bulmak için çok zaman harcıyor. En yoğun yükler altında bile, Roblox mühendisleri içerik oluşturucuların özgürlüğünü ve kullanıcı güvenliğini önceliklendirerek topluluğa saygı gösteriyor.

İşleri Halledin: Dayanıklılık için Sistem Stres Testi

Planlamamızla, içerik oluşturucuların en heyecan verici güncellemelerini destekleyecek kapasiteyi ve algoritmaları geliştiriyoruz. Ancak bu sistemlerin en yoğun trafik dönemlerinde veya tek bir hizmet kesintisi durumunda bile ayakta kalabileceğinden emin olmalıyız. 1.600'den fazla mikro hizmetin en yoğun kullanım dönemlerinden toplanan bilgiler, daha fazla stres testi yapılacak hizmetleri belirlememize yardımcı oluyor.

İşleri halletme değerimize sadık kalarak, her gün bu hizmetlerden birkaçını seçip üretimdeki kapasitelerini kısıtlıyoruz. Özellikleri gözlemliyor, ardından hafta sonu gelmeden düzeltiyoruz. Buna "gerçek kapasiteyi test et" (TACO) Salıları diyoruz. Güvenilirlik ekibimiz ayrıca sürekli kapasite doğruluğu (C3) çalışması yürütür. Her mühendislik ekibi, hizmetlerinin CPU kapasitesini tahmin etmek ve yönetmek için bir C3 panosu kullanır. Bu, hizmet sahiplerinin bir sonraki yoğunluk için kapasiteyi artırmak veya azaltmak üzere son yoğunluktan sürekli olarak ders almasını sağlar. Ayrıca, yeni sürümler için Roblox çekirdek motorundaki çağrı kalıplarını izleyen bir sistem başlattık. Bu, güncelleme sırasında daha iyi hazırlıklı olmamızı sağlar. 

Tüm bu hazırlıklara rağmen, trafik modellerinin öngörülemez doğası nedeniyle tek bir hizmet veya ürün akışının platformu çökertmesine neden olabilecek senaryolarla hala ara sıra karşılaşıyoruz. Örneğin, popüler bir güncelleme nedeniyle 2 trilyon olay analizi boru hattında %30 daha fazla trafik görülebilir. İşte bu noktada, uyarlanabilir eşzamanlılık kontrolü (ACC), devre kesici ve yeniden deneme azaltma gibi esneklik mekanizmalarımız devreye girerek platformu korur. Bu yıl, altyapımızın esnekliğini ve ölçeklenebilirliğini güçlendirmek için, üretim ortamında rastgele hatalar enjekte ederek, kaynakları tüketerek ve süreçleri rastgele sonlandırarak bir kaos testi platformu da oluşturduk.

Sorumluluk Alın: Herkesin El Ele Vermesi

Tüm hafta boyunca bu büyük hafta sonu güncellemeleri için testler yapıp hazırlıklar yapıyoruz. Ancak hafta sonu geldiğinde, hala yapmamız gereken işler var. Hafta sonu güncellemelerinden önce, Roblox mühendisleri işbirliği yaparak yaklaşan değişiklikleri izler ve kalan kapasiteyi tahmin eder, sanal uç veri merkezleri aracılığıyla milyonlarca ekstra oyuncuyu barındırmak için gerektiğinde ek bulut kaynakları sağlar. 

Cuma günü, bulut kaynaklarıyla ekstra kapasite eklememiz gerekip gerekmediğine karar veriyoruz. Bu süreç, hibrit bulut ekibimize milyonlarca ek oyuncuyu barındıracak yeterli ekstra kapasiteyi sağlamaları için net bir yön gösterir. 24 fiziksel uç veri merkezimiz her an çalışır durumda olsa da, tüm testlerin ardından ek uç veri merkezlerine ihtiyacımız olduğuna karar verebiliriz. 12 saat içinde sunucuları raflara yerleştirip istiflemek mümkün olmadığından, bulut ortaklarımızla birlikte çalışarak birden fazla sanal uç veri merkezi kurarız. Bunları Cuma günü test ederiz ve ardından hafta sonu için hazır oluruz. 

Sorumluluk alma ruhuna uygun olarak, en üst düzey yöneticilerimiz dahil herkes, hafta sonları bile nöbetçi olarak görev alır. Cumartesi günleri milyonlarca kullanıcının akını, genellikle yüzlerce uyarıyı tetikleyebilir. Ekipler bu uyarıları önceden çözer ve böylece büyük bir güncelleme veya platform genelinde rekor düzeyde yoğunluk sırasında karşılaşılan zorlukların üstesinden gelmemizi sağlar. 

Leonardo da Vinci'nin sıkça alıntılanan sözü gibi, "Öğrenmek zihni asla yormaz." Her zirve, altyapımızı daha güvenilir ve görünmez hale getirmek için yeni teknikler öğrenmemize ve icat etmemize ilham verdi. Yaratıcılarımız yayınlar veya güncellemeler yapar ve görünmez altyapının sihriyle, on milyonlarca kullanıcı neredeyse anında yepyeni bir deneyimin tadını çıkarmaya başlar. Bilgisayar biliminin sınırlarını zorlamamız için bize meydan okuyan yaratıcılarımıza ve kullanıcılarımıza sonsuz minnettarız.