Cơ sở hạ tầng hỗ trợ những trải nghiệm phá kỷ lục
Vươn tới những đỉnh cao mới mỗi cuối tuần trên Roblox

Khả năng mở rộng quy mô và hỗ trợ hàng chục triệu người dùng cùng chơi trên hàng triệu trải nghiệm độc đáo của Roblox không phải là kết quả của một sự đổi mới duy nhất. Đó là tổng hợp của một văn hóa đổi mới rộng lớn và hàng ngàn việc nhỏ được thực hiện tốt trong toàn công ty. Đây là cách chúng tôi đã xây dựng cơ sở hạ tầng hiện đang hỗ trợ lưu lượng truy cập kỷ lục cho nhiều trải nghiệm trên Roblox. Một trong những trải nghiệm đó, Grow a Garden, gần đây đã phá vỡ kỷ lục Guinness World Records® về trò chơi video có nhiều người chơi đồng thời nhất, với 21,6 triệu người chơi cùng lúc. Và trong quá trình đó, nền tảng Roblox tiếp tục thiết lập các kỷ lục mới về số lượng người chơi đồng thời (như đã làm trong gần hai thập kỷ), gần đây nhất là vượt qua mốc 30 triệu người chơi đồng thời.
Roblox phải đối mặt với những thách thức đặc biệt trong việc xây dựng và duy trì hạ tầng cho hàng triệu trải nghiệm do người sáng tạo phát triển, bao gồm Dress to Impress, Adopt Me và Dead Rails, đòi hỏi các phương pháp kỹ thuật sáng tạo. Nền tảng này hỗ trợ hàng chục bản cập nhật mỗi giờ và hơn 30 triệu người dùng đồng thời với cơ sở hạ tầng có thể mở rộng khi lưu lượng truy cập tăng đột biến. Cơ sở hạ tầng này phải hỗ trợ các tình huống "thundering herd" (đám đông ồn ào) khi hơn 21 triệu người dùng tham gia một trải nghiệm duy nhất cùng lúc (và mã cập nhật đến từ các nhà sáng tạo độc lập). Các kỹ sư của Roblox sáng tạo ra các giải pháp bằng cách thách thức những quan niệm truyền thống — những giải pháp được truyền cảm hứng từ bốn giá trị cốt lõi của chúng tôi.
Cơ sở hạ tầng tại Roblox

Nhìn xa trông rộng: Dự báo năng lực chủ động
Trong một thế giới lý tưởng, các nhà sáng tạo của chúng tôi không bao giờ phải lo lắng về vấn đề dung lượng — cơ sở hạ tầng phải hoạt động ẩn sau hậu trường, không để họ nhận thấy. Khi một nhà sáng tạo xuất bản một trải nghiệm lên Roblox, nhiệm vụ của chúng tôi là hỗ trợ dung lượng cần thiết, bất kể có bao nhiêu người chơi tham gia. Vào những ngày đầu, chúng tôi lập kế hoạch dung lượng một lần mỗi năm cho một hoặc hai năm tiếp theo. Nhưng trong những năm gần đây, những trải nghiệm thành công như Dress to Impress, Fisch, Dead Rails và Grow a Garden đã khiến chúng tôi phải suy nghĩ lại về khung kế hoạch dung lượng của mình.
Phù hợp với giá trị của chúng tôi là nhìn xa trông rộng, giờ đây chúng tôi dự đoán nhu cầu về dung lượng trước tới hai năm, cân bằng nhu cầu của người dùng với việc sử dụng máy chủ hiệu quả. Chu kỳ lập kế hoạch của chúng tôi bao gồm việc mua trung tâm dữ liệu, nâng cấp phần cứng máy chủ và mạng vật lý, với các trung tâm dữ liệu mới như trung tâm ở Brazil được lên kế hoạch từ nhiều năm trước. Đội ngũ mạng cũng duy trì dung lượng “dự phòng” để đảm bảo hoạt động liên tục bất chấp các sự cố như đứt cáp mạng.

Khả năng hiện tại của Roblox dựa trên những dự đoán được đưa ra cách đây hai năm, khi đó chúng tôi không thể dự đoán được những trải nghiệm sẽ phát triển từ vô danh thành cực kỳ phổ biến chỉ trong vài tuần. Các trò chơi phổ biến như Dress to Impress và Grow a Garden, đã giúp tăng gấp đôi số lượng người chơi đồng thời cao nhất của Roblox từ 13,9 triệu vào tháng 4 lên 30,6 triệu vào tháng 6 năm 2025, không tồn tại khi những dự đoán về công suất này được đưa ra. Ví dụ, vào tháng 3 năm 2025, Dead Rails đã tăng vọt lên 1 triệu người dùng đồng thời, sử dụng hết công suất CPU có sẵn.
Học hỏi từ những đợt tăng đột biến về độ phổ biến này, chúng tôi đã chuyển sang một chu kỳ lập kế hoạch linh hoạt hơn. Để liên tục hỗ trợ số lượng người chơi kỷ lục trên Roblox, bộ phận kỹ thuật áp dụng một chu kỳ hàng tuần nghiêm ngặt bao gồm lập kế hoạch, thử nghiệm và điều chỉnh dung lượng. Thứ Hai dành cho việc đánh giá sự cố, tiếp theo là lập kế hoạch dung lượng vào Thứ Ba. Trong suốt tuần, các thử nghiệm tình huống hỗn loạn được tiến hành liên tục. Thứ Năm tập trung vào việc đánh giá dung lượng cho các bản cập nhật lớn mà các nhà sáng tạo đã thông báo cho chúng tôi. Vào thứ Sáu, các tài nguyên đám mây bổ sung được cung cấp để đảm bảo nền tảng sẵn sàng cho lượng truy cập cao điểm vào cuối tuần. Trong suốt tuần, chúng tôi tiếp tục phát hành các tính năng hoàn toàn mới và không giới hạn việc triển khai liên tục của tất cả các kỹ sư.
Tôn trọng cộng đồng: Khả năng hỗ trợ sáng tạo một cách dễ dàng
Throttling là một khái niệm rất phổ biến trong khoa học máy tính. Nhưng đây là công cụ bị lạm dụng và hiểu lầm nhiều nhất trong khoa học máy tính. Khi các kỹ sư mới gia nhập Roblox, giải pháp đầu tiên của họ thường là: “Giá như chúng ta có thể yêu cầu các nhà sáng tạo điều chỉnh cấu hình này hoặc làm chậm các sự kiện của họ…”. Các kỹ sư kỳ cựu của Roblox sau đó nhẹ nhàng giải thích giá trị của việc tôn trọng cộng đồng và rằng chúng tôi không ra lệnh cho các nhà sáng tạo phải làm gì.
Ví dụ, hầu hết các hệ thống game đều có giải pháp đơn giản cho việc ghép trận khi hàng triệu người chơi nhấn “Chơi” cùng lúc. Họ giới hạn số lượng người tham gia, bắt người chơi chờ đợi hoặc chuyển họ đến các máy chủ ngẫu nhiên bằng cách bỏ qua thuật toán ghép trận. Tại Roblox, chúng tôi làm ngược lại. Chúng tôi đã thiết kế lại toàn bộ hệ thống ghép trận để xử lý lượng người chơi khổng lồ. Tại đỉnh điểm, hệ thống này đánh giá lên đến 4 tỷ kết hợp tham gia khả thi mỗi giây. Nhiều năm trước, chúng tôi đặt mục tiêu 10 triệu lượt tham gia trong 10 giây, và chúng tôi tiếp tục cải tiến hướng tới mục tiêu đó.
Để tránh giới hạn do dung lượng, chúng tôi đang thử nghiệm công nghệ "cloud bursting" như một phần của quá trình chuyển đổi sang hạ tầng di động, cho phép mở rộng quy mô động và hiệu quả về mặt tính toán. Kiến trúc này xử lý nhu cầu đỉnh bằng cách ghép nối người dùng với cả các trung tâm dữ liệu tại chỗ và các trung tâm dữ liệu biên trên đám mây. Chúng tôi đang hướng tới việc tự động hóa hoàn toàn quá trình triển khai và thu hồi các trung tâm dữ liệu biên dựa trên đám mây, được trừu tượng hóa hoàn toàn cho thuật toán ghép đôi.
Một ví dụ khác là hệ thống lọc văn bản của chúng tôi, xử lý 250.000 yêu cầu mỗi giây vào giờ cao điểm. Đó là một mô hình suy luận lớn xử lý 250.000 token với các cửa sổ ngữ cảnh liên tục mở rộng. Và với hơn 300 đường ống suy luận AI đang chạy trong sản xuất, các chủ sở hữu dịch vụ Roblox đầu tư rất nhiều thời gian để tìm ra sự kết hợp lý tưởng giữa các cấu hình suy luận trên GPU và CPU. Ngay cả khi tải đạt mức cao nhất, các kỹ sư của Roblox vẫn tôn trọng cộng đồng bằng cách ưu tiên tự do sáng tạo và an toàn cho người dùng.
Hoàn thành công việc: Kiểm tra khả năng chịu tải của hệ thống để đảm bảo tính bền bỉ
Với kế hoạch của mình, chúng tôi xây dựng năng lực và các thuật toán để hỗ trợ những cập nhật thú vị nhất từ các nhà sáng tạo. Nhưng chúng tôi cần đảm bảo rằng các hệ thống này có thể chịu được ngay cả những đợt tăng đột biến lớn nhất hoặc sự cố ngừng hoạt động của một dịch vụ duy nhất. Thông tin thu thập được từ mức sử dụng cao nhất trên hơn 1.600 dịch vụ vi mô giúp xác định các dịch vụ cần kiểm tra tải trọng thêm.
Thực hiện đúng giá trị “hoàn thành công việc” của chúng tôi, mỗi ngày chúng tôi chọn một vài dịch vụ trong số này và hạn chế năng lực của chúng trong quá trình sản xuất. Chúng tôi quan sát các thuộc tính, sau đó khắc phục chúng trước cuối tuần. Chúng tôi gọi đây là “thử nghiệm năng lực thực tế” (TACO) vào thứ Ba. Đội ngũ đảm bảo độ tin cậy của chúng tôi cũng triển khai hệ thống “Continuous Capacity Correctness” (C3). Mỗi đội ngũ kỹ thuật sử dụng bảng điều khiển C3 để dự đoán và quản lý dung lượng CPU của dịch vụ. Điều này giúp chủ sở hữu dịch vụ liên tục học hỏi từ đỉnh tải trước đó để điều chỉnh dung lượng cho đỉnh tải tiếp theo. Chúng tôi cũng đã triển khai hệ thống theo dõi mẫu gọi trong lõi động cơ Roblox cho các bản phát hành mới. Điều này giúp đảm bảo chúng tôi chuẩn bị tốt hơn trong quá trình cập nhật.
Ngay cả với tất cả sự chuẩn bị này, chúng tôi vẫn thỉnh thoảng gặp phải các tình huống mà tính không thể dự đoán của các mẫu lưu lượng có thể khiến một dịch vụ hoặc luồng sản phẩm duy nhất làm sập nền tảng. Ví dụ, đường ống phân tích sự kiện 2 nghìn tỷ có thể ghi nhận lưu lượng tăng 30% do một bản cập nhật phổ biến. Đây là lúc các cơ chế khả năng phục hồi của chúng tôi, như kiểm soát đồng thời thích ứng (ACC), bộ ngắt mạch và giảm bớt các lần thử lại, được kích hoạt để bảo vệ nền tảng. Năm nay, chúng tôi cũng đã xây dựng một nền tảng thử nghiệm hỗn loạn để tăng cường khả năng phục hồi và khả năng mở rộng của cơ sở hạ tầng bằng cách ngẫu nhiên đưa các lỗi vào, làm cạn kiệt tài nguyên và ngẫu nhiên chấm dứt các quy trình trong sản xuất.
Chịu trách nhiệm: Động viên toàn thể nhân viên
Chúng tôi dành cả tuần để thử nghiệm và chuẩn bị cho các bản cập nhật lớn vào cuối tuần. Nhưng khi cuối tuần đến, chúng tôi vẫn còn nhiều việc phải làm. Trước các bản cập nhật cuối tuần, các kỹ sư của Roblox hợp tác để theo dõi những thay đổi sắp tới và dự đoán dung lượng còn lại, đồng thời cung cấp thêm tài nguyên đám mây khi cần thiết để đáp ứng nhu cầu của hàng triệu người chơi bổ sung thông qua các trung tâm dữ liệu cạnh ảo.
Vào thứ Sáu, chúng tôi quyết định xem có cần bổ sung dung lượng bằng tài nguyên đám mây hay không. Quá trình này cung cấp hướng dẫn rõ ràng cho đội ngũ đám mây lai của chúng tôi để tăng đủ dung lượng bổ sung nhằm đáp ứng hàng triệu người chơi thêm. Tại bất kỳ thời điểm nào, 24 trung tâm dữ liệu cạnh vật lý của chúng tôi đều đang hoạt động, nhưng sau khi hoàn tất các thử nghiệm, chúng tôi có thể quyết định rằng cần thêm các trung tâm dữ liệu cạnh. Không thể lắp ráp và xếp chồng các máy chủ trong vòng 12 giờ, vì vậy chúng tôi hợp tác với các đối tác đám mây để xây dựng nhiều trung tâm dữ liệu cạnh ảo. Chúng tôi thử nghiệm chúng vào thứ Sáu, và sau đó chúng tôi đã sẵn sàng cho cuối tuần.

Với tinh thần trách nhiệm thực sự, tất cả mọi người, kể cả các lãnh đạo cấp cao nhất, đều tham gia vào chế độ trực ca luân phiên — ngay cả vào cuối tuần. Lượng người dùng tăng vọt lên hàng triệu người vào thứ Bảy thường có thể kích hoạt hàng trăm cảnh báo. Các đội ngũ chủ động giải quyết những cảnh báo này, giúp chúng tôi xử lý các thách thức trong quá trình cập nhật lớn hoặc khi nền tảng đạt mức cao nhất mọi thời đại.
Như Leonardo da Vinci thường nói: “Học hỏi không bao giờ làm cạn kiệt trí tuệ.” Mỗi đỉnh cao đã truyền cảm hứng cho chúng tôi học hỏi và phát minh ra các kỹ thuật mới để làm cho cơ sở hạ tầng của chúng tôi trở nên đáng tin cậy và vô hình hơn. Các nhà sáng tạo của chúng tôi xuất bản hoặc cập nhật, và nhờ vào sự kỳ diệu của cơ sở hạ tầng vô hình, hàng chục triệu người dùng bắt đầu tận hưởng một trải nghiệm hoàn toàn mới gần như ngay lập tức. Chúng tôi vô cùng biết ơn các nhà sáng tạo và người dùng vì đã thách thức chúng tôi vượt qua các ranh giới của khoa học máy tính.


