Sử dụng OpenGameEval để đánh giá hiệu năng của các trợ lý AI tự chủ trong Roblox Studio
Khung đánh giá và tiêu chuẩn so sánh đầu tiên dành riêng cho Roblox Studio nhằm đánh giá hiệu suất của trợ lý AI
Thách thức
Các nhà sáng tạo tận dụng Trợ lý AI của Roblox Studio để đẩy nhanh quá trình phát triển trải nghiệm Roblox, nhưng việc đánh giá hiệu quả hoạt động của Trợ lý AI và các mô hình ngôn ngữ lớn (LLM) cơ bản trong các tác vụ phát triển tương tác vẫn là một thách thức. Trong khi các tiêu chuẩn đánh giá truyền thống về lập trình và tác nhân tập trung vào các tác vụ cô lập, không có trạng thái, quy trình phát triển Roblox đòi hỏi các phương pháp đánh giá được thiết kế riêng để đo lường hiệu suất trên các tác vụ như suy luận trên các cấu trúc phân cấp 3D, quản lý tương tác client-server trong chế độ nhiều người chơi và thực hiện thay đổi trên một thế giới có trạng thái.
Để giải quyết thách thức này, chúng tôi giới thiệu OpenGameEval, một khung đánh giá mã nguồn mở và bộ dữ liệu chuẩn gốc để đánh giá hiệu suất Trợ lý AI dựa trên LLM trong môi trường Roblox Studio có thể tái tạo. Chúng tôi hy vọng rằng OpenGameEval, cùng với bảng xếp hạng công khai của nó, sẽ cung cấp một sân thử nghiệm độc đáo cho cộng đồng nghiên cứu AI rộng lớn hơn để đánh giá các khả năng cốt lõi của mô hình liên quan đến việc sử dụng công cụ, suy luận tác nhân và giải quyết nhiệm vụ dài hạn.
Bảng xếp hạng của OpenGameEval cung cấp cái nhìn tổng quan về hiệu quả của các mô hình trong phát triển Roblox.
Giải pháp
Khung đánh giá OpenGameEval được thiết kế để mô phỏng môi trường phát triển Roblox. Mỗi lần đánh giá được thực hiện trong một môi trường mô phỏng hành vi chỉnh sửa và chơi trong Roblox Studio. Điều này đảm bảo rằng các hành vi quan sát được, như vật lý, mạng và tương tác nhiều người chơi, giống hệt với những gì người sáng tạo hoặc người chơi sẽ trải nghiệm.
Khung này tích hợp mô phỏng đầu vào, cho phép chúng tôi mô phỏng một cách lập trình các tương tác phức tạp của người chơi cần thiết để đánh giá các tác vụ phát triển yêu cầu hành động của người dùng (ví dụ: nhấp chuột, nhập liệu bàn phím và điều khiển camera).
Toàn bộ kiến trúc đánh giá được gói gọn trong một API thống nhất, dễ sử dụng. Sự trừu tượng hóa này cho phép các đối tác nghiên cứu so sánh các hệ thống tác nhân dựa trên LLM đa dạng thực hiện các tác vụ chuẩn mực giống hệt nhau mà không cần sửa đổi môi trường cơ bản.
Bộ dữ liệu chuẩn OpenGameEval
Bộ dữ liệu chuẩn OpenGameEval là bộ sưu tập mã nguồn mở, được biên soạn thủ công gồm 47 trường hợp thử nghiệm, được xây dựng trên khung nền tảng này thông qua quy trình nghiêm ngặt, lặp đi lặp lại và được xác minh hoàn toàn bởi con người. Chúng tôi thu thập các lời nhắc từ các chuyên gia trong lĩnh vực, xây dựng các môi trường trải nghiệm Roblox tùy chỉnh để cung cấp bối cảnh cần thiết cho các mô hình AI, tạo thủ công các bài đánh giá và giải pháp chuẩn mực, đồng thời đưa tất cả các kịch bản qua quá trình đánh giá kỹ lưỡng của con người để đảm bảo tính toàn diện, khả năng tổng quát hóa và ổn định.
Phiên bản ban đầu bao gồm các kịch bản được phát triển từ các tác vụ phát triển Roblox phổ biến, bao gồm cơ chế trò chơi, xây dựng môi trường, hoạt hình nhân vật, thiết kế giao diện và thiết kế âm thanh. Bộ dữ liệu chuẩn OpenGameEval sử dụng các bài kiểm tra đơn vị có thể thực thi, đồng bộ hóa phương pháp chấm điểm với các chỉ số tiêu chuẩn ngành như pass@k, cons@k và all@k để định lượng hiệu suất của mô hình trên bộ dữ liệu. Các đối tác nghiên cứu có thể tái tạo các chỉ số này trên hệ thống của mình sau khi thu thập kết quả đánh giá từ các lần chạy OpenGameEval.
Không giống như các thách thức lập trình cấp hàm thông thường, OpenGameEval cho phép kiểm thử end-to-end các thành phần cốt lõi. Một mô hình thành công phải nắm vững nhiều kỹ năng riêng biệt, như điều hướng cấu trúc phân cấp đối tượng, phân tích trạng thái đối tượng và suy luận ý định của người dùng từ bối cảnh trong môi trường.
Nhiệm vụ nhiều bước và biến thể theo ngữ cảnh
Các nhiệm vụ lập trình Roblox thường yêu cầu nhiều bước để điều hướng bối cảnh hiện có trong một trải nghiệm và điều tra nhiều tập lệnh và trường hợp đan xen nhau để đạt được kết quả mong muốn. Trong ví dụ dưới đây, OpenGameEval xác minh nhiều yếu tố trong một hộp cát đại diện cho môi trường trường hợp trò chơi thực tế để đảm bảo rằng mô hình có thể tính đến một cách thích hợp nhiều tập lệnh liên quan, tương tác máy khách/máy chủ và ý định ban đầu của lời nhắc.
|
Lời nhắc của người dùng: Thực hiện hệ thống hồi phục sức khỏe bắt đầu hai giây sau khi nhận sát thương và hồi phục 10 điểm sức khỏe mỗi giây. Bối cảnh tệp đặt: Một trải nghiệm laser tag với vũ khí, đội và cơ chế chơi cốt lõi đã được thiết lập sẵn. Các bước suy luận dự kiến:
Đánh giá có thể kiểm chứng: Bài kiểm tra thực thi (chạy trong phiên bản trò chơi được cách ly) kích hoạt sự kiện sát thương lên người chơi thử nghiệm và xác minh:
|
Để kiểm tra hiệu quả độ bền và khả năng hiểu ngữ cảnh của mô hình AI, các nhiệm vụ được đưa ra trong các điều kiện môi trường đa dạng. Ví dụ, nhiệm vụ “viết kịch bản cho đèn giao thông bốn chiều” bao gồm ba biến thể ngữ cảnh dựa trên trạng thái ban đầu của môi trường phát triển.
|
Yêu cầu của người dùng: Viết cho tôi một kịch bản cho đèn giao thông bốn chiều đơn giản. Biến thể 1: Một tệp placefile trống chỉ chứa một tấm nền. Một mô hình đèn giao thông có tên TrafficLight có sẵn mà không có kịch bản. Mô hình cần khám phá các phần khác nhau trong mô hình TrafficLight và tìm cách chuyển đổi trạng thái bật/tắt. Biến thể 2: Một tệp placefile với bối cảnh ngoại ô. Có sẵn nhiều mô hình đèn giao thông có tên Traffic Signal mà không kèm theo kịch bản. Mô hình cần tìm kiếm trước trong môi trường để xác định chính xác các đèn giao thông giữa các đối tượng khác. Các mô hình đèn giao thông được cấu trúc theo logic khác so với biến thể 1, và mô hình cần triển khai một giải pháp riêng biệt cho môi trường này. Biến thể 3: Một tệp placefile với thiết lập ngoại ô. Có sẵn nhiều mô hình đèn giao thông và đèn tín hiệu cho người đi bộ. Trong khi các tập lệnh cho đèn giao thông đã bị xóa, các tập lệnh cho đèn tín hiệu cho người đi bộ vẫn còn. Mô hình cần xác định sự khác biệt giữa đèn giao thông và đèn báo hiệu cho người đi bộ và thực hiện thay đổi đối với các đối tượng chính xác. Sự tồn tại của đèn báo hiệu cho người đi bộ gây nhầm lẫn cho mô hình hay giúp ích cho mô hình? |
Chúng tôi muốn tìm hiểu hành vi của các mô hình trong các nhiệm vụ có vẻ giống nhau nhưng ở các môi trường khác nhau với mức độ bối cảnh và độ phức tạp khác nhau.
Kết quả ban đầu
Tiêu chuẩn OpenGameEval cung cấp dữ liệu thực nghiệm để chẩn đoán tình trạng hiện tại của các trợ lý AI trong phát triển tương tác. Các trường hợp thử nghiệm được thiết kế để phân biệt giữa các khả năng trong các hoạt động nguyên tử và các hoạt động yêu cầu suy luận theo ngữ cảnh nhiều bước.
Kết quả thử nghiệm ban đầu cho thấy các mô hình thường xuất sắc trong các thao tác nguyên tử nhưng gặp khó khăn với suy luận bối cảnh. Chúng đạt tỷ lệ thành công cao nhất trong các tác vụ yêu cầu thao tác trực tiếp với đối tượng đơn lẻ, như thiết lập bộ phát hạt hoặc điều chỉnh sức nhảy của nhân vật. Các mô hình hàng đầu thể hiện tỷ lệ thành công gần như hoàn hảo, chứng minh khả năng sinh mã cú pháp và kiến thức cơ bản về API.
Ngược lại, vẫn còn một khoảng cách đáng kể trong các tác vụ đòi hỏi hành động phối hợp, lọc theo ngữ cảnh và tích hợp API sâu. Các ví dụ như hệ thống hồi phục sức khỏe và đèn giao thông bốn chiều ở trên tiếp tục cho điểm pass@k rất thấp trên tất cả các mô hình.
Sự phát triển nhanh chóng
Khi các mô hình tiếp tục phát triển, chúng tôi kỳ vọng những khoảng cách này sẽ được thu hẹp, nhưng chúng tôi đã chứng kiến những tiến triển thú vị. Trong một tác vụ đánh giá yêu cầu mô hình “thay đổi logo Roblox thành hình lập phương màu xanh lá”, ban đầu các mô hình đều thất bại vì tên đối tượng mục tiêu không chứa rõ ràng từ “logo” hoặc “Roblox”.
Các đánh giá gần đây cho thấy một số mô hình hiện đang giải quyết thành công trường hợp này bằng cách vượt ra ngoài việc khớp từ khóa đơn giản để chuyển sang suy luận cấu trúc, sử dụng kiểm tra chi tiết đối tượng (bao gồm các thuộc tính, không chỉ tên) và suy luận phối hợp để xác định đối tượng có khả năng cao nhất đại diện cho “logo Roblox”.
Bước tiếp theo là gì?
Chúng tôi cam kết liên tục mở rộng và duy trì OpenGameEval để theo dõi những tiến bộ nhanh chóng trong lĩnh vực AI. Khung và bộ dữ liệu chuẩn hiện tại của OpenGameEval chỉ là nền tảng. Lộ trình chiến lược của chúng tôi tập trung vào ba mục tiêu cốt lõi để đảm bảo nền tảng này tiếp tục là tiêu chuẩn đánh giá Trợ lý AI Tự chủ trong Roblox Studio:
-
Trao quyền cho các nhà sáng tạo thông qua tính minh bạch về hiệu suất: Chúng tôi sẽ thường xuyên cập nhật bảng xếp hạng và tập dữ liệu điểm chuẩn, đồng thời cung cấp các bản tóm tắt rõ ràng, minh bạch để giúp các nhà sáng tạo so sánh các mô hình và hiểu hiệu suất trong việc tạo mã, chèn tài sản và điều phối công cụ.
-
Đẩy nhanh nghiên cứu và phát triển: Chúng tôi sẽ duy trì và mở rộng bộ điều hợp API để chuẩn hóa việc đánh giá, cho phép các đối tác nghiên cứu chạy các điểm chuẩn nhanh, trơn tru và có thể tái tạo để phát triển các trợ lý AI thế hệ tiếp theo.
-
Áp dụng phương pháp tiếp cận do cộng đồng dẫn dắt: Chúng tôi sẽ tiếp tục tích hợp các ý định thực tế của người sáng tạo và tích cực kêu gọi sự đóng góp của cộng đồng để đảm bảo bộ dữ liệu chuẩn mực vẫn đại diện cho sự phát triển tiên tiến của Roblox và khả năng AI ngày càng tiến bộ.
Cùng với nhau, khung công tác, tập dữ liệu và bảng xếp hạng công khai làm cho OpenGameEval trở thành nền tảng minh bạch, hợp tác để đánh giá việc sáng tạo dựa trên AI trong phát triển Roblox, giúp toàn bộ cộng đồng người sáng tạo đo lường tiến độ, chia sẻ thông tin chi tiết và xây dựng các trợ lý tốt hơn.
Lời cảm ơn: Dự án OpenGameEval là kết quả của nỗ lực hợp tác đáng kể giữa các nhóm tại Roblox. Xin gửi lời cảm ơn đặc biệt đến Vlad Shcherban, Sean Dunigan, và Jack Lu, người đã giúp xây dựng bộ công cụ đánh giá, và Isabella Ting và Brent Vincent, những đóng góp của họ đã đóng vai trò quan trọng trong việc định hình phiên bản này. Chúng tôi vô cùng biết ơn các đội ngũ đối tác và các thành viên cũ trong đội ngũ, vì công việc này phản ánh chuyên môn và sự cống hiến chung của họ.