최첨단 LLM, 로블록스(Roblox)의 무제한 텍스트 생성 기능 보호에 기여

Roblox Guard 1.0: 견고한 안전 장치를 통해 안전성 강화

작성자 마헤시 난드와나, 아담 맥팔린, 니샤이 칸나

게시일 2025. 7. 22.

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations

오늘, 개발자와 플랫폼을 위한 오픈소스 안전 툴킷인 'Roblox Guard 1.0'을 발표합니다.
Roblox Guard의 첫 번째 기능인, 대규모 언어 모델(LLM) 안전을 위한 최첨단(SOTA) 가드레일 모델이 이제 이용 가능하며, 주요 안전 벤치마크 전반에 걸쳐 새로운 기준을 제시합니다.
또한 안전성 벤치마킹을 위한 데이터셋인 'Roblox Guard-Eval'도 함께 공개합니다.

과제

최근 저희는 개발자가 대규모 언어 모델(LLM)의 힘을 활용해 경험 내에서 텍스트를 생성함으로써 더욱 풍부하고 몰입감 있는 경험을 구축할 수 있도록 지원하는 텍스트 생성 API를 출시했습니다. 예를 들어, 개발자는 완전한 상호작용이 가능한 NPC를 만들거나 게임 플레이 방법에 대한 대화형 튜토리얼을 제공할 수 있습니다.

로블록스는 제품이 로블록스의 높은 안전 및 예의 기준을 준수하도록 노력해 왔으며, 초기부터 플랫폼 내 대부분의 콘텐츠를 적극적으로 관리해 왔습니다. 텍스트 생성 API를 출시하기 전, 우리는 안전을 최우선으로 고려하여 시스템을 구축하는 방안을 모색했습니다. 이를 위해 입력(사용자의 프롬프트)과 출력(API에서 생성된 텍스트) 모두를 보호할 수 있는 새로운 모델을 개발했습니다.

혁신

Roblox Guard 1.0 툴킷의 첫 번째 기능은 텍스트 생성 API를 보호하기 위해 설계된 최첨단(SOTA) 지시어 미세 조정 LLM입니다. 이 모델은 프롬프트와 응답 두 단계에서 안전성 분류를 수행하여, 각 입력 또는 출력이 당사의 정책을 위반하는지 여부를 판단합니다. 이러한 이중 단계 평가는 사용자 쿼리와 모델이 직접 생성한 출력물을 모두 관리하는 데 필수적입니다.

현재 당사의 LLM은 표준 벤치마크에서 Meta의 Llama Guard, Google AI의 ShieldGemma, NVIDIA NeMo Guardrails, OpenAI의 GPT-4o 등 널리 알려진 LLM 가드레일 모델들을 능가하는 성능을 보이고 있습니다. 또한 Roblox Guard 1.0 LLM은 미처 다루지 못한 분류 체계가 포함된 도메인 외 데이터셋에서도 뛰어난 일반화 능력을 보여줍니다. 저희는 첫 번째 기능을 위한 LLM 가중치와 Roblox Guard-Eval 벤치마킹 데이터셋을 모두 오픈소스로 공개했습니다.

저희 시스템의 핵심은 Llama-3.1-8B-Instruct 모델을 기반으로 미세 조정된 LLM입니다. 저희는 안전 판단 성능을 최적화하기 위해 고품질 지시문 조정에 특히 중점을 두고 이 LLM을 훈련했습니다. 이 과정에서 중요한 단계는 다양한 실제 안전 시나리오를 반영하도록 프롬프트와 응답을 신중하게 선별하는 것이었습니다.

저희의 지시문 세트는 독점 데이터를 전혀 사용하지 않고, 합성(LLM 생성) 데이터와 오픈소스 데이터만을 조합하여 사용했습니다. 이를 통해 훈련 데이터를 더 쉽게 확장하고 확장 법칙을 활용할 수 있었으며, 결과적으로 이 첫 번째 Roblox Guard LLM을 SOTA(최첨단) 수준으로 만들었습니다. 다양한 오픈소스 및 합성 데이터 세트를 통합하는 과정에서, 작업의 다양성이 LLM이 다양한 유형의 프롬프트로 훈련하는 데 도움이 되므로 데이터셋별 분류 체계를 사용하는 것이 지시문을 큐레이션하는 최선의 접근 방식임을 확인했습니다. 그 결과, 다양한 안전 분류 체계에 일반화될 수 있는 견고한 모델이 탄생했습니다. 또한 모델이 자신의 추론 과정을 명확히 설명하도록 유도하는 '사고 연쇄(chain-of-thought)' 근거를 지침 세트에 통합했습니다. 이러한 중간 추론 단계들은 모델에 더 강력한 맥락적 기반을 제공했습니다.

결과

로블록스 안전 팀은 로블록스의 콘텐츠 안전 분류 체계 전반에 걸쳐 25개 하위 범주를 대표하는 맞춤형 고품질 평가 데이터셋을 개발했습니다. 이 평가 데이터셋은 내부 레드팀(red-teaming)을 통해 생성되었으며, 이는 악의적인 공격을 시뮬레이션하여 시스템의 취약점을 찾아내는 방식으로 시스템을 테스트하는 과정입니다. 또한 이 데이터셋에는 사용자 생성 데이터나 개인 정보가 포함되어 있지 않습니다. 이 평가 데이터셋에는 프롬프트와 응답 쌍이 포함되어 있으며, 응답은 품질을 보장하기 위해 정책 전문가 그룹이 직접 라벨링했습니다. 이 데이터셋은 광범위한 위반 유형을 아우르며, 평가를 위한 더 정확하고 의미 있는 라벨을 생성하는 데 도움을 줍니다. 최종 평가 세트에는 2,873개의 예시가 포함되어 있습니다. 저희는 이 평가 데이터셋을 오픈소스로 공개했으며, 여기에는 LLM 안전 장치 및 콘텐츠 검토 시스템을 벤치마킹하는 데 도움이 되는 확장 가능한 안전 분류 체계가 포함되어 있습니다.

우리는 프롬프트와 응답 모두를 위한 포괄적인 오픈소스 데이터셋과 Roblox Guard-Eval을 사용하여 모델의 성능을 평가했습니다. 이를 통해 도메인 내 및 도메인 외 데이터셋 모두에서 모델의 성능을 평가할 수 있었습니다. 우리는 위반/비위반 이진 분류에 대한 F-1 점수로 결과를 보고합니다. 위 표에서는 여러 잘 알려진 모델과의 성능을 비교하고 있습니다. 이 첫 번째 Roblox Guard 기능은 도메인 외 데이터셋에 대해 일반화 성능을 발휘하며 다른 모델들을 능가합니다.

저희는 Roblox Guard 1.0 도구를 포함한 안전 시스템을 지속적으로 개선하고 있으며, 가까운 시일 내에 추가 기능을 출시할 계획입니다. 향후 업데이트 및 개선 사항과 오픈소스 릴리스에 대한 소식은 HuggingFace와 GitHub 페이지를 확인해 주시기 바랍니다.

최신

더 많은 결과

최첨단 LLM, 로블록스(Roblox)의 무제한 텍스트 생성 기능 보호에 기여

과제

혁신

결과

최첨단 LLM, 로블록스(Roblox)의 무제한 텍스트 생성 기능 보호에 기여

과제

혁신

결과

공학

22개 신규 언어 지원 및 향상된 탐지 기능을 통해 ‘Our Voice’ 안전 분류기를 업그레이드합니다

뉴스

로블록스의 현실 비전 가속화를 위해 선구적인 AI 창업자들이 합류

공학

CubePart: 개방형 어휘를 지원하는 부분 제어 가능 3D 생성기