오픈소스 음성 안전 모델에 더 많은 언어 지원 추가

작성자 나렌 코네루(Naren Koneru), 엔지니어링 부사장, 및 얀네 필코넨(Janne Pylkkonen)

게시일 2025. 4. 2.

저희는 오픈소스 음성 안전 분류기의 매개변수를 9,460만 개에서 1억 2,020만 개로 늘리고, 지원 언어를 7개 추가하여 업데이트하고 있습니다.
분류기의 첫 번째 버전 출시 이후, 오탐지율 1% 기준 영어 음성 채팅 데이터에서 리콜률 59.1%로 정확도를 높였습니다. 이는 이전 버전의 리콜률 30.9%에 비해 92% 향상된 수치입니다.

안전과 예의 바른 소통을 장려하는 것은 로블록스(Roblox)의 모든 활동에서 항상 핵심이 되어 왔습니다. 우리는 지난 20년 가까이 강력한 안전 시스템을 구축해 왔으며, 새로운 기술이 등장함에 따라 이를 지속적으로 발전시키고 있습니다. 2024년에는 부모 관리 기능 개편을 포함해 40개 이상의 안전 개선 사항을 출시했으며, 오늘 다시 한 번 해당 기능을 업데이트합니다. 또한 업계 최초로 공개된 오픈소스 음성 안전 분류기를 출시했으며, 이는 23,000회 이상 다운로드되었습니다. 오늘 우리는 정확도가 더욱 향상되고 더 많은 언어를 지원하는 업데이트된 버전을 공개합니다.

이 분류기를 포함해 사용자를 보호하는 많은 안전 시스템은 AI 모델을 기반으로 합니다. 우리는 AI 안전 기술의 발전을 공유하는 것이 업계 전체에 도움이 된다는 점을 잘 알고 있기에, 이러한 기술 중 일부를 오픈소스로 공개합니다. 또한 이것이 바로 우리가 최근 오픈소스 안전 도구를 장려하여 디지털 안전의 중요한 영역을 해결하는 데 전념하는 새로운 비영리 단체인 ROOST에 창립 파트너로 합류한 이유이기도 합니다.

전 세계에서 매일 우리 플랫폼에서 발생하는 방대한 양의 콘텐츠와 상호작용을 관리할 때, AI는 사용자 안전을 지키는 데 필수적인 요소입니다. 저희는 구축한 모델들이 이러한 필요를 충족하는 데 도움이 되고 있다고 확신합니다. 예를 들어, 2024년 4분기 동안 로블록스 사용자들은 3,000억 건의 콘텐츠를 업로드했습니다. 이 수십억 건의 동영상, 오디오, 텍스트, 음성 채팅, 아바타, 3D 경험 중 단 0.01%만이 당사의 정책을 위반한 것으로 탐지되었습니다. 그리고 정책 위반 콘텐츠의 거의 전부가 사용자가 이를 보기 전에 자동으로 사전 검열되어 제거되었습니다.

저희는 음성 안전 분류기의 오픈소스 버전을 업데이트하여 정확도를 높이고 더 다양한 언어로 콘텐츠를 관리할 수 있도록 했습니다. 새로운 모델은 다음과 같은 기능을 제공합니다:

다국어 데이터로 훈련되어 스페인어, 독일어, 프랑스어, 포르투갈어, 이탈리아어, 한국어, 일본어 등 7개 언어를 추가로 지원합니다.
전체 리콜률이 59.1%로 향상되었으며, 이는 이전 버전의 30.9%에 비해 92% 개선된 수치이며 오탐률은 낮습니다.
대규모 서비스 제공에 최적화되어, 피크 시간대에는 초당 최대 8,300건의 요청(대부분 위반 사항이 없음)을 처리합니다.

첫 번째 모델 출시 이후, 미국 사용자들 사이에서 음성 1시간당 악용 신고율이 50% 이상 감소했습니다. 또한 이 모델 덕분에 매일 수백만 분에 달하는 음성 채팅을 인간 운영자보다 더 정확하게 관리할 수 있게 되었습니다. Google은 안전 시스템을 지속적으로 발전시키고 있으며, 오픈 소스 버전도 계속 업데이트할 예정입니다.

효율적인 다국어 음성 안전 분류기

당사의 초기 오픈소스 음성 안전 분류기는 WavLM base+ 모델을 기반으로 하며, 기계 라벨링된 영어 음성 채팅 오디오 샘플로 미세 조정되었습니다. 이 엔드투엔드 아키텍처의 고무적인 결과는 맞춤형 아키텍처를 활용한 추가 실험으로 이어졌습니다. 당사는 지식 증류(knowledge distillation)를 사용하여 모델의 복잡성과 정확도를 최적화했으며, 이는 대규모 추론 서비스에 적합합니다. 새로운 분류기는 이러한 기본 구성 요소를 활용하며, 데이터 활용 및 아키텍처 개선 측면에서 기존 작업을 확장하고 발전시켰습니다.

다국어 데이터로 훈련함으로써, 우리의 단일 분류기 모델은 지원되는 상위 8개 언어 중 어느 것이든 원활하게 처리할 수 있습니다. 또한 훈련 과정의 개선을 통해, 이 모델은 첫 번째 버전보다 정확도가 높아졌을 뿐만 아니라 일반적인 추론 시나리오에서 실행 속도가 20%에서 30% 더 빨라졌습니다.

새로운 음성 안전성 분류기는 여전히 WavLM 아키텍처를 기반으로 하지만, 레이어 구성은 이전 릴리스 및 WavLM 사전 학습 모델들과는 다릅니다. 특히, 트랜스포머 레이어의 내부 시간 해상도를 낮추기 위해 추가적인 컨볼루션 레이어를 도입했습니다. 전체적으로 새로운 모델 아키텍처는 1억 2,020만 개의 매개변수를 갖는데, 이는 이전 버전의 9,460만 개에 비해 27% 증가한 수치입니다. 이러한 증가에도 불구하고, 새로운 모델은 4~15초 길이의 입력 세그먼트에 적용할 때 연산 시간이 20~30% 단축됩니다. 이는 모델이 입력 신호를 이전보다 더 짧은 표현으로 압축하기 때문에 가능합니다.

다양한 라벨링 전략 활용

엔드투엔드 모델의 지도 학습에는 선별된 오디오-클래스 라벨 쌍이 필요합니다. 우리는 라벨링된 데이터의 안정적인 유입을 보장하기 위해 데이터 파이프라인을 대폭 개선했습니다. 훈련 자료의 기반은 지원 언어로 구성된 10만 시간 이상의 음성 데이터로 이루어진 대규모 기계 라벨링 데이터셋입니다. 우리는 음성을 자동으로 전사한 후, 원하는 정책 및 유해성 범주를 공유하는 사내 텍스트 기반 유해성 분류기를 통해 이를 처리했습니다. 데이터 수집 시 정상적인 음성보다 유해한 콘텐츠를 더 높은 확률로 샘플링하여, 경계 사례와 덜 흔한 정책 위반 사례를 더 잘 포착할 수 있도록 했습니다.

음성 트랜스크립트와 텍스트 기반 분류에 기반한 라벨링만으로는 음성 채팅 콘텐츠에서 관찰되는 미묘한 차이를 완전히 포착할 수 없습니다. 따라서 우리는 이전 훈련 단계에서 모델을 미세 조정하기 위해 사람이 직접 라벨링한 데이터를 활용했습니다. 분류 작업 자체는 동일하지만, 후자의 훈련 단계는 결정 경계를 정교화하고 음성 채팅 특유의 표현에 대한 반응성을 강화하는 데 도움이 됩니다. 이는 귀중한 사람이 직접 라벨링한 예시로부터 최대한의 이점을 얻을 수 있도록 돕는 일종의 커리큘럼 학습 방식입니다.

엔드투엔드 모델 훈련의 한 가지 과제는 라벨링 정책이 시간이 지남에 따라 변경될 경우 대상 라벨이 더 이상 유효하지 않게 될 수 있다는 점입니다. 따라서 허용 가능한 음성 정책을 개선해 나가는 과정에서, 구형 라벨링 표준을 사용하는 데이터에 대해서는 특별한 처리가 필요합니다. 이를 위해 우리는 모델이 현재의 음성 채팅 정책과 일치하지 않는 데이터셋에서도 학습할 수 있도록 하는 다중 작업(multitask) 접근 방식을 활용했습니다. 이는 구 정책 전용의 별도 분류 헤드를 할당하여, 모델 트렁크가 대상 레이블이나 주 헤드에 영향을 주지 않고 구 데이터셋으로부터 학습할 수 있도록 하는 방식입니다.

더 쉬운 배포를 위한 보정된 모델

분류 모델을 사용하려면 작동 지점을 결정하고 작업 요구 사항에 따라 분류기의 민감도를 조정해야 합니다. 모델 배포를 용이하게 하기 위해, 우리는 음성 채팅 관리에 최적화되도록 모델 출력을 보정했습니다. 우리는 검증용 데이터셋을 사용하여 각 출력 헤드와 지원 언어별로 별도로 단계적 선형 변환을 추정했습니다. 이러한 변환은 모델 증류 과정에서 적용되어 최종 모델이 기본적으로 보정되도록 보장했습니다. 이를 통해 추론 단계에서의 후처리 과정이 필요 없어졌습니다.

이 새로운 오픈소스 모델을 커뮤니티와 공유하게 되어 기쁘며, 향후 업데이트가 있을 때마다 이를 공유할 수 있기를 기대합니다.

최신

더 많은 결과

오픈소스 음성 안전 모델에 더 많은 언어 지원 추가

효율적인 다국어 음성 안전 분류기

다양한 라벨링 전략 활용

더 쉬운 배포를 위한 보정된 모델

오픈소스 음성 안전 모델에 더 많은 언어 지원 추가

효율적인 다국어 음성 안전 분류기

다양한 라벨링 전략 활용

더 쉬운 배포를 위한 보정된 모델

공학

22개 신규 언어 지원 및 향상된 탐지 기능을 통해 ‘Our Voice’ 안전 분류기를 업그레이드합니다

뉴스

로블록스의 현실 비전 가속화를 위해 선구적인 AI 창업자들이 합류

공학

CubePart: 개방형 어휘를 지원하는 부분 제어 가능 3D 생성기