எங்கள் திறந்த மூல குரல் பாதுகாப்பு மாதிரிக்கான கூடுதல் மொழிகளைத் தொடங்குதல்

- நாங்கள் எங்கள் திறந்த மூல குரல் பாதுகாப்பு வகைப்படுத்தியின் அளவுருக்களை 94.6 மில்லியனிலிருந்து 120.2 மில்லியனாக அதிகரித்து, அதை மேலும் ஏழு மொழிகளுக்கு விரிவுபடுத்துவதன் மூலம் புதுப்பித்து வருகிறோம்.
- வகைப்படுத்தியின் முதல் பதிப்பிலிருந்து, 1% தவறான-நேர்மறை விகிதத்தில் ஆங்கில மொழி குரல் அரட்டைத் தரவுகளில் 59.1% மீட்டெடுப்புடன் துல்லியத்தை அதிகரித்துள்ளோம். இது முந்தைய வெளியீட்டின் 30.9% மீட்டெடுப்பை விட 92% மேம்பாடு ஆகும்.
ரோப்லாக்ஸில் நாங்கள் செய்யும் அனைத்திற்கும் பாதுகாப்பையும் நாகரிகத்தையும் ஊக்குவிப்பது எப்போதும் அடித்தளமாக இருந்து வருகிறது. வலுவான பாதுகாப்பு அமைப்புகளை உருவாக்க நாங்கள் கிட்டத்தட்ட இரண்டு தசாப்தங்களாகச் செலவிட்டுள்ளோம், மேலும் புதிய தொழில்நுட்பங்கள் கிடைக்கும்போது அவற்றை நாங்கள் தொடர்ந்து வளர்த்து வருகிறோம். 2024-ல், 40-க்கும் மேற்பட்ட பாதுகாப்பு மேம்பாடுகளை நாங்கள் வழங்கினோம், இதில் எங்கள் பெற்றோர் கட்டுப்பாடுகளின் (Parental Controls) மேம்பாடும் அடங்கும், அதை இன்று மீண்டும் புதுப்பிக்கிறோம். மேலும், இந்தத் துறையின் முதல் திறந்த மூல குரல் பாதுகாப்பு வகைப்படுத்திகளில் ஒன்றையும் நாங்கள் அறிமுகப்படுத்தினோம், அது 23,000 க்கும் மேற்பட்ட முறை பதிவிறக்கம் செய்யப்பட்டுள்ளது. இன்று, நாங்கள் ஒரு புதுப்பிக்கப்பட்ட பதிப்பை வெளியிடுகிறோம், இது இன்னும் துல்லியமானது மற்றும் அதிக மொழிகளில் செயல்படுகிறது.
எங்கள் பயனர்களைப் பாதுகாக்க உதவும் பல பாதுகாப்பு அமைப்புகள், இந்த வகைப்படுத்தி உட்பட, AI மாதிரிகளால் இயக்கப்படுகின்றன. AI பாதுகாப்பு முன்னேற்றங்களைப் பகிர்வುದು எங்கள் முழுத் துறையிற்கும் பயனளிக்கும் என்பதை நாங்கள் அறிவதால், இவற்றில் சிலவற்றை நாங்கள் திறந்த மூலமாக வெளியிடுகிறோம். திறந்த மூல பாதுகாப்புக் கருவிகளை ஊக்குவிப்பதன் மூலம் டிஜிட்டல் பாதுகாப்பின் முக்கியப் பகுதிகளில் கவனம் செலுத்தும் ஒரு புதிய இலாப நோக்கற்ற நிறுவனமான ROOST-இல் நாங்கள் சமீபத்தில் ஒரு நிறுவனப் பங்காளராக இணைந்ததற்கும் இதுவே காரணம்.
உலகம் முழுவதும் ஒவ்வொரு நாளும் எங்கள் தளத்தில் நிகழும் உள்ளடக்கம் மற்றும் தொடர்புகளின் அளவை நிர்வகிக்கும்போது, பயனர்களைப் பாதுகாப்பாக வைத்திருக்க AI ஒரு இன்றியமையாத கூறு ஆகும். நாங்கள் உருவாக்கிய மாதிரிகள் எங்கள் தேவைகளை ஆதரிக்க உதவுகின்றன என்பதில் நாங்கள் நம்பிக்கையுடன் இருக்கிறோம். உதாரணமாக, 2024-இன் நான்காம் காலாண்டில், ரோப்லாக்ஸ் பயனர்கள் 300 பில்லியன் உள்ளடக்கத் துண்டுகளைப் பதிவேற்றினர். அந்த பில்லியன் கணக்கான வீடியோக்கள், ஆடியோக்கள், உரைகள், குரல் அரட்டைகள், அவதாரங்கள் மற்றும் 3D அனுபவங்களில் 0.01% மட்டுமே எங்கள் கொள்கைகளை மீறுவதாகக் கண்டறியப்பட்டது. மேலும், கொள்கைகளை மீறிய அந்த உள்ளடக்கத்தின் கிட்டத்தட்ட அனைத்தும், பயனர்கள் பார்ப்பதற்கு முன்பே தானாகவே முன்கூட்டியே சரிபார்க்கப்பட்டு நீக்கப்பட்டன.
எங்கள் குரல் பாதுகாப்பு வகைப்படுத்தியின் திறந்த மூலப் பதிப்பை, அதை மேலும் துல்லியமாக்கவும், மேலும் பல மொழிகளில் உள்ளடக்கத்தை நெறிப்படுத்த எங்களுக்கு உதவவும் நாங்கள் புதுப்பித்துள்ளோம். புதிய மாதிரி:
- பன்மொழித் தரவுகளில் பயிற்சி பெற்றதன் மூலம், ஸ்பானிஷ், ஜெர்மன், பிரெஞ்சு, போர்த்துகீசியம், இத்தாலியன், கொரியன் மற்றும் ஜப்பானிய என மேலும் ஏழு மொழிகளில் மீறல்களைக் கண்டறிகிறது.
- முந்தைய வெளியீட்டில் இருந்த 30.9% மீட்டெடுப்பு விகிதத்தை விட 92% மேம்பாடுடன், ஒட்டுமொத்த மீட்டெடுப்பு விகிதம் 59.1% ஆக அதிகரித்துள்ளது, மேலும் தவறான நேர்மறை விகிதங்கள் குறைவாக உள்ளன.
- பெரும் அளவிலான சேவைக்காக இது மேம்படுத்தப்பட்டுள்ளது, உச்ச நேரத்தில் வினாடிக்கு 8,300 கோரிக்கைகள் வரை (அவற்றில் பெரும்பாலானவை மீறல்களைக் கொண்டிருக்கவில்லை) சேவை செய்கிறது.
முதல் மாடல் வெளியிடப்பட்டதிலிருந்து, அமெரிக்கப் பயனர்களிடையே பேச்சின் ஒவ்வொரு மணி நேரத்திலும் துஷ்பிரயோக அறிக்கைகளின் விகிதத்தில் 50%-க்கும் அதிகமான குறைவைக் கண்டுள்ளோம். இது மனிதத் தணிக்கையாளர்களை விட, ஒரு நாளைக்கு மில்லியன் கணக்கான நிமிடங்கள் கொண்ட குரல் அரட்டைகளை மிகவும் துல்லியமாகத் தணிக்க எங்களுக்கு உதவியுள்ளது. எங்கள் பாதுகாப்பு அமைப்புகளை முன்னேற்றுவதை நாங்கள் ஒருபோதும் நிறுத்துவதில்லை, மேலும் திறந்த மூலப் பதிப்பையும் தொடர்ந்து புதுப்பிப்போம்.
திறமையான பலமொழி குரல் பாதுகாப்பு வகைப்படுத்தி
எங்களின் ஆரம்பகட்ட ஓப்பன்-சோர்ஸ் குரல் பாதுகாப்பு வகைப்படுத்தி, இயந்திரத்தால் லேபிளிடப்பட்ட ஆங்கில மொழி குரல் அரட்டை ஆடியோ மாதிரிகளைக் கொண்டு நுணுக்கமாகப் பயிற்றுவிக்கப்பட்ட ஒரு WavLM base+ மாடலை அடிப்படையாகக் கொண்டிருந்தது. இந்த எண்ட்-டு-எண்ட் கட்டமைப்பின் ஊக்கமளிக்கும் முடிவுகள், ஒரு தனிப்பயனாக்கப்பட்ட கட்டமைப்புடன் மேலும் சோதனைகளை மேற்கொள்ள வழிவகுத்தது. மாடலின் சிக்கலையும் துல்லியத்தையும் மேம்படுத்த நாங்கள் அறிவுப் பிழிவைப் பயன்படுத்தினோம், இது பெரிய அளவிலான இன்ஃபர்ன்ஸ் சர்வீஸிங்கிற்கு (inference serving) ஈர்க்கக்கூடியதாக உள்ளது. எங்கள் புதிய வகைப்படுத்தி இந்த அடிப்படைக் கட்டமைப்புக் கூறுகளைப் பயன்படுத்துகிறது, மேலும் தரவுப் பயன்பாடு மற்றும் கட்டமைப்பு மேம்பாடுகளில் இந்தப் பணியை விரிவுபடுத்தி மேம்படுத்துகிறது.
பன்மொழித் தரவுகளில் பயிற்சி செய்வதன் மூலம், எங்கள் ஒற்றை வகைப்படுத்தி மாதிரி எங்கள் எட்டு முக்கிய ஆதரவு மொழிகளில் ஏதேனும் ஒன்றில் தடையின்றி செயல்பட முடியும். மேலும், எங்கள் பயிற்சி மேம்பாடுகள் காரணமாக, இந்த மாதிரி முதல் பதிப்பை விட மிகவும் துல்லியமாகவும், ஒரு வழக்கமான அனுமானச் சூழலில் இயக்க 20% முதல் 30% வரை வேகமாகவும் உள்ளது.
புதிய குரல் பாதுகாப்பு வகைப்படுத்தி இன்னும் WavLM கட்டமைப்பை அடிப்படையாகக் கொண்டது, ஆனால் அடுக்கு உள்ளமைவு முந்தைய வெளியீடு மற்றும் WavLM முன்-பயிற்சி பெற்ற மாதிரிகளிலிருந்து விலகி உள்ளது. குறிப்பாக, டிரான்ஸ்ஃபார்மர் அடுக்குகளின் உள் நேர தீர்மானத்தை குறைக்க நாங்கள் ஒரு கூடுதல் சுருள்வடிவ அடுக்கைச் சேர்த்தோம். மொத்தத்தில், எங்கள் புதிய மாதிரி கட்டமைப்பு 120.2 மில்லியன் அளவுருக்களைக் கொண்டுள்ளது, இது முந்தைய பதிப்பில் இருந்த 94.6 மில்லியனுடன் ஒப்பிடும்போது 27% அதிகரிப்பாகும். இந்த அதிகரிப்பு இருந்தபோதிலும், 4 முதல் 15 வினாடி உள்ளீட்டுப் பகுதிகளுடன் பயன்படுத்தும்போது புதிய மாதிரி 20% முதல் 30% வரை குறைந்த கணக்கீட்டு நேரத்தை எடுத்துக்கொள்கிறது. மாதிரி முன்பை விட உள்ளீட்டு சிக்னலை ஒரு குறுகிய பிரதிநிதித்துவமாகச் சுருக்குவதால் இது சாத்தியமாகிறது.
பல்வேறு லேபிளிங் உத்திகளைப் பயன்படுத்துதல்
ஒரு எண்ட்-டு-எண்ட் மாதிரியின் மேற்பார்வைப் பயிற்சிக்கு, கவனமாகத் தேர்ந்தெடுக்கப்பட்ட ஆடியோ மற்றும் வகுப்பு லேபிள்களின் ஜோடிகள் தேவை. லேபிளிடப்பட்ட தரவின் சீரான ஓட்டத்தை உறுதிசெய்ய, எங்கள் தரவுப் பாதையில் குறிப்பிடத்தக்க மேம்பாடுகளைச் செய்தோம். பயிற்சிப் பொருளின் அடித்தளம், ஆதரிக்கப்படும் மொழிகளை உள்ளடக்கிய 100,000 மணி நேரத்திற்கும் மேலான பேச்சைக் கொண்ட, இயந்திரத்தால் லேபிளிடப்பட்ட ஒரு பெரிய தரவுத்தொகுப்பாகும். நாங்கள் பேச்சைத் தானாகவே எழுத்துப்பூர்வமாக மாற்றி, விரும்பிய கொள்கை மற்றும் நச்சுத்தன்மை வகைகளைப் பகிர்ந்து கொள்ளும் எங்கள் நிறுவனத்திற்குள் உள்ள உரை அடிப்படையிலான நச்சுத்தன்மை வகைப்படுத்தியின் மூலம் அதை இயக்கியோம். சாதாரண உரையை விட, தவறான உள்ளடக்கத்தை இந்தத் தரவு சேகரிப்பு அதிக நிகழ்தகவுடன் கண்டறிகிறது, இதன் மூலம் விளிம்புநிலை நிகழ்வுகள் மற்றும் அரிதான கொள்கை மீறல்களைச் சிறப்பாகப் பதிவுசெய்ய முடிகிறது.

பேச்சுப் பிரதிகளையும் உரை அடிப்படையிலான வகைப்படுத்தலையும் அடிப்படையாகக் கொண்ட லேபிள்கள், குரல் அரட்டை உள்ளடக்கத்தில் காணப்படும் நுணுக்கங்களை முழுமையாகப் புரிந்துகொள்ளாது. எனவே, முந்தைய பயிற்சி நிலையிலிருந்து மாதிரியை நுணுக்கமாகச் செம்மைப்படுத்த, மனிதர்களால் லேபிளிடப்பட்ட தரவைப் பயன்படுத்தினோம். வகைப்படுத்தல் பணி ஒன்றாக இருந்தாலும், பிந்தைய பயிற்சி நிலை, முடிவு எல்லைகளைச் செம்மைப்படுத்தவும், குரல் அரட்டைக்கு உரிய வெளிப்பாடுகளுக்கான பதிலளிப்புத்தன்மையை வலியுறுத்தவும் உதவுகிறது. இது ஒரு வகையான பாடத்திட்ட கற்றல் ஆகும், இது மதிப்புமிக்க மனித-லேபிளிடப்பட்ட எடுத்துக்காட்டுகளிலிருந்து அதிகபட்சப் பலனைப் பெற எங்களுக்கு உதவுகிறது.
எண்ட்-டு-எண்ட் மாதிரிப் பயிற்சியில் உள்ள ஒரு சவால் என்னவென்றால், காலப்போக்கில் லேபிளிங் கொள்கை மாறினால், இலக்கு லேபிள்கள் காலாவதியாகிவிடும். எனவே, எங்கள் ஏற்றுக்கொள்ளக்கூடிய குரல் கொள்கையை நாங்கள் செம்மைப்படுத்தும்போது, பழைய லேபிளிங் தரங்களைப் பயன்படுத்தும் தரவுகளுக்கு சிறப்புக் கையாளுதல் தேவைப்படுகிறது. இதற்காக, தற்போதைய குரல் அரட்டைக் கொள்கையுடன் பொருந்தாத தரவுத்தொகுப்புகளிலிருந்து மாதிரியைக் கற்றுக்கொள்ள அனுமதிக்கும் ஒரு பல-பணி அணுகுமுறையை நாங்கள் பயன்படுத்தினோம். இதில் பழைய கொள்கைக்காக ஒரு தனி வகைப்பாட்டுத் தலைப்பை ஒதுக்குவது அடங்கும், இது இலக்கு லேபிள்கள் அல்லது முதன்மைத் தலைப்பைப் பாதிக்காமல், பழைய தரவுத்தொகுப்பிலிருந்து மாதிரியின் தண்டு பகுதி கற்றுக்கொள்ள அனுமதிக்கிறது.
எளிதான வரிசைப்படுத்தலுக்கான ஒரு அளவீட்டு மாதிரி
வகைப்படுத்தல் மாதிரியைப் பயன்படுத்துவதற்கு, இயக்கப் புள்ளியைத் தீர்மானித்து, பணியின் தேவைகளுக்கு ஏற்ப வகைப்படுத்தியின் உணர்திறனைப் பொருத்த வேண்டும். எளிதான மாதிரி வரிசைப்படுத்தலை எளிதாக்க, குரல் அரட்டை நெறிப்படுத்தலுக்காகச் சரிசெய்யப்பட்ட மாதிரி வெளியீடுகளை நாங்கள் அளவீடு செய்தோம். தவிர்க்கப்பட்ட தரவுத்தொகுப்பிலிருந்து துண்டுகளாக-நேரியல் மாற்றங்களை நாங்கள் மதிப்பிட்டோம், இதை ஒவ்வொரு வெளியீட்டு ஹெட் மற்றும் ஆதரிக்கப்படும் மொழிக்கும் தனித்தனியாகச் செய்தோம். இந்த மாற்றங்கள் மாதிரிச் சுருக்கம் (model distillation) போது பயன்படுத்தப்பட்டன, இது இறுதி மாதிரி இயல்பாகவே அளவீடு செய்யப்பட்டிருப்பதை உறுதி செய்தது. இது பகுப்பாய்வு (inference) போது பிந்தைய செயலாக்கத்தின் தேவையை நீக்கியது.
இந்த புதிய திறந்த மூல மாதிரியை சமூகத்துடன் பகிர்வதில் நாங்கள் மகிழ்ச்சியடைகிறோம், மேலும் எங்களிடம் கிடைக்கும் எதிர்காலப் புதுப்பிப்புகளையும் பகிர்வதை ஆவலுடன் எதிர்பார்க்கிறோம்.


