22 புதிய மொழிகள் மற்றும் கூர்மையான கண்டறிதல் திறன்களுடன் எங்கள் வாய்ஸ் சேஃப்டி கிளாசிஃபையரை மேம்படுத்துதல்
புதிய மொழிகள், 2 புதிய மீறல் வகைகள், மற்றும் 14% அதிக மீட்டெடுத்தல்

ராப்ளாக்ஸ், 30 மொழிகளில் தினமும் மில்லியன் கணக்கான நிமிடங்கள் குரல் தரவை எளிதாக்குகிறது, இது பெரிய அளவில் நிகழ்நேரப் பாதுகாப்பில் ஒரு மாபெரும் சவாலைக் குறிக்கிறது. கடந்த இரண்டு ஆண்டுகளில், எங்கள் உள் அமைப்புகள் கணிசமாக உருவாகியுள்ளன—94.6 மில்லியனிலிருந்து 320 மில்லியன் அளவுருக்கள் வரை வளர்ந்து, ஐந்திலிருந்து எட்டு கொள்கை மீறல் வகைகளாக விரிவடைந்து—இப்போது உச்சக்கட்டத்தில் வினாடிக்கு 10,000 கோரிக்கைகளைக் கையாளும் திறனை எட்டியுள்ளது.
தொழில் முழுவதும் குரல் பாதுகாப்பை மேம்படுத்த உதவுவதற்காக, 2024-ல் எங்கள் அடிப்படை குரல் பாதுகாப்பு வகைப்படுத்தி மாதிரியை ஓப்பன்-சோர்ஸ் செய்தோம். இன்று, அந்த மாதிரியின் v3 பதிப்பை வெளியிடுகிறோம். இது முந்தைய பதிப்புடன் ஒப்பிடும்போது, 14% அதிக மீட்டெடுத்தல் மற்றும் 5% அதிக துல்லியத்துடன், 22 புதிய மொழிகளுக்கும் இரண்டு கூடுதல் கொள்கை மீறல் வகைகளுக்கும் பயனர்களுக்கு ஆதரவை வழங்குகிறது.
V1 முதல் V3 மற்றும் அதற்கு அப்பாற்பட்டது
நிகழ்நேர குரல் பாதுகாப்பிற்கான ஒரு அமைப்பை உருவாக்க நாங்கள் தொடங்கியபோது, முதலில் ஆங்கிலத்தில் கவனம் செலுத்தினோம். அதிக அளவிலான பயிற்சித் தரவை உருவாக்க, ஒரு தானியங்கி இயந்திர-குறியிடும் குழாயை நாங்கள் உருவாக்கினோம். 2024-ல், திறந்த மூல மாதிரியின் v1, மாதிரிப் பயிற்சிக்காக 2,400 மணிநேர இயந்திர-குறியிடப்பட்ட ஆங்கிலத் தரவைப் பயன்படுத்தியது. ஆரம்ப வெளியீடு மற்றும் அறிவிப்புச் செயல்படுத்தலைத் தொடர்ந்து, அமெரிக்காவின் தவறாகப் பயன்படுத்துதல் அறிக்கை விகிதங்கள், பேச்சின் ஒரு மணி நேரத்திற்கு 50%-க்கும் அதிகமாகக் குறைந்தது.
2025-ல், நாங்கள் மேலும் பல மொழிகளைச் சேர்த்து, மாடலை மேலும் மெருகேற்றி, அதன் v2 பதிப்பை வெளியிட்டோம். 2026-ல், சமீபத்திய v3 மாடலைப் பயிற்றுவிக்க, 250,000 மணிநேர இயந்திர-குறியிடப்பட்ட பன்மொழித் தரவுகளையும், 29,000 மணிநேர மனித-குறியிடப்பட்ட பன்மொழித் தரவுகளையும் பயன்படுத்தினோம். ஒவ்வொரு மாடலும் மனித-குறியிடப்பட்ட தரவுத்தொகுப்புகளைப் பயன்படுத்தி மதிப்பீடு செய்யப்பட்டது.
ரோப்ளாக்ஸ் குரல் அரட்டை மொழிப் பங்கீட்டின்படி, 1% தவறான நேர்மறை விகிதத்தில், திறந்த மூல மாதிரியின் V3 ஆனது 61% மீட்டெடுப்பை அடைகிறது. ஒப்பீட்டிற்காக, மாதிரியின் v2 ஆதரிக்கும் மொழிகளை மட்டும் பயன்படுத்திப் பார்க்கும்போது, மொழிப் பரவலின்படி எடைபோட்ட மீட்டெடுப்பில் v3 ஆனது 14% சார்பு மேம்பாட்டைக் காட்டுகிறது.
குரல் பாதுகாப்பைத் தனித்தனியாகக் கையாளும் அளவுக்கு இது முக்கியமானதல்ல. பாதுகாப்புத் தொழில்நுட்பத்தில் ஏற்படும் முன்னேற்றங்களைப் பகிர்வது முழுத் துறையையும் வலுப்படுத்தும் என்று நாங்கள் நம்புவதால், எங்கள் குரல் பாதுகாப்பு வகைப்படுத்தியை ஓப்பன் சோர்ஸ் ஆக்கினோம் மற்றும் ROOST-இல் ஒரு நிறுவனப் பங்காளராக இணைந்தோம். முதல் வெளியீட்டிலிருந்து ஹக்கிங் ஃபேஸ் (Hugging Face) தளத்தில் இந்த மாதிரி 70,000 முறைக்கும் மேலாகப் பதிவிறக்கம் செய்யப்பட்டுள்ளது, மேலும் எங்கள் சமூகத்தில் எங்கள் உள் மாதிரிகளைப் பெரிய அளவில் இயக்கியதன் மூலம் நாங்கள் கற்றுக்கொண்டவற்றால் ஒவ்வொரு புதுப்பிப்பும் வடிவமைக்கப்பட்டுள்ளது. எங்கள் பாதுகாப்பு அமைப்புகளில் நாங்கள் தொடர்ந்து மேம்பாடுகளைச் செய்து வருகிறோம், மேலும் எதிர்காலத்தில் மேலும் பல புதுப்பிப்புகளைப் பகிர்ந்து கொள்ள ஆவலுடன் காத்திருக்கிறோம்.
நன்றியுரை: இந்தத் திட்டத்தில் அவர்களின் பணிக்காக தாமஸ் புய், மெகாத்ரிசா சட்டர்ஜி, பிரிட்ஜெட் டேலி, ஜேசன் கோலுபோக், ஹன்னஸ் ஹைகின்ஹெய்மோ, மாரெக் கபோல்கா, செரில் குவான், மார்கஸ் லாங், ஆஷ்னா ஷர்மா, ஹாவோ-என் சுங், டிங்டிங் டாங், மற்றும் அலெக்ஸ் டிரிம் ஆகியோருக்கு எங்கள் நன்றியைத் தெரிவித்துக் கொள்கிறோம்.


