ఈ సైట్‌లోని విషయాలు కృత్రిమ మేధస్సు (AI) లేదా యంత్ర అనువాద సాంకేతికత ఉపయోగించి అనువదించబడ్డాయి మరియు లోపాలు ఉండవచ్చు.

Skip to content

మా ఓపెన్-సోర్స్ వాయిస్ భద్రతా నమూనా కోసం మరిన్ని భాషలను ప్రారంభించడం

  • మేము మా ఓపెన్-సోర్స్ వాయిస్ సేఫ్టీ క్లాసిఫైయర్ యొక్క పారామితులను 94.6 మిలియన్ల నుండి 120.2 మిలియన్లకు పెంచడం ద్వారా మరియు దానిని ఏడు అదనపు భాషలకు విస్తరించడం ద్వారా అప్‌డేట్ చేస్తున్నాము.
  • క్లాసిఫైయర్ యొక్క మొదటి వెర్షన్ నుండి, మేము 1% ఫాల్స్-పాజిటివ్ రేటు వద్ద ఇంగ్లీష్-భాషా వాయిస్ చాట్ డేటాపై కచ్చితత్వాన్ని 59.1% రికాలకు పెంచాము. ఇది మునుపటి విడుదల యొక్క 30.9% రికాలతో పోలిస్తే 92% మెరుగుదల.

రాబ్లాక్స్‌లో మేము చేసే ప్రతి పనిలో భద్రతను మరియు మర్యాదను ప్రోత్సహించడం ఎల్లప్పుడూ పునాదిగా ఉంది. మేము బలమైన భద్రతా వ్యవస్థలను నిర్మించడానికి దాదాపు రెండు దశాబ్దాలుగా కృషి చేస్తున్నాము, మరియు కొత్త సాంకేతికత అందుబాటులోకి వచ్చినప్పుడు వాటిని నిరంతరం అభివృద్ధి చేస్తూ, మెరుగుపరుస్తూ ఉన్నాము. 2024లో, మేము 40కి పైగా భద్రతా మెరుగుదలలను అందించాము, వాటిలో మా పేరెంటల్ కంట్రోల్స్‌కు చేసిన పునరుద్ధరణ కూడా ఉంది, దానిని ఈ రోజు మేము మళ్లీ అప్‌డేట్ చేస్తున్నాము. మేము పరిశ్రమలోనే మొట్టమొదటి ఓపెన్-సోర్స్ వాయిస్ సేఫ్టీ క్లాసిఫైయర్‌లలో ఒకదానిని కూడా ప్రారంభించాము, దీనిని 23,000 కంటే ఎక్కువ సార్లు డౌన్‌లోడ్ చేసుకున్నారు. ఈ రోజు, మేము ఒక నవీకరించబడిన వెర్షన్‌ను విడుదల చేస్తున్నాము, ఇది మరింత కచ్చితమైనది మరియు మరిన్ని భాషలలో పనిచేస్తుంది.

మా వినియోగదారులను రక్షించడంలో సహాయపడే అనేక భద్రతా వ్యవస్థలు, ఈ క్లాసిఫైయర్‌తో సహా, AI మోడళ్ల ద్వారా ఆధారితమై ఉన్నాయి. AI భద్రతా పురోగతిని పంచుకోవడం మన పరిశ్రమ మొత్తానికి ప్రయోజనం చేకూరుస్తుందని మాకు తెలుసు కాబట్టి, వీటిలో కొన్నింటిని మేము ఓపెన్ సోర్స్ చేస్తాము. అందుకే మేము ఇటీవల ఓపెన్ సోర్స్ భద్రతా సాధనాలను ప్రోత్సహించడం ద్వారా డిజిటల్ భద్రతలోని ముఖ్యమైన రంగాలను పరిష్కరించడానికి అంకితమైన ఒక కొత్త లాభాపేక్షలేని సంస్థ అయిన రూస్ట్‌లో (ROOST) వ్యవస్థాపక భాగస్వామిగా చేరాము.

ప్రపంచవ్యాప్తంగా ప్రతిరోజూ మా ప్లాట్‌ఫారమ్‌లో జరిగే కంటెంట్ మరియు పరస్పర చర్యల పరిమాణాన్ని నిర్వహించడంలో, వినియోగదారులను సురక్షితంగా ఉంచడానికి AI ఒక ముఖ్యమైన అంశం. మేము నిర్మించిన మోడళ్లు మా అవసరాలకు మద్దతు ఇస్తున్నాయని మేము నమ్మకంగా ఉన్నాము. ఉదాహరణకు, 2024 నాలుగవ త్రైమాసికంలో, రోబ్లాక్స్ వినియోగదారులు 300 బిలియన్ల కంటెంట్ ముక్కలను అప్‌లోడ్ చేశారు. ఆ బిలియన్ల కొద్దీ వీడియోలు, ఆడియోలు, టెక్స్ట్‌లు, వాయిస్ చాట్‌లు, అవతారాలు మరియు 3D అనుభవాలలో కేవలం 0.01% మాత్రమే మా విధానాలను ఉల్లంఘించినట్లు గుర్తించబడ్డాయి. మరియు వినియోగదారులు దానిని చూడక ముందే, విధానాలను ఉల్లంఘించిన ఆ కంటెంట్ దాదాపు పూర్తిగా స్వయంచాలకంగా ప్రీస్క్రీన్ చేయబడి, తొలగించబడింది.  

మా వాయిస్ సేఫ్టీ క్లాసిఫైయర్ యొక్క ఓపెన్-సోర్స్ వెర్షన్‌ను మరింత కచ్చితంగా చేయడానికి మరియు మరిన్ని భాషలలో కంటెంట్‌ను మోడరేట్ చేయడంలో మాకు సహాయపడటానికి మేము నవీకరించాము. కొత్త మోడల్:

  • బహుభాషా డేటాపై శిక్షణకు ధన్యవాదాలు, ఇది అదనంగా ఏడు భాషలలో—స్పానిష్, జర్మన్, ఫ్రెంచ్, పోర్చుగీస్, ఇటాలియన్, కొరియన్ మరియు జపనీస్—ఉల్లంఘనలను గుర్తిస్తుంది.
  • ఇది 59.1% మొత్తం రికాల రేటును కలిగి ఉంది, ఇది మునుపటి విడుదలలోని 30.9% రికాలతో పోలిస్తే 92% మెరుగుదల, మరియు తక్కువ ఫాల్స్-పాజిటివ్ రేట్లను కలిగి ఉంది.
  • ఇది పెద్ద ఎత్తున సేవలను అందించడానికి ఆప్టిమైజ్ చేయబడింది, గరిష్టంగా సెకనుకు 8,300 అభ్యర్థనలను (వాటిలో ఎక్కువ భాగం ఉల్లంఘనలు ఉండవు) అందిస్తుంది.

మొదటి మోడల్ విడుదలైనప్పటి నుండి, U.S. వినియోగదారులలో ప్రతి గంట మాటలలో దుర్వినియోగ నివేదికల రేట్లు 50% కంటే ఎక్కువ తగ్గడం మేము చూశాము. ఇది మానవ మోడరేటర్ల కంటే మరింత కచ్చితంగా రోజుకు లక్షలాది నిమిషాల వాయిస్ చాట్‌ను నియంత్రించడానికి కూడా మాకు సహాయపడింది. మేము మా భద్రతా వ్యవస్థలను అభివృద్ధి చేయడం ఎప్పటికీ ఆపము మరియు ఓపెన్-సోర్స్ వెర్షన్‌ను కూడా అప్‌డేట్ చేస్తూనే ఉంటాము.

సమర్థవంతమైన బహుభాషా వాయిస్ భద్రతా వర్గీకర్త

మా ప్రారంభ ఓపెన్-సోర్స్ వాయిస్ సేఫ్టీ క్లాసిఫైయర్, మెషిన్-లేబుల్డ్ ఇంగ్లీష్-భాషా వాయిస్ చాట్ ఆడియో నమూనాలతో ఫైన్-ట్యూన్ చేయబడిన WavLM బేస్+ మోడల్‌పై ఆధారపడి ఉంది. ఈ ఎండ్-టు-ఎండ్ ఆర్కిటెక్చర్ యొక్క ప్రోత్సాహకరమైన ఫలితాలు, కస్టమైజ్డ్ ఆర్కిటెక్చర్‌తో మరిన్ని ప్రయోగాలకు దారితీశాయి. మేము మోడల్ యొక్క సంక్లిష్టత మరియు ఖచ్చితత్వాన్ని ఆప్టిమైజ్ చేయడానికి నాలెడ్జ్ డిస్టిలేషన్‌ను ఉపయోగించాము, ఇది పెద్ద-స్థాయి ఇన్‌ఫరెన్స్ సర్వీసింగ్ కోసం ఆకర్షణీయంగా ఉంది. మా కొత్త క్లాసిఫైయర్ ఈ ప్రాథమిక నిర్మాణ భాగాలను ఉపయోగిస్తుంది, మరియు డేటా వినియోగం మరియు ఆర్కిటెక్చర్ మెరుగుదలలలో ఈ పనిని మరింతగా విస్తరిస్తుంది మరియు విస్తరింపజేస్తుంది.

బహుభాషా డేటాపై శిక్షణ ఇవ్వడం ద్వారా, మా ఏకైక క్లాసిఫైయర్ మోడల్ మా మద్దతు ఉన్న మొదటి ఎనిమిది భాషలలో దేనిపైనైనా సజావుగా పనిచేయగలదు. మరియు మా శిక్షణ మెరుగుదలల అర్థం, ఈ మోడల్ మొదటి వెర్షన్‌తో పోలిస్తే మరింత కచ్చితమైనది మరియు ఒక సాధారణ ఇన్‌ఫెరెన్స్ సందర్భంలో 20% నుండి 30% వేగంగా నడుస్తుంది.

కొత్త వాయిస్ సేఫ్టీ క్లాసిఫైయర్ ఇప్పటికీ WavLM ఆర్కిటెక్చర్‌పై ఆధారపడి ఉంది, కానీ లేయర్ కాన్ఫిగరేషన్ మునుపటి విడుదల మరియు WavLM ప్రీ-ట్రైన్డ్ మోడళ్ల నుండి భిన్నంగా ఉంటుంది. ప్రత్యేకంగా, ట్రాన్స్‌ఫార్మర్ లేయర్‌ల యొక్క అంతర్గత టైమ్ రిజల్యూషన్‌ను తగ్గించడానికి మేము ఒక అదనపు కన్వల్వుషనల్ లేయర్‌ను జోడించాము. మొత్తంగా, మా కొత్త మోడల్ ఆర్కిటెక్చర్‌లో 120.2 మిలియన్ పారామీటర్లు ఉన్నాయి, ఇది మునుపటి వెర్షన్‌లోని 94.6 మిలియన్లతో పోలిస్తే 27% పెరుగుదల. ఈ పెరుగుదల ఉన్నప్పటికీ, 4 నుండి 15-సెకన్ల ఇన్‌పుట్ సెగ్మెంట్‌లతో ఉపయోగించినప్పుడు కొత్త మోడల్ 20% నుండి 30% తక్కువ కంప్యూట్ సమయాన్ని తీసుకుంటుంది. ఇది సాధ్యమవుతోంది ఎందుకంటే మోడల్ ఇన్‌పుట్ సిగ్నల్‌ను మునుపటి కంటే చిన్న ప్రతినిధిత్వంలోకి సంపీడనం చేస్తుంది.

రకరకాల లేబులింగ్ వ్యూహాలను ఉపయోగించడం

ఎండ్-టు-ఎండ్ మోడల్ యొక్క పర్యవేక్షిత శిక్షణకు, ఆడియో మరియు క్లాస్ లేబుల్‌ల యొక్క ఎంపిక చేసిన జతలు అవసరం. మేము మా డేటా పైప్‌లైన్‌లో గణనీయమైన మెరుగుదలలను చేసాము, ఇది లేబుల్ చేయబడిన డేటా యొక్క స్థిరమైన ప్రవాహాన్ని నిర్ధారించింది. శిక్షణా మెటీరియల్ యొక్క పునాది, మద్దతు ఉన్న భాషలను కలిగి ఉన్న 100,000 గంటల కంటే ఎక్కువ స్పీచ్‌తో కూడిన పెద్ద మెషిన్-లేబుల్ చేయబడిన డేటాసెట్. మేము ఆ స్పీచ్‌ను స్వయంచాలకంగా ట్రాన్స్‌క్రిప్ట్ చేసి, మా ఇన్-హౌస్ టెక్స్ట్-ఆధారిత టాక్సిసిటీ క్లాసిఫైయర్ ద్వారా పంపాము, ఇది కావలసిన పాలసీ మరియు టాక్సిసిటీ వర్గాలను పంచుకుంటుంది. ఎడ్జ్ కేసులను మరియు తక్కువ సాధారణ పాలసీ ఉల్లంఘనలను మెరుగ్గా పట్టుకోవడానికి, ఈ డేటా సేకరణ సాధారణ స్పీచ్ కంటే దుర్వినియోగ కంటెంట్‌ను అధిక సంభావ్యతతో సేకరిస్తుంది.

స్పీచ్ ట్రాన్స్క్రిప్ట్‌లు మరియు టెక్స్ట్-ఆధారిత వర్గీకరణపై ఆధారపడిన లేబుల్స్, వాయిస్ చాట్ కంటెంట్‌లో గమనించిన సూక్ష్మభేదాలను పూర్తిగా గ్రహించలేవు. కాబట్టి మేము మునుపటి శిక్షణా దశ నుండి మోడల్‌ను ఫైన్-ట్యూన్ చేయడానికి మానవ-లేబుల్ చేయబడిన డేటాను ఉపయోగించాము. వర్గీకరణ పని అదే అయినప్పటికీ, రెండవ శిక్షణా దశ నిర్ణయ సరిహద్దులను మెరుగుపరచడానికి మరియు వాయిస్ చాట్‌కు ప్రత్యేకమైన భావప్రకటనలకు ప్రతిస్పందనను నొక్కి చెప్పడానికి సహాయపడుతుంది. ఇది ఒక రకమైన కరికులం లెర్నింగ్, ఇది విలువైన మానవ-లేబుల్ చేయబడిన ఉదాహరణల నుండి గరిష్ట ప్రయోజనం పొందడానికి మాకు సహాయపడుతుంది.

ఎండ్-టు-ఎండ్ మోడల్ శిక్షణలో ఒక సవాలు ఏమిటంటే, కాలక్రమేణా లేబులింగ్ విధానం మారితే లక్ష్య లేబుల్స్ వాడుకలో లేకుండా పోవచ్చు. కాబట్టి మేము మా ఆమోదయోగ్యమైన వాయిస్ విధానాన్ని మెరుగుపరుస్తున్నప్పుడు, పాత లేబులింగ్ ప్రమాణాలను ఉపయోగించే డేటా కోసం ప్రత్యేక నిర్వహణ అవసరం. దీని కోసం, మేము ఒక మల్టీటాస్క్ విధానాన్ని ఉపయోగించాము, ఇది ప్రస్తుత వాయిస్ చాట్ విధానానికి సరిపోని డేటాసెట్‌ల నుండి మోడల్ నేర్చుకునేందుకు అనుమతిస్తుంది. ఇందులో పాత విధానం కోసం ఒక ప్రత్యేక వర్గీకరణ హెడ్‌ను కేటాయించడం, తద్వారా లక్షిత లేబుల్‌లు లేదా ప్రధాన హెడ్‌ను ప్రభావితం చేయకుండా మోడల్ ట్రంక్ పాత డేటాసెట్ నుండి నేర్చుకునేలా చేయడం జరుగుతుంది.

సులభమైన డిప్లాయ్‌మెంట్ కోసం ఒక కాలిబ్రేటెడ్ మోడల్

క్లాసిఫికేషన్ మోడల్‌ను ఉపయోగించడానికి, ఆపరేటింగ్ పాయింట్‌ను నిర్ణయించడం మరియు పని అవసరాలకు అనుగుణంగా క్లాసిఫైయర్ సెన్సిటివిటీని సరిపోల్చడం అవసరం. సులభమైన మోడల్ డిప్లాయ్‌మెంట్‌ను సులభతరం చేయడానికి, మేము మోడల్ అవుట్‌పుట్‌లను కేలిబ్రేట్ చేసాము, వాయిస్ చాట్ మోడరేషన్ కోసం ట్యూన్ చేసాము. మేము పక్కన పెట్టిన డేటాసెట్‌ నుండి పీస్‌వైజ్-లినియర్ ట్రాన్స్‌ఫార్మేషన్‌లను అంచనా వేసాము, ప్రతి అవుట్‌పుట్ హెడ్ మరియు మద్దతు ఉన్న భాషకు ప్రత్యేకంగా ఇలా చేసాము. ఈ ట్రాన్స్‌ఫార్మేషన్‌లను మోడల్ డిస్టిలేషన్ సమయంలో వర్తింపజేశారు, ఇది తుది మోడల్ నేటివ్‌గా కాలిబ్రేట్ చేయబడిందని నిర్ధారించింది. ఇది ఇన్‌ఫెరెన్స్ సమయంలో పోస్ట్-ప్రాసెసింగ్ అవసరాన్ని తొలగించింది.

ఈ కొత్త ఓపెన్-సోర్స్ మోడల్‌ను కమ్యూనిటీతో పంచుకోవడానికి మేము ఉత్సాహంగా ఉన్నాము మరియు మాకు అందిన కొత్త అప్‌డేట్‌లను కూడా పంచుకోవడానికి ఎదురుచూస్తున్నాము.