ఈ సైట్‌లోని విషయాలు కృత్రిమ మేధస్సు (AI) లేదా యంత్ర అనువాద సాంకేతికత ఉపయోగించి అనువదించబడ్డాయి మరియు లోపాలు ఉండవచ్చు.

Skip to content

రాబ్లాక్స్‌లో అపరిమిత టెక్స్ట్ జనరేషన్‌ను భద్రపరచడంలో అత్యాధునిక LLM సహాయపడుతుంది

రాబ్లాక్స్ గార్డ్ 1.0: బలమైన గార్డ్‌రైల్స్‌తో భద్రతను ముందుకు తీసుకువెళ్లడం

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations
  • ఈ రోజు, మేము డెవలపర్‌లు మరియు ప్లాట్‌ఫారమ్‌ల కోసం ఒక ఓపెన్-సోర్స్ భద్రతా టూల్‌కిట్ అయిన రాబ్లాక్స్ గార్డ్ 1.0ను ప్రకటిస్తున్నాము.  
  • మొట్టమొదటి Roblox Guard సామర్థ్యం, LLM భద్రత కోసం ఒక అత్యాధునిక (SOTA) గార్డ్‌రైల్ మోడల్, ఇప్పుడు అందుబాటులో ఉంది, ఇది ప్రముఖ భద్రతా బెంచ్‌మార్క్‌లలో ఒక కొత్త ప్రమాణాన్ని నిర్దేశిస్తోంది.
  • మేము భద్రతా బెంచ్‌మార్కింగ్ కోసం Roblox Guard-Eval అనే డేటాసెట్‌ను కూడా విడుదల చేస్తున్నాము. 
సవాలు

మేము ఇటీవల ఒక టెక్స్ట్ జనరేషన్ APIని విడుదల చేశాము, ఇది డెవలపర్‌లు తమ అనుభవాలలో టెక్స్ట్‌ను రూపొందించడం ద్వారా మరింత మెరుగైన, ఆకర్షణీయమైన అనుభవాలను నిర్మించడానికి లార్జ్ లాంగ్వేజ్ మోడల్స్ (LLMs) శక్తిని ఉపయోగించుకోవడానికి వీలు కల్పిస్తుంది. ఉదాహరణకు, ఒక డెవలపర్ పూర్తిగా ఇంటరాక్టివ్ NPCని సృష్టించవచ్చు, లేదా గేమ్ ఎలా ఆడాలో తెలిపే ఇంటరాక్టివ్ ట్యుటోరియల్‌ను అందించవచ్చు.

మా ఉత్పత్తులను Roblox యొక్క ఉన్నత భద్రతా మరియు మర్యాద ప్రమాణాలకు అనుగుణంగా ఉంచడానికి మేము కృషి చేస్తున్నందున, Robloxలోని చాలా కంటెంట్‌ను మేము ప్రారంభ రోజుల నుండే చురుకుగా నియంత్రించాము. మేము టెక్స్ట్ జనరేషన్ APIని విడుదల చేయడానికి ముందు, భద్రతను మొదటగా ఎలా నిర్మించాలో పరిశీలించాము. మేము ఇన్‌పుట్‌లు (వినియోగదారుల నుండి ప్రోంప్ట్‌లు) మరియు అవుట్‌పుట్‌లు (API నుండి రూపొందించబడిన టెక్స్ట్) రెండింటినీ సురక్షితంగా ఉంచడంలో సహాయపడటానికి ఒక కొత్త మోడల్‌ను అభివృద్ధి చేశాము. 

ఆవిష్కరణ

రాబ్లాక్స్ గార్డ్ 1.0 టూల్‌కిట్‌లోని మొదటి సామర్థ్యం, ఒక SOTA ఇన్‌స్ట్రక్షన్ ఫైన్-ట్యూన్డ్ LLM, ఇది మా టెక్స్ట్ జనరేషన్ APIని భద్రపరచడంలో సహాయపడటానికి రూపొందించబడింది. ఇది ప్రాంప్ట్ మరియు ప్రతిస్పందన స్థాయిలలో రెండింటిలోనూ భద్రతా వర్గీకరణను నిర్వహిస్తుంది, ప్రతి ఇన్‌పుట్ లేదా అవుట్‌పుట్ మా విధానాలను ఉల్లంఘిస్తుందో లేదో నిర్ణయిస్తుంది. వినియోగదారుల ప్రశ్నలు మరియు మోడల్ స్వయంగా రూపొందించిన అవుట్‌పుట్‌లు రెండింటినీ మోడరేట్ చేయడానికి ఈ ద్వంద్వ-స్థాయి అంచనా చాలా అవసరం. 

మా LLM ప్రస్తుతం ప్రామాణిక బెంచ్‌మార్క్‌లలో మెటా నుండి లామా గార్డ్, గూగుల్ AI నుండి షీల్డ్‌జెమ్మా, NVIDIA NeMo గార్డ్‌రైల్స్, OpenAI నుండి GPT-4o మరియు ఇతర ప్రముఖ LLM గార్డ్‌రైల్ మోడల్‌లను అధిగమిస్తోంది. Roblox గార్డ్ 1.0 LLM, అపరిచిత టాక్సోనమీతో కూడిన అవుట్-ఆఫ్-డొమైన్ డేటాసెట్‌లపై కూడా బలమైన జనరలైజేషన్‌ను ప్రదర్శిస్తుంది. మేము మా మొదటి సామర్థ్యం కోసం LLM వెయిట్స్ మరియు మా Roblox Guard-Eval బెంచ్‌మార్కింగ్ డేటాసెట్‌ను రెండింటినీ ఓపెన్ సోర్స్ చేసాము. 

మా సిస్టమ్ యొక్క కేంద్రంలో, Llama-3.1-8B-Instruct మోడల్ నుండి ఫైన్-ట్యూన్ చేయబడిన ఒక LLM ఉంది. భద్రతా తీర్పు పనితీరును ఆప్టిమైజ్ చేయడానికి, మేము ఈ LLMను అధిక-నాణ్యత సూచన ట్యూనింగ్‌పై ప్రత్యేక దృష్టితో శిక్షణ ఇచ్చాము. ఈ ప్రక్రియలో, వాస్తవ ప్రపంచంలోని విభిన్న భద్రతా దృశ్యాలను ప్రతిబింబించేలా ప్రోంప్ట్‌లు మరియు ప్రతిస్పందనలను జాగ్రత్తగా రూపొందించడం ఒక కీలకమైన దశ. 

మా ఇన్‌స్ట్రక్షన్ సెట్‌లో యాజమాన్య డేటా ఏదీ ఉపయోగించబడదు—కేవలం సింథటిక్ (LLM-సృష్టించిన) మరియు ఓపెన్-సోర్స్ డేటా కలయిక మాత్రమే ఉపయోగించబడుతుంది, ఇది శిక్షణా డేటాను మరింత సులభంగా స్కేల్ చేయడానికి మరియు స్కేలింగ్ నియమాలను ఉపయోగించుకోవడానికి మాకు అనుమతిస్తుంది—దీనితో ఈ మొదటి Roblox Guard LLM SOTAగా నిలిచింది. వివిధ ఓపెన్-సోర్స్ మరియు సింథటిక్ డేటా సెట్‌లను విలీనం చేస్తున్నప్పుడు, ఇన్‌స్ట్రక్షన్‌ను రూపొందించడానికి డేటాసెట్-నిర్దిష్ట టాక్సోనమీని ఉపయోగించడం ఉత్తమమైన పద్ధతి అని మేము కనుగొన్నాము, ఎందుకంటే టాస్క్ వైవిధ్యం విభిన్న రకాల ప్రోంప్ట్‌లపై LLMలు శిక్షణ పొందడానికి సహాయపడుతుంది. దీని ఫలితంగా, విభిన్న భద్రతా వర్గీకరణలకు సాధారణీకరించగల ఒక బలమైన మోడల్ రూపుదిద్దుకుంది. మేము సూచనల సమితిలోకి 'చైన్-ఆఫ్-థాట్' హేతుబద్ధీకరణలను కూడా పొందుపరిచాము, దీనిలో మోడల్ తన హేతుబద్ధమైన ప్రక్రియను స్పష్టంగా తెలియజేయడానికి ప్రోత్సహించబడుతుంది. ఈ మధ్యస్థ హేతుబద్ధమైన దశలు మోడల్‌కు బలమైన సందర్భోచిత పునాదిని అందించాయి.

ఫలితాలు
మా భద్రతా బృందం Roblox యొక్క కంటెంట్ భద్రత వర్గీకరణలో 25 ఉపవర్గాలను సూచించే ఒక కస్టమ్, అధిక-నాణ్యత మూల్యాంకన డేటాసెట్‌ను అభివృద్ధి చేసింది. ఈ మూల్యాంకన సెట్ అంతర్గత రెడ్-టీమింగ్ ద్వారా సృష్టించబడింది, దీనిలో మేము బలహీనతల కోసం శత్రుపూరిత దాడులను అనుకరించడం ద్వారా సిస్టమ్‌ను పరీక్షిస్తాము, మరియు ఇది వినియోగదారు-సృష్టించిన లేదా వ్యక్తిగత డేటాను కలిగి ఉండదు. ఈ మూల్యాంకన డేటాసెట్‌లో ప్రోంప్ట్ మరియు ప్రతిస్పందన జతలు ఉంటాయి, వీటిలో ప్రతిస్పందనల నాణ్యతను నిర్ధారించడానికి సహాయపడేలా ఒక బృందం పాలసీ నిపుణులు వాటికి చేతితో లేబుల్ చేశారు. ఇది అనేక రకాల ఉల్లంఘనలను కవర్ చేస్తుంది, మూల్యాంకనం కోసం మరింత కచ్చితమైన మరియు అర్థవంతమైన లేబుల్‌లను రూపొందించడంలో మాకు సహాయపడుతుంది. తుది మూల్యాంకన సెట్‌లో 2,873 ఉదాహరణలు ఉన్నాయి. మేము ఈ మూల్యాంకన డేటాసెట్‌ను ఓపెన్ సోర్స్ చేసాము, ఇది LLM గార్డ్‌రైల్స్ మరియు మోడరేషన్ సిస్టమ్‌లను బెంచ్‌మార్క్ చేయడానికి సహాయపడే విస్తరించదగిన భద్రతా వర్గీకరణను కలిగి ఉంది. 

మేము ప్రోంప్ట్ మరియు రెస్పాన్స్ రెండింటి కోసం సమగ్రమైన ఓపెన్-సోర్స్ డేటాసెట్‌ల సెట్‌పై, అలాగే Roblox Guard-Eval పై మా మోడల్‌లను బెంచ్‌మార్క్ చేస్తాము. ఇది మా మోడల్‌ను ఇన్-డొమైన్ మరియు ఔట్-ఆఫ్-డొమైన్ డేటాసెట్‌లపై రెండింటినీ మూల్యాంకనం చేయడానికి మాకు అనుమతిస్తుంది. బైనరీ వియోలిటింగ్/నాన్-వియోలిటింగ్ వర్గీకరణ కోసం F-1 స్కోరు పరంగా మేము మా ఫలితాలను నివేదిస్తాము. పైన ఉన్న పట్టికలో, మేము మా పనితీరును అనేక ప్రసిద్ధ మోడళ్లతో పోల్చాము. ఈ మొదటి రాబ్లాక్స్ గార్డ్ సామర్థ్యం, అవుట్-ఆఫ్-డొమైన్ డేటాసెట్‌లపై జనరలైజ్ చేస్తున్నప్పుడు ఇతర మోడళ్లను అధిగమిస్తుంది.

మేము మా రాబ్లాక్స్ గార్డ్ 1.0 సాధనాలతో సహా మా భద్రతా వ్యవస్థలను నిరంతరం మెరుగుపరుస్తున్నాము మరియు సమీప భవిష్యత్తులో అదనపు సామర్థ్యాలను విడుదల చేయాలని ప్లాన్ చేస్తున్నాము. భవిష్యత్ అప్‌డేట్‌లు మరియు మెరుగుదలల కోసం, అలాగే భవిష్యత్ ఓపెన్-సోర్స్ విడుదలల కోసం దయచేసి హగ్గింగ్‌ఫేస్ మరియు గిట్‌హబ్ లోని మా పేజీలను చూడండి.