రాబ్లాక్స్లో అపరిమిత టెక్స్ట్ జనరేషన్ను భద్రపరచడంలో అత్యాధునిక LLM సహాయపడుతుంది
రాబ్లాక్స్ గార్డ్ 1.0: బలమైన గార్డ్రైల్స్తో భద్రతను ముందుకు తీసుకువెళ్లడం

- ఈ రోజు, మేము డెవలపర్లు మరియు ప్లాట్ఫారమ్ల కోసం ఒక ఓపెన్-సోర్స్ భద్రతా టూల్కిట్ అయిన రాబ్లాక్స్ గార్డ్ 1.0ను ప్రకటిస్తున్నాము.
- మొట్టమొదటి Roblox Guard సామర్థ్యం, LLM భద్రత కోసం ఒక అత్యాధునిక (SOTA) గార్డ్రైల్ మోడల్, ఇప్పుడు అందుబాటులో ఉంది, ఇది ప్రముఖ భద్రతా బెంచ్మార్క్లలో ఒక కొత్త ప్రమాణాన్ని నిర్దేశిస్తోంది.
- మేము భద్రతా బెంచ్మార్కింగ్ కోసం Roblox Guard-Eval అనే డేటాసెట్ను కూడా విడుదల చేస్తున్నాము.
సవాలు
మేము ఇటీవల ఒక టెక్స్ట్ జనరేషన్ APIని విడుదల చేశాము, ఇది డెవలపర్లు తమ అనుభవాలలో టెక్స్ట్ను రూపొందించడం ద్వారా మరింత మెరుగైన, ఆకర్షణీయమైన అనుభవాలను నిర్మించడానికి లార్జ్ లాంగ్వేజ్ మోడల్స్ (LLMs) శక్తిని ఉపయోగించుకోవడానికి వీలు కల్పిస్తుంది. ఉదాహరణకు, ఒక డెవలపర్ పూర్తిగా ఇంటరాక్టివ్ NPCని సృష్టించవచ్చు, లేదా గేమ్ ఎలా ఆడాలో తెలిపే ఇంటరాక్టివ్ ట్యుటోరియల్ను అందించవచ్చు.
మా ఉత్పత్తులను Roblox యొక్క ఉన్నత భద్రతా మరియు మర్యాద ప్రమాణాలకు అనుగుణంగా ఉంచడానికి మేము కృషి చేస్తున్నందున, Robloxలోని చాలా కంటెంట్ను మేము ప్రారంభ రోజుల నుండే చురుకుగా నియంత్రించాము. మేము టెక్స్ట్ జనరేషన్ APIని విడుదల చేయడానికి ముందు, భద్రతను మొదటగా ఎలా నిర్మించాలో పరిశీలించాము. మేము ఇన్పుట్లు (వినియోగదారుల నుండి ప్రోంప్ట్లు) మరియు అవుట్పుట్లు (API నుండి రూపొందించబడిన టెక్స్ట్) రెండింటినీ సురక్షితంగా ఉంచడంలో సహాయపడటానికి ఒక కొత్త మోడల్ను అభివృద్ధి చేశాము.
ఆవిష్కరణ
రాబ్లాక్స్ గార్డ్ 1.0 టూల్కిట్లోని మొదటి సామర్థ్యం, ఒక SOTA ఇన్స్ట్రక్షన్ ఫైన్-ట్యూన్డ్ LLM, ఇది మా టెక్స్ట్ జనరేషన్ APIని భద్రపరచడంలో సహాయపడటానికి రూపొందించబడింది. ఇది ప్రాంప్ట్ మరియు ప్రతిస్పందన స్థాయిలలో రెండింటిలోనూ భద్రతా వర్గీకరణను నిర్వహిస్తుంది, ప్రతి ఇన్పుట్ లేదా అవుట్పుట్ మా విధానాలను ఉల్లంఘిస్తుందో లేదో నిర్ణయిస్తుంది. వినియోగదారుల ప్రశ్నలు మరియు మోడల్ స్వయంగా రూపొందించిన అవుట్పుట్లు రెండింటినీ మోడరేట్ చేయడానికి ఈ ద్వంద్వ-స్థాయి అంచనా చాలా అవసరం.
మా LLM ప్రస్తుతం ప్రామాణిక బెంచ్మార్క్లలో మెటా నుండి లామా గార్డ్, గూగుల్ AI నుండి షీల్డ్జెమ్మా, NVIDIA NeMo గార్డ్రైల్స్, OpenAI నుండి GPT-4o మరియు ఇతర ప్రముఖ LLM గార్డ్రైల్ మోడల్లను అధిగమిస్తోంది. Roblox గార్డ్ 1.0 LLM, అపరిచిత టాక్సోనమీతో కూడిన అవుట్-ఆఫ్-డొమైన్ డేటాసెట్లపై కూడా బలమైన జనరలైజేషన్ను ప్రదర్శిస్తుంది. మేము మా మొదటి సామర్థ్యం కోసం LLM వెయిట్స్ మరియు మా Roblox Guard-Eval బెంచ్మార్కింగ్ డేటాసెట్ను రెండింటినీ ఓపెన్ సోర్స్ చేసాము.
మా సిస్టమ్ యొక్క కేంద్రంలో, Llama-3.1-8B-Instruct మోడల్ నుండి ఫైన్-ట్యూన్ చేయబడిన ఒక LLM ఉంది. భద్రతా తీర్పు పనితీరును ఆప్టిమైజ్ చేయడానికి, మేము ఈ LLMను అధిక-నాణ్యత సూచన ట్యూనింగ్పై ప్రత్యేక దృష్టితో శిక్షణ ఇచ్చాము. ఈ ప్రక్రియలో, వాస్తవ ప్రపంచంలోని విభిన్న భద్రతా దృశ్యాలను ప్రతిబింబించేలా ప్రోంప్ట్లు మరియు ప్రతిస్పందనలను జాగ్రత్తగా రూపొందించడం ఒక కీలకమైన దశ.
మా ఇన్స్ట్రక్షన్ సెట్లో యాజమాన్య డేటా ఏదీ ఉపయోగించబడదు—కేవలం సింథటిక్ (LLM-సృష్టించిన) మరియు ఓపెన్-సోర్స్ డేటా కలయిక మాత్రమే ఉపయోగించబడుతుంది, ఇది శిక్షణా డేటాను మరింత సులభంగా స్కేల్ చేయడానికి మరియు స్కేలింగ్ నియమాలను ఉపయోగించుకోవడానికి మాకు అనుమతిస్తుంది—దీనితో ఈ మొదటి Roblox Guard LLM SOTAగా నిలిచింది. వివిధ ఓపెన్-సోర్స్ మరియు సింథటిక్ డేటా సెట్లను విలీనం చేస్తున్నప్పుడు, ఇన్స్ట్రక్షన్ను రూపొందించడానికి డేటాసెట్-నిర్దిష్ట టాక్సోనమీని ఉపయోగించడం ఉత్తమమైన పద్ధతి అని మేము కనుగొన్నాము, ఎందుకంటే టాస్క్ వైవిధ్యం విభిన్న రకాల ప్రోంప్ట్లపై LLMలు శిక్షణ పొందడానికి సహాయపడుతుంది. దీని ఫలితంగా, విభిన్న భద్రతా వర్గీకరణలకు సాధారణీకరించగల ఒక బలమైన మోడల్ రూపుదిద్దుకుంది. మేము సూచనల సమితిలోకి 'చైన్-ఆఫ్-థాట్' హేతుబద్ధీకరణలను కూడా పొందుపరిచాము, దీనిలో మోడల్ తన హేతుబద్ధమైన ప్రక్రియను స్పష్టంగా తెలియజేయడానికి ప్రోత్సహించబడుతుంది. ఈ మధ్యస్థ హేతుబద్ధమైన దశలు మోడల్కు బలమైన సందర్భోచిత పునాదిని అందించాయి.
ఫలితాలు

మేము ప్రోంప్ట్ మరియు రెస్పాన్స్ రెండింటి కోసం సమగ్రమైన ఓపెన్-సోర్స్ డేటాసెట్ల సెట్పై, అలాగే Roblox Guard-Eval పై మా మోడల్లను బెంచ్మార్క్ చేస్తాము. ఇది మా మోడల్ను ఇన్-డొమైన్ మరియు ఔట్-ఆఫ్-డొమైన్ డేటాసెట్లపై రెండింటినీ మూల్యాంకనం చేయడానికి మాకు అనుమతిస్తుంది. బైనరీ వియోలిటింగ్/నాన్-వియోలిటింగ్ వర్గీకరణ కోసం F-1 స్కోరు పరంగా మేము మా ఫలితాలను నివేదిస్తాము. పైన ఉన్న పట్టికలో, మేము మా పనితీరును అనేక ప్రసిద్ధ మోడళ్లతో పోల్చాము. ఈ మొదటి రాబ్లాక్స్ గార్డ్ సామర్థ్యం, అవుట్-ఆఫ్-డొమైన్ డేటాసెట్లపై జనరలైజ్ చేస్తున్నప్పుడు ఇతర మోడళ్లను అధిగమిస్తుంది.
మేము మా రాబ్లాక్స్ గార్డ్ 1.0 సాధనాలతో సహా మా భద్రతా వ్యవస్థలను నిరంతరం మెరుగుపరుస్తున్నాము మరియు సమీప భవిష్యత్తులో అదనపు సామర్థ్యాలను విడుదల చేయాలని ప్లాన్ చేస్తున్నాము. భవిష్యత్ అప్డేట్లు మరియు మెరుగుదలల కోసం, అలాగే భవిష్యత్ ఓపెన్-సోర్స్ విడుదలల కోసం దయచేసి హగ్గింగ్ఫేస్ మరియు గిట్హబ్ లోని మా పేజీలను చూడండి.


