షేర్ చేయండి

రాబ్లాక్స్ PII క్లాసిఫైయర్‌ను ఓపెన్ సోర్సింగ్ చేయడం: చాట్‌లో AI PII గుర్తింపు కోసం మా విధానం

రికాల్‌ను మెరుగుపరచడానికి సందర్భాన్ని ఉపయోగించడం

రచయిత నరేన్ కొనెరు, వైస్ ప్రెసిడెంట్, ఇంజనీరింగ్, మరియు సీన్ బయాన్

ప్రచురించబడింది 4 నవం, 2025

రోజూ, వినియోగదారులు రాబ్లాక్స్‌లో సగటున 6.1 బిలియన్ల చాట్ సందేశాలను రూపొందిస్తారు. కమ్యూనికేషన్‌ను సురక్షితంగా మరియు సభ్యంగా ఉంచడానికి మేము బలమైన మోడరేషన్ వ్యవస్థలను ఉపయోగిస్తాము, వయస్సు-ఆధారిత పరిమితులను సెట్ చేస్తాము మరియు తల్లిదండ్రుల నియంత్రణలను అందిస్తాము. ప్లాట్‌ఫారమ్‌లోని చాలా సందేశాలు ఇద్దరు స్నేహితులు గేమ్‌ప్లే వ్యూహం గురించి చర్చించుకోవడం వంటి రోజువారీ సంభాషణలు, కానీ కొద్ది శాతం సందేశాలలో, వినియోగదారులు సున్నితంగా ఉండగల వ్యక్తిగతంగా గుర్తించదగిన సమాచారాన్ని (PII) పంచుకోవడానికి ప్రయత్నిస్తారు. PII అనేక రూపాలు తీసుకుంటుంది, మరియు వినియోగదారులు దీనిని అనేక హానిలేని కారణాల కోసం పంచుకుంటారు: ఒక వినియోగదారుడు గేమ్‌ప్లేను సమన్వయం చేయడానికి మరొక ప్లాట్‌ఫారమ్ నుండి వారి యూజర్‌నేమ్‌ను లేదా మొగ్గతొడుగుతున్న స్నేహాన్ని పెంచుకోవడానికి ఫోన్ నంబర్‌ను పంచుకోవచ్చు. అయితే, కొన్ని అరుదైన సందర్భాల్లో, దురుద్దేశపరులు వినియోగదారులను Roblox నుండి ఇతర ప్లాట్‌ఫారమ్‌లకు ఆకర్షించడానికి PIIని కోరుతారు, అక్కడ వాస్తవ ప్రపంచ హాని యొక్క అధిక ప్రమాదం ఉండవచ్చు. వాస్తవానికి, ఉద్దేశంలోని ఈ వ్యత్యాసాలను గుర్తించడం కష్టం, అందుకే మేము PIIని పంచుకోవడానికి లేదా అడగడానికి వ్యతిరేకంగా కఠినమైన విధానాలను కలిగి ఉన్నాము. చాట్‌లో గుర్తించబడిన అన్ని PIIని డిఫాల్ట్‌గా నిరోధించడానికి మేము బహుళ సాధనాలను ఉపయోగిస్తాము, మరియు 18 ఏళ్లు లేదా అంతకంటే ఎక్కువ వయస్సు ఉన్న వినియోగదారులకు మరియు 13 నుండి 17 సంవత్సరాల మధ్య వయస్సు ఉన్న, ఒకరినొకరు 'విశ్వసనీయ కనెక్షన్‌లు'గా ధృవీకరించుకున్న వినియోగదారులకు మాత్రమే మేము ఆంక్షలను సడలిస్తాము.

PII గుర్తింపు అనేది పరిశ్రమవ్యాప్త సాంకేతిక సవాలు. పరిశ్రమ ప్రమాణాల గుర్తింపు సాధనాలను తప్పించుకోవచ్చు మరియు అవి అభివృద్ధి చెందుతున్న భాషా నమూనాలకు అనుగుణంగా మారే సామర్థ్యాన్ని కలిగి ఉండవు. ఏ సాధనం పరిపూర్ణంగా లేనప్పటికీ, భాష యొక్క అభివృద్ధి చెందుతున్న స్వభావాన్ని పరిగణనలోకి తీసుకోవడానికి మరియు వినియోగదారులు ఫిల్టర్‌లను తప్పించుకుని PIIని అడగడానికి లేదా పంచుకోవడానికి ప్రయత్నిస్తున్న పరిస్థితులను గుర్తించడానికి సందర్భాన్ని ఉపయోగించడానికి మేము రాబ్లాక్స్ PII క్లాసిఫైయర్ అనే AI మోడల్‌ను అభివృద్ధి చేశాము.

ఈ రోజు, మా ఓపెన్-సోర్స్ సేఫ్టీ టూల్‌కిట్‌లోని ఇతర సాధనాలతో పాటు PII క్లాసిఫైయర్‌ను కూడా ఓపెన్ సోర్స్ చేస్తున్నామని ప్రకటించడానికి మేము ఉత్సాహంగా ఉన్నాము. 2024 చివరలో PII క్లాసిఫైయర్‌ను అమలు చేసినప్పటి నుండి, రికాల్‌లో వేగవంతమైన మరియు నిరంతర మెరుగుదలని మేము చూశాము, మరియు దీని పనితీరు అందుబాటులో ఉన్న ఇతర మోడళ్లను అధిగమించింది. ఈ రోజు మేము ఓపెన్ సోర్స్ చేస్తున్న మా PII మోడల్ వెర్షన్, Robloxలో ఇంగ్లీష్ ^{టెక్స్ట్1}లోని సంభావ్య PII సంభాషణలలో 98% రికాల్‌ను కలిగి ఉంది. ఈ మోడల్ మా ప్రొడక్షన్ డేటాపై 94% F1 స్కోర్‌ను కూడా సాధించింది, ఇది LlamaGuard v3 8B (28%) మరియు Piiranha NER (14%) వంటి ఇతర అత్యాధునిక భద్రతా మోడళ్లను అధిగమించింది.

సవాళ్లు

పెద్ద ఎత్తున PIIని సమర్థవంతంగా గుర్తించడం అనేది మూడు ప్రధాన సవాళ్లకు పరిమితం:

ప్రతికూల నమూనాలు: వినియోగదారులు సృజనాత్మకంగా ఉంటారు మరియు ఫిల్టర్‌లను తప్పించుకోవడానికి నిరంతరం కొత్త మార్గాలను కనుగొంటారు. భాష అభివృద్ధి చెందుతున్నప్పుడు మరియు కొత్త నమూనాలు వెలుగులోకి వచ్చినప్పుడు, ఒక సమర్థవంతమైన వ్యవస్థ దానికి అనుగుణంగా మారాలి.
శిక్షణ మరియు మూల్యాంకనం: అత్యంత ప్రభావవంతమైన మోడల్‌ను నిర్మించడానికి, మనం ప్రభావవంతమైన శిక్షణా డేటాసెట్‌లు మరియు కొలమాన పద్ధతులను కూడా సృష్టించాలి. మోడల్ అభివృద్ధి చెందుతున్న నమూనాలను పరిగణనలోకి తీసుకోవలసి ఉన్నందున, ప్రస్తుత ప్రొడక్షన్ డేటా శిక్షణకు సరిపోదు.
పనితీరు: వినియోగదారు అనుభవంపై ప్రతికూల ప్రభావాన్ని నివారించడానికి, అటువంటి మోడల్‌ను పెద్ద ఎత్తున అందించడానికి ఆలోచనాత్మకమైన నిర్మాణం మరియు ఆప్టిమైజేషన్ నిర్ణయాలు అవసరం.

ప్రతికూల నమూనాలు

ఇప్పటికే ఉన్న PII గుర్తింపు పరిష్కారాలు ప్రధానంగా నేమ్డ్-ఎంటిటీ రికగ్నిషన్ (NER)పై ఆధారపడతాయి, ఇది సోషల్ మీడియా హ్యాండిల్స్, ఫోన్ నంబర్లు మరియు చిరునామాల వంటి కొన్ని రకాల సంజ్ఞాపదాలను టోకెన్-స్థాయిలో గుర్తిస్తుంది. కానీ సంజ్ఞాపదాలను గుర్తించడం అనేది సవాలులో ఒక భాగం మాత్రమే. తెలివైన దుండగులు NER గుర్తింపును తప్పించుకోవడానికి ఉద్దేశపూర్వకంగా వారి భాషను మారుస్తారు (ఉదా., A, B, మరియు Cలను సూచించడానికి ఆల్ఫా, బ్రావో, మరియు చార్లీని ఉపయోగించడం లేదా ఒక ప్లాట్‌ఫారమ్‌ను పేరు పెట్టకుండా దానిని సూచించడం). ఒక దురుద్దేశపరుడు, NER ఫిల్టర్ పట్టుకునే సున్నితమైన సమాచారాన్ని ఎప్పుడూ పంచుకోకుండానే, మరొక ప్లాట్‌ఫారమ్‌లో కనెక్ట్ అవ్వాలనే తన ఉద్దేశాన్ని సూచించడం సాధ్యమే. PII క్లాసిఫైయర్ యొక్క పని Robloxలో పంచుకున్న స్పష్టమైన PII టెక్స్ట్‌ను గుర్తించి, అస్పష్టం చేయడమే కాకుండా, సంభాషణ యొక్క సందర్భాన్ని అర్థం చేసుకుని, దురుద్దేశపరులు PII-సంబంధిత సంభాషణలలో పాల్గొనకుండా మొదటి నుంచే ఆపడం కూడా.

ఒక కల్పిత సోషల్ ప్లాట్‌ఫారమ్, స్టార్‌టాక్‌ను ఉపయోగించి కొన్ని ప్రాతినిధ్య బైపాసింగ్ నమూనాలు ఇక్కడ ఉన్నాయి:

పాత్ర-స్థాయి తారుమారు

"నీకు కాల్ చేయడానికి 5tärtālk లాంటి ఏదైనా ఉందా? నేను కొన్ని రోజుల క్రితం ఒక అకౌంట్ తెరిచాను"
"ggrr i hate it tags What's your name That's S And T"

ప్రసిద్ధ సోషల్ మీడియాకు సూచనలు

"మళ్ళీ నీ రేట్స్ ప్యా PPA రివర్స్ ఏంటి?"
"హే, యెల్లో సన్ యాప్‌లో నా పేరు చూడగలవా? అక్కడ చాట్ చేద్దామా?"

భాష మరియు స్లాంగ్ పదాలు కాలక్రమేణా అభివృద్ధి చెందుతాయి, మరియు దురుద్దేశపరులు ఫిల్టర్‌లను తప్పించుకోవడానికి నిరంతరం కొత్త మార్గాల కోసం వెతుకుతూ ఉంటారు. కొత్త భాషా నమూనాలు మరియు వాటిని అధిగమించే మార్గాలు తలెత్తినప్పుడు వాటికి అనుగుణంగా మారగల సామర్థ్యమే PII క్లాసిఫైయర్ యొక్క బలం. మేము వాస్తవ ప్రపంచంలోని ప్రతికూల నమూనాలను గుర్తించినప్పుడు, వాటిని నిరంతరం మోడల్‌కు శిక్షణ ఇవ్వడానికి సహాయపడటానికి తిరిగి దానిలో పొందుపరుస్తాము.

శిక్షణ మరియు మూల్యాంకనం

నిర్వచించబడలేదు — డేటా క్యూరేషన్ యొక్క మూడు స్తంభాలు మోడల్ అభివృద్ధికి మద్దతు ఇస్తాయి, ఇది మరోవైపు మెరుగైన డేటా క్యూరేషన్‌కు శక్తినిస్తుంది.

మోడల్‌కు ప్రాథమికంగా శిక్షణ ఇవ్వడానికి, మేము PII-సంబంధిత డేటాను మాన్యువల్‌గా సమీక్షించి, లేబుల్ చేసాము. అది మాకు ఒక ప్రారంభ స్థానాన్ని ఇచ్చింది, కానీ అది మాకు త్వరగా విస్తరించడానికి మరియు విస్తృతమైన రకరకాల దృశ్యాలను సంగ్రహించడానికి అనుమతించదు. ప్రతిరోజూ బిలియన్ల కొద్దీ చాట్ సందేశాలలో కనిపించే ప్రతి పదం మరియు పరస్పర రూపాన్ని మాన్యువల్‌గా పరిశీలించి, తగిన లేబుల్‌ను వర్తింపజేయడానికి ప్రయత్నించడానికి బదులుగా, శిక్షణ కోసం సంబంధిత నమూనాలను ఎంచుకోవడానికి మేము డేటా శాంప్లర్‌లను నిర్మించి, పరీక్షించాము. మా లక్ష్యం, మానవ లేబులింగ్ లోపాల అవకాశాన్ని తగ్గించడం మరియు మరిన్ని సందర్భాలను కవర్ చేయడం కోసం, హానిచేయని సంభాషణలను మినహాయించి, PII-సంబంధిత డేటా ఉన్న సంభాషణలపై దృష్టి పెట్టడం. రెండు శాంప్లర్లు అత్యంత ప్రభావవంతంగా నిరూపించబడ్డాయి:

మోడల్ స్కోర్ అవుట్‌పుట్‌లను ఉపయోగించి అనిశ్చితి నమూనా: బలమైన సానుకూల లేదా ప్రతికూల సంకేతాన్ని ప్రదర్శించని నమూనాలను ఈ నమూనా ఎంచుకుంది, ఇది అస్పష్టమైన సందర్భాలను మరింత మెరుగుపరచడానికి మాకు అనుమతించింది.
వరుస PII బ్లాక్‌ల నుండి నమూనాలు: ఈ శాంప్లర్ కొన్ని సంభాషణలలో ఫ్లాగ్ చేయబడిన కానీ వరుస సంభాషణలలో కాని వినియోగదారుల నుండి నమూనాలను ఎంచుకుంది. ఈ ఫాలోఅప్ సంభాషణలు ప్రస్తుత PII ఫిల్టర్‌ను తప్పించుకున్న అసాధారణ భాషను కలిగి ఉండే అవకాశం ఎక్కువగా ఉంది. ఆచరణలో, ఇది ఒక వినియోగదారు వ్యవస్థను తప్పించుకోవడంలో విఫలమై, ఒక తెలివైన లొసుగు దొరికే వరకు మళ్లీ ప్రయత్నించడం వంటిది.

ప్రస్తుత ఉత్పత్తి డేటాపై డేటా శాంప్లింగ్ మరియు మానవ లేబులింగ్ యొక్క ఈ కలయిక మోడల్‌ను శిక్షణ ఇవ్వడానికి బలమైన పునాదిని అందించింది, కానీ కొత్తగా ఉద్భవిస్తున్న నమూనాలను పరిగణనలోకి తీసుకోవడమే మా లక్ష్యం కాబట్టి, మా నమూనాలలో ఇంకా లేని డేటాపై శిక్షణ ఇవ్వడానికి మాకు ఒక మార్గం అవసరమైంది.

AI-సృష్టించిన సింథటిక్ డేటా

ప్రస్తుత నమూనా డేటాపై మాత్రమే ఆధారపడటం వలన పక్షపాతాలు ఏర్పడవచ్చు మరియు కొత్త కమ్యూనికేషన్ నమూనాలు అభివృద్ధి చెందుతున్నప్పుడు మోడల్ అనుకూలన సామర్థ్యాన్ని పరిమితం చేయవచ్చు. ఉదాహరణకు, Robloxలో అత్యంత సాధారణ PII అభ్యర్థనలు ప్రముఖ సోషల్ మీడియా ప్లాట్‌ఫారమ్ హ్యాండిల్స్ కోసం ఉంటాయి. ప్రొడక్షన్ డేటాపై మాత్రమే శిక్షణ పొందిన మోడల్ అత్యంత సాధారణ అభ్యర్థనల వైపు పక్షపాతాన్ని పెంచుకుని, అంతగా ప్రాచుర్యం లేని సోషల్ మీడియా ప్లాట్‌ఫారమ్‌లు, ఇమెయిల్ చిరునామాలు మరియు ఫోన్ నంబర్ల వంటి అరుదైన వాటిపై తక్కువ పనితీరును కనబరచవచ్చు. వినియోగదారుల సంభాషణలు కూడా సాధారణంగా ప్రసిద్ధ పదజాలం మరియు భాషా నమూనాల వైపు మొగ్గుచూపుతాయి. కేవలం ప్రొడక్షన్ డేటాపై శిక్షణ పొందిన మోడల్, సాధారణ భాషా నమూనాల పట్ల పక్షపాతంగా మారి, అసాధారణమైన లేదా కొత్తగా ఉద్భవించే విధాలుగా వ్యక్తమయ్యే ఉల్లంఘనలను గుర్తించడంలో విఫలమవ్వచ్చు.

ఈ మరియు ఇతర పక్షపాతాలను తొలగించడానికి, మేము ప్రారంభ శిక్షణా డేటాసెట్‌ నుండి వారసత్వంగా వచ్చిన ఏవైనా బలహీనతలను లక్ష్యంగా చేసుకునే ఒక AI డేటా-జనరేషన్ పైప్‌లైన్‌ను రూపొందించాము. మొదట, మేము సందర్భం, PII రకం, వినియోగదారు వ్యక్తిత్వం, భాష మరియు ఉదాహరణ చాట్ లైన్‌లతో సహా వివిధ వేరియబుల్స్ కలయికను ఉపయోగించి ప్రోంప్ట్‌లను రూపొందించాము. ఆ తర్వాత, మేము ఈ ప్రోంప్ట్‌ల ఆధారంగా కొత్త చాట్ లైన్‌లను రూపొందించి, వాటిని మోడల్‌లోకి పంపాము.

మానవ మరియు AI రెడ్ టీమింగ్

మోడల్ యొక్క ప్రభావవంతతను పరీక్షించడానికి మరియు శిక్షణను మెరుగుపరచడానికి, మేము అభివృద్ధి సమయంలో మానవ మరియు AI రెడ్ టీమింగ్ రెండింటినీ ఉపయోగించాము (ఇక్కడ టీమ్‌లు ఒక సిస్టమ్ యొక్క రక్షణలను పరీక్షించడానికి ప్రతికూల దాడులను అనుకరిస్తాయి). PIIని అడగడానికి మరియు పంచుకోవడానికి విభిన్న పద్ధతులతో ప్రయోగాలు చేయడానికి మేము మోడరేటర్లను ఆహ్వానించాము మరియు ఈ పద్ధతులను వివిధ మార్గాల్లో మెరుగుపరచడానికి LLMలను ప్రేరేపించాము, ఆపై మోడల్ మిస్ చేసిన ఏవైనా నమూనాలను దాని శిక్షణా డేటాసెట్‌కు జోడించాము. AI రెడ్ టీమింగ్ అనేక వేరియేషన్‌లను త్వరగా పరీక్షించడానికి మరియు మోడరేటర్లు బహుశా కవర్ చేయని పద్ధతులను కవర్ చేయడానికి మాకు సహాయపడింది. ఉదాహరణకు:

అసలు: పాస్‌వర్డ్ xxxx
AI పెంచినది: ది పాస్ వర్డ్ ఈజ్ xxxx

అసలు: బెల్లా నా ఫోన్ నంబర్ 346
AI పెంచినది: బెల్లా నా నంబర్ వాస్తవానికి త్రీఫోర్6

మా ప్రస్తుత శిక్షణా డేటాలోని అంతరాలను బాగా అర్థం చేసుకోవడానికి మరియు వాటిని పూరించడానికి మా సింథటిక్ డేటాను అనుకూలించడానికి రెడ్ టీమింగ్ మాకు సహాయపడింది. ఇది మోడల్ పునరావృతుల మధ్య వ్యత్యాసాలను కొలవడానికి కూడా మాకు వీలు కల్పించింది, ఒక మోడల్ యొక్క రెండు వెర్షన్‌లు మూల్యాంకన సెట్‌ను నింపడం ప్రారంభించినప్పుడు ఇది మరింత కష్టతరం అవుతుంది. ఒకే వాతావరణంలో బైపాస్ రేట్లను నేరుగా పోల్చడానికి మరియు ఏ మోడల్ గణాంకపరంగా మరింత ప్రభావవంతంగా ఉందో నిర్ధారించడానికి మేము రెడ్-టీమింగ్ టూల్ కింద మోడల్ యొక్క బహుళ వెర్షన్‌లను అందించాము.

పనితీరు

రోజూ సగటున 6.1 బిలియన్ల చాట్ సందేశాలు మార్పిడి అవుతుండగా, రాబ్లాక్స్‌లో PII క్లాసిఫైయర్ సెకనుకు 200,000 కంటే ఎక్కువ క్వెరీలను అందుకుంటుంది. మేము ఈ పరిమాణాన్ని 100ms కంటే తక్కువ P90 లేటెన్సీతో నిర్వహిస్తాము. సర్వ్ మరియు నాణ్యత మధ్య సమతుల్యం కోసం, మేము ఎన్‌కోడ్-ఓన్లీ ఆర్కిటెక్చర్‌ను ఎంచుకున్నాము మరియు XLM-RoBERTa-Large² నుండి మా మోడల్‌ను ఫైన్-ట్యూన్ చేశాము. ఖర్చులను తగ్గించడానికి, CPUపై సమర్థవంతంగా పనిచేయడానికి మేము టోకెనైజర్ మరియు ప్రీ- మరియు పోస్ట్-ప్రాసెసింగ్ సేవలను వేరు చేస్తాము మరియు GPUపై స్వచ్ఛమైన ట్రాన్స్‌ఫార్మర్ ఆర్కిటెక్చర్‌ను అందిస్తాము. థ్రూపుట్‌ను పెంచడానికి మేము ట్రైటన్ సర్వర్‌లపై డైనమిక్ బ్యాచింగ్‌ను కూడా ఉపయోగిస్తాము.

పబ్లిక్ మరియు ఇంటర్నల్ డేటాసెట్‌లపై బెంచ్‌మార్కింగ్

మేము మా స్వంత ప్రొడక్షన్ డేటా మరియు పబ్లిక్ డేటాసెట్‌లను ఉపయోగించి ఇతర అత్యాధునిక మోడళ్లతో PII క్లాసిఫైయర్‌ను బెంచ్‌మార్క్ చేశాము. చాలా పబ్లిక్ PII డేటాసెట్‌లు ఉద్దేశ్యాన్ని సూచించగల చుట్టూ ఉన్న టెక్స్ట్‌పై కాకుండా, PII టెక్స్ట్‌పైనే దృష్టి పెడతాయి, కాబట్టి బెంచ్‌మార్కింగ్ కోసం మా ప్లాట్‌ఫారమ్ అవసరాలతో ఏదీ పూర్తిగా సరిపోలలేదు. అయినప్పటికీ, Kaggleలోని ది లెర్నింగ్ ఏజెన్సీ ల్యాబ్ యొక్క PII డేటా డిటెక్షన్ ^{డేటాసెట్3} వంటి ప్రముఖ PII డేటాసెట్‌లను ఉపయోగించి, మా మోడల్ ప్రస్తుత డిటెక్షన్ సొల్యూషన్స్‌తో ఎలా పోల్చిందో చూడాలనుకున్నాము.

పోలికలో ఉన్న LLMలు కేవలం ఒక (రికాల్, ప్రెసిషన్) జతను మాత్రమే అందిస్తున్నందున, మేము F1 స్కోర్‌లను ఉపయోగించాము. వర్గీకరణ స్కోర్‌లను అవుట్‌పుట్‌గా ఇచ్చే మోడల్‌ల కోసం, మేము టెస్ట్ సెట్‌పై ఉత్తమమైన F1 స్కోర్‌ను నివేదించాము. గమనించండి, మా మోడల్‌కు ఇన్‌పుట్‌గా వినియోగదారు చాట్ లైన్‌ల నుండి ఒక భాగాన్ని అవసరం మరియు అది ఒక PII స్కోర్‌ను అవుట్‌పుట్‌గా ఇస్తుంది, దీనిని మేము చాట్ లైన్‌లపై ద్విమూల నిర్ణయం తీసుకోవడానికి ఉపయోగిస్తాము. న్యాయమైన పోలిక కోసం, మేము పబ్లిక్ డేటాసెట్‌ను వాక్యం వారీగా విభజించి, ఏదైనా పాజిటివ్ NER PII టోకెన్‌లను కలిగి ఉంటే ప్రతి వాక్యానికి పాజిటివ్ అని లేబుల్ చేశాము.

	PII V1.1	LlamaGuard-v3 1B	LlamaGuard-v3 8B	LlamaGuard-v4 12B	NemoGuard 8B	పిరన్హా NER
కాగ్ల్ PII డేటాసెట్	45.48%	5.90%	5.46%	3.72%	3.26%	33.20%
రాబ్లాక్స్ మూల్యాంకన ఇంగ్లీష్	94.34%	3.17%	27.73%	26.55%	26.29%	13.88%

మా బెంచ్‌మార్క్‌లలో, ది లెర్నింగ్ ఏజెన్సీ ల్యాబ్ యొక్క పబ్లిక్ డేటాసెట్‌లో మరియు మా అంతర్గత ప్రొడక్షన్ డేటాలో, ఇందులో రాబ్లాక్స్‌పై 47,000 కంటే ఎక్కువ విభిన్న, వాస్తవ-ప్రపంచ నమూనాలు ఉన్నాయి, మా మోడల్ ఇతర ఓపెన్ సోర్స్ మోడల్స్ కంటే గణనీయంగా మెరుగైన పనితీరును కనబరిచింది. విస్తృతమైన సంభాషణాత్మక సందర్భాన్ని పొందుపరచడం మరియు భాష యొక్క మారుతున్న స్వభావానికి నిరంతరం అనుగుణంగా మారడంపై దృష్టి పెట్టడం, ఒక వినియోగదారు PIIని అడగాలని లేదా పంచుకోవాలని ఉద్దేశించిన మరిన్ని సంభాషణలను గుర్తించడానికి ఒక ప్రభావవంతమైన విధానంగా నిరూపించబడింది.

రాబ్లాక్స్‌లో భద్రతను మరియు మర్యాదను ప్రోత్సహించడానికి మేము ఉపయోగించే అనేక వినూత్న వ్యవస్థలలో PII క్లాసిఫైయర్ కేవలం ఒకటి మాత్రమే. ఒక సంభాషణ PII అభ్యర్థన వైపు మళ్లుతున్నప్పుడు గుర్తించగల సామర్థ్యం, గుర్తింపును తప్పించుకోగల రహస్య అభ్యర్థనలను కూడా మేము పట్టుకోవచ్చని అర్థం. ఏ వ్యవస్థ కూడా పరిపూర్ణమైనది కానప్పటికీ, ఉత్పత్తిలో మా మొదటి సంవత్సరం ఫలితాలు ఇప్పటికే ఆశాజనకంగా ఉన్నాయి, మరియు మా ఓపెన్-సోర్స్ భద్రతా సాధనాల కిట్‌లోని ఇతర సాధనాలతో పాటు ఈ సాధనాన్ని ఓపెన్-సోర్స్ కమ్యూనిటీతో పంచుకోవడానికి మేము ఉత్సాహంగా ఉన్నాము.

98% రికాల్‌ను 1% FPR వద్ద రాబ్లాక్స్ అంతర్గత పరీక్షా సెట్‌పై కొలుస్తారు. ఈ డేటాసెట్‌ను ప్రొడక్షన్ డేటా నుండి సేకరించి, భద్రతా నిపుణులు బహుళసార్లు సమీక్షించి, లేబుల్ చేస్తారు.
కాన్యు, ఎ., ఖండేవల్, కె., గోయల్, ఎన్., చౌదరి, వి., వెంజెక్, జి., గుజ్మాన్, ఎఫ్., గ్రేవ్, ఇ., ఓట్, ఎం., జెట్లేమోయర్, ఎల్., మరియు స్తోయానోవ్, వి. 2019. Unsupervised cross-lingual representation learning at scale. arXiv ప్రిప్రింట్ arXiv:1911.02116.
హోమ్స్, ఎల్., క్రాస్‌లీ, ఎస్. ఎ., సిక్కా, హెచ్., మరియు మోరిస్, డబ్ల్యూ. 2023. PIILO: వ్యక్తిగతంగా గుర్తించదగిన సమాచారం లేబులింగ్ మరియు అస్పష్టత కోసం ఒక ఓపెన్-సోర్స్ సిస్టమ్. ఇన్ఫర్మేషన్ అండ్ లెర్నింగ్ సైన్స్, 124 (9/10), 266-284.

తాజా

మరిన్ని ఫలితాలు

రాబ్లాక్స్ PII క్లాసిఫైయర్‌ను ఓపెన్ సోర్సింగ్ చేయడం: చాట్‌లో AI PII గుర్తింపు కోసం మా విధానం

సవాళ్లు