ثورة في الإبداع على Roblox بفضل الذكاء الاصطناعي التوليدي

في وقت سابق من هذا العام، شاركنا رؤيتنا بشأن الذكاء الاصطناعي التوليدي (AI) على Roblox والأدوات الجديدة سهلة الاستخدام التي ستتيح لكل مستخدم أن يصبح مبدعًا. مع التطور السريع لهذه الأدوات في جميع أنحاء الصناعة، أردت تقديم بعض التحديثات حول التقدم الذي أحرزناه، والطريق الذي لا يزال أمامنا لتعميم إنشاء الذكاء الاصطناعي التوليدي، ولماذا نعتقد أن الذكاء الاصطناعي التوليدي عنصر حاسم في مسار Roblox المستقبلي.
تقدم التقدم في الذكاء الاصطناعي التوليدي ونماذج اللغة الكبيرة (LLMs) فرصة رائعة لفتح مستقبل التجارب الغامرة من خلال تمكين إنشاء أسهل وأسرع مع الحفاظ على السلامة ودون الحاجة إلى موارد حوسبة ضخمة. علاوة على ذلك، فإن التقدم في نماذج الذكاء الاصطناعي متعددة الوسائط، أي التي يتم تدريبها باستخدام أنواع متعددة من المحتوى — مثل الصور والرموز والنصوص والنماذج ثلاثية الأبعاد والصوت — يفتح الباب أمام تطورات جديدة في أدوات الإنشاء. وقد بدأت هذه النماذج نفسها في إنتاج مخرجات متعددة الوسائط، مثل نموذج يمكنه إنشاء مخرجات نصية، بالإضافة إلى بعض العناصر المرئية التي تكمل النص. نرى هذه الإنجازات في مجال الذكاء الاصطناعي كفرصة هائلة لزيادة الكفاءة للمبدعين الأكثر خبرة وتمكين المزيد من الأشخاص من تحويل الأفكار الرائعة إلى واقع على Roblox. في مؤتمر مطوري Roblox (RDC) لهذا العام، أعلنا عن عدة أدوات جديدة ستجلب الذكاء الاصطناعي التوليدي إلى Roblox Studio وما بعده لمساعدة أي شخص على Roblox على التوسع بشكل أسرع، والتكرار بسرعة أكبر، وتعزيز مهاراته لإنشاء محتوى أفضل.
مساعد Roblox
لطالما زودت Roblox المبدعين بالأدوات والخدمات والدعم الذي يحتاجونه لإنشاء تجارب ثلاثية الأبعاد غامرة. وفي الوقت نفسه، لاحظنا أن مبدعينا بدأوا في استخدام الذكاء الاصطناعي التوليدي والتحاوري من جهات خارجية لمساعدتهم في الإبداع. على الرغم من فائدتها في تقليل عبء العمل على المبدعين، إلا أن هذه الإصدارات الجاهزة لم تُصمم لسير عمل Roblox من البداية إلى النهاية، ولم يتم تدريبها على كود Roblox أو مصطلحاته ولغته. وهذا يعني أن المبدعين يواجهون عملاً إضافياً كبيراً لاستخدام هذه الإصدارات في إنشاء محتوى لـ Roblox. لقد عملنا على طرق لإدخال قيمة هذه الأدوات إلى Roblox Studio، وفي RDC شاركنا مثالاً مبكراً على Assistant.
Assistant هو الذكاء الاصطناعي التخاطبي الخاص بنا الذي يمكّن المبدعين من جميع مستويات المهارة من قضاء وقت أقل بكثير في المهام الروتينية والمتكررة التي ينطوي عليها الإنشاء، وتخصيص المزيد من الوقت للأنشطة عالية القيمة، مثل السرد، واللعب، وتصميم التجربة. تتمتع Roblox بموقع فريد لبناء نموذج الذكاء الاصطناعي التخاطبي هذا للعوالم ثلاثية الأبعاد الغامرة، وذلك بفضل وصولنا إلى مجموعة كبيرة من النماذج ثلاثية الأبعاد العامة للتدريب عليها، وقدرتنا على دمج النموذج مع واجهات برمجة التطبيقات (API) لمنصتنا، ومجموعتنا المتنامية من حلول الذكاء الاصطناعي المبتكرة. سيتمكن المبدعون من استخدام مطالبات نصية باللغة الطبيعية لإنشاء مشاهد وتحرير نماذج ثلاثية الأبعاد وتطبيق سلوكيات تفاعلية على الكائنات. سيدعم المساعد المراحل الثلاث للإنشاء: التعلم والبرمجة والبناء:
- التعلم: سواء كان المبدع جديدًا تمامًا في مجال التطوير على Roblox أو خبيرًا متمرسًا، سيساعد Roblox Assistant في الإجابة عن الأسئلة عبر مجموعة واسعة من الأسطح باستخدام اللغة الطبيعية.
- البرمجة: سيوسع المساعد نطاق أداة Code Assist الحديثة الخاصة بنا. على سبيل المثال، يمكن للمطورين أن يطلبوا من المساعد تحسين كودهم، أو شرح جزء من الكود، أو المساعدة في تصحيح الأخطاء واقتراح إصلاحات للكود الذي لا يعمل بشكل صحيح.
- البناء: سيساعد المساعد المبدعين على إنشاء نماذج أولية سريعة لأفكار جديدة. على سبيل المثال، يمكن لمبدع جديد إنشاء مشاهد كاملة وتجربة إصدارات مختلفة بمجرد كتابة موجه مثل "أضف بعض مصابيح الشوارع على طول هذا الطريق" أو "اصنع غابة بها أنواع مختلفة من الأشجار. الآن أضف بعض الشجيرات والزهور."
سيكون العمل مع Assistant تعاونيًا وتفاعليًا وتكراريًا، مما يمكّن المبدعين من تقديم ملاحظاتهم وجعل Assistant يعمل على توفير الحل المناسب. سيكون الأمر أشبه بوجود مبدع خبير كشريك يمكنك تبادل الأفكار معه وتجربة الأفكار حتى تصل إلى النتيجة الصحيحة.
لجعل Assistant أفضل شريك ممكن، أصدرنا إعلانًا آخر في RDC: دعونا المطورين إلى الاشتراك للمساهمة ببيانات نصوص Luau المجهولة الهوية الخاصة بهم. ستساعد بيانات النصوص هذه في تحسين أدوات الذكاء الاصطناعي لدينا، مثل Code Assist و Assistant، بشكل كبير في اقتراح وإنشاء كود أكثر كفاءة، مما يعود بالنفع على مطوري Roblox الذين يستخدمونها. علاوة على ذلك، إذا اختار المطورون المشاركة خارج نطاق Roblox، فستُضاف بيانات البرامج النصية الخاصة بهم إلى مجموعة بيانات متاحة لأطراف ثالثة لتدريب أدوات الدردشة التي تعمل بالذكاء الاصطناعي لديهم لتكون أفضل في اقتراح كود Luau، مما يعود بالنفع على مطوري Luau في كل مكان.
وللتوضيح، من خلال أبحاث شاملة حول المستخدمين ومحادثات شفافة مع كبار المطورين، صممنا هذا البرنامج ليكون اختياريًا، وسنساعد في ضمان فهم جميع المشاركين لما ينطوي عليه البرنامج وموافقتهم عليه. وكتعبير عن شكرنا لأولئك الذين يختارون المشاركة في مشاركة بيانات البرامج النصية مع Roblox، سنمنحهم حق الوصول إلى الإصدارات الأكثر قوة من Assistant و Code Assist التي تعمل بواسطة هذا النموذج المدرب من قبل المجتمع. أما أولئك الذين لم يختاروا الاشتراك، فسيستمرون في الوصول إلى الإصدار الحالي من Assistant و Code Assist.
إنشاء أفاتار أسهل
في النهاية، نريد أن يكون لكل مستخدم من مستخدمينا البالغ عددهم 65.5 مليون مستخدم يوميًا شخصية افتراضية تمثله حقًا وتعبر عن هويته. أطلقنا مؤخرًا إمكانية لأعضاء برنامج المحتوى الذي ينشئه المستخدمون (UGC) لإنشاء وبيع كل من أجسام الأفاتار والرؤوس المستقلة. اليوم، تتطلب هذه العملية الوصول إلى Studio أو برنامج المحتوى الذي ينشئه المستخدمون (UGC)، ومستوى عالٍ من المهارة، وعدة أيام من العمل لتمكين تعبيرات الوجه وحركة الجسم والتجهيز ثلاثي الأبعاد، وما إلى ذلك. وهذا يجعل إنشاء الأفاتار مضيعة للوقت، وقد حدّ حتى الآن من عدد الخيارات المتاحة. نريد أن نذهب إلى أبعد من ذلك.
لتمكين كل مستخدمي Roblox من الحصول على أفاتار مخصص ومعبّر، نحتاج إلى جعل إنشاء الأفاتار وتخصيصها أمرًا سهلاً للغاية. في RDC، أعلنا عن أداة جديدة سنطلقها في عام 2024 ستتيح إنشاء أفاتار مخصص بسهولة من صورة أو من عدة صور. باستخدام هذه الأداة، سيتمكن أي مبدع لديه وصول إلى Studio أو برنامج UGC الخاص بنا من تحميل صورة، وإنشاء أفاتار له، ثم تعديله كما يشاء. على المدى الطويل، نعتزم أيضًا إتاحة ذلك مباشرةً ضمن التجارب على Roblox.
ولتحقيق ذلك، نقوم بتدريب نماذج الذكاء الاصطناعي على مخطط الأفاتار الخاص بـ Roblox ومجموعة من نماذج الأفاتار ثلاثية الأبعاد المملوكة لـ Roblox. وتستفيد إحدى الطرق من الأبحاث المتعلقة بإنشاء أفاتار ثلاثية الأبعاد من صور ثنائية الأبعاد. كما ندرس استخدام نماذج انتشار النص إلى الصورة المدربة مسبقًا لتعزيز بيانات التدريب ثلاثية الأبعاد المحدودة بتقنيات توليد ثنائية الأبعاد، واستخدام شبكة توليد ثلاثية الأبعاد قائمة على الشبكة التنافسية التوليدية (GAN) للتدريب. وأخيرًا، نعمل على استخدام ControlNet لتركيب أوضاع محددة مسبقًا لتوجيه الصور متعددة الزوايا الناتجة للأفاتار.
تنتج هذه العملية شبكة ثلاثية الأبعاد للأفاتار. بعد ذلك، نستفيد من أبحاث التجزئة الدلالية ثلاثية الأبعاد، المدربة على أوضاع الأفاتار ثلاثية الأبعاد، لأخذ تلك الشبكة ثلاثية الأبعاد وتعديلها لإضافة ملامح الوجه المناسبة، والهيكل، والتجهيز، والأنسجة، مما يجعل الشبكة ثلاثية الأبعاد الثابتة في جوهرها أفاتار Roblox. وأخيرًا، تتيح أداة تحرير الشبكة للمستخدمين تحويل النموذج وتعديله ليبدو أكثر شبهاً بالنسخة التي يتخيلونها. ويحدث كل هذا بسرعة — في غضون دقائق — مما ينتج عنه شخصية افتراضية جديدة يمكن استيرادها إلى Roblox واستخدامها في تجربة ما.
الإشراف على الاتصالات الصوتية
لا يقتصر دور الذكاء الاصطناعي بالنسبة لنا على الإبداع فحسب، بل إنه أيضًا نظام أكثر كفاءة لضمان وجود مجتمع متنوع وآمن ومتحضر على نطاق واسع. مع بدء طرح ميزات صوتية جديدة، بما في ذلك الدردشة الصوتية وRoblox Connect، وميزة الاتصال الجديد كأفاتار، وواجهات برمجة التطبيقات (API) التي تم الإعلان عنها في RDC، نواجه تحديًا جديدًا يتمثل في الإشراف على اللغة المنطوقة في الوقت الفعلي. المعيار الصناعي الحالي لهذا الأمر هو عملية تُعرف باسم التعرف التلقائي على الكلام (ASR)، والتي تقوم أساسًا بأخذ ملف صوتي، ونسخه لتحويله إلى نص، ثم تحليل النص للبحث عن لغة غير لائقة، وكلمات رئيسية، وما إلى ذلك.
يعمل هذا بشكل جيد للشركات التي تستخدمه على نطاق أصغر، ولكن عندما استكشفنا استخدام نفس عملية ASR هذه لتنظيم الاتصالات الصوتية، أدركنا بسرعة أنها صعبة وغير فعالة على نطاقنا. كما أن هذا النهج يفقد معلومات قيّمة للغاية مشفرة في حجم صوت المتحدث ونبرة صوته، بالإضافة إلى السياق الأوسع للمحادثة. من بين ملايين الدقائق من المحادثات التي يتعين علينا نسخها يوميًا، عبر لغات مختلفة، لن تبدو سوى نسبة ضئيلة جدًا منها غير لائقة. ومع استمرارنا في التوسع، سيتطلب هذا النظام المزيد والمزيد من قوة الحوسبة لمواكبة ذلك. لذلك، درسنا عن كثب كيف يمكننا القيام بذلك بشكل أكثر كفاءة، من خلال إنشاء مسار ينتقل مباشرة من الصوت المباشر إلى تصنيف المحتوى للإشارة إلى ما إذا كان ينتهك سياساتنا أم لا.
في النهاية، تمكنا من بناء نظام داخلي مخصص للكشف عن الصوت باستخدام ASR لتصنيف مجموعات بيانات الصوت الداخلية لدينا، ثم استخدام تلك البيانات المصنفة لتدريب النظام. وبشكل أكثر تحديدًا، لتدريب هذا النظام الجديد، نبدأ بالصوت وننشئ نصًا مكتوبًا. ثم نقوم بتمرير النص المكتوب عبر نظام تصفية النص في Roblox لتصنيف الصوت. يتميز نظام تصفية النص هذا بقدرته الفائقة على اكتشاف اللغة التي تنتهك السياسات على Roblox، حيث قمنا بتحسين هذا النظام نفسه لسنوات عديدة ليتناسب مع المصطلحات العامية والاختصارات والمصطلحات الخاصة بـ Roblox. في نهاية هذه المراحل من التدريب، نحصل على نموذج قادر على اكتشاف انتهاكات السياسات مباشرةً من الصوت في الوقت الفعلي.
على الرغم من أن هذا النظام لديه القدرة على اكتشاف كلمات رئيسية محددة مثل الألفاظ البذيئة، إلا أن انتهاكات السياسة نادرًا ما تكون مجرد كلمة واحدة. غالبًا ما تبدو كلمة واحدة مشكلة في سياق ما وتكون مقبولة تمامًا في سياق آخر. في الأساس، تتضمن هذه الأنواع من الانتهاكات ما تقوله، وكيف تقوله، والسياق الذي تُقال فيه العبارات.
لتحسين فهم السياق، نستفيد من القوة الأصلية للبنية القائمة على المحولات، والتي تتميز بقدرة عالية على تلخيص التسلسلات. يمكنها أخذ تسلسل من البيانات، مثل دفق صوتي، وتلخيصه لك. تتيح لنا هذه البنية الاحتفاظ بتسلسل صوتي أطول حتى نتمكن من اكتشاف ليس فقط الكلمات، بل أيضًا السياق والنغمات. بمجرد تجميع كل هذه العناصر، نحصل على نظام نهائي حيث يكون الإدخال صوتيًا والإخراج تصنيفًا — سواء كان ينتهك السياسة أم لا. يمكن لهذا النظام اكتشاف الكلمات الرئيسية والعبارات التي تنتهك السياسة، وكذلك النبرة والمشاعر والسياقات الأخرى المهمة لتحديد النية. هذا النظام الجديد، الذي يكتشف الكلام الذي ينتهك السياسة مباشرة من الصوت، أكثر كفاءة في الحوسبة بشكل ملحوظ من نظام ASR التقليدي، مما سيجعل من السهل جدًا توسيع نطاقه بينما نواصل إعادة تصور كيفية تواصل الناس معًا.
كنا بحاجة أيضًا إلى طريقة جديدة لتحذير مستخدمي أدوات الاتصال الصوتي لدينا من العواقب المحتملة لهذا النوع من اللغة. مع وجود نظام الكشف المبتكر هذا تحت تصرفنا، نجرب الآن طرقًا للتأثير على السلوك عبر الإنترنت للحفاظ على بيئة آمنة. نحن نعلم أن الأشخاص ينتهكون سياساتنا أحيانًا دون قصد، ونريد أن نفهم ما إذا كان التذكير العرضي قد يساعد في منع المزيد من المخالفات. للمساعدة في ذلك، نجرب ردود فعل المستخدمين في الوقت الفعلي من خلال الإشعارات. إذا اكتشف النظام أنك قلت شيئًا ينتهك سياساتنا عدة مرات، فسنعرض إشعارًا منبثقًا على شاشتك لإعلامك بأن لغتك تنتهك سياساتنا وتوجيهك إلى سياساتنا للحصول على مزيد من المعلومات.
ومع ذلك، فإن إشعارات البث الصوتي ليست سوى عنصر واحد من عناصر نظام الإشراف. نحن ننظر أيضًا إلى أنماط السلوك على المنصة، بالإضافة إلى الشكاوى الواردة من الآخرين على Roblox، لتوجيه قراراتنا الإشرافية الشاملة. قد يؤدي مجموع هذه الإشارات إلى عواقب أشد، بما في ذلك إلغاء الوصول إلى ميزات الصوت، أو في حالة المخالفات الأكثر خطورة، الحظر الكامل من المنصة. يعد الحفاظ على سلامة مجتمعنا وحسن سلوكه أمرًا بالغ الأهمية، حيث تتضافر هذه التطورات في نماذج الذكاء الاصطناعي متعدد الوسائط والذكاء الاصطناعي التوليدي ونماذج اللغة الكبيرة (LLMs) لتوفير أدوات وقدرات جديدة مذهلة للمبدعين.
نعتقد أن تزويد المبدعين بهذه الأدوات سيقلل من عوائق الدخول للمبدعين الأقل خبرة، ويحرر المبدعين الأكثر خبرة من المهام المملة في هذه العملية. سيسمح لهم ذلك بقضاء المزيد من الوقت في الجوانب الإبداعية من الضبط الدقيق وتوليد الأفكار. هدفنا من كل هذا هو تمكين الجميع، في كل مكان، من تحويل أفكارهم إلى واقع وزيادة تنوع الأفاتار والعناصر والتجارب المتاحة على Roblox بشكل كبير. كما نشارك المعلومات والأدوات للمساعدة في حماية الإبداعات الجديدة.
نحن نتخيل بالفعل إمكانيات مذهلة: لنفترض أن شخصًا ما قادر على إنشاء نسخة طبق الأصل من شخصيته الرقمية مباشرةً من صورة، فيمكنه بعد ذلك تخصيص شخصيته الرقمية لجعلها أطول أو عرضها بأسلوب الأنيمي. أو يمكنه بناء تجربة من خلال مطالبة المساعد بإضافة سيارات ومباني ومناظر طبيعية، أو ضبط الإضاءة أو ظروف الرياح، أو تغيير التضاريس. ومن هناك، يمكنه التكرار لتحسين الأمور بمجرد الكتابة ذهابًا وإيابًا مع المساعد. نحن نعلم أن ما سيبتكره الناس باستخدام هذه الأدوات، بمجرد توفرها، سيتجاوز بكثير ما يمكننا حتى تخيله.




