تقديم Roblox Cube: نظام الذكاء الاصطناعي التوليدي الأساسي لدينا للثلاثي الأبعاد والرباعي الأبعاد

- نحن بصدد إصدار نموذجنا الأساسي Cube 3D للذكاء الاصطناعي التوليدي.
- كما أننا نطرح نسخة مفتوحة المصدر من نموذج Cube 3D الأساسي.
- ستتوفر النسخة التجريبية من توليد شبكات Cube 3D — في Roblox Studio وكواجهة برمجة تطبيقات Lua داخل التجربة — هذا الأسبوع.
في الخريف الماضي، أعلنا عن مشروع طموح لبناء نموذج أساسي ثلاثي الأبعاد مفتوح المصدر لإنشاء كائنات ومشاهد ثلاثية الأبعاد على Roblox. هذا الأسبوع، نطرح الإصدار الأول من هذا النموذج كمصدر مفتوح ليتاح استخدامه لأي شخص داخل أو خارج منصة Roblox على كل من GitHub و HuggingFace. لقد أطلقنا على هذا النموذج اسم Cube 3D. كما أننا نطلق أول إمكانياته، مع الإصدار التجريبي لواجهة برمجة تطبيقات (API) إنشاء الشبكات. سيدعم Cube العديد من أدوات الذكاء الاصطناعي التي سنطورها في السنوات القادمة، بما في ذلك أدوات إنشاء المشاهد شديدة التعقيد. وسيكون في النهاية نموذجًا متعدد الوسائط، مدربًا على النصوص والصور والفيديو وأنواع أخرى من المدخلات — وسيتكامل مع أدوات إنشاء الذكاء الاصطناعي الحالية لدينا.
يقوم Cube 3D بإنشاء نماذج وبيئات ثلاثية الأبعاد مباشرةً من النصوص، وفي المستقبل، من المدخلات الصورية. اليوم، تستخدم أحدث تقنيات إنشاء النماذج ثلاثية الأبعاد الصور ونهج إعادة البناء لإنشاء كائنات ثلاثية الأبعاد. يعد هذا خيارًا جيدًا في حالة عدم توفر بيانات تدريب ثلاثية الأبعاد كافية. ومع ذلك، وبفضل طبيعة منصتنا، فإننا ندرب النموذج على بيانات ثلاثية الأبعاد أصلية. يتوافق الكائن الذي تم إنشاؤه تمامًا مع محركات الألعاب الحالية ويمكن توسيعه لجعل الكائنات قابلة للتشغيل.
الفرق هنا مشابه لموقع تصوير فيلم عن مضمار سباق. على التلفزيون، قد ترى ما يبدو وكأنه مضمار سباق يعمل بكامل طاقته، مع مدرجات ومرآب وممر الفائزين. ولكن إذا تجولت في ذلك الموقع، فسوف تدرك بسرعة أن الهياكل كانت في الواقع مسطحة. يتطلب بناء عالم ثلاثي الأبعاد غامر حقًا هياكل كاملة وعملية، مع مرآب يمكنك الدخول إليه بالسيارة، ومدرجات يمكنك الجلوس فيها، وممر فائزين به منصة توزيع جوائز عملية.
لتحقيق ذلك، استلهمنا من أحدث النماذج التي تم تدريبها على الرموز النصية (أو مجموعات الأحرف) حتى تتمكن من توقع الرمز التالي لتشكيل جملة. تعتمد ابتكاراتنا على نفس الفكرة الأساسية. لقد طورنا القدرة على تحويل الكائنات ثلاثية الأبعاد إلى رموز وفهم الأشكال كرموز، وقمنا بتدريب Cube 3D على توقع الرمز الشكلي التالي لبناء كائن ثلاثي الأبعاد كامل. وعندما نوسع نطاق هذا إلى إنشاء مشهد كامل، يقوم Cube 3D بتوقع التخطيط ويتنبأ بشكل متكرر بالشكل اللازم لإكمال هذا التخطيط.
يمكن لأي شخص ضبط Cube 3D أو تطوير مكونات إضافية له أو تدريبه على بياناته الخاصة لتلبية احتياجاته. نؤمن بأن أدوات الذكاء الاصطناعي يجب أن تُبنى على أساس الانفتاح والشفافية، ولهذا السبب نحن شريك ملتزم في مجتمع الذكاء الاصطناعي مفتوح المصدر. لقد أصدرنا أحد نماذجنا الخاصة بأمان الذكاء الاصطناعي لأننا نؤمن إيمانًا راسخًا بأن مشاركة التطورات في مجال أمان الذكاء الاصطناعي تساعد الصناعة بأكملها على تسريع الابتكار والتقدم التقني. ولهذا السبب، ساعدنا أيضًا في تأسيس ROOST، وهي منظمة غير ربحية جديدة مكرسة لمعالجة المجالات المهمة في مجال السلامة الرقمية باستخدام أدوات أمان مفتوحة المصدر. من خلال جعل Cube 3D مفتوح المصدر، نهدف إلى تمكين الباحثين والمطورين ومجتمع الذكاء الاصطناعي الأوسع نطاقًا من التعلم وتعزيز وتطوير إنشاء الصور ثلاثية الأبعاد على نطاق الصناعة.
Cube 3D للإبداع
لقد تحدثنا سابقًا عن كيفية قيام الذكاء الاصطناعي بتسريع إنشاء الأصول ثلاثية الأبعاد والملحقات والتجارب. في النهاية، سيمكّن الذكاء الاصطناعي من لعب وتواصل أكثر غامرة وتخصيصًا. نستثمر في البنية التحتية لدعم الذكاء الاصطناعي في كل مرحلة من مراحل دورة الإنشاء — لكل من مطوري هذه التجارب والمستخدمين الذين يقضون وقتهم فيها. نتصور مستقبلاً يمنح فيه المطورون مستخدميهم طرقاً جديدة للإبداع من خلال تمكين الذكاء الاصطناعي في تجاربهم. وهذا يضع قوة الذكاء الاصطناعي في أيدي أكثر من 85 مليون مستخدم نشط يومياً كجزء من طريقة لعبهم.
في العام الماضي، قدمنا العديد من الميزات الجديدة من خلال مساعدنا المدعوم بالذكاء الاصطناعي داخل Roblox Studio لتزويد المطورين بالأدوات والقدرات التي يحتاجونها للإبداع والتخلص من ساعات العمل اليدوي. مع Cube، نعتزم جعل الإبداع ثلاثي الأبعاد أكثر كفاءة. من خلال إنشاء الشبكات ثلاثية الأبعاد، يمكن للمطورين استكشاف اتجاهات إبداعية جديدة بسرعة وزيادة إنتاجيتهم من خلال اتخاذ قرار سريع بشأن الاتجاه الذي سيتبعونه.
تخيل أنك تبني لعبة مضمار سباق. اليوم، يمكنك استخدام واجهة برمجة تطبيقات (API) إنشاء الشبكات داخل المساعد عن طريق كتابة موجه سريع، مثل "/generate a motorcycle" أو "/generate orange safety cone". في غضون ثوانٍ، ستقوم واجهة برمجة التطبيقات بإنشاء نسخة شبكية من هذه الكائنات. يمكن بعد ذلك إثراءها بالملمس واللون وما إلى ذلك. باستخدام واجهة برمجة التطبيقات هذه، يمكنك نمذجة الدعائم أو تصميم مساحتك بشكل أسرع بكثير — دون الحاجة إلى قضاء ساعات في نمذجة كائنات بسيطة. تتيح لك هذه الواجهة التركيز على الأمور الممتعة، مثل تصميم تخطيط المسار وضبط أداء السيارة. توفر هذه الواجهة ساعات من العمل لكل كائن يتم إنشاؤه وتمنحك هذا الوقت لتجربة أفكار جديدة دون القلق بشأن إنفاق الكثير من الوقت أو الجهد. على المدى الطويل، نخطط لتمكين كائنات أكثر تعقيدًا ووظيفية، وحتى مشاهد.






خلف الكواليس: التفاعل بين الرموز ثلاثية الأبعاد ورموز النص/الصورة
كان التحدي التقني الرئيسي هو ربط النصوص والصور بالأشكال ثلاثية الأبعاد. إن إنجازنا التقني الأساسي هو الترميز ثلاثي الأبعاد، الذي يسمح لنا بتمثيل الكائنات ثلاثية الأبعاد كرموز بنفس الطريقة التي يمكن بها تمثيل النص كرموز. وهذا يمنحنا القدرة على توقع الشكل التالي تمامًا كما تتنبأ نماذج اللغة بالكلمة التالية في الجملة.

لتحقيق التوليد ثلاثي الأبعاد، قمنا بتصميم بنية موحدة للتوليد التلقائي المتكرر لكائن واحد، وإكمال الشكل، وتوليد تخطيط متعدد الكائنات/المشاهد. المحولات التلقائية المتكررة هي شبكات عصبية تستخدم المدخلات السابقة للتنبؤ بالمكون التالي. توفر هذه البنية قابلية التوسع والتوافق متعدد الوسائط بحيث تعمل مع أنواع مختلفة من المدخلات (نصية، مرئية، صوتية، وثلاثية الأبعاد) مع توسيع النموذج. نحن نعمل على جعل هذا النموذج مفتوح المصدر. في هذه المرحلة الأولية، سيتمكن المبدعون من إنشاء كائنات ثلاثية الأبعاد بناءً على المطالبات النصية. في المستقبل، نعتزم تمكين المبدعين من إنشاء مشاهد كاملة بناءً على مدخلات متعددة الوسائط.
لتدريب محول توليدي مُدرّب مسبقًا (GPT) لتوليد الأشكال، نستخدم رموز أشكال ثلاثية الأبعاد منفصلة ونقوم بمواءمتها مع المطالبات النصية. يهيئنا هذا النهج المبتكر لعالم توليد المشاهد ثلاثية الأبعاد القابلة للتشغيل.

إلى أين يتجه Cube
اليوم، يستخدم معظم العالم الذكاء الاصطناعي للنصوص، للتنبؤ بالكلمات في الجملة. كما يستخدمه الكثيرون للصور، للتنبؤ بالبكسلات. ويصبح الأمر أكثر تعقيدًا عند إنشاء المشاهد، حيث تجتمع كل هذه العناصر وتحتاج إلى العمل في سياق مع بعضها البعض. على سبيل المثال، تخيل تجربة بمشهد بسيط يمكن وصفه بأنه "أفاتار على دراجة نارية أمام مضمار سباق به أشجار".
هناك العديد من العناصر التي تدخل في بناء هذه التجربة. الأشجار عبارة عن مزيج من شبكتين ثلاثيتين الأبعاد، والدراجة النارية عبارة عن شبكة كثيفة تحتوي على تفاصيل ومثلثات، والمباني مكونة من أجزاء Roblox. يتميز الشخصية الافتراضية على الدراجة النارية بسمات هندسية أكثر تعقيدًا لجسمها وأطرافها ورأسها. أخيرًا، نحتاج إلى طريقة لربط كل ذلك معًا من خلال تخطيط. ولهذا، نحتاج إلى مربعات حدودية، تحدد ملامح الكائن لتحديد حجمه وموقعه، لمعرفة كيفية ترتيب هذه الهندسة. هذه عملية شاقة، لكن الذكاء الاصطناعي قادر على المساعدة في كل خطوة. باستخدام الذكاء الاصطناعي، يمكن للمبدعين الوصول إلى النسخة الأولى بشكل أسرع والحصول على مزيد من الوقت لاختبار أفكار جديدة أو تحسين مشهدهم.
عندما نصل إلى هذه المرحلة، نريد أن تكون الكائنات والمشاهد ثلاثية الأبعاد التي ننشئها تعمل بكامل طاقتها. نسمي هذا "الإبداع رباعي الأبعاد"، حيث يمثل البعد الرابع التفاعل بين الكائنات والبيئات والأشخاص. يتطلب تحقيق ذلك القدرة ليس فقط على بناء كائنات ومشاهد ثلاثية الأبعاد غامرة، ولكن أيضًا على فهم السياقات والعلاقات بين تلك الكائنات. هذا هو الاتجاه الذي نسير فيه مع Cube.
بالإضافة إلى حالة الاستخدام الأولى هذه المتمثلة في إنشاء الشبكات، نخطط للتوسع ليشمل إنشاء المشاهد وفهمها. سنتمكن من تزويد المستخدمين بالتجارب التي يهتمون بها أكثر، وتعزيز المشاهد بإضافة كائنات في سياقها. على سبيل المثال، في تجربة تتضمن مشهد غابة، يمكن للمطور أن يطلب من المساعد استبدال جميع الأوراق الخضراء المورقة على الأشجار بأوراق الخريف للإشارة إلى تغير الفصل. تستجيب أدوات المساعد الذكي لدينا لطلبات المطور، مما يساعده على إنشاء تجاربه وتكييفها وتوسيع نطاقها بسرعة.
سنشارك التحديثات والوظائف الجديدة مع استمرارنا في تحسين وتوسيع نموذجنا الأساسي. حتى ذلك الحين، نأمل أن تستمتعوا باستخدام نسختنا مفتوحة المصدر من نموذج Cube 3D والبناء عليها، والتي يمكنكم الوصول إليها على GitHub و HuggingFace.



