نموذج مفتوح لمجموعة « علي بابا» لتوليد الفيديو بالذكاء الاصطناعي

أصبح الذكاء الاصطناعي لاعبا هاما في إنتاج الفيديوهات بجودة عالية .. وحدة الذكاء الاصطناعي والحوسبة السحابية التابعة لمجموعة “علي بابا” القابضة أطلقت اليوم أداة Wan2.2-S2V ، كأحدث نموذج ذكاء اصطناعي مفتوح المصدر، يُنتج مقاطع فيديو معبرة بجودة الأفلام من صورة ثابتة ومقطع صوتي.
“علي بابا كلاود”
يُشكل النموذج الجديد جزءًا من عائلة Wan2.2 من “علي بابا كلاود”، والتي روّجت لها الشركة الشهر الماضي كأول نموذج مفتوح المصدر لتوليد مقاطع فيديو كبيرة الحجم في قطاع الذكاء الاصطناعي، مُدمجًا ما يُسمى بهندسة “مزيج الخبراء” (MoE)، بحسب تقرير نشره موقع “scmp”
Wan2.2-S2V تقدم أداء واقعي للشخصيات
وأعلنت “علي بابا كلاود” يوم الأربعاء أن نموذج Wan2.2-S2V، المُدعّم بتقنية رسوم متحركة متقدمة تعتمد على الصوت، “يُقدّم أداءً واقعيًا للشخصيات، بدءًا من الحوار الطبيعي وصولًا إلى العروض الموسيقية، ويتعامل بسلاسة مع شخصيات متعددة ضمن المشهد الواحد”.
قالت الشركة إنه يُمكن لمُنشئي المحتوى المحترفين استخدام Wan2.2-S2V “لالتقاط تمثيلات بصرية دقيقة مُصممة خصيصًا لتلبية متطلبات سرد القصص والتصميم المُحددة”.
وأضافت أن هذا التحسين يُعزى إلى مجموعة البيانات السمعية والبصرية واسعة النطاق للنموذج، المُصممة خصيصًا لسيناريوهات إنتاج الأفلام والتلفزيون.
يعكس أحدث إصدار من Wan2.2 سعي شركات الذكاء الاصطناعي الصينية المُستمر لتضييق الفجوة مع نظيراتها الأميركية من خلال نهج مفتوح المصدر، والذي يُتيح شفرة المصدر لنماذج الذكاء الاصطناعي لمطوري الطرف الثالث لاستخدامها وتعديلها وتوزيعها.
تنزيل نموذجي Wan2.1 وWan2.2
أعلنت “علي بابا كلاود” أن نموذجي Wan2.1 وWan2.2 الخاصين بها قد حققا أكثر من 6.9 مليون عملية تنزيل على Hugging Face وModelScope.
تقسّم بنية MoE في Wan2.2 النموذج إلى شبكات فرعية منفصلة، أو “خبراء”، تتخصص في مجموعة فرعية من بيانات الإدخال لأداء مهمة مشتركة.
لتلبية الاحتياجات المتنوعة لمنشئي المحتوى المحترفين، يوفر Wan2.2-S2V دقتين للإخراج: دقة قياسية 480 بكسل ودقة عالية 720 بكسل، وهذا يضمن جودة بصرية عالية تناسب محتوى وسائل التواصل الاجتماعي والعروض التقديمية الاحترافية.
يتيح النموذج الجديد أيضًا إنشاء مقاطع فيديو عبر خيارات تأطير متعددة، بما في ذلك منظور عمودي، ومنظور الصدر، ومنظور الجسم الكامل، وفقًا للشركة.
أفاد فريق تطوير Wan2.2-S2V في تقرير مرفق بالإصدار الجديد أن النموذج قادر على إنشاء مقاطع فيديو طويلة بتفاصيل بصرية متسقة.