تقنية

غوغل تكشف “جيميناي أومني”.. جيل جديد لصناعة الفيديو بالذكاء الاصطناعي

أعلنت غوغل عن عائلة جديدة من نماذج توليد الفيديو بالذكاء الاصطناعي تحمل اسم “جيميناي أومني” (Gemini Omni)، يتصدرها نموذج “أومني فلاش” (Omni Flash)، وذلك خلال مؤتمرها السنوي للمطورين، في خطوة تهدف إلى تقديم تجربة أكثر تطورا ومرونة مقارنة بنموذج “فيو” وأدوات “فلو” السابقة.

ويتميز “جيميناي أومني” بقدرته على إنشاء مقاطع فيديو انطلاقا من أنواع متعددة من المدخلات، تشمل الصور ومقاطع الفيديو والصوت والنصوص، ما يتيح للمستخدم إنتاج محتوى مرئي دون الحاجة إلى كتابة أوامر نصية معقدة أو امتلاك خبرة تقنية متقدمة.

ويوفر النموذج إمكانية تحويل الصور الثابتة إلى مقاطع فيديو متحركة مع الحفاظ على ملامح الأشخاص والعناصر الأصلية، كما يسمح بإجراء تعديلات على مقاطع فيديو موجودة مسبقا عبر أوامر مكتوبة بلغة طبيعية، ليقوم النظام بتنفيذ التعديلات وإنتاج نسخة جديدة جاهزة للاستخدام.

ومن بين الاستخدامات التي تروج لها غوغل إمكانية إنشاء شخصيات رقمية “أفاتار” مطابقة للمستخدم من حيث الشكل والصوت، وتحريكها داخل مقاطع الفيديو المختلفة، الأمر الذي قد يسهل إنتاج المحتوى المرئي لصناع المحتوى والعاملين في مجالات الإعلام والتسويق.

ورغم الإمكانات المتقدمة للنموذج، فإن “أومني فلاش” يقتصر حاليا على إنتاج مقاطع لا تتجاوز مدتها عشر ثوان، وهو قرار تؤكد غوغل أنه يهدف إلى إتاحة الخدمة لعدد أكبر من المستخدمين، وليس نتيجة قيود تقنية في قدرات النموذج.

وتحمل جميع المقاطع المنتجة بواسطة “جيميناي أومني” علامة “سينث آي دي” (SynthID)، التي تساعد المنصات والأدوات المختلفة على التعرف إلى المحتوى المولد بالذكاء الاصطناعي والحد من إساءة استخدامه.

ويختلف “أومني” عن أداة “فلو” في اعتماده على مفهوم “نماذج العالم”، وهي نماذج قادرة على فهم القوانين الفيزيائية ومحاكاة تأثيراتها داخل المشاهد، مثل الجاذبية واتجاه حركة الهواء وتفاعل الأجسام مع القوى الخارجية، ما يمنح الفيديوهات الناتجة قدرا أكبر من الواقعية.

كما تؤكد غوغل أنها طورت آليات إضافية للحد من استخدام النموذج في إنتاج مقاطع التزييف العميق، من بينها التحقق من هوية المستخدمين قبل السماح بإنشاء شخصيات رقمية تحاكي مظهرهم وصوتهم.

زر الذهاب إلى الأعلى