الثلاثاء 23 أبريل 2024 / 11:57

الموناليزا تغني راب.. هذا ما يفعله نموذج مايكروسوفت للذكاء الاصطناعي

صممت شركة مايكروسوفت نموذج ذكاء اصطناعي، باسم "VASA-1" يُولّد وجوهاً ناطقة، من خلال التقاط صورة ثابتة ومقطع صوتي ودمجهما لإنشاء مقاطع فيديو واقعية من وجوه متحركة أو رسوم متحركة أو أعمال فنية، مع مزامنة الشفاه وحركات الرأس والوجه بشكل طبيعي.

وتم تطوير نموذج الذكاء الاصطناعي، بواسطة فريق من الباحثين في مجال الذكاء الاصطناعي في Microsoft Research Asia. و"VASA" هو اختصار لـ Visual Affective Skills Animator (بمعنى الرسوم المتحركة للمهارات البصرية العاطفية).

والنموذج الجديد قادر على إنتاج حركات شفاه متزامنة بشكل دقيق مع الصوت، وأيضاً التقاط مجموعة كبيرة من الفروق الدقيقة في الوجه وحركات الرأس الطبيعية.

وأوضحت الشركة أن النموذج الجديد تم تدريبه على عدة مقاطع فيديو لوجوه الأشخاص أثناء التحدث، إذ تم تصميمه للتعرف على حركات الوجه والرأس الطبيعية، بما في ذلك حركة الشفاه، والتعبير (غير الشفاه)، ونظرة العين، والرمش.

وطرحت الشركة مقطع فيديو تجريبياً، تم إنشاؤه بالنموذج الجديد، على لوحة الموناليزا لليوناردو دافنشي، لتغني الموناليزا أغنية Paparazzi لآن هاثاواي. 

وقالت مايكروسوفت إن الذكاء الاصطناعي يمكن استخدامه لأغراض تعليمية أو لإنشاء رفاق افتراضيين للبشر، لكنها حذرت أيضاً من المخاطر المحتملة لمثل هذه التكنولوجيا، وتعترف الشركة بإمكانية إساءة استخدام الأداة لانتحال هوية البشر، لكنها تؤكد أن الأداة ليست لتعزيز التزييف العميق.

وأكدت مايكروسوفت عدم وجود أي خطط لإصدار نموذج VASA-1 علناً للجمهور، تجنباً لإساءة استخدام هذه الأداة واستخدامها لانتحال شخصية أشخاص حقيقيين، ولن يتم إصداره علناً حتى يتم الوثوق في آلية استخدامه بشكل مسؤول وفقاً للوائح المناسبة. 

وتشبه هذه الخطوة الطريقة التي تعاملت بها شركة "أوبن إيه آي" مع المخاوف التي سيطرت على الخبراء مع الكشف عن أداة الذكاء الاصطناعي "سورا"، التي أطلقتها في فبراير (شباط) الماضي، ولم تتم إتاحتها حتى الآن إلا لمستخدمين محترفين أو أساتذة الأمن السيبراني.