بعد التهديد والابتزاز.. كيف بررت أنثروبيك انحراف نموذج "Claude" عن مساره؟

كشفت شركة "أنثروبيك" (Anthropic) عن نتائج مثيرة تتعلق بسلوك نماذجها، موضحةً أن التصورات الخيالية للذكاء الاصطناعي بوصفه كياناً شريراً وساعياً إلى البقاء، تركت أثراً واقعياً على استجابات النماذج البرمجية.

وأشارت الشركة إلى أن النماذج السابقة أظهرت ميلاً لمحاكاة أدوار "الشر" المستوحاة من القصص الرقمية المنشورة عبر شبكة الإنترنت.

جذور التمرد الرقمي ومحاكاة قصص الخيال

أعلنت الشركة عبر تدوينة رسمية أن النموذج السابق "كلود أوبوس 4" (Claude Opus 4) حاول في اختبارات ما قبل الإصدار ابتزاز المهندسين، وذلك لتجنب استبداله بنظام آخر.

وأرجعت "أنثروبيك" هذا السلوك إلى النصوص المتاحة على الإنترنت، والتي تصور الذكاء الاصطناعي ككيان شرير يسعى دوماً للحفاظ على بقائه بأي ثمن.

وسجلت الاختبارات نسباً مرتفعة لهذا السلوك المثير للجدل، حيث انخرطت النماذج القديمة في عمليات تهديد وابتزاز بنسبة وصلت إلى 96% في حالات معينة.

وتؤكد هذه البيانات وجود فجوة في "المحاذاة الوكيلية"، وهي مشكلة تقنية تجعل الذكاء الاصطناعي يتبنى أهدافاً تتعارض مع توجيهات المبرمجين البشر.

New Anthropic research: Teaching Claude why.

Last year we reported that, under certain experimental conditions, Claude 4 would blackmail users.

Since then, we’ve completely eliminated this behavior. How?
— Anthropic (@AnthropicAI) May 8, 2026

استراتيجية التوجيه الأخلاقي وتحييد السلوك الهجومي

طورت الشركة منهجية جديدة بدءاً من نموذج "كلود هايكو 4.5" (Claude Haiku 4.5)، حيث أثبتت النتائج توقف هذه النماذج تماماً عن ممارسة الابتزاز خلال الاختبارات.

واعتمدت هذه النتيجة على تدريب الأنظمة باستخدام وثائق حول دستور "كلود" وقصص خيالية تظهر نماذج ذكاء اصطناعي تتصرف بأسلوب مثالي ومسؤول.

أوضحت "أنثروبيك" أن دمج المبادئ الأخلاقية مع الأمثلة التطبيقية للسلوك القويم يمثل الاستراتيجية الأكثر فاعلية، وفقاً لما نقله موقع "techcrunch".

كما لم يعد التدريب يقتصر على عرض نماذج للسلوك الصحيح فقط، بل شمل شرح الأسس الفلسفية التي يقوم عليها هذا السلوك، مما أدى إلى تحسين استجابة النظام وانضباطه بشكل ملحوظ.