أصدرت دراسة جديدة قام بها باحثون من مؤسسات مثل Cohere وStanford وMIT وAi2، مزاعم تفيد بأن منظمة LM Arena، الجهة المسؤولة عن معيار Chatbot Arena الشهير، قد ساعدت عددًا من شركات الذكاء الاصطناعي الكبرى على تحقيق ميزة غير عادلة. وتقر الدراسة بأنه قد تم منح شركات مثل Meta وOpenAI وGoogle وAmazon وصولًا خاصًا لاختبارات سرية، مما أتاح لها التلاعب في عرض النتائج على لوحة المتصدرين.
النتائج الرئيسية للدراسة
يشير الباحثون إلى أن LM Arena وفرت لبعض مختبرات الذكاء الاصطناعي فرصة إجراء اختبارات سرية متعددة باستخدام نماذج متعددة. بينما ظلت معظم الشركات محدودة بنتائج الاختبارات العامة، سمح لفئة قليلة بإجراء المزيد من الاختبارات الخاصة. وقد علقت السيدة سارة هوكر، نائبة رئيس أبحاث الذكاء الاصطناعي في Cohere وأحد مؤلفي الدراسة، بأن “عددًا قليلًا من الشركات فقط تم إعلامها بتوفر هذه الاختبارات الخاصة، مما أتاح لها إجراء اختبارات أسرع بكثير من الآخرين، وهذا يمثل نوعًا من التلاعب في النتائج.”
اقرأ أيضا: عملاء البحث العميق من Google Gemini 2.5
آلية عمل Chatbot Arena
أصبح Chatbot Arena معيارًا مهمًا للمجتمع العلمي في مجال الذكاء الاصطناعي، حيث يتم فيه مقارنة نموذجين بشكل مباشر ويصوت المستخدمون على الأفضل. تُحتسب الأصوات مع مرور الوقت لتحديد ترتيب النماذج على لوحة المتصدرين. إلا أن الدراسة تشير إلى أن النظام قد لا يكون متوازنًا تمامًا في حال تم منح بعض الشركات فرصًا إضافية للاختبار الخاص.
- الوصول الخاص: حصلت بعض الشركات على إمكانية إجراء اختبارات خاصة لعدة نسخ من النماذج.
- تحريف النتائج: نُشرت فقط النتائج العالية الأداء، مما قد يعطي صورة زائفة عن كفاءة النموذج.
- تأثير على لوحة المتصدرين: السماح بعدد أكبر من الاختبارات قد يؤدي إلى تعزيز ترتيب النموذج بشكل ملحوظ.
ردود فعل الصناعة وتعليقات LM Arena
في أعقاب ظهور الدراسة، رفض المؤسس المشارك لـ LM Arena والأستاذ بجامعة UC Berkeley، أيون ستويكا، مزاعم الدراسة معتبرًا إياها “غير دقيقة” و”تحليلها مشكوك فيه”. وصرحت المنظمة بأن عملية التقييم تقوم على مبدأ العدالة والمشاركة المجتمعية. وقد أكدت LM Arena على التزامها بالشفافية من خلال دعوة جميع مقدمي النماذج للمشاركة، مشيرة إلى أن اختلاف أعداد الاختبارات لا يعني بالضرورة معاملة غير عادلة.
كما أوضحت LM Arena أن المعلومات المفصلة عن الاختبارات الأولية للنماذج المتاحة قبل الإصدار كانت منشورة منذ مارس 2024 عبر تحديث سياستهم ومنشورات لاحقة.
أدلة على التفضيل في الوصول للاختبارات
كشفت الدراسة عن أدلة تشير إلى استفادة بعض الشركات الكبرى مثل Meta وOpenAI وGoogle من فرص اختبار إضافية. فعلى سبيل المثال، يظهر البحث أن شركة Meta تمكنت من تجربة 27 نسخة مختلفة من نموذجها بشكل خاص خلال الفترة من يناير إلى مارس قبل إطلاق نموذج Llama 4، ومع أنه تم إجراء اختبارات مكثفة إلا أنه تم نشر نتيجة واحدة فقط عالية الأداء، مما نُسب إلى التلاعب في النتيجة النهائية.
وأظهرت تحليلات أخرى أن الاختبارات الإضافية قد تُحسن أداء النموذج في معيار LM Arena آخر يُعرف بـ Arena Hard بنسبة تصل إلى 112%. إلا أن LM Arena أوضحت على منصتها في X أن أداء Arena Hard لا يرتبط بشكل مباشر بنتائج Chatbot Arena العامة.
اقرأ أيضا: تحرير الصور في شات بوت جيميني
قيود الدراسة والخطوات القادمة
اعترف الباحثون بأن منهجيتهم ليست مثالية؛ فقد اعتمدوا على تعريف ذاتي لتصنيف النماذج وهذا قد يترك مجالاً للخطأ. وبرغم التحديات المنهجية، لم تُعترض LM Arena رسميًا على النتائج الأولية عندما تواصل معها فريق الدراسة.
كما لم تقدم الشركات المذكورة – Meta وGoogle وOpenAI وAmazon – تصريحات فورية توضيحية عند التواصل معها.
الدعوة لمزيد من الشفافية
خلصت الدراسة إلى ضرورة مراجعة نظام Chatbot Arena لضمان منافسة أكثر عدالة، حيث تم اقتراح تحديد حد أقصى شفاف لعدد الاختبارات الخاصة التي يمكن لأي مختبر للذكاء الاصطناعي إجراؤها، مع نشر كافة نتائج هذه الاختبارات علنًا. ورغم رفض LM Arena الحاجة لتطبيق مثل هذه الإجراءات على النماذج قبل الإصدار، فإنها أبدت استعدادها لتنقيح خوارزميات الاختبار من أجل تقديم فرص متساوية لجميع النماذج المشاركة.
في وقت سابق، قامت شركة Meta بتحسين نموذج واحد من إصدارات Llama 4 بأسلوب يحاكي الحوار لتحقيق موقع متقدم على لوحة المتصدرين، إلا أن النموذج غير المعدل لم يحقق نفس النتائج مما أثار المزيد من التساؤلات حول شفافية المعايير وسلامتها.
نظرة مستقبلية
تأتي هذه النتائج في وقت يتزايد فيه التدقيق حول موثوقية المعايير الخاصة بالذكاء الاصطناعي. ومع انتقال LM Arena إلى مرحلة الشركة الكاملة، يواجه المسؤولون ضغوطًا لإثبات أن أساليب التقييم التي يعتمدونها قادرة على الحفاظ على نزاهة المنافسة حتى مع مشاركة اللاعبين الكبار في الصناعة.
للمزيد من التفاصيل التقنية والاطلاع على البحث الأصلي، يمكنكم قراءة الورقة الكاملة عبر موقع arXiv.
تحديث (30/4/25، الساعة 9:35 مساءً بتوقيت المحيط الهادئ): أُدرجت في نسخة سابقة من هذه المقالة تصريحات من مهندس Google DeepMind حول المنهجية. وقد أوضح المهندس أن Google قدمت 10 نماذج للاختبارات المسبقة بين يناير ومارس، مع التأكيد على أن فريق المصادر المفتوحة تلقى نموذجًا واحدًا فقط.