مقياس METR: نماذج الذكاء الاصطناعي تنجز مهاماً تتطلب 14 ساعة من العمل البشري.

Englishعربي

يشغل الأوساط المهتمة بالذكاء الاصطناعي حالياً رسم بياني "ترند" يقيس الفجوة بين سرعة النماذج البرمجية والبشر في إنجاز المهام المعقدة، حيث تظهر البيانات أن أحدث النماذج، مثل تلك التي تطورها شركة Anthropic، باتت قادرة على التعامل مع مهام تتطلب من الإنسان العادي نحو 14 ساعة أو أكثر من التركيز المتواصل. هذا المقياس، الذي يتصدر واجهة موقع منظمة METR، وصل إلى رقم 4.6 بحلول فبراير 2026، وهو ما يعكس قفزة هائلة؛ ففي أواخر عام 2022 كانت النماذج تنجز مهاماً بسيطة لا تتجاوز 30 ثانية، أما اليوم فنحن أمام قدرات تدير عمليات تستغرق ساعات طويلة. وحسب ما نقله بودكاست Odd Lots من بلومبرغ، صممت منظمة METR (وهي اختصار لـ Model Evaluation and Threat Research) هذا المخطط لتقييم إمكانات الذكاء الاصطناعي في العمل المستقل، ما يثير تساؤلات حقيقية حول مخاطر "التحسين الذاتي المتكرر" حيث يمكن للآلات أن تطور نفسها دون إشراف بشري مباشر.

تركز منظمة METR، بقيادة رئيسها Chris Painter، على جوانب الأمان من خلال تقييم كفاءة الذكاء الاصطناعي في حل مشكلات واقعية ومعقدة تتطلب نفساً طويلاً، مثل البرمجة أو التفكير المنطقي متعدد الخطوات. وكما طُرح في حلقة Odd Lots، يتتبع الرسم البياني أطول المهام التي يمكن للنموذج إنهاؤها بنجاح وموثوقية، مع اتخاذ الأداء البشري معياراً أساسياً للقياس؛ فالسؤال هنا هو: كم ساعة من العمل البشري المكافئ يمكن للنموذج أن يحاكي؟ يشدد Painter وفريقه على أن الهدف ليس مجرد التنبؤ باستبدال الوظائف، بل فهم حدود التوسع (Scaling)، خاصة مع المخاوف من الوصول إلى مرحلة "سرعة الإفلات" التي قد تتسارع فيها وتيرة التطور بشكل لا يمكن التحكم فيه. هذا الصعود الحاد في الرسم البياني، الذي يشبهه البعض بنسخة الذكاء الاصطناعي من Moore’s Law، بات يسيطر على النقاشات التقنية العالمية لما يحمله من آفاق ومخاوف في آن واحد.

ورغم أن هذا الرسم البياني استقطب المتحمسين للذكاء الاصطناعي كونه يشير إلى نمو أسي يضاعف القدرات كل بضعة أشهر، إلا أن الخبراء يدعون للحذر من التبسيط المفرط. في تحليل له، يرى Derek Thompson أن هذا المخطط لا يتنبأ بهيمنة الآلة على كافة أشكال العمل البشري، موضحاً أن معايير METR محددة بمهام تقنية معينة وليست مقياساً شاملاً لكل أنواع الوظائف. هذا التمييز مهم لأن المبالغات المحيطة بالبيانات هي ما يحرك الاستثمارات والسياسات اليوم، بينما الرؤية الأكثر واقعية تتوقع مساراً يتسم بالتحديات بدلاً من السيطرة الاقتصادية المطلقة والسهلة. يوضح Painter أن عمل المنظمة يعطي الأولوية لأبحاث التهديدات والمخاطر، وهو ما يفرّقهم عن التصورات العامة التي ترى في هذا التطور مجرد سباق نحو الإنتاجية.

يعكس انتشار هذا الرسم البياني توجهاً أوسع في قطاع التقنية، مثل النمو الانفجاري لمنصة ChatGPT التي وصلت إلى 100 مليون مستخدم بسرعة تفوقت على الإنترنت والهواتف المحمولة، وفقاً لبيانات المحللة Deb Liu. لا يزال استخدام الأفراد للذكاء الاصطناعي في تصاعد مستمر، حيث تسجل ChatGPT الآن مئات الملايين من المستخدمين النشطين أسبوعياً، رغم تباين التقديرات بسبب تعدد الحسابات. ويبرز تقرير Stanford AI Index هيمنة النماذج التأسيسية (Foundation Models) وتغير معايير القياس، مما يفسر سبب الزخم الذي يحيط بمقياس METR في ظل سباق الاستثمارات الضخمة والمنافسة العالمية التي تقودها الولايات المتحدة.

يؤثر هذا المقياس اليوم على الجميع، من المطورين وصولاً إلى المشرعين، لأنه يعطي إشارة حول اللحظة التي قد يبدأ فيها الذكاء الاصطناعي بالعمل بشكل مستقل في مجالات حساسة مثل الأبحاث أو إدارة البنية التحتية. الأطراف المتأثرة تشمل شركات التقنية التي تتسابق للتوسع بأمان، والموظفين في المهن المعرفية الذين يواجهون تغيراً في طبيعة أدوارهم، وصناع القرار الذين يناقشون آليات الرقابة. في المرحلة القادمة، تسعى METR إلى تطوير أدوات القياس الخاصة بها وتدقيق المقارنات مع الأداء البشري، بينما تحاول منصات مثل Odd Lots تقريب هذه الرؤى المعقدة للجمهور. ومع تكاثر هذه الرسوم البيانية، فإنها تنجح في تبسيط وفهم التطور التقني، لكنها تفرض في الوقت نفسه ضرورة القراءة المتأنية لتجنب التوقعات المتضخمة أو القلق غير المبرر.

مقياس METR: نماذج الذكاء الاصطناعي تنجز مهاماً تتطلب 14 ساعة من العمل البشري. | سرمد