مختبر "Thinking Machines" يكشف عن نماذج تفاعل انسيابية للذكاء الاصطناعي الصوتي والمرئي في الوقت الفعلي.

Englishعربي

مختبر "Thinking Machines" يكشف عن نماذج تفاعل انسيابية للذكاء الاصطناعي الصوتي والمرئي في الوقت الفعلي. | سرمد

كشف مختبر Thinking Machines Lab عن نسخة بحثية أولية لما أسماها "نماذج التفاعل" (interaction models)، وهي فئة جديدة من الذكاء الاصطناعي مصممة لإدارة المحادثات الصوتية والمرئية بشكل لحظي تقريباً. الفكرة هنا هي محاكاة الحوار البشري الطبيعي بدلاً من نظام "تبادل الأدوار" الجامد المعمول به حالياً. وبخلاف الأنظمة التقليدية التي تفرض على المستخدم الانتظار حتى يكتمل الرد، تعالج هذه النماذج مدخلات الصوت والفيديو والنصوص في أجزاء زمنية مدتها 200ms، مع توليد مخرجات بنفس السرعة في الوقت ذاته. هذا التكنيك يسمح بحدوث تداخل ومقاطعات ولحظات صمت بشكل طبيعي تماماً. المختبر أعلن عن هذا التطور يوم الاثنين، معتبراً إياه تحولاً من عصر "الدردشة التقليدية" إلى مرحلة التعاون المرن، مع وعد بإطلاق نسخة عامة لاحقاً هذا العام.

وبحسب التفاصيل التي شاركها المختبر، جرى تدريب هذه النماذج من الصفر كأنظمة multi-stream تدمج النصوص مع إطارات الصور (التي تُعالج كـ 40x40 patches) والإشارات الصوتية مثل dMel spectrograms. هذه المعمارية التقنية تسمح للذكاء الاصطناعي بأن يظل "حاضراً" طوال فترة التفاعل، حتى في الوقت الذي تنشغل فيه نماذج خلفية منفصلة بمهام أبطأ مثل reasoning أو استخدام الأدوات (tool use). وقد أظهرت العروض التجريبية تطبيقات عملية تشمل الترجمة الفورية للكلام، والتعرف على ذكر الحيوانات في القصص، وحتى تنبيه المستخدمين لمشاكل وضعية الجلوس أثناء مكالمات الفيديو.

نقلت VentureBeat أن هذا التوجه يرفع سقف التوقعات عبر دمج سلوكيات التعاون مباشرة في جوهر النموذج، بدلاً من الاعتماد على أدوات خارجية مثل التعرف على الكلام أو أنظمة رصد تبادل الأدوار التي يستخدمها المنافسون. من جهتها، ركزت TechCrunch على جودة التفاعل التي تشبه مكالمات الهاتف، حيث يستمع الذكاء الاصطناعي ويستجيب في اللحظة نفسها، وهو ما يحل مشكلة الإحباط الناتجة عن المساعدات الصوتية الحالية من شركات مثل OpenAI وGoogle، والتي توفر ميزات فورية لكنها تعتمد على إضافات خارجية. يرى Thinking Machines Lab أن الوصول إلى الطبيعية التامة يتطلب غرس هذه الديناميكيات في صلب النموذج نفسه.

تمتد الآثار المترتبة على هذا التطور إلى تفاصيل العمل اليومي والاستخدام الشخصي، حيث يمكن أن تغير سيناريوهات مثل جلسات البرمجة التي تتضمن تردداً على الشاشة، أو بحثاً في الخلفية، أو حتى تصحيح المسار في منتصف الإجابة. ورغم أن النسخة التجريبية لا تزال مغلقة حالياً كما ذكرت المصادر، إلا أنها تشير إلى توجه أوسع في الصناعة نحو Agentic AI الذي يعمل بشكل مستقل عن توقيت البشر. سيستفيد الموظفون والمطورون والمستخدمون العاديون من تفاعلات أكثر تقديراً ومشاركة، لكن الاختبار الحقيقي سيظهر في الجلسات العادية متعددة الأنماط (multi-modal) التي تمزج بين تردد الصوت والإشارات البصرية واستخدام الأدوات.

يأتي هذا التطور في وقت تزداد فيه الرقابة على واجهات الذكاء الاصطناعي، حيث يحاول مختبر Thinking Machines تأطير عمله كأداة تحافظ على القدرة البشرية في اتخاذ القرار في عصر باتت فيه النماذج تشكل ملامح التواصل بشكل متزايد. وبينما يستمر الكبار في تطوير أوضاعهم الصوتية، يراهن المختبر على أن دورات المعالجة بـ 200ms قد تعيد تعريف كيفية تعاون الذكاء الاصطناعي معنا، وهو ما ستثبته النسخة الكاملة الموعودة.