أوبن إيه آي تطلق ChatGPT Images 2.0 ببنية أصلية متعددة الوسائط ومعالجة دقيقة للنصوص.

Englishعربي

كشفت OpenAI عن تحديث كبير لقدراتها في توليد الصور بإطلاق ChatGPT Images 2.0، وهو موديل يمثل قفزة في قدرة الذكاء الاصطناعي على إنتاج صور واقعية وتفصيلية بدقة عالية. النظام الجديد يتجاوز العقبات التي واجهت الأجيال السابقة، خصوصاً في التعامل مع النصوص داخل الصور، وهي المهمة التي كانت دائماً تمثل تحدياً كبيراً لأدوات توليد الصور.

التطور الأبرز في Images 2.0 هو قدرته على إنتاج نصوص واضحة وتكوينات بصرية معقدة كانت تعتبر مستحيلة سابقاً. الاختبارات تظهر أن الموديل يحقق دقة تصل إلى 90-95% في كتابة النصوص، مع قدرة شبه مثالية على كتابة العناوين. هذا التحول يفتح الباب لاستخدامات عملية جديدة؛ فالموديل صار قادراً على تصميم infographics، وعروض تقديمية، وقوائم طعام، ولوحات إرشادية، ومواد تسويقية بخطوط واضحة، وحتى وثائق بلغات متعددة. وأشارت OpenAI إلى أن الموديل يفهم بعمق لغات غير لاتينية مثل اليابانية والكورية والهندية والبنغالية، وهو ما يحل مشكلة مزمنة في هذا المجال.

هذا الإنجاز التقني يعود لتغيير جذري في المعمارية البرمجية. فبخلاف الموديلات السابقة التي كانت تعتمد على diffusion models —التي تعيد بناء الصور من "التشويش" عبر تعلم أنماط البكسلات— يعتمد Images 2.0 على ما تصفه الشركة بنهج "native multimodal". الموديل يولد الصور داخل نفس الشبكة العصبية التي تعالج النصوص، بنفس الطريقة التي تعمل بها الموديلات اللغوية. هذا التكامل يمنح الموديل قدرة أكبر على فهم التفاصيل الدقيقة، والأنماط البصرية، ومتطلبات التكوين الفني بشكل أذكى بكثير من الأنظمة السابقة.

وبالإضافة إلى النصوص، يقدم Images 2.0 تحسينات عملية ملموسة؛ فهو أسرع بـ أربع مرات من النسخة السابقة، حيث تستغرق عملية التوليد من 5 إلى 8 ثوانٍ فقط، بدلاً من 20 إلى 30 ثانية. الموديل أصبح أكثر دقة في اتباع التعليمات، ويملك قدرات أفضل في التعديل، مع الحفاظ على التناسق بين النسخ، مثل الحفاظ على ملامح الوجه عند إجراء تغييرات على صورة شخصية. كما ينتج الموديل صوراً أكثر واقعية photorealistic، ويمكنه التعامل مع عناصر صعبة مثل الوجوه الصغيرة المتعددة بأسلوب طبيعي، وبدقة تصل إلى 2K.

بدأ طرح Images 2.0 فعلياً لجميع مستخدمي ChatGPT، وهو متاح أيضاً عبر API تحت اسم GPT-Image-1.5. يمكن للمستخدمين التفاعل مع الموديل عبر واجهة مرئية جديدة تحتوي على أنماط وأفكار جاهزة، أو عبر الأوامر النصية المباشرة. السرعة العالية في التوليد والقدرة على المعالجة المتوازية —التي تتيح للمستخدم البدء في صور جديدة بينما لا تزال أخرى قيد التنفيذ— تهدف إلى تشجيع التجريب وتطوير الأفكار الإبداعية بسرعة.

ومع ذلك، هناك حدود تقنية لـ Images 2.0 يجب الانتباه لها؛ فقاعدة معلومات الموديل تتوقف عند ديسمبر 2025، مما قد يؤثر على دقته عند طلب صور تتعلق بأحداث أو تطورات إخبارية حديثة. بالإضافة إلى ذلك، فضلت OpenAI عدم الكشف عن التفاصيل التقنية الدقيقة لمعمارية النظام، مما يترك بعض التساؤلات حول كيفية عمل التكامل المتعدد الأنماط multimodal دون إجابات واضحة.

أوبن إيه آي تطلق ChatGPT Images 2.0 ببنية أصلية متعددة الوسائط ومعالجة دقيقة للنصوص. | سرمد