يقوم Openai بترقية Sora ويحولها إلى Chatagupt

يقوم Openai بدمج إمكانيات توليد صور Sora مباشرة في ChatGPT – تسمى هذه الميزة “الصور في Chatgapt”. عندما كانت سورا بالفعل ible xacible بواسطة موقع منفصليمكن للمستخدمين الآن استخدامه فقط لإنشاء صور في ChatGPT.

تم الإعلان عن سورا كمولد فيديو تديره الذكاء الاصطناعى ، ولكن هذا الإصدار الأولي يركز فقط على إنشاء الصور وسيكون متاحًا في إطارات ChatGupt Plus و Pro و Team وإطارات الاشتراك المجانية. أخبرت المتحدثة تايا كريستيان أن استخدام الإطار الحر يشبه كل L-E. حافةولكن أضاف أنه ليس لديهم عدد معين للمشاركة “و” قد يتغير هذا مع مرور الوقت بناءً على الطلب. “لكل أسئلة وأجوبة الدردشةكان المستخدمون الأحرار قادرين سابقًا على إنتاج “ثلاث صور يوميًا” مع “D All L · E3”. عند الحديث عن مستقبل Al-E ، قال كريستيان إن “المشجعين” سيظلون يحصلون على القبول من خلال GPT المخصص. “

وقال غابرييل غوه: “هذا النموذج هو تغيير خطوة عن النماذج السابقة”. حافةوأضاف أن الفريق استخدم GPT-4O “Omnimodal”-أو نموذج يمكنه إنتاج الأساس لهذا التكرار لأي نوع من نص البيانات والصورة و DIO و Video-Sora.

تتضمن بعض التحديثات المسجلة “الربط” ، والتي تحافظ على العلاقة الحقيقية بين مولدات صور الذكاء الاصطناعى والعلاقات الحقيقية بين الكائنات. على سبيل المثال ، يمكن أن يحصل النموذج ذو الربط الضعيف ، على موجه لنجم أزرق بالإضافة إلى مثلث أحمر ويشكل نجمة حمراء ولا مثلث. وقال جوه إن معظم نماذج الصور تكافح مع هذا ، في كثير من الأحيان خلط الألوان والأشكال عندما يُقال إن العديد من العناصر تقدم – عادة ما يكون حوالي 5 إلى 8. يقول إن توليد الصور الجديد في سورا يمكن أن يربط بشكل صحيح 15 إلى 20 كائنًا دون تشويش ، يمثل تحسناً كبيرًا في الدقة والموثوقية.

مثال على قدرات سورا “الربط”.

يفضح

سيشاهد المستخدمون أيضًا تصحيحات في عرض النص ، مما يجعل من السهل إنتاج نص متوافق دون خطأ مطبعي على الصورة (في المعدات الموجودة ، سترى غالبًا هذا النص مشوهة بسهولة شديدة). وقال جوه: “لقد كان تحديًا كبيرًا للحصول على تقديم نص بشكل صحيح”. إذا كانت العناوين الصغيرة أو العناصر النصية لها أنواع أو أخطاء ، فقد تكون الصورة بأكملها غير صالحة للاستعمال.

وقال جوه “كان هذا مثل عملية التكرار التي استغرقت عدة أشهر”. على الرغم من أنه ليس مثاليًا ، فقد قال إن الفريق وصل إلى نقطة يكون فيها جودة النص مفيدة باستمرار (حيث يرتكب خطأ في الحقيقة نص صغير). “لقد كان تحسنا طفيفا لعدة أشهر.”

يستخدم خام النظام نهج التورنيت-ينتج الصورة من اليسار إلى اليمين ومن الأعلى إلى الأسفل ، مع نفس مولدات الصور (مثل D All-E) كيف يتم كتابة النص ، بدلاً من التكنولوجيا التي تنشئ الصورة بأكملها في نفس الوقت. يخمن Goh أن هذا الاختلاف الفني يمكن أن يكون الشكل الذي يمنح Sora إمكانيات تقديم النص والربط بشكل أفضل.

مثال تم إنشاؤه بواسطة AI على القدرة على توليد نص Sora. إنه يظهر 4 كوكتيلات أكثر شعبية ، المكونات لصنعها.

مثال على قدرة سورا على إنتاج نص متوافق.

يفضح

في الإحاطة السابقة لإسقاط الميزة ، أظهر الفريق العديد من الأمثلة التي تعرض قدرات النظام ، بما في ذلك الشخصيات الجديدة ، مثل تجربة PRISM من نيوتن. تشمل الرسوم البيانية الفريدة ، والمكونات المسمى بشكل صحيح ، والحروف المستمرة والملصقات من فقاعات النص مزيج CS متعدد الألواح وملصقات النص الدقيق. كما نشروا تطبيقات عملية مثل إنشاء صور خلفية شفافة للملصقات وقوائم المطاعم والشعارات.

أوضح جاكي شانو ، قيادة المنتج متعدد الوسائط ، “إذا ذهبت لرسم صورة ، فأنا أقوم بحد مهاراتي الخاصة … ولكن أيضًا مع جميع العوالم التي قمت بإنشائها.” “هذا النموذج يجلب junowledge في العالم إلى المعادلة ، لذلك عندما تطلب صورة تجربة PRISM من نيوتن ، لا يتعين عليك أن تفهم أنه هو استعادة الصورة.”

يستغرق النظام الجديد وقتًا أطول لإنشاء صور أكثر من ذي قبل ، على الرغم من أن Openai يشير إلى أن هذه تجارة مناسبة. “عندما يكون لدينا مكان لتحسين التأخير … جودة هذه الصور ، والقدرة ، ومعرفة العالم J ، تجعل حقا لثواني إضافية سوف تنتظر”.

صورة تم إنشاؤها بواسطة AI لتجربة Prism's Newton على المفكرة في واشنطن سكوير بارك.

تم إجراء تجربة PRISM من نيوتن على مفكرة في واشنطن سكوير بارك.

يفضح

عندما سئل عن الضمانات – micros. تم إنتاج Dipfax العارية الشهير من Taylor Swift باستخدام نموذج النموذج ، والقدرة على جعل Zinny Groc Harris مع Gun ، و Hail من Google Gemini لإزالة العلامات المائية – أكد فريق Openai أن النظام شمل النظام. قال شانو إن هذه الأداة تمنع إزالة العلامات المائية ، وعرقلة المصابيح الجنسية وترفض طلبات توليد CSAM.

لا يتضمن نظام توليد الصور الجديد من Openai مؤشرات توضح العلامات المائية المرئية أو الصور. ومع ذلك ، أوضح سينو أن “جميع الصور التي تم إنشاؤها لدينا ستشمل القياسية القياسية C2PA منذ أن تم إنشاء الصورة بواسطة Openai “To Mark” و “الصور في الشركة” ، ستتمكن أيضًا من رؤية بعض الأدوات الداخلية. “

وأضاف شانو: “في النهاية ، فإن النظام غير مناسب لهذا النوع من الأشياء ، لكننا نحسن سلامتنا باستمرار ونفكر في هذا كنقطة انطلاق”. “هناك شيء واحد حول جميع الصور التي تنتج من ChatGpt هو أن المستخدم يملكها وهو حر في استخدامها ضمن حدود سياسات الاستخدام الخاصة بنا.”