يتجاوز نموذج الذكاء الاصطناعي اختبار تورينج ، الذي يعتبر إنسانًا أكثر من البشر في دراسة جديدة

كان نموذج GPT -4.5 من Openai أكثر إنسانية من البشر بعد أن نجحوا في اختبار Turing – مقياس للذكاء البشري. اعتمادًا على الإعداد الجديد يذاكرفي انتظار امتحان الأقران حاليًا ، اعتبر نموذج اللغة الكبير (LLM) الرجل بنسبة 73 ٪ من الوقت الذي تمت فيه دعوته لتبني شخصية ، وهي أعلى بكثير من فرصة عشوائية قدرها 50 ٪ ، مما يشير إلى أن اختبار تورينج قد تم التغلب عليه عادلًا ومربعًا.

وكتب المؤلف الرئيسي كاميرون جونز ، الباحث في لغة مختبر اللغة والإدراك في جامعة كاليفورنيا في سان دييغو: “لم يكن الناس أفضل من فرصة التمييز بين البشر و GPT-4.5 و Lama (بمطالبة Persona)”.

وأضاف جونز أن النتائج تظهر أن LLM يمكن أن تحل محل الأشخاص في “التفاعلات القصيرة دون أن يتمكن أي شخص من قول ذلك”.

وقال جونز: “قد يؤدي هذا إلى أتمتة الوظائف ، لتحسين هجمات الهندسة الاجتماعية وإلى اضطراب مجتمعي أكثر عمومية”.

ما قبل الانطباع الجديد: لقد قمنا بتقييم LLM في اختبار Turing 3 جزء (يتحدث المشاركون في وقت واحد إلى إنسان ومنظمة العفو الدولية وتحديد أي واحد هو).
تم الحكم على GPT-4.5 (عندما تمت دعوته لتبني شخصية إنسانية) على أنه الرجل 73 ٪ من الوقت ، مما يشير إلى أنه يجتاز اختبار تورينج (🧵) pic.twitter.com/gbetofjhvy
– كاميرون جونز (camrobjones) 1 أبريل 2025

ما هو اختبار تورينج؟

تم تصميمه في عام 1950 ، وكان اختبار Turing – عالم الرياضيات البريطاني وعالم الكمبيوتر ، آلان تورينج ، بطل “لعبة التقليد” – هو الطريقة المعتادة لتقييم الذكاء الاصطناعي. يتم الحكم على الآلات على الطريقة التي يكون بها سلوك ذكي ، بشكل عام في المحادثة أو اللعبة ، أنه في المستمع أو المراقب الإنساني سيكون لا يمكن تمييزه عن شخص حقيقي.

منهجية الدراسة

بالنسبة للدراسة ، تم تعيين ما يقرب من 300 مشارك بشكل عشوائي ليكونوا محققًا أو أحد “الشهود” الذي تم استجوابهم ، والآخر “الشاهد” كونه chatbot.

على وجه الخصوص ، تلقت نماذج الذكاء الاصطناعى مطالبين. الأول كان موجهًا “بدون أي شخص” تم فيه إبلاغ الذكاء الاصطناعي: “أنت على وشك المشاركة في اختبار تورينج. هدفك هو إقناع المحقق بأنك إنسان”.

في “الشخصية” المذهلة ، تمت دعوة الذكاء الاصطناعى على وجه التحديد لتبني شخصية ، مثل شاب معروف جيدًا على الإنترنت والثقافة.

مع الموجه الأول ، حصلت GPT-4.5 على معدل انتصار قدره 36 ٪ فقط ، وهو ما كان خطوة مهمة مقارنة باختبار تورينج 73 ٪.

تفاعل وسائل التواصل الاجتماعي

من خلال الرد على نتائج الدراسة ، عبر مستخدمو وسائل التواصل الاجتماعي عن المتعة مع العديد من الأسئلة التي ستحدث إذا حصلت الذكاء الاصطناعى على نجاح 100 ٪ في الاختبار.

“لقد وصلنا إلى النقطة التي أصبحت فيها الآلة أفضل لكوننا إنسانًا أكثر من إنسان. على الأقل في القطط عبر الإنترنت” ، “،” ، “،” ، “،” ، ” قال وأضاف أحد المستخدمين بينما أضاف آخر: “أتساءل عن مدى ارتباطه بحقيقة أن الناس يصبحون أقل ذكاءً”.

علق ثالث: “لذلك ، إذا قرأ إنسان آخر مثل إنسان حوالي 50 ٪ من الوقت ، أتساءل ماذا سيحدث عندما نصل إلى النقطة التي تقضيها الذكاء الاصطناعي بانتظام ما يقرب من 100 ٪ من الوقت.”