بين المعايير: كيف تؤدي Dippic-R1 و O1 في مهام العالم الحقيقي


انضم إلى النشرات الإخبارية اليومية والأسبوعية للحصول على آخر التحديثات ومحتوى محدد على تغطية الذكاء الاصطناعي الرائدة. يتعلم أكثر


خلقت DeepSik-R1 الكثير من الإثارة والقلق ، خاصة بالنسبة لنموذج Openai المنافس O1. لذلك ، وضعناهم لاختبار بعض تحليل البيانات البسيط والجنود على نحو جنب في وظائف أبحاث السوق.

لوضع النماذج في نفس الخطوة ، استخدمنا الغرض Pro Search ، الذي يدعم الآن كل من O1 و R1. كان هدفنا أن ننظر إلى ما وراء المعيار ونرى أن النماذج يمكنها بالفعل القيام بمهام الإعلان التي تحتاج إلى جمع معلومات من الويب ، واستبعاد الأجزاء المناسبة من البيانات والقيام بمهام بسيطة تتطلب جهودًا يدوية مهمة.

كلا النموذجين مثير للإعجاب ، ولكن تحدث الأخطاء عندما تفتقر المطالبات إلى الخصوصية. O1 أفضل قليلاً في مهام المنطق ، لكن شفافية R1 تمنحها ميزة في الحالات (وسيكون هناك الكثير) حيث ترتكب الأخطاء.

فيما يلي تفاصيل الروابط لبعض تجاربنا وصفحات الارتباك حيث يمكنك مراجعة النتائج بنفسك.

حساب العوائد على الاستثمارات من الويب

يقدر الاختبار الأول ما إذا كانت النماذج يمكنها حساب عائد الاستثمار (ROI). لقد نظرنا في سيناريو حيث استثمر المستخدم 140 دولارًا في السبعة الرائعة (Alphabet ، Amazon ، Amazon Pal ، Meta ، Micros .FT ، Nvidia ، Tesla) في اليوم الأول من كل شهر من يناير إلى ديسمبر 2024. طلبنا النموذج لحساب القيمة. محفظة في التاريخ الحالي.

لتحقيق هذه المهمة ، يتعين على النموذج سحب معلومات سعر MAG لليوم الأول من كل شهر ، ويجب تقسيم الاستثمار الشهري بالتساوي إلى أسهم (20 دولارًا للسهم) ، وتجملها وحساب قيمة المحفظة وفقًا ل قيمة. الأسهم في التاريخ الحالي.

في هذه المهمة ، فشل كلا النموذجين. أعاد O1 قائمة أسعار الأسهم مع الصيغة لحساب قيمة المحفظة لشهر يناير 2024 و يناير 2025. ومع ذلك ، فشل في حساب القيم الصحيحة وقال أساسا أنه لن يكون هناك عائد على الاستثمار. من ناحية أخرى ، ارتكب R1 خطأ الاستثمار فقط في يناير 2024 وحساب عودة يناير 2025.

تتبع منطق O1 ​​لا يوفر معلومات كافية

ومع ذلك ، فإن ما كان مثيرًا للاهتمام هو عملية المنطق للنماذج. عندما لم تقدم O1 المزيد من التفاصيل حول كيفية وصول نتائجها ، العثور على منطق R1. لم يكن لديها المعلومات الصحيحة لأنه لم يكن لديها المعلومات الصحيحة لأن استرداد parlexity فشل في الحصول على بيانات شهرية لسعر سهم المحرك (فشل العديد القدرات ولكن بسبب الانتعاش السيئ). أثبت هذا أنه استجابة مهمة دفعتنا إلى التجربة التالية.

يوضح تتبع المنطق R1 أنها تفتقد المعلومات

المنطق أعلاه محتوى الملف

لقد قررنا تشغيل نفس التجربة كما كان من قبل ، ولكن بدلاً من مطالبة النموذج بتلقي المعلومات من الويب ، قررنا تقديمها في ملف نصي. لهذا ، قمنا بنسخ البيانات الشهرية لكل مخزون من Yahoo! التمويل في الملف النصي وأعطاه للنموذج. يتضمن الملف اسم كل أسهم بالإضافة إلى جدول HTML ، والذي يتضمن سعر اليوم الأول من كل شهر من يناير إلى ديسمبر 2024 وآخر التكلفة المشهورة. لم يتم مسح البيانات لتقليل الجهود اليدوية والتحقق من الأجزاء الصحيحة من بيانات النموذج.

مرة أخرى ، فشل كلا النموذجين في توفير الإجابة الصحيحة. يبدو أن O1 هي البيانات التي تم تجهيزها من الملف ، ولكن اقترح أن يتم الحساب يدويًا في أداة مثل Excel. كان تتبع المنطق غامضًا للغاية ولا يحتوي النموذج على معلومات مفيدة لاستكشاف الأخطاء وإصلاحها. R1 فشل أيضا ولا يوجد إجابة ، لكن تتبع المنطق يحتوي على الكثير من المعلومات المفيدة.

على سبيل المثال ، كان من الواضح أن النموذج DELL الذي تم تحليله بشكل صحيح بيانات HTML لكل سهم وكان قادرا على استقامة المعلومات الصحيحة. كانت قادرة أيضًا على حساب أشهر الاستثمار ، وتلخيصها والقيمة النهائية وفقًا لآخر أسعار الأسهم في الجدول. ومع ذلك ، ظلت هذه القيمة النهائية في سلسلة المنطق وفشلت في تحقيقها في الرد النهائي. تم الخلط بين النموذج أيضًا عن طريق صف في مخطط NVIDI ، والذي كان يمثل تقسيم الأسهم 10: 1 للشركة في 10 يونيو 2024 ، وحساب القيمة النهائية للمحفظة.

كان R1 قد أخفى النتائج في أثر لمنطقه ومع معلومات حول المكان الذي أخطأ فيه

مرة أخرى ، لم يكن التفاضل الفعلي هو النتيجة نفسها ، ولكن القدرة على فحص كيفية وصول النموذج إلى استجابته. في هذه الحالة ، قدمت لنا R1 تجربة أفضل ، والتي تسمح لنا بفهم حدود النموذج وكيف يمكننا تحسين مطالبةنا وكيفية تحسين بياناتنا للحصول على نتائج أفضل في المستقبل.

مقارنة البيانات على الويب

تتمثل الحاجة إلى التجربة الثانية التي نجريها في مقارنة وتحديد الأرقام من أربعة مراكز رئيسية في الدوري الاميركي للمحترفين لتحديد نسبة الهدف الميداني (FG ٪) على أفضل وجه في الموسم من 2022/2023 إلى 2023/2024. يتطلب هذا العمل منطق النموذج متعدد الخطوات في نقاط بيانات مختلفة. كان الصيد في المطالبة هو أنه شمل فيكتور ويمبانيا ، الذي دخل للتو الدوري في عام 2023.

كان استرداد هذه الموجه أمرًا سهلاً للغاية ، حيث أن إحصائيات اللاعب مسجلة على نطاق واسع على الويب وعادة ما يتم تضمينها في ملفات تعريف ويكيبيديا و NBA. تم الرد على كلا النموذجين بشكل صحيح (إذا كنت حريصًا في حالة Gianius) ، على الرغم من أن الأرقام التي يستخدمونها تعتمد على الموارد التي يستخدمونها ، كانت أرقامهم مختلفة بعض الشيء. ومع ذلك ، لم يدركوا أن Wembi لم يكن مؤهلاً لهذه المقارنة وقاموا بجمع شخصيات أخرى في الدوري الأوروبي منذ وقته.

ردا على ذلك ، R1 قدمت انهيارًا أفضل النتائج مع مقارنة الجدول مع الروابط إلى المصادر المستخدمة للإجابة. مكننا من تحسين الموجه في السياق المضافة. بعد التغيير الفوري لتحديد أننا نبحث عن FG ٪ من NBA Asons TU ، رفض النموذج Dell بشكل صحيح Wembie.

جعل إضافة كلمة بسيطة إلى المطالبة كل الفرق في النتيجة. هذا شيء سيعرفه البشر بوضوح. كن محددًا قدر الإمكان في مطالبك ، ومحاولة تضمين المعلومات التي يفترضها البشر بوضوح.

الحكم النهائي

تعتبر نماذج المنطق أدوات قوية ، ولكن هناك طرق للذهاب قبل أن تكون موثوقة تمامًا ، وخاصة المكونات الأخرى لتطبيقات نموذج اللغة الأكبر (LLM) تستمر في التطور. من تجاربنا ، لا يزال بإمكان كل من O1 و R1 ارتكاب أخطاء أساسية. على الرغم من إظهار نتائج مثيرة للإعجاب ، إلا أنهم ما زالوا بحاجة إلى بعض اليد لتقديم نتائج دقيقة.

من الناحية المثالية ، يجب أن يكون نموذج المنطق قادرًا على شرح المستخدم عندما يفتقر المستخدم إلى المعلومات للمهمة. بدلاً من ذلك ، يجب أن يكون منطق النموذج قادرًا على توجيه المستخدمين لفهم الأخطاء بشكل أفضل وتحسين إشاراتهم لزيادة دقة واستقرار إجابات النموذج. في هذا الصدد ، كان R1 اليد العليا. نأمل أن توفر نماذج المنطق المستقبلية ، بما في ذلك سلسلة O3 القادمة من Openai ، المزيد من الرؤية والتحكم للمستخدمين.


رابط المصدر

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى