Home تكنولوجيا يستخدم DeepSeek-R1 مفتوح المصدر التعلم المعزز النقي لمطابقة OpenAI o1 – بتكلفة...

يستخدم DeepSeek-R1 مفتوح المصدر التعلم المعزز النقي لمطابقة OpenAI o1 – بتكلفة أقل بنسبة 95%

40

انضم إلى نشراتنا الإخبارية اليومية والأسبوعية للحصول على آخر التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة في الصناعة. يتعلم أكثر


شركة ناشئة صينية تعمل بالذكاء الاصطناعي ديب سيكاشتهرت بتحدي كبار بائعي الذكاء الاصطناعي بتقنيات مفتوحة المصدر، وقد أسقطت للتو قنبلة أخرى: شهادة Open Reasoning LLM جديدة تسمى DeepSeq-R1.

استنادًا إلى نموذج خليط الخبراء DeepSeq V3 الذي تم طرحه مؤخرًا، يطابق DeepSeq-R1 أداء O1، وهو برنامج Frontier Reasoning LLM الخاص بـ OpenAI في الرياضيات والبرمجة ومهام الاستدلال. أفضل جزء؟ وهي تفعل ذلك بتكلفة أكثر جاذبية، حيث تثبت أنها أرخص بنسبة 90-95% من الأخيرة.

يمثل هذا الإصدار قفزة عملاقة للأمام في ساحة المصادر المفتوحة. ويظهر أن النماذج المفتوحة تسد الفجوة مع النماذج التجارية المغلقة في السباق نحو الذكاء العام الاصطناعي (AGI). ولإظهار مهاراته في العمل، استخدم Dipsik أيضًا R1 لتقطير ستة نماذج Lama وQuen، للارتقاء بأدائها إلى مستوى جديد. في إحدى الحالات، تفوقت نسخة محسنة من Qwen-1.5B على النماذج الأكبر حجمًا، GPT-4o وCloud 3.5 Sonnet، في معايير اختيار الرياضيات.

بهذه النماذج الراقية الرئيسية ر1كانت مفتوحة المصدر ومتاحة في عناق الوجه بموجب ترخيص معهد ماساتشوستس للتكنولوجيا (MIT)..

ما الذي يقدمه DeepSeek-R1 إلى الطاولة؟

وينصب التركيز على الذكاء العام الاصطناعي (AGI)، وهو مستوى من الذكاء الاصطناعي يمكنه أداء مهام فكرية شبيهة بالإنسان. تعمل العديد من الفرق على مضاعفة جهودها لتعزيز قدرات التفكير المنطقي للنموذج. قامت OpenAI بأول خطوة مهمة في هذا المجال من خلال نموذج o1 الخاص بها، والذي يستخدم عملية التفكير المتسلسلة للتعامل مع المشكلة. من خلال التعلم المعزز، أو التحسين القائم على المكافأة، يتعلم o1 كيفية تحسين سلسلة أفكاره والاستراتيجيات التي يستخدمها – ويتعلم في النهاية التعرف على أخطائه وتصحيحها، أو إنشاء أخطاء جديدة عندما لا تنجح الأخطاء الحالية النهج.

الآن، ومع استمرار العمل في هذا الاتجاه، أصدرت DeepSeek DeepSeek-R1، الذي يستخدم مزيجًا من RL والضبط الدقيق الخاضع للإشراف للتعامل مع المهام المنطقية المعقدة ومطابقة أداء o1.

عند اختباره، سجل DeepSeek-R1 79.8% في اختبار الرياضيات AIME 2024 و97.3% في اختبار MATH-500. كما حصل أيضًا على تصنيف 2,029 في Codeforce، وهو أفضل من 96.3% من المبرمجين البشريين. في المقابل، سجل o1-1217 79.2%، 96.4%، و96.6% على هذه المعايير، على التوالي.

كما أظهر أيضًا معرفة عامة قوية، بدقة تبلغ 90.8% في MMLU، خلف O1 التي تبلغ 91.8%.

أداء DeepSeek-R1 مقابل OpenAI o1 وo1-mini

خط أنابيب التدريب

يمثل الأداء المتميز لـ DeepSeek-R1 فوزًا كبيرًا للشركة الصينية الناشئة في مجال الذكاء الاصطناعي الذي تهيمن عليه الولايات المتحدة، خاصة وأن العمل بأكمله مفتوح المصدر، بما في ذلك كيفية تدريب الشركة على كل شيء.

ومع ذلك، فإن المهمة ليست واضحة كما يبدو.

ووفقا لورقة تصف البحث، تم تطوير DeepSeek-R1 كنسخة محسنة من DeepSeek-R1-Zero – وهو نموذج تقدمي تم تدريبه فقط من خلال التعلم المعزز.

استخدمت الشركة لأول مرة DeepSeq-V3-Base كنموذج أساسي، حيث قامت بتطوير قدراتها المنطقية دون استخدام البيانات الخاضعة للإشراف، مع التركيز بشكل أساسي على تطورها الذاتي من خلال عملية التجربة والخطأ القائمة على RL. تم تطوير هذه الإمكانية داخليًا من المهمة، وتضمن قدرة النموذج على حل المهام المنطقية المعقدة بشكل متزايد من خلال الاستفادة من حسابات وقت الاختبار الممتدة لاستكشاف عمليات التفكير وتحسينها بعمق أكبر.

“أثناء التدريب، ظهر DeepSeek-R1-Zero بشكل طبيعي مع عدد من السلوكيات المنطقية القوية والمثيرة للاهتمام”، كما لاحظ الباحثون في الورقة. “بعد آلاف خطوات RL، يُظهر DeepSeek-R1-Zero أداءً فائقًا في معيار الاستدلال. على سبيل المثال، تزيد درجة pass@1 في AIME 2024 من 15.6% إلى 71.0%، ومع تصويت الأغلبية، تتحسن النتيجة بشكل أكبر إلى 86.7%، مما يتوافق مع أداء OpenAI-o1-0912.”

ومع ذلك، على الرغم من إظهار أداء أفضل بما في ذلك السلوكيات مثل التفكير واستكشاف البدائل، أظهر النموذج الأولي بعض المشاكل بما في ذلك ضعف إمكانية القراءة واختلاط اللغة. ولإصلاح هذه المشكلة، اعتمدت الشركة على العمل المنجز لـ R1-Zero، باستخدام نهج متعدد المراحل يجمع بين التعلم الخاضع للإشراف والتعلم المعزز، وبالتالي توصلت إلى نموذج R1 المحسن.

وأوضح الباحثون: “على وجه التحديد، بدأنا بجمع الآلاف من بيانات البداية الباردة لضبط النموذج الأساسي DeepSeq-V3”. “بعد ذلك، نقوم بإجراء RL موجه نحو المنطق مثل DeepSeq-R1-Zero. عند الاقتراب من التقارب في عملية RL، نقوم بإنشاء بيانات SFT جديدة عن طريق أخذ عينات الرفض عند نقاط تفتيش RL، ودمجها مع بيانات DeepSeq-V3 المرصودة من مجالات مثل الكتابة وضمان الجودة الواقعي والمعرفة الذاتية، ثم إعادة تدريب DeepSeq-V3. – النموذج الأساسي. بعد الضبط الدقيق للبيانات الجديدة، تخضع نقطة التفتيش لعملية RL إضافية، والتي تأخذ في الاعتبار إشارات جميع السيناريوهات. وبعد هذه الخطوات، حصلنا على نقطة تفتيش تسمى DeepSeq-R1، والتي تحقق أداءً مكافئًا لـ OpenAI-O1-1217.

أرخص بكثير من O1

بالإضافة إلى الأداء المحسن الذي يطابق تقريبًا أداء OpenAI عبر المعايير، فإن DeepSeek-R1 الجديد أيضًا أرخص بكثير. على وجه التحديد، حيث تبلغ تكلفة OpenAI o1 15 دولارًا لكل مليون رمز إدخال و60 دولارًا لكل مليون رمز إخراج، فإن DeepSeek Reasoner، الذي يعتمد على نموذج R1، نفقات 0.55 دولارًا أمريكيًا لكل مليون إدخال و2.19 دولارًا أمريكيًا لكل مليون رمز إخراج.

يمكن اختبار النموذج باسم “DeepThink”. منصة الدردشة Deepseekوهو مشابه لـ ChatGPT. يمكن للمستخدمين المهتمين الوصول إلى أوزان النماذج ومستودع الأكواد عبر Hugging Face بموجب ترخيص MIT أو استخدام واجهة برمجة التطبيقات (API) للتكامل المباشر.