من مشكلة الفراولة إلى نموذج o1: كيف حلّ OpenAI (جزئياً) حد الترميز
في صيف عام 2024، أحرجت إحدى ميمات الإنترنت الفيروسية أكثر النماذج اللغوية تقدمًا في العالم: "كم عدد حروف "r" في كلمة "فراولة"؟ الإجابة الصحيحة هي ثلاثة، لكن GPT-4o أجاب بعناد "اثنان". خطأ يبدو تافهاً كشف عن قصور أساسي في النماذج اللغوية: عدم قدرتها على تحليل الحروف الفردية داخل الكلمات.
في 12 سبتمبر 2024، أصدرت OpenAI في 12 سبتمبر 2024، النموذج o1 - المعروف دولياً بالاسم الرمزي "الفراولة" - وهو النموذج الأول في سلسلة جديدة من "نماذج التفكير" المصممة خصيصاً للتغلب على هذا النوع من القيود. ونعم، الاسم ليس من قبيل المصادفة: كما أكد أحد باحثي OpenAI، تمكن o1 أخيراً من حساب حرف "r" في كلمة "فراولة" بشكل صحيح.
لكن الحل ليس كما تخيلته المقالة الأصلية. لم يقم OpenAI بـ "تعليم" النموذج تحليل الكلمات حرفًا بحرف. بدلاً من ذلك، طورت نهجًا مختلفًا تمامًا: تعليم النموذج "التفكير" قبل الإجابة.
تظل المشكلة متجذرة في الترميز - العملية الأساسية التي تعالج بها النماذج اللغوية النص. كما هو موضح في مقال تقني نُشر في arXiv في مايو 2025 ("مشكلة الفراولة: ظهور الفهم على مستوى الحرف في نماذج اللغة المرمزة"، لا ترى النماذج الكلمات على أنها تسلسل حروف بل على أنها "رموز" - وحدات المعنى المحولة إلى أرقام.
عندما يقوم GPT-4 بمعالجة كلمة "فراولة"، يقسمها مُعرّف الرموز إلى ثلاثة أجزاء: [str][aw][berry]، لكل منها معرّف رقمي محدد (496، 675، 15717). بالنسبة للنموذج، فإن "فراولة" ليست سلسلة من 10 أحرف بل سلسلة من 3 رموز رقمية. يبدو الأمر كما لو كان يقرأ كتابًا حيث يتم استبدال كل كلمة برمز ثم يطلب منه شخص ما عد الحروف في رمز لم يره مكتوبًا من قبل.
تتفاقم المشكلة مع الكلمات المركبة. حيث يتم تقسيم كلمة "Timekeeper" إلى رموز منفصلة، مما يجعل من المستحيل على النموذج تحديد الموضع الدقيق للحروف دون عملية تعليل واضحة. لا يؤثر التجزئة على عد الحروف فحسب، بل يؤثر أيضًا على فهم البنية الداخلية للكلمات.
قام OpenAI o1 بحل المشكلة بطريقة غير متوقعة: فبدلاً من تعديل الترميز - وهو أمر صعب تقنياً ومن شأنه أن يضر بكفاءة النموذج - قام بتعليم النظام "التفكير قبل التحدث" باستخدام تقنية تسمى "التفكير المتسلسل".
عندما تسأل o1 عن عدد حروف "r" في كلمة "فراولة"، لا يجيب النموذج على الفور. فهو يمضي عدة ثوانٍ - وأحيانًا حتى دقائق للأسئلة المعقدة - في معالجة "سلسلة من التفكير" داخليًا مخفية عن المستخدم. تسمح له هذه العملية بما يلي:
كما أوضح الباحث في OpenAI نعوم براون في سلسلة من المنشورات على X: "يتم تدريب o1 مع التعلم المعزز على "التفكير" قبل الاستجابة عبر سلسلة خاصة من الأفكار. يتلقى النموذج مكافآت أثناء التدريب لكل خطوة صحيحة في عملية التفكير، وليس فقط للإجابة الصحيحة النهائية.
النتائج مبهرة ولكنها مكلفة. في اختبار تأهيلي لأولمبياد الرياضيات الدولي، حلّ o1 83% من المسائل بشكل صحيح مقابل 13% لـ GPT-4o. وفي أسئلة مستوى الدكتوراه في العلوم، حققت دقة بنسبة 78% مقابل 56% لـ GPT-4o. لكن هذه القوة تأتي بثمن: يستغرق o1 أكثر من 30 ثانية للإجابة على الأسئلة التي يحلها GPT-4o في 3 ثوانٍ، ويكلف 15 دولارًا لكل مليون رمز مقابل 5 دولارات ل GPT-4o.
هذه التقنية ليست سحرية ولكنها منهجية. عندما يتلقى مطالبة ما، يولد o1 داخليًا سلسلة طويلة من "الأفكار" التي لا تظهر للمستخدم. بالنسبة لمشكلة "r" في "الفراولة"، يمكن أن تكون العملية الداخلية:
"أولاً يجب أن أفهم بنية الكلمة. يمكن ترميز الفراولة على شكل [r][aw][berry]. لحساب حرف الـ 'r'، عليّ إعادة بناء الكلمة كاملة على مستوى الحرف. تحتوي Str على: s-t-r (1 'r'). يحتوي Aw على: a-w (0 'r'). بيري يحتوي على: ب-ي-ر-ي (2 'ص'). المجموع: 1+0+2 + 0+2 = 3 'ص'. أتحقق من: فراولة = s-t-r-a-w-w-b-e-r-r-y. أعد حرف الراء: الموضع 3، الموضع 8، الموضع 9. تم التأكيد: 3 "ص".
هذا المنطق الداخلي مخفي حسب التصميم. تحظر OpenAI صراحةً على المستخدمين محاولة الكشف عن سلسلة تفكير o1، وتراقب المطالبات وربما تلغي الوصول إلى أولئك الذين ينتهكون هذه القاعدة. تتذرع الشركة بأسباب تتعلق بأمن الذكاء الاصطناعي والميزة التنافسية، ولكن تم انتقاد القرار باعتباره فقداناً للشفافية من قبل المطورين الذين يعملون مع النماذج اللغوية.
على الرغم من التقدم المحرز، إلا أن o1 لم يحل المشكلة بالكامل. فقد اختبر بحث نُشر في مجلة Language Log في يناير 2025 نماذج مختلفة على تحدٍ أكثر تعقيدًا: "اكتب فقرة يكون الحرف الثاني من كل جملة فيها كلمة "رمز".
فشل o1 القياسي (20 دولارًا شهريًا)، حيث أخطأ في احتساب الحرف الأول من كل كلمة أولية على أنه "الحرف الثاني". o1 الاحترافي (200 دولار شهريًا) أصلح المشكلة... بعد 4 دقائق و10 ثوانٍ من "التفكير". ارتكب DeepSeek R1، وهو النموذج الصيني الذي هز السوق في يناير 2025، نفس الخطأ الذي ارتكبه o1 standard.
لا تزال المشكلة الأساسية قائمة: لا تزال النماذج ترى النص من خلال الرموز وليس الحروف، وقد تعلمت o1 "الالتفاف" حول هذا القيد من خلال الاستدلال، لكنها لم تتخلص منه. وكما أشار أحد الباحثين في مجلة Language Log: "الترميز هو جزء من جوهر ماهية النماذج اللغوية؛ وبالنسبة لأي إجابة خاطئة، فإن التفسير هو بالضبط "حسنًا، الترميز".
تحلل ورقة بحثية مهمة نُشرت في arXiv في مايو 2025 ("مشكلة الفراولة: ظهور الفهم على مستوى الشخصية في نماذج اللغة الرمزية") هذه الظاهرة من منظور نظري. وقد ابتكر الباحثون 19 مهمة تركيبية تعزل التفكير على مستوى الشخصية في سياقات محكومة، مما يدل على أن هذه القدرات تظهر فجأة وفي وقت متأخر من التدريب.
تقترح الدراسة أن تعلم تكوين الشخصية لا يختلف اختلافًا جوهريًا عن تعلم المعرفة المنطقية الشائعة - حيث ينشأ من خلال عمليات "الترشيح المفاهيمي" عندما يصل النموذج إلى كتلة حرجة من الأمثلة والروابط.
يقترح الباحثون تعديلاً معمارياً خفيف الوزن يحسّن بشكل كبير من الاستدلال على مستوى الأحرف مع الحفاظ على المزايا الاستقرائية للنماذج القائمة على الكلمات الفرعية. ومع ذلك، تظل هذه التعديلات تجريبية ولم يتم تنفيذها في النماذج التجارية.
تعلّمنا حالة الفراولة درسًا مهمًا حول موثوقية النماذج اللغوية: فهي أدوات احتمالية وليست حاسبات حتمية. وكما أشار مارك ليبرمان في مجلة Language Log: "يجب أن تكون حذراً بشأن الوثوق باستجابة أي نظام ذكاء اصطناعي حالي في المهام التي تنطوي على عدّ الأشياء".
هذا لا يعني أن النماذج عديمة الفائدة. فكما لاحظ أحد المعلقين: "فقط لأن القطة ترتكب خطأً غبيًا يتمثل في خوفها من خيارة لا يعني أننا لا ينبغي أن نثق بالقط في المهمة الأصعب بكثير وهي إبعاد القوارض عن المبنى". نماذج اللغة ليست الأداة المناسبة إذا كنت ترغب في عد الحروف بشكل منهجي، لكنها ممتازة لمعالجة آلاف نصوص البودكاست تلقائيًا واستخراج أسماء الضيوف والمضيفين.
بالنسبة للمهام التي تتطلب دقة مطلقة - مثل هبوط مركبة فضائية على سطح المريخ، وحساب الجرعات الدوائية، والتحقق من الامتثال القانوني - تظل النماذج اللغوية الحالية غير كافية دون إشراف بشري أو تحقق خارجي. فطبيعتها الاحتمالية تجعلها قوية لمطابقة الأنماط وتوليد الإبداع، ولكنها غير موثوقة للمهام التي لا يُقبل فيها الخطأ.
صرحت OpenAI أنها تعتزم تجربة نماذج o1 التي "تستنبط لساعات أو أيام أو حتى أسابيع" لزيادة قدراتها على التفكير. في ديسمبر 2024، تم الإعلان عن o3 (تم تخطي اسم o2 لتجنب تعارض العلامات التجارية مع مشغل الهاتف المحمول O2)، وفي مارس 2025، تم إصدار واجهة برمجة التطبيقات لنموذج o1-pro، وهو أغلى نموذج ذكاء اصطناعي من OpenAI حتى الآن، بسعر 150 دولارًا لكل مليون رمز في المدخلات و600 دولار لكل مليون في المخرجات.
إن الاتجاه واضح: بدلاً من جعل النماذج أكبر وأكبر (التوسع)، تستثمر OpenAI في جعلها "تفكر" لفترة أطول (حوسبة وقت الاختبار). قد يكون هذا النهج أكثر استدامة من الناحية الحيوية والحاسوبية من تدريب نماذج ضخمة بشكل متزايد.
ولكن يبقى سؤال مفتوح: هل هذه النماذج "تستنبط" حقاً أم أنها ببساطة تحاكي الاستدلال من خلال أنماط إحصائية أكثر تطوراً؟ أفاد بحث لشركة Apple نُشر في أكتوبر 2024 أن نماذج مثل o1 يمكنها تكرار خطوات التفكير من بيانات التدريب الخاصة بها. من خلال تغيير الأرقام والأسماء في المسائل الرياضية، أو ببساطة إعادة تشغيل نفس المسألة، كان أداء النماذج أسوأ بكثير. بإضافة معلومات دخيلة ولكن غير ذات صلة منطقياً، انخفض الأداء بنسبة 65% لبعض النماذج.
تكشف مشكلة الفراولة وحل o1 عن كلٍ من الإمكانات والقيود الكامنة في النماذج اللغوية الحالية. لقد أظهر OpenAI أنه من خلال التدريب المستهدف ووقت المعالجة الإضافي، يمكن للنماذج التغلب على بعض القيود الهيكلية للرموز. لكنهم لم يقضوا عليها - بل تحايلوا عليها.
بالنسبة للمستخدمين والمطورين، فإن الدرس العملي واضح: فهم كيفية عمل هذه الأنظمة - ما الذي تقوم به بشكل جيد وأين تفشل - أمر بالغ الأهمية لاستخدامها بفعالية. تعد النماذج اللغوية أدوات رائعة للمهام الاحتمالية ومطابقة الأنماط والتوليد الإبداعي وتوليف المعلومات. ولكن بالنسبة للمهام التي تتطلب دقة حتمية - الحساب والحساب والتحقق من حقائق محددة - تظل غير موثوقة دون إشراف خارجي أو أدوات تكميلية.
سيظل اسم "الفراولة" بمثابة تذكير ساخر بهذا القيد الأساسي: حتى أكثر أنظمة الذكاء الاصطناعي تقدماً في العالم يمكن أن تتعثر في حل أسئلة يمكن لطفل في السادسة من عمره أن يحلها على الفور. ليس لأنهم أغبياء، ولكن لأنهم "يفكرون" بطرق مختلفة تماماً عنا - وربما يجب أن نتوقف عن توقع أن يفكروا مثل البشر.
المصادر: