مشكلة الفراولة

Newsletter

مشكلة الفراولة

"كم "ص" في الفراولة؟ - يجيب GPT-4o بـ "اثنين"، طفل في السادسة من عمره يعرف أنها ثلاثة. المشكلة هي الترميز: يرى النموذج [str][aw][berry]، وليس الحروف. لم يحل OpenAI هذه المشكلة مع o1- بل تجاوزها من خلال تعليم النموذج "التفكير قبل التحدث". والنتيجة: 83% مقابل 13% في أولمبياد الرياضيات، ولكن في 30 ثانية بدلاً من 3 ثوانٍ وثلاثة أضعاف التكلفة. نماذج اللغة هي أدوات احتمالية غير عادية - لكنك ما زلت بحاجة إلى إنسان ليقوم بالعد.

فابيو لوريا

الرئيس التنفيذي ومؤسس شركة Electe‍

لخص هذه المقالة بالذكاء الاصطناعي

من مشكلة الفراولة إلى نموذج o1: كيف حلّ OpenAI (جزئياً) حد الترميز

في صيف عام 2024، أحرجت إحدى ميمات الإنترنت الفيروسية أكثر النماذج اللغوية تقدمًا في العالم: "كم عدد حروف "r" في كلمة "فراولة"؟ الإجابة الصحيحة هي ثلاثة، لكن GPT-4o أجاب بعناد "اثنان". خطأ يبدو تافهاً كشف عن قصور أساسي في النماذج اللغوية: عدم قدرتها على تحليل الحروف الفردية داخل الكلمات.

في 12 سبتمبر 2024، أصدرت OpenAI في 12 سبتمبر 2024، النموذج o1 - المعروف دولياً بالاسم الرمزي "الفراولة" - وهو النموذج الأول في سلسلة جديدة من "نماذج التفكير" المصممة خصيصاً للتغلب على هذا النوع من القيود. ونعم، الاسم ليس من قبيل المصادفة: كما أكد أحد باحثي OpenAI، تمكن o1 أخيراً من حساب حرف "r" في كلمة "فراولة" بشكل صحيح.

لكن الحل ليس كما تخيلته المقالة الأصلية. لم يقم OpenAI بـ "تعليم" النموذج تحليل الكلمات حرفًا بحرف. بدلاً من ذلك، طورت نهجًا مختلفًا تمامًا: تعليم النموذج "التفكير" قبل الإجابة.

مشكلة العدّ: لماذا تخطئ النماذج في العدّ؟

تظل المشكلة متجذرة في الترميز - العملية الأساسية التي تعالج بها النماذج اللغوية النص. كما هو موضح في مقال تقني نُشر في arXiv في مايو 2025 ("مشكلة الفراولة: ظهور الفهم على مستوى الحرف في نماذج اللغة المرمزة"، لا ترى النماذج الكلمات على أنها تسلسل حروف بل على أنها "رموز" - وحدات المعنى المحولة إلى أرقام.

عندما يقوم GPT-4 بمعالجة كلمة "فراولة"، يقسمها مُعرّف الرموز إلى ثلاثة أجزاء: [str][aw][berry]، لكل منها معرّف رقمي محدد (496، 675، 15717). بالنسبة للنموذج، فإن "فراولة" ليست سلسلة من 10 أحرف بل سلسلة من 3 رموز رقمية. يبدو الأمر كما لو كان يقرأ كتابًا حيث يتم استبدال كل كلمة برمز ثم يطلب منه شخص ما عد الحروف في رمز لم يره مكتوبًا من قبل.

تتفاقم المشكلة مع الكلمات المركبة. حيث يتم تقسيم كلمة "Timekeeper" إلى رموز منفصلة، مما يجعل من المستحيل على النموذج تحديد الموضع الدقيق للحروف دون عملية تعليل واضحة. لا يؤثر التجزئة على عد الحروف فحسب، بل يؤثر أيضًا على فهم البنية الداخلية للكلمات.

الحل o1: التفكير قبل الاستجابة

قام OpenAI o1 بحل المشكلة بطريقة غير متوقعة: فبدلاً من تعديل الترميز - وهو أمر صعب تقنياً ومن شأنه أن يضر بكفاءة النموذج - قام بتعليم النظام "التفكير قبل التحدث" باستخدام تقنية تسمى "التفكير المتسلسل".

عندما تسأل o1 عن عدد حروف "r" في كلمة "فراولة"، لا يجيب النموذج على الفور. فهو يمضي عدة ثوانٍ - وأحيانًا حتى دقائق للأسئلة المعقدة - في معالجة "سلسلة من التفكير" داخليًا مخفية عن المستخدم. تسمح له هذه العملية بما يلي:

إدراك أن الطلب يتطلب تحليلاً على مستوى الشخصية
وضع استراتيجية لتفكيك الكلمة
اختبار الاستجابة من خلال أساليب مختلفة
صحح أي أخطاء قبل إعطاء الإجابة النهائية

كما أوضح الباحث في OpenAI نعوم براون في سلسلة من المنشورات على X: "يتم تدريب o1 مع التعلم المعزز على "التفكير" قبل الاستجابة عبر سلسلة خاصة من الأفكار. يتلقى النموذج مكافآت أثناء التدريب لكل خطوة صحيحة في عملية التفكير، وليس فقط للإجابة الصحيحة النهائية.

النتائج مبهرة ولكنها مكلفة. في اختبار تأهيلي لأولمبياد الرياضيات الدولي، حلّ o1 83% من المسائل بشكل صحيح مقابل 13% لـ GPT-4o. وفي أسئلة مستوى الدكتوراه في العلوم، حققت دقة بنسبة 78% مقابل 56% لـ GPT-4o. لكن هذه القوة تأتي بثمن: يستغرق o1 أكثر من 30 ثانية للإجابة على الأسئلة التي يحلها GPT-4o في 3 ثوانٍ، ويكلف 15 دولارًا لكل مليون رمز مقابل 5 دولارات ل GPT-4o.

سلسلة الأفكار: كيف تعمل حقًا

هذه التقنية ليست سحرية ولكنها منهجية. عندما يتلقى مطالبة ما، يولد o1 داخليًا سلسلة طويلة من "الأفكار" التي لا تظهر للمستخدم. بالنسبة لمشكلة "r" في "الفراولة"، يمكن أن تكون العملية الداخلية:

"أولاً يجب أن أفهم بنية الكلمة. يمكن ترميز الفراولة على شكل [r][aw][berry]. لحساب حرف الـ 'r'، عليّ إعادة بناء الكلمة كاملة على مستوى الحرف. تحتوي Str على: s-t-r (1 'r'). يحتوي Aw على: a-w (0 'r'). بيري يحتوي على: ب-ي-ر-ي (2 'ص'). المجموع: 1+0+2 + 0+2 = 3 'ص'. أتحقق من: فراولة = s-t-r-a-w-w-b-e-r-r-y. أعد حرف الراء: الموضع 3، الموضع 8، الموضع 9. تم التأكيد: 3 "ص".

هذا المنطق الداخلي مخفي حسب التصميم. تحظر OpenAI صراحةً على المستخدمين محاولة الكشف عن سلسلة تفكير o1، وتراقب المطالبات وربما تلغي الوصول إلى أولئك الذين ينتهكون هذه القاعدة. تتذرع الشركة بأسباب تتعلق بأمن الذكاء الاصطناعي والميزة التنافسية، ولكن تم انتقاد القرار باعتباره فقداناً للشفافية من قبل المطورين الذين يعملون مع النماذج اللغوية.

الحدود الثابتة: o1 ليست مثالية

على الرغم من التقدم المحرز، إلا أن o1 لم يحل المشكلة بالكامل. فقد اختبر بحث نُشر في مجلة Language Log في يناير 2025 نماذج مختلفة على تحدٍ أكثر تعقيدًا: "اكتب فقرة يكون الحرف الثاني من كل جملة فيها كلمة "رمز".

فشل o1 القياسي (20 دولارًا شهريًا)، حيث أخطأ في احتساب الحرف الأول من كل كلمة أولية على أنه "الحرف الثاني". o1 الاحترافي (200 دولار شهريًا) أصلح المشكلة... بعد 4 دقائق و10 ثوانٍ من "التفكير". ارتكب DeepSeek R1، وهو النموذج الصيني الذي هز السوق في يناير 2025، نفس الخطأ الذي ارتكبه o1 standard.

لا تزال المشكلة الأساسية قائمة: لا تزال النماذج ترى النص من خلال الرموز وليس الحروف، وقد تعلمت o1 "الالتفاف" حول هذا القيد من خلال الاستدلال، لكنها لم تتخلص منه. وكما أشار أحد الباحثين في مجلة Language Log: "الترميز هو جزء من جوهر ماهية النماذج اللغوية؛ وبالنسبة لأي إجابة خاطئة، فإن التفسير هو بالضبط "حسنًا، الترميز".

البحث الأكاديمي: نشأة الفهم على مستوى الشخصية

تحلل ورقة بحثية مهمة نُشرت في arXiv في مايو 2025 ("مشكلة الفراولة: ظهور الفهم على مستوى الشخصية في نماذج اللغة الرمزية") هذه الظاهرة من منظور نظري. وقد ابتكر الباحثون 19 مهمة تركيبية تعزل التفكير على مستوى الشخصية في سياقات محكومة، مما يدل على أن هذه القدرات تظهر فجأة وفي وقت متأخر من التدريب.

تقترح الدراسة أن تعلم تكوين الشخصية لا يختلف اختلافًا جوهريًا عن تعلم المعرفة المنطقية الشائعة - حيث ينشأ من خلال عمليات "الترشيح المفاهيمي" عندما يصل النموذج إلى كتلة حرجة من الأمثلة والروابط.

يقترح الباحثون تعديلاً معمارياً خفيف الوزن يحسّن بشكل كبير من الاستدلال على مستوى الأحرف مع الحفاظ على المزايا الاستقرائية للنماذج القائمة على الكلمات الفرعية. ومع ذلك، تظل هذه التعديلات تجريبية ولم يتم تنفيذها في النماذج التجارية.

الآثار العملية: متى تثق ومتى لا تثق

تعلّمنا حالة الفراولة درسًا مهمًا حول موثوقية النماذج اللغوية: فهي أدوات احتمالية وليست حاسبات حتمية. وكما أشار مارك ليبرمان في مجلة Language Log: "يجب أن تكون حذراً بشأن الوثوق باستجابة أي نظام ذكاء اصطناعي حالي في المهام التي تنطوي على عدّ الأشياء".

هذا لا يعني أن النماذج عديمة الفائدة. فكما لاحظ أحد المعلقين: "فقط لأن القطة ترتكب خطأً غبيًا يتمثل في خوفها من خيارة لا يعني أننا لا ينبغي أن نثق بالقط في المهمة الأصعب بكثير وهي إبعاد القوارض عن المبنى". نماذج اللغة ليست الأداة المناسبة إذا كنت ترغب في عد الحروف بشكل منهجي، لكنها ممتازة لمعالجة آلاف نصوص البودكاست تلقائيًا واستخراج أسماء الضيوف والمضيفين.

بالنسبة للمهام التي تتطلب دقة مطلقة - مثل هبوط مركبة فضائية على سطح المريخ، وحساب الجرعات الدوائية، والتحقق من الامتثال القانوني - تظل النماذج اللغوية الحالية غير كافية دون إشراف بشري أو تحقق خارجي. فطبيعتها الاحتمالية تجعلها قوية لمطابقة الأنماط وتوليد الإبداع، ولكنها غير موثوقة للمهام التي لا يُقبل فيها الخطأ.

المستقبل: نحو نماذج تفكّر بالساعة

صرحت OpenAI أنها تعتزم تجربة نماذج o1 التي "تستنبط لساعات أو أيام أو حتى أسابيع" لزيادة قدراتها على التفكير. في ديسمبر 2024، تم الإعلان عن o3 (تم تخطي اسم o2 لتجنب تعارض العلامات التجارية مع مشغل الهاتف المحمول O2)، وفي مارس 2025، تم إصدار واجهة برمجة التطبيقات لنموذج o1-pro، وهو أغلى نموذج ذكاء اصطناعي من OpenAI حتى الآن، بسعر 150 دولارًا لكل مليون رمز في المدخلات و600 دولار لكل مليون في المخرجات.

إن الاتجاه واضح: بدلاً من جعل النماذج أكبر وأكبر (التوسع)، تستثمر OpenAI في جعلها "تفكر" لفترة أطول (حوسبة وقت الاختبار). قد يكون هذا النهج أكثر استدامة من الناحية الحيوية والحاسوبية من تدريب نماذج ضخمة بشكل متزايد.

ولكن يبقى سؤال مفتوح: هل هذه النماذج "تستنبط" حقاً أم أنها ببساطة تحاكي الاستدلال من خلال أنماط إحصائية أكثر تطوراً؟ أفاد بحث لشركة Apple نُشر في أكتوبر 2024 أن نماذج مثل o1 يمكنها تكرار خطوات التفكير من بيانات التدريب الخاصة بها. من خلال تغيير الأرقام والأسماء في المسائل الرياضية، أو ببساطة إعادة تشغيل نفس المسألة، كان أداء النماذج أسوأ بكثير. بإضافة معلومات دخيلة ولكن غير ذات صلة منطقياً، انخفض الأداء بنسبة 65% لبعض النماذج.

الخلاصة: أدوات قوية ذات حدود أساسية

تكشف مشكلة الفراولة وحل o1 عن كلٍ من الإمكانات والقيود الكامنة في النماذج اللغوية الحالية. لقد أظهر OpenAI أنه من خلال التدريب المستهدف ووقت المعالجة الإضافي، يمكن للنماذج التغلب على بعض القيود الهيكلية للرموز. لكنهم لم يقضوا عليها - بل تحايلوا عليها.

بالنسبة للمستخدمين والمطورين، فإن الدرس العملي واضح: فهم كيفية عمل هذه الأنظمة - ما الذي تقوم به بشكل جيد وأين تفشل - أمر بالغ الأهمية لاستخدامها بفعالية. تعد النماذج اللغوية أدوات رائعة للمهام الاحتمالية ومطابقة الأنماط والتوليد الإبداعي وتوليف المعلومات. ولكن بالنسبة للمهام التي تتطلب دقة حتمية - الحساب والحساب والتحقق من حقائق محددة - تظل غير موثوقة دون إشراف خارجي أو أدوات تكميلية.

سيظل اسم "الفراولة" بمثابة تذكير ساخر بهذا القيد الأساسي: حتى أكثر أنظمة الذكاء الاصطناعي تقدماً في العالم يمكن أن تتعثر في حل أسئلة يمكن لطفل في السادسة من عمره أن يحلها على الفور. ليس لأنهم أغبياء، ولكن لأنهم "يفكرون" بطرق مختلفة تماماً عنا - وربما يجب أن نتوقف عن توقع أن يفكروا مثل البشر.

المصادر:

OpenAI - "تعلم التفكير المنطقي مع LLMs" (منشور المدونة الرسمية، سبتمبر 2024)
ويكيبيديا - 'OpenAI o1' (تم تحديث المدخل في يناير 2025)
كوسما، أدريان وآخرون - "مشكلة الفراولة: ظهور الفهم على مستوى الشخصية في نماذج اللغة الرمزية"، arXiv:2505.14172 (مايو 2025)
ليبرمان، مارك - "أنظمة الذكاء الاصطناعي لا تزال غير قادرة على العد"، سجل اللغة (يناير 2025)
يانغ، يو - "لماذا تعاني النماذج اللغوية الكبيرة عند عدّ الحروف في الكلمة؟"، ميديوم (فبراير 2025)
أورلاند، كايل - "كيف يكون أداء DeepSeek R1 في مواجهة أفضل نماذج التفكير المنطقي في OpenAI؟"، آرس تكنيكا
براون، نعوم (OpenAI) - سلسلة من المنشورات على X/تويتر (سبتمبر 2024)
TechCrunch - "OpenAI يكشف النقاب عن OpenAI عن نموذج o1، وهو نموذج يمكنه التحقق من الحقائق بنفسه" (سبتمبر 2024)
16x موجه - "لماذا لا يمكن لـ ChatGPT حساب عدد روبية في الفراولة" (تم التحديث في يونيو 2025)

موارد لنمو الأعمال التجارية

20 ديسمبر 2025

حساب إعادة تقييم TFR: الدليل العملي للشركات والموظفين

حساب إعادة تقييم TFR: الدليل العملي للشركات والموظفين

دليلنا الكامل لحساب إعادة تقييم TFR. اكتشف الصيغة ومؤشرات ISTAT وقم بإدارة السلف والإنهاءات باستخدام أمثلة حقيقية.

18 ديسمبر 2025

الذكاء الاصطناعي للشركات: الدليل العملي لنموك

اكتشف كيفية استخدام الذكاء الاصطناعي للشركات. دليل عملي لتحسين العمليات وتقليل التكاليف وتسريع النمو.

18 ديسمبر 2025

الدليل الشامل لمؤشرات الأداء الرئيسية في مجال التسويق: كيفية اختيار المؤشرات المناسبة لنمو شركتك الصغيرة والمتوسطة

اكتشف كيف تقود مؤشرات الأداء الرئيسية في التسويق نمو شركتك الصغيرة والمتوسطة من خلال مقاييس واضحة وقرارات محددة.

18 ديسمبر 2025

10 أنواع من الرسوم البيانية الأساسية لتحويل البيانات إلى قرارات

اكتشف أنواع الرسوم البيانية الأساسية لتوجيه قرارات الأعمال الواضحة: أمثلة عملية وحالات استخدام ونصائح لعرض البيانات بشكل فعال.