Newsletter

مشكلة الفراولة

"كم "ص" في الفراولة؟ - يجيب GPT-4o بـ "اثنين"، طفل في السادسة من عمره يعرف أنها ثلاثة. المشكلة هي الترميز: يرى النموذج [str][aw][berry]، وليس الحروف. لم يحل OpenAI هذه المشكلة مع o1- بل تجاوزها من خلال تعليم النموذج "التفكير قبل التحدث". والنتيجة: 83% مقابل 13% في أولمبياد الرياضيات، ولكن في 30 ثانية بدلاً من 3 ثوانٍ وثلاثة أضعاف التكلفة. نماذج اللغة هي أدوات احتمالية غير عادية - لكنك ما زلت بحاجة إلى إنسان ليقوم بالعد.

من مشكلة الفراولة إلى نموذج o1: كيف حلّ OpenAI (جزئياً) حد الترميز

في صيف عام 2024، أحرجت إحدى ميمات الإنترنت الفيروسية أكثر النماذج اللغوية تقدمًا في العالم: "كم عدد حروف "r" في كلمة "فراولة"؟ الإجابة الصحيحة هي ثلاثة، لكن GPT-4o أجاب بعناد "اثنان". خطأ يبدو تافهاً كشف عن قصور أساسي في النماذج اللغوية: عدم قدرتها على تحليل الحروف الفردية داخل الكلمات.

في 12 سبتمبر 2024، أصدرت OpenAI في 12 سبتمبر 2024، النموذج o1 - المعروف دولياً بالاسم الرمزي "الفراولة" - وهو النموذج الأول في سلسلة جديدة من "نماذج التفكير" المصممة خصيصاً للتغلب على هذا النوع من القيود. ونعم، الاسم ليس من قبيل المصادفة: كما أكد أحد باحثي OpenAI، تمكن o1 أخيراً من حساب حرف "r" في كلمة "فراولة" بشكل صحيح.

لكن الحل ليس كما تخيلته المقالة الأصلية. لم يقم OpenAI بـ "تعليم" النموذج تحليل الكلمات حرفًا بحرف. بدلاً من ذلك، طورت نهجًا مختلفًا تمامًا: تعليم النموذج "التفكير" قبل الإجابة.

مشكلة العدّ: لماذا تخطئ النماذج في العدّ؟

تظل المشكلة متجذرة في الترميز - العملية الأساسية التي تعالج بها النماذج اللغوية النص. كما هو موضح في مقال تقني نُشر في arXiv في مايو 2025 ("مشكلة الفراولة: ظهور الفهم على مستوى الحرف في نماذج اللغة المرمزة"، لا ترى النماذج الكلمات على أنها تسلسل حروف بل على أنها "رموز" - وحدات المعنى المحولة إلى أرقام.

عندما يقوم GPT-4 بمعالجة كلمة "فراولة"، يقسمها مُعرّف الرموز إلى ثلاثة أجزاء: [str][aw][berry]، لكل منها معرّف رقمي محدد (496، 675، 15717). بالنسبة للنموذج، فإن "فراولة" ليست سلسلة من 10 أحرف بل سلسلة من 3 رموز رقمية. يبدو الأمر كما لو كان يقرأ كتابًا حيث يتم استبدال كل كلمة برمز ثم يطلب منه شخص ما عد الحروف في رمز لم يره مكتوبًا من قبل.

تتفاقم المشكلة مع الكلمات المركبة. حيث يتم تقسيم كلمة "Timekeeper" إلى رموز منفصلة، مما يجعل من المستحيل على النموذج تحديد الموضع الدقيق للحروف دون عملية تعليل واضحة. لا يؤثر التجزئة على عد الحروف فحسب، بل يؤثر أيضًا على فهم البنية الداخلية للكلمات.

الحل o1: التفكير قبل الاستجابة

قام OpenAI o1 بحل المشكلة بطريقة غير متوقعة: فبدلاً من تعديل الترميز - وهو أمر صعب تقنياً ومن شأنه أن يضر بكفاءة النموذج - قام بتعليم النظام "التفكير قبل التحدث" باستخدام تقنية تسمى "التفكير المتسلسل".

عندما تسأل o1 عن عدد حروف "r" في كلمة "فراولة"، لا يجيب النموذج على الفور. فهو يمضي عدة ثوانٍ - وأحيانًا حتى دقائق للأسئلة المعقدة - في معالجة "سلسلة من التفكير" داخليًا مخفية عن المستخدم. تسمح له هذه العملية بما يلي:

  1. إدراك أن الطلب يتطلب تحليلاً على مستوى الشخصية
  2. وضع استراتيجية لتفكيك الكلمة
  3. اختبار الاستجابة من خلال أساليب مختلفة
  4. صحح أي أخطاء قبل إعطاء الإجابة النهائية

كما أوضح الباحث في OpenAI نعوم براون في سلسلة من المنشورات على X: "يتم تدريب o1 مع التعلم المعزز على "التفكير" قبل الاستجابة عبر سلسلة خاصة من الأفكار. يتلقى النموذج مكافآت أثناء التدريب لكل خطوة صحيحة في عملية التفكير، وليس فقط للإجابة الصحيحة النهائية.

النتائج مبهرة ولكنها مكلفة. في اختبار تأهيلي لأولمبياد الرياضيات الدولي، حلّ o1 83% من المسائل بشكل صحيح مقابل 13% لـ GPT-4o. وفي أسئلة مستوى الدكتوراه في العلوم، حققت دقة بنسبة 78% مقابل 56% لـ GPT-4o. لكن هذه القوة تأتي بثمن: يستغرق o1 أكثر من 30 ثانية للإجابة على الأسئلة التي يحلها GPT-4o في 3 ثوانٍ، ويكلف 15 دولارًا لكل مليون رمز مقابل 5 دولارات ل GPT-4o.

سلسلة الأفكار: كيف تعمل حقًا

هذه التقنية ليست سحرية ولكنها منهجية. عندما يتلقى مطالبة ما، يولد o1 داخليًا سلسلة طويلة من "الأفكار" التي لا تظهر للمستخدم. بالنسبة لمشكلة "r" في "الفراولة"، يمكن أن تكون العملية الداخلية:

"أولاً يجب أن أفهم بنية الكلمة. يمكن ترميز الفراولة على شكل [r][aw][berry]. لحساب حرف الـ 'r'، عليّ إعادة بناء الكلمة كاملة على مستوى الحرف. تحتوي Str على: s-t-r (1 'r'). يحتوي Aw على: a-w (0 'r'). بيري يحتوي على: ب-ي-ر-ي (2 'ص'). المجموع: 1+0+2 + 0+2 = 3 'ص'. أتحقق من: فراولة = s-t-r-a-w-w-b-e-r-r-y. أعد حرف الراء: الموضع 3، الموضع 8، الموضع 9. تم التأكيد: 3 "ص".

هذا المنطق الداخلي مخفي حسب التصميم. تحظر OpenAI صراحةً على المستخدمين محاولة الكشف عن سلسلة تفكير o1، وتراقب المطالبات وربما تلغي الوصول إلى أولئك الذين ينتهكون هذه القاعدة. تتذرع الشركة بأسباب تتعلق بأمن الذكاء الاصطناعي والميزة التنافسية، ولكن تم انتقاد القرار باعتباره فقداناً للشفافية من قبل المطورين الذين يعملون مع النماذج اللغوية.

الحدود الثابتة: o1 ليست مثالية

على الرغم من التقدم المحرز، إلا أن o1 لم يحل المشكلة بالكامل. فقد اختبر بحث نُشر في مجلة Language Log في يناير 2025 نماذج مختلفة على تحدٍ أكثر تعقيدًا: "اكتب فقرة يكون الحرف الثاني من كل جملة فيها كلمة "رمز".

فشل o1 القياسي (20 دولارًا شهريًا)، حيث أخطأ في احتساب الحرف الأول من كل كلمة أولية على أنه "الحرف الثاني". o1 الاحترافي (200 دولار شهريًا) أصلح المشكلة... بعد 4 دقائق و10 ثوانٍ من "التفكير". ارتكب DeepSeek R1، وهو النموذج الصيني الذي هز السوق في يناير 2025، نفس الخطأ الذي ارتكبه o1 standard.

لا تزال المشكلة الأساسية قائمة: لا تزال النماذج ترى النص من خلال الرموز وليس الحروف، وقد تعلمت o1 "الالتفاف" حول هذا القيد من خلال الاستدلال، لكنها لم تتخلص منه. وكما أشار أحد الباحثين في مجلة Language Log: "الترميز هو جزء من جوهر ماهية النماذج اللغوية؛ وبالنسبة لأي إجابة خاطئة، فإن التفسير هو بالضبط "حسنًا، الترميز".

البحث الأكاديمي: نشأة الفهم على مستوى الشخصية

تحلل ورقة بحثية مهمة نُشرت في arXiv في مايو 2025 ("مشكلة الفراولة: ظهور الفهم على مستوى الشخصية في نماذج اللغة الرمزية") هذه الظاهرة من منظور نظري. وقد ابتكر الباحثون 19 مهمة تركيبية تعزل التفكير على مستوى الشخصية في سياقات محكومة، مما يدل على أن هذه القدرات تظهر فجأة وفي وقت متأخر من التدريب.

تقترح الدراسة أن تعلم تكوين الشخصية لا يختلف اختلافًا جوهريًا عن تعلم المعرفة المنطقية الشائعة - حيث ينشأ من خلال عمليات "الترشيح المفاهيمي" عندما يصل النموذج إلى كتلة حرجة من الأمثلة والروابط.

يقترح الباحثون تعديلاً معمارياً خفيف الوزن يحسّن بشكل كبير من الاستدلال على مستوى الأحرف مع الحفاظ على المزايا الاستقرائية للنماذج القائمة على الكلمات الفرعية. ومع ذلك، تظل هذه التعديلات تجريبية ولم يتم تنفيذها في النماذج التجارية.

الآثار العملية: متى تثق ومتى لا تثق

تعلّمنا حالة الفراولة درسًا مهمًا حول موثوقية النماذج اللغوية: فهي أدوات احتمالية وليست حاسبات حتمية. وكما أشار مارك ليبرمان في مجلة Language Log: "يجب أن تكون حذراً بشأن الوثوق باستجابة أي نظام ذكاء اصطناعي حالي في المهام التي تنطوي على عدّ الأشياء".

هذا لا يعني أن النماذج عديمة الفائدة. فكما لاحظ أحد المعلقين: "فقط لأن القطة ترتكب خطأً غبيًا يتمثل في خوفها من خيارة لا يعني أننا لا ينبغي أن نثق بالقط في المهمة الأصعب بكثير وهي إبعاد القوارض عن المبنى". نماذج اللغة ليست الأداة المناسبة إذا كنت ترغب في عد الحروف بشكل منهجي، لكنها ممتازة لمعالجة آلاف نصوص البودكاست تلقائيًا واستخراج أسماء الضيوف والمضيفين.

بالنسبة للمهام التي تتطلب دقة مطلقة - مثل هبوط مركبة فضائية على سطح المريخ، وحساب الجرعات الدوائية، والتحقق من الامتثال القانوني - تظل النماذج اللغوية الحالية غير كافية دون إشراف بشري أو تحقق خارجي. فطبيعتها الاحتمالية تجعلها قوية لمطابقة الأنماط وتوليد الإبداع، ولكنها غير موثوقة للمهام التي لا يُقبل فيها الخطأ.

المستقبل: نحو نماذج تفكّر بالساعة

صرحت OpenAI أنها تعتزم تجربة نماذج o1 التي "تستنبط لساعات أو أيام أو حتى أسابيع" لزيادة قدراتها على التفكير. في ديسمبر 2024، تم الإعلان عن o3 (تم تخطي اسم o2 لتجنب تعارض العلامات التجارية مع مشغل الهاتف المحمول O2)، وفي مارس 2025، تم إصدار واجهة برمجة التطبيقات لنموذج o1-pro، وهو أغلى نموذج ذكاء اصطناعي من OpenAI حتى الآن، بسعر 150 دولارًا لكل مليون رمز في المدخلات و600 دولار لكل مليون في المخرجات.

إن الاتجاه واضح: بدلاً من جعل النماذج أكبر وأكبر (التوسع)، تستثمر OpenAI في جعلها "تفكر" لفترة أطول (حوسبة وقت الاختبار). قد يكون هذا النهج أكثر استدامة من الناحية الحيوية والحاسوبية من تدريب نماذج ضخمة بشكل متزايد.

ولكن يبقى سؤال مفتوح: هل هذه النماذج "تستنبط" حقاً أم أنها ببساطة تحاكي الاستدلال من خلال أنماط إحصائية أكثر تطوراً؟ أفاد بحث لشركة Apple نُشر في أكتوبر 2024 أن نماذج مثل o1 يمكنها تكرار خطوات التفكير من بيانات التدريب الخاصة بها. من خلال تغيير الأرقام والأسماء في المسائل الرياضية، أو ببساطة إعادة تشغيل نفس المسألة، كان أداء النماذج أسوأ بكثير. بإضافة معلومات دخيلة ولكن غير ذات صلة منطقياً، انخفض الأداء بنسبة 65% لبعض النماذج.

الخلاصة: أدوات قوية ذات حدود أساسية

تكشف مشكلة الفراولة وحل o1 عن كلٍ من الإمكانات والقيود الكامنة في النماذج اللغوية الحالية. لقد أظهر OpenAI أنه من خلال التدريب المستهدف ووقت المعالجة الإضافي، يمكن للنماذج التغلب على بعض القيود الهيكلية للرموز. لكنهم لم يقضوا عليها - بل تحايلوا عليها.

بالنسبة للمستخدمين والمطورين، فإن الدرس العملي واضح: فهم كيفية عمل هذه الأنظمة - ما الذي تقوم به بشكل جيد وأين تفشل - أمر بالغ الأهمية لاستخدامها بفعالية. تعد النماذج اللغوية أدوات رائعة للمهام الاحتمالية ومطابقة الأنماط والتوليد الإبداعي وتوليف المعلومات. ولكن بالنسبة للمهام التي تتطلب دقة حتمية - الحساب والحساب والتحقق من حقائق محددة - تظل غير موثوقة دون إشراف خارجي أو أدوات تكميلية.

سيظل اسم "الفراولة" بمثابة تذكير ساخر بهذا القيد الأساسي: حتى أكثر أنظمة الذكاء الاصطناعي تقدماً في العالم يمكن أن تتعثر في حل أسئلة يمكن لطفل في السادسة من عمره أن يحلها على الفور. ليس لأنهم أغبياء، ولكن لأنهم "يفكرون" بطرق مختلفة تماماً عنا - وربما يجب أن نتوقف عن توقع أن يفكروا مثل البشر.

المصادر:

  • OpenAI - "تعلم التفكير المنطقي مع LLMs" (منشور المدونة الرسمية، سبتمبر 2024)
  • ويكيبيديا - 'OpenAI o1' (تم تحديث المدخل في يناير 2025)
  • كوسما، أدريان وآخرون - "مشكلة الفراولة: ظهور الفهم على مستوى الشخصية في نماذج اللغة الرمزية"، arXiv:2505.14172 (مايو 2025)
  • ليبرمان، مارك - "أنظمة الذكاء الاصطناعي لا تزال غير قادرة على العد"، سجل اللغة (يناير 2025)
  • يانغ، يو - "لماذا تعاني النماذج اللغوية الكبيرة عند عدّ الحروف في الكلمة؟"، ميديوم (فبراير 2025)
  • أورلاند، كايل - "كيف يكون أداء DeepSeek R1 في مواجهة أفضل نماذج التفكير المنطقي في OpenAI؟"، آرس تكنيكا
  • براون، نعوم (OpenAI) - سلسلة من المنشورات على X/تويتر (سبتمبر 2024)
  • TechCrunch - "OpenAI يكشف النقاب عن OpenAI عن نموذج o1، وهو نموذج يمكنه التحقق من الحقائق بنفسه" (سبتمبر 2024)
  • 16x موجه - "لماذا لا يمكن لـ ChatGPT حساب عدد روبية في الفراولة" (تم التحديث في يونيو 2025)

موارد لنمو الأعمال التجارية

9 نوفمبر 2025

لماذا الرياضيات صعبة (حتى لو كنت من الذكاء الاصطناعي)

النماذج اللغوية لا تعرف كيف تضاعف حفظ النتائج بالطريقة التي نحفظ بها الباي (pi)، ولكن هذا لا يجعلها رياضيات. المشكلة هيكلية: فهي تتعلم عن طريق التشابه الإحصائي، وليس عن طريق الفهم الخوارزمي. حتى "النماذج المنطقية" الجديدة مثل o1 تفشل في المهام التافهة: فهي تحسب بشكل صحيح حرف "r" في كلمة "فراولة" بعد ثوانٍ من المعالجة، ولكنها تفشل عندما يتعين عليها كتابة فقرة حيث يشكل الحرف الثاني من كل جملة كلمة. يستغرق الإصدار المميز الذي تبلغ تكلفته 200 دولار شهرياً أربع دقائق لحل ما يقوم به الطفل على الفور. لا يزال DeepSeek و Mistral في عام 2025 يخطئان في عد الحروف. الحل الناشئ؟ نهج هجين - لقد اكتشفت أذكى النماذج متى تستدعي آلة حاسبة حقيقية بدلاً من محاولة إجراء العملية الحسابية بنفسها. نقلة نوعية: ليس من الضروري أن يعرف الذكاء الاصطناعي كيفية القيام بكل شيء ولكن يجب أن ينظم الأدوات الصحيحة. مفارقة أخيرة: يمكن لـ GPT-4 أن يشرح لك ببراعة نظرية النهايات ولكنه يخطئ في عمليات الضرب التي تحلّها آلة حاسبة الجيب بشكل صحيح دائماً. بالنسبة لتعليم الرياضيات فهي ممتازة - تشرح بصبر لا متناهٍ، وتكيّف الأمثلة، وتحلل المنطق المعقد. للعمليات الحسابية الدقيقة؟ اعتمد على الآلة الحاسبة، وليس على الذكاء الاصطناعي.
9 نوفمبر 2025

تنظيم الذكاء الاصطناعي لتطبيقات المستهلك: كيفية الاستعداد للوائح الجديدة لعام 2025

يمثل عام 2025 نهاية حقبة "الغرب المتوحش" للذكاء الاصطناعي: قانون الذكاء الاصطناعي في الاتحاد الأوروبي الذي يبدأ العمل به اعتبارًا من أغسطس 2024 مع التزامات محو أمية الذكاء الاصطناعي اعتبارًا من 2 فبراير 2025، والحوكمة ومبادرة الحوكمة العالمية للذكاء الاصطناعي اعتبارًا من 2 أغسطس. كاليفورنيا رائدة من خلال SB 243 (وُلدت بعد انتحار سيويل سيتزر، طفل يبلغ من العمر 14 عامًا طور علاقة عاطفية مع روبوت الدردشة) يفرض حظرًا على أنظمة المكافأة القهرية، والكشف عن التفكير في الانتحار، والتذكير كل 3 ساعات "أنا لست إنسانًا"، والتدقيق العام المستقل، وعقوبات بقيمة 1000 دولار/مخالفة. يتطلب SB 420 تقييمات الأثر لـ "القرارات المؤتمتة عالية الخطورة" مع حقوق استئناف المراجعة البشرية. الإنفاذ الفعلي: تم الاستشهاد بنوم 2022 عن الروبوتات التي تم تمريرها كمدربين بشريين، تسوية 56 مليون دولار. الاتجاه الوطني: ألاباما وهاواي وإلينوي وماين وماساتشوستس تصنف الفشل في إخطار روبوتات الدردشة الآلية التي تعمل بالذكاء الاصطناعي على أنه انتهاك لقانون UDAP. نهج الأنظمة ذات المخاطر الحرجة ثلاثي المستويات (الرعاية الصحية/النقل/الطاقة) اعتماد ما قبل النشر، والإفصاح الشفاف الذي يواجه المستهلك، والتسجيل للأغراض العامة + اختبار الأمان. الترقيع التنظيمي بدون استباق فيدرالي: يجب على الشركات متعددة الولايات التنقل بين المتطلبات المتغيرة. الاتحاد الأوروبي اعتبارًا من أغسطس 2026: إبلاغ المستخدمين بالتفاعل مع الذكاء الاصطناعي ما لم يكن واضحًا، والمحتوى الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي مصنفًا على أنه قابل للقراءة آليًا.
9 نوفمبر 2025

تنظيم ما لم يتم إنشاؤه: هل تخاطر أوروبا بعدم ملاءمة التكنولوجيا؟

تجتذب أوروبا عُشر الاستثمارات العالمية في مجال الذكاء الاصطناعي ولكنها تدعي أنها تملي القواعد العالمية. هذا هو "تأثير بروكسل" - فرض القواعد على نطاق الكوكب من خلال قوة السوق دون دفع الابتكار. يدخل قانون الذكاء الاصطناعي حيز التنفيذ وفق جدول زمني متدرج حتى عام 2027، لكن شركات التكنولوجيا متعددة الجنسيات تستجيب باستراتيجيات تهرب مبتكرة: التذرع بالأسرار التجارية لتجنب الكشف عن بيانات التدريب، وإنتاج ملخصات متوافقة تقنياً ولكنها غير مفهومة، واستخدام التقييم الذاتي لخفض مستوى الأنظمة من "عالية المخاطر" إلى "قليلة المخاطر"، والتسوق من خلال اختيار الدول الأعضاء ذات الضوابط الأقل صرامة. مفارقة حقوق النشر خارج الحدود الإقليمية: يطالب الاتحاد الأوروبي بأن تمتثل OpenAI للقوانين الأوروبية حتى بالنسبة للتدريب خارج أوروبا - وهو مبدأ لم يسبق له مثيل في القانون الدولي. ظهور "النموذج المزدوج": إصدارات أوروبية محدودة مقابل إصدارات عالمية متقدمة من منتجات الذكاء الاصطناعي نفسها. الخطر الحقيقي: أن تصبح أوروبا "قلعة رقمية" معزولة عن الابتكار العالمي، مع وصول المواطنين الأوروبيين إلى تقنيات أقل شأناً. لقد رفضت محكمة العدل في قضية تسجيل الائتمان بالفعل دفاع "الأسرار التجارية"، ولكن لا يزال عدم اليقين التفسيري هائلاً - ماذا يعني بالضبط "ملخص مفصل بما فيه الكفاية"؟ لا أحد يعرف. السؤال الأخير الذي لم تتم الإجابة عليه: هل يخلق الاتحاد الأوروبي طريقًا ثالثًا أخلاقيًا بين الرأسمالية الأمريكية وسيطرة الدولة الصينية، أم أنه ببساطة يصدّر البيروقراطية إلى مجال لا ينافسه فيه أحد؟ في الوقت الحالي: رائد عالمي في تنظيم الذكاء الاصطناعي، وهامشي في تطويره. برنامج واسع.