Newsletter

مشكلة الفراولة

"كم "ص" في الفراولة؟ - يجيب GPT-4o بـ "اثنين"، طفل في السادسة من عمره يعرف أنها ثلاثة. المشكلة هي الترميز: يرى النموذج [str][aw][berry]، وليس الحروف. لم يحل OpenAI هذه المشكلة مع o1- بل تجاوزها من خلال تعليم النموذج "التفكير قبل التحدث". والنتيجة: 83% مقابل 13% في أولمبياد الرياضيات، ولكن في 30 ثانية بدلاً من 3 ثوانٍ وثلاثة أضعاف التكلفة. نماذج اللغة هي أدوات احتمالية غير عادية - لكنك ما زلت بحاجة إلى إنسان ليقوم بالعد.

من مشكلة الفراولة إلى نموذج o1: كيف حلّ OpenAI (جزئياً) حد الترميز

في صيف عام 2024، أحرجت إحدى ميمات الإنترنت الفيروسية أكثر النماذج اللغوية تقدمًا في العالم: "كم عدد حروف "r" في كلمة "فراولة"؟ الإجابة الصحيحة هي ثلاثة، لكن GPT-4o أجاب بعناد "اثنان". خطأ يبدو تافهاً كشف عن قصور أساسي في النماذج اللغوية: عدم قدرتها على تحليل الحروف الفردية داخل الكلمات.

في 12 سبتمبر 2024، أصدرت OpenAI في 12 سبتمبر 2024، النموذج o1 - المعروف دولياً بالاسم الرمزي "الفراولة" - وهو النموذج الأول في سلسلة جديدة من "نماذج التفكير" المصممة خصيصاً للتغلب على هذا النوع من القيود. ونعم، الاسم ليس من قبيل المصادفة: كما أكد أحد باحثي OpenAI، تمكن o1 أخيراً من حساب حرف "r" في كلمة "فراولة" بشكل صحيح.

لكن الحل ليس كما تخيلته المقالة الأصلية. لم يقم OpenAI بـ "تعليم" النموذج تحليل الكلمات حرفًا بحرف. بدلاً من ذلك، طورت نهجًا مختلفًا تمامًا: تعليم النموذج "التفكير" قبل الإجابة.

مشكلة العدّ: لماذا تخطئ النماذج في العدّ؟

تظل المشكلة متجذرة في الترميز - العملية الأساسية التي تعالج بها النماذج اللغوية النص. كما هو موضح في مقال تقني نُشر في arXiv في مايو 2025 ("مشكلة الفراولة: ظهور الفهم على مستوى الحرف في نماذج اللغة المرمزة"، لا ترى النماذج الكلمات على أنها تسلسل حروف بل على أنها "رموز" - وحدات المعنى المحولة إلى أرقام.

عندما يقوم GPT-4 بمعالجة كلمة "فراولة"، يقسمها مُعرّف الرموز إلى ثلاثة أجزاء: [str][aw][berry]، لكل منها معرّف رقمي محدد (496، 675، 15717). بالنسبة للنموذج، فإن "فراولة" ليست سلسلة من 10 أحرف بل سلسلة من 3 رموز رقمية. يبدو الأمر كما لو كان يقرأ كتابًا حيث يتم استبدال كل كلمة برمز ثم يطلب منه شخص ما عد الحروف في رمز لم يره مكتوبًا من قبل.

تتفاقم المشكلة مع الكلمات المركبة. حيث يتم تقسيم كلمة "Timekeeper" إلى رموز منفصلة، مما يجعل من المستحيل على النموذج تحديد الموضع الدقيق للحروف دون عملية تعليل واضحة. لا يؤثر التجزئة على عد الحروف فحسب، بل يؤثر أيضًا على فهم البنية الداخلية للكلمات.

الحل o1: التفكير قبل الاستجابة

قام OpenAI o1 بحل المشكلة بطريقة غير متوقعة: فبدلاً من تعديل الترميز - وهو أمر صعب تقنياً ومن شأنه أن يضر بكفاءة النموذج - قام بتعليم النظام "التفكير قبل التحدث" باستخدام تقنية تسمى "التفكير المتسلسل".

عندما تسأل o1 عن عدد حروف "r" في كلمة "فراولة"، لا يجيب النموذج على الفور. فهو يمضي عدة ثوانٍ - وأحيانًا حتى دقائق للأسئلة المعقدة - في معالجة "سلسلة من التفكير" داخليًا مخفية عن المستخدم. تسمح له هذه العملية بما يلي:

  1. إدراك أن الطلب يتطلب تحليلاً على مستوى الشخصية
  2. وضع استراتيجية لتفكيك الكلمة
  3. اختبار الاستجابة من خلال أساليب مختلفة
  4. صحح أي أخطاء قبل إعطاء الإجابة النهائية

كما أوضح الباحث في OpenAI نعوم براون في سلسلة من المنشورات على X: "يتم تدريب o1 مع التعلم المعزز على "التفكير" قبل الاستجابة عبر سلسلة خاصة من الأفكار. يتلقى النموذج مكافآت أثناء التدريب لكل خطوة صحيحة في عملية التفكير، وليس فقط للإجابة الصحيحة النهائية.

النتائج مبهرة ولكنها مكلفة. في اختبار تأهيلي لأولمبياد الرياضيات الدولي، حلّ o1 83% من المسائل بشكل صحيح مقابل 13% لـ GPT-4o. وفي أسئلة مستوى الدكتوراه في العلوم، حققت دقة بنسبة 78% مقابل 56% لـ GPT-4o. لكن هذه القوة تأتي بثمن: يستغرق o1 أكثر من 30 ثانية للإجابة على الأسئلة التي يحلها GPT-4o في 3 ثوانٍ، ويكلف 15 دولارًا لكل مليون رمز مقابل 5 دولارات ل GPT-4o.

سلسلة الأفكار: كيف تعمل حقًا

هذه التقنية ليست سحرية ولكنها منهجية. عندما يتلقى مطالبة ما، يولد o1 داخليًا سلسلة طويلة من "الأفكار" التي لا تظهر للمستخدم. بالنسبة لمشكلة "r" في "الفراولة"، يمكن أن تكون العملية الداخلية:

"أولاً يجب أن أفهم بنية الكلمة. يمكن ترميز الفراولة على شكل [r][aw][berry]. لحساب حرف الـ 'r'، عليّ إعادة بناء الكلمة كاملة على مستوى الحرف. تحتوي Str على: s-t-r (1 'r'). يحتوي Aw على: a-w (0 'r'). بيري يحتوي على: ب-ي-ر-ي (2 'ص'). المجموع: 1+0+2 + 0+2 = 3 'ص'. أتحقق من: فراولة = s-t-r-a-w-w-b-e-r-r-y. أعد حرف الراء: الموضع 3، الموضع 8، الموضع 9. تم التأكيد: 3 "ص".

هذا المنطق الداخلي مخفي حسب التصميم. تحظر OpenAI صراحةً على المستخدمين محاولة الكشف عن سلسلة تفكير o1، وتراقب المطالبات وربما تلغي الوصول إلى أولئك الذين ينتهكون هذه القاعدة. تتذرع الشركة بأسباب تتعلق بأمن الذكاء الاصطناعي والميزة التنافسية، ولكن تم انتقاد القرار باعتباره فقداناً للشفافية من قبل المطورين الذين يعملون مع النماذج اللغوية.

الحدود الثابتة: o1 ليست مثالية

على الرغم من التقدم المحرز، إلا أن o1 لم يحل المشكلة بالكامل. فقد اختبر بحث نُشر في مجلة Language Log في يناير 2025 نماذج مختلفة على تحدٍ أكثر تعقيدًا: "اكتب فقرة يكون الحرف الثاني من كل جملة فيها كلمة "رمز".

فشل o1 القياسي (20 دولارًا شهريًا)، حيث أخطأ في احتساب الحرف الأول من كل كلمة أولية على أنه "الحرف الثاني". o1 الاحترافي (200 دولار شهريًا) أصلح المشكلة... بعد 4 دقائق و10 ثوانٍ من "التفكير". ارتكب DeepSeek R1، وهو النموذج الصيني الذي هز السوق في يناير 2025، نفس الخطأ الذي ارتكبه o1 standard.

لا تزال المشكلة الأساسية قائمة: لا تزال النماذج ترى النص من خلال الرموز وليس الحروف، وقد تعلمت o1 "الالتفاف" حول هذا القيد من خلال الاستدلال، لكنها لم تتخلص منه. وكما أشار أحد الباحثين في مجلة Language Log: "الترميز هو جزء من جوهر ماهية النماذج اللغوية؛ وبالنسبة لأي إجابة خاطئة، فإن التفسير هو بالضبط "حسنًا، الترميز".

البحث الأكاديمي: نشأة الفهم على مستوى الشخصية

تحلل ورقة بحثية مهمة نُشرت في arXiv في مايو 2025 ("مشكلة الفراولة: ظهور الفهم على مستوى الشخصية في نماذج اللغة الرمزية") هذه الظاهرة من منظور نظري. وقد ابتكر الباحثون 19 مهمة تركيبية تعزل التفكير على مستوى الشخصية في سياقات محكومة، مما يدل على أن هذه القدرات تظهر فجأة وفي وقت متأخر من التدريب.

تقترح الدراسة أن تعلم تكوين الشخصية لا يختلف اختلافًا جوهريًا عن تعلم المعرفة المنطقية الشائعة - حيث ينشأ من خلال عمليات "الترشيح المفاهيمي" عندما يصل النموذج إلى كتلة حرجة من الأمثلة والروابط.

يقترح الباحثون تعديلاً معمارياً خفيف الوزن يحسّن بشكل كبير من الاستدلال على مستوى الأحرف مع الحفاظ على المزايا الاستقرائية للنماذج القائمة على الكلمات الفرعية. ومع ذلك، تظل هذه التعديلات تجريبية ولم يتم تنفيذها في النماذج التجارية.

الآثار العملية: متى تثق ومتى لا تثق

تعلّمنا حالة الفراولة درسًا مهمًا حول موثوقية النماذج اللغوية: فهي أدوات احتمالية وليست حاسبات حتمية. وكما أشار مارك ليبرمان في مجلة Language Log: "يجب أن تكون حذراً بشأن الوثوق باستجابة أي نظام ذكاء اصطناعي حالي في المهام التي تنطوي على عدّ الأشياء".

هذا لا يعني أن النماذج عديمة الفائدة. فكما لاحظ أحد المعلقين: "فقط لأن القطة ترتكب خطأً غبيًا يتمثل في خوفها من خيارة لا يعني أننا لا ينبغي أن نثق بالقط في المهمة الأصعب بكثير وهي إبعاد القوارض عن المبنى". نماذج اللغة ليست الأداة المناسبة إذا كنت ترغب في عد الحروف بشكل منهجي، لكنها ممتازة لمعالجة آلاف نصوص البودكاست تلقائيًا واستخراج أسماء الضيوف والمضيفين.

بالنسبة للمهام التي تتطلب دقة مطلقة - مثل هبوط مركبة فضائية على سطح المريخ، وحساب الجرعات الدوائية، والتحقق من الامتثال القانوني - تظل النماذج اللغوية الحالية غير كافية دون إشراف بشري أو تحقق خارجي. فطبيعتها الاحتمالية تجعلها قوية لمطابقة الأنماط وتوليد الإبداع، ولكنها غير موثوقة للمهام التي لا يُقبل فيها الخطأ.

المستقبل: نحو نماذج تفكّر بالساعة

صرحت OpenAI أنها تعتزم تجربة نماذج o1 التي "تستنبط لساعات أو أيام أو حتى أسابيع" لزيادة قدراتها على التفكير. في ديسمبر 2024، تم الإعلان عن o3 (تم تخطي اسم o2 لتجنب تعارض العلامات التجارية مع مشغل الهاتف المحمول O2)، وفي مارس 2025، تم إصدار واجهة برمجة التطبيقات لنموذج o1-pro، وهو أغلى نموذج ذكاء اصطناعي من OpenAI حتى الآن، بسعر 150 دولارًا لكل مليون رمز في المدخلات و600 دولار لكل مليون في المخرجات.

إن الاتجاه واضح: بدلاً من جعل النماذج أكبر وأكبر (التوسع)، تستثمر OpenAI في جعلها "تفكر" لفترة أطول (حوسبة وقت الاختبار). قد يكون هذا النهج أكثر استدامة من الناحية الحيوية والحاسوبية من تدريب نماذج ضخمة بشكل متزايد.

ولكن يبقى سؤال مفتوح: هل هذه النماذج "تستنبط" حقاً أم أنها ببساطة تحاكي الاستدلال من خلال أنماط إحصائية أكثر تطوراً؟ أفاد بحث لشركة Apple نُشر في أكتوبر 2024 أن نماذج مثل o1 يمكنها تكرار خطوات التفكير من بيانات التدريب الخاصة بها. من خلال تغيير الأرقام والأسماء في المسائل الرياضية، أو ببساطة إعادة تشغيل نفس المسألة، كان أداء النماذج أسوأ بكثير. بإضافة معلومات دخيلة ولكن غير ذات صلة منطقياً، انخفض الأداء بنسبة 65% لبعض النماذج.

الخلاصة: أدوات قوية ذات حدود أساسية

تكشف مشكلة الفراولة وحل o1 عن كلٍ من الإمكانات والقيود الكامنة في النماذج اللغوية الحالية. لقد أظهر OpenAI أنه من خلال التدريب المستهدف ووقت المعالجة الإضافي، يمكن للنماذج التغلب على بعض القيود الهيكلية للرموز. لكنهم لم يقضوا عليها - بل تحايلوا عليها.

بالنسبة للمستخدمين والمطورين، فإن الدرس العملي واضح: فهم كيفية عمل هذه الأنظمة - ما الذي تقوم به بشكل جيد وأين تفشل - أمر بالغ الأهمية لاستخدامها بفعالية. تعد النماذج اللغوية أدوات رائعة للمهام الاحتمالية ومطابقة الأنماط والتوليد الإبداعي وتوليف المعلومات. ولكن بالنسبة للمهام التي تتطلب دقة حتمية - الحساب والحساب والتحقق من حقائق محددة - تظل غير موثوقة دون إشراف خارجي أو أدوات تكميلية.

سيظل اسم "الفراولة" بمثابة تذكير ساخر بهذا القيد الأساسي: حتى أكثر أنظمة الذكاء الاصطناعي تقدماً في العالم يمكن أن تتعثر في حل أسئلة يمكن لطفل في السادسة من عمره أن يحلها على الفور. ليس لأنهم أغبياء، ولكن لأنهم "يفكرون" بطرق مختلفة تماماً عنا - وربما يجب أن نتوقف عن توقع أن يفكروا مثل البشر.

المصادر:

  • OpenAI - "تعلم التفكير المنطقي مع LLMs" (منشور المدونة الرسمية، سبتمبر 2024)
  • ويكيبيديا - 'OpenAI o1' (تم تحديث المدخل في يناير 2025)
  • كوسما، أدريان وآخرون - "مشكلة الفراولة: ظهور الفهم على مستوى الشخصية في نماذج اللغة الرمزية"، arXiv:2505.14172 (مايو 2025)
  • ليبرمان، مارك - "أنظمة الذكاء الاصطناعي لا تزال غير قادرة على العد"، سجل اللغة (يناير 2025)
  • يانغ، يو - "لماذا تعاني النماذج اللغوية الكبيرة عند عدّ الحروف في الكلمة؟"، ميديوم (فبراير 2025)
  • أورلاند، كايل - "كيف يكون أداء DeepSeek R1 في مواجهة أفضل نماذج التفكير المنطقي في OpenAI؟"، آرس تكنيكا
  • براون، نعوم (OpenAI) - سلسلة من المنشورات على X/تويتر (سبتمبر 2024)
  • TechCrunch - "OpenAI يكشف النقاب عن OpenAI عن نموذج o1، وهو نموذج يمكنه التحقق من الحقائق بنفسه" (سبتمبر 2024)
  • 16x موجه - "لماذا لا يمكن لـ ChatGPT حساب عدد روبية في الفراولة" (تم التحديث في يونيو 2025)

موارد لنمو الأعمال التجارية

9 نوفمبر 2025

القيم المتطرفة: حيث يلتقي علم البيانات مع قصص النجاح

لقد قلب علم البيانات النموذج رأساً على عقب: لم تعد القيم المتطرفة "أخطاء يجب التخلص منها" بل معلومات قيّمة يجب فهمها. يمكن أن يؤدي وجود قيمة متطرفة واحدة إلى تشويه نموذج الانحدار الخطي تمامًا - تغيير الميل من 2 إلى 10 - ولكن التخلص منها قد يعني فقدان أهم إشارة في مجموعة البيانات. يقدم التعلم الآلي أدوات متطورة: تقوم غابة العزل بعزل القيم المتطرفة من خلال بناء أشجار قرار عشوائية، ويقوم عامل التطرف المحلي بتحليل الكثافة المحلية، وتقوم أجهزة الترميز التلقائي بإعادة بناء البيانات العادية والإبلاغ عما لا تستطيع إعادة إنتاجه. هناك قيم متطرفة عالمية (درجة الحرارة -10 درجات مئوية في المناطق الاستوائية)، وقيم متطرفة سياقية (إنفاق 1000 يورو في حي فقير)، وقيم متطرفة جماعية (شبكة حركة المرور المتزامنة التي تشير إلى حدوث هجوم). بالتوازي مع غلادويل: "قاعدة الـ 10,000 ساعة" محل جدل - بول مكارتني ديكسيت "العديد من الفرق الموسيقية قامت بـ 10,000 ساعة في هامبورغ دون نجاح، النظرية ليست معصومة". النجاح الحسابي الآسيوي ليس وراثيًا بل ثقافيًا: النظام العددي الصيني أكثر بديهية، زراعة الأرز تتطلب تحسينًا مستمرًا مقابل التوسع الإقليمي للزراعة الغربية. تطبيقات حقيقية: تستعيد بنوك المملكة المتحدة 18% من الخسائر المحتملة من خلال الكشف عن الشذوذ في الوقت الحقيقي، ويكتشف التصنيع العيوب المجهرية التي قد يفوتها الفحص البشري، وتتحقق الرعاية الصحية من صحة بيانات التجارب السريرية بحساسية تزيد عن 85% من كشف الشذوذ. الدرس الأخير: مع انتقال علم البيانات من القضاء على القيم المتطرفة إلى فهمها، يجب أن ننظر إلى المهن غير التقليدية ليس على أنها حالات شاذة يجب تصحيحها ولكن كمسارات قيّمة يجب دراستها.
9 نوفمبر 2025

Electe: حوِّل بياناتك إلى تنبؤات دقيقة لنجاح أعمالك

الشركات التي تتنبأ باتجاهات السوق تتفوق على المنافسين، ولكن الغالبية لا تزال تتخذ قراراتها بناءً على الغريزة بدلاً من Electe على حل هذه الفجوة من خلال تحويل البيانات التاريخية إلى تنبؤات قابلة للتنفيذ عبر التعلم الآلي المتقدم دون الحاجة إلى خبرة فنية. تعمل المنصة على أتمتة عملية التنبؤ بشكل كامل لحالات الاستخدام الحرجة: التنبؤ باتجاهات المستهلكين للتسويق المستهدف، وتحسين إدارة المخزون من خلال توقع الطلب، وتخصيص الموارد بشكل استراتيجي، واكتشاف الفرص قبل المنافسين. التنفيذ في 4 خطوات - تحميل البيانات التاريخية بدون احتكاك - تحميل البيانات التاريخية، واختيار المؤشرات لتحليلها، وخوارزميات معالجة التنبؤات، واستخدام الرؤى لاتخاذ القرارات الاستراتيجية - تتكامل بسلاسة مع العمليات الحالية. عائد استثمار قابل للقياس من خلال خفض التكلفة عن طريق التخطيط الدقيق، وزيادة سرعة اتخاذ القرار، وتقليل المخاطر التشغيلية، وتحديد فرص النمو الجديدة. يؤدي التطور من التحليل الوصفي (ما حدث) إلى التحليل التنبؤي (ما سيحدث) إلى تحويل الشركات من رد الفعل إلى الاستباقي، مما يجعلها رائدة في الصناعة من خلال الميزة التنافسية القائمة على التنبؤات الدقيقة.