Newsletter

مشكلة الفراولة

"كم "ص" في الفراولة؟ - يجيب GPT-4o بـ "اثنين"، طفل في السادسة من عمره يعرف أنها ثلاثة. المشكلة هي الترميز: يرى النموذج [str][aw][berry]، وليس الحروف. لم يحل OpenAI هذه المشكلة مع o1- بل تجاوزها من خلال تعليم النموذج "التفكير قبل التحدث". والنتيجة: 83% مقابل 13% في أولمبياد الرياضيات، ولكن في 30 ثانية بدلاً من 3 ثوانٍ وثلاثة أضعاف التكلفة. نماذج اللغة هي أدوات احتمالية غير عادية - لكنك ما زلت بحاجة إلى إنسان ليقوم بالعد.

من مشكلة الفراولة إلى نموذج o1: كيف حلّ OpenAI (جزئياً) حد الترميز

في صيف عام 2024، أحرجت إحدى ميمات الإنترنت الفيروسية أكثر النماذج اللغوية تقدمًا في العالم: "كم عدد حروف "r" في كلمة "فراولة"؟ الإجابة الصحيحة هي ثلاثة، لكن GPT-4o أجاب بعناد "اثنان". خطأ يبدو تافهاً كشف عن قصور أساسي في النماذج اللغوية: عدم قدرتها على تحليل الحروف الفردية داخل الكلمات.

في 12 سبتمبر 2024، أصدرت OpenAI في 12 سبتمبر 2024، النموذج o1 - المعروف دولياً بالاسم الرمزي "الفراولة" - وهو النموذج الأول في سلسلة جديدة من "نماذج التفكير" المصممة خصيصاً للتغلب على هذا النوع من القيود. ونعم، الاسم ليس من قبيل المصادفة: كما أكد أحد باحثي OpenAI، تمكن o1 أخيراً من حساب حرف "r" في كلمة "فراولة" بشكل صحيح.

لكن الحل ليس كما تخيلته المقالة الأصلية. لم يقم OpenAI بـ "تعليم" النموذج تحليل الكلمات حرفًا بحرف. بدلاً من ذلك، طورت نهجًا مختلفًا تمامًا: تعليم النموذج "التفكير" قبل الإجابة.

مشكلة العدّ: لماذا تخطئ النماذج في العدّ؟

تظل المشكلة متجذرة في الترميز - العملية الأساسية التي تعالج بها النماذج اللغوية النص. كما هو موضح في مقال تقني نُشر في arXiv في مايو 2025 ("مشكلة الفراولة: ظهور الفهم على مستوى الحرف في نماذج اللغة المرمزة"، لا ترى النماذج الكلمات على أنها تسلسل حروف بل على أنها "رموز" - وحدات المعنى المحولة إلى أرقام.

عندما يقوم GPT-4 بمعالجة كلمة "فراولة"، يقسمها مُعرّف الرموز إلى ثلاثة أجزاء: [str][aw][berry]، لكل منها معرّف رقمي محدد (496، 675، 15717). بالنسبة للنموذج، فإن "فراولة" ليست سلسلة من 10 أحرف بل سلسلة من 3 رموز رقمية. يبدو الأمر كما لو كان يقرأ كتابًا حيث يتم استبدال كل كلمة برمز ثم يطلب منه شخص ما عد الحروف في رمز لم يره مكتوبًا من قبل.

تتفاقم المشكلة مع الكلمات المركبة. حيث يتم تقسيم كلمة "Timekeeper" إلى رموز منفصلة، مما يجعل من المستحيل على النموذج تحديد الموضع الدقيق للحروف دون عملية تعليل واضحة. لا يؤثر التجزئة على عد الحروف فحسب، بل يؤثر أيضًا على فهم البنية الداخلية للكلمات.

الحل o1: التفكير قبل الاستجابة

قام OpenAI o1 بحل المشكلة بطريقة غير متوقعة: فبدلاً من تعديل الترميز - وهو أمر صعب تقنياً ومن شأنه أن يضر بكفاءة النموذج - قام بتعليم النظام "التفكير قبل التحدث" باستخدام تقنية تسمى "التفكير المتسلسل".

عندما تسأل o1 عن عدد حروف "r" في كلمة "فراولة"، لا يجيب النموذج على الفور. فهو يمضي عدة ثوانٍ - وأحيانًا حتى دقائق للأسئلة المعقدة - في معالجة "سلسلة من التفكير" داخليًا مخفية عن المستخدم. تسمح له هذه العملية بما يلي:

  1. إدراك أن الطلب يتطلب تحليلاً على مستوى الشخصية
  2. وضع استراتيجية لتفكيك الكلمة
  3. اختبار الاستجابة من خلال أساليب مختلفة
  4. صحح أي أخطاء قبل إعطاء الإجابة النهائية

كما أوضح الباحث في OpenAI نعوم براون في سلسلة من المنشورات على X: "يتم تدريب o1 مع التعلم المعزز على "التفكير" قبل الاستجابة عبر سلسلة خاصة من الأفكار. يتلقى النموذج مكافآت أثناء التدريب لكل خطوة صحيحة في عملية التفكير، وليس فقط للإجابة الصحيحة النهائية.

النتائج مبهرة ولكنها مكلفة. في اختبار تأهيلي لأولمبياد الرياضيات الدولي، حلّ o1 83% من المسائل بشكل صحيح مقابل 13% لـ GPT-4o. وفي أسئلة مستوى الدكتوراه في العلوم، حققت دقة بنسبة 78% مقابل 56% لـ GPT-4o. لكن هذه القوة تأتي بثمن: يستغرق o1 أكثر من 30 ثانية للإجابة على الأسئلة التي يحلها GPT-4o في 3 ثوانٍ، ويكلف 15 دولارًا لكل مليون رمز مقابل 5 دولارات ل GPT-4o.

سلسلة الأفكار: كيف تعمل حقًا

هذه التقنية ليست سحرية ولكنها منهجية. عندما يتلقى مطالبة ما، يولد o1 داخليًا سلسلة طويلة من "الأفكار" التي لا تظهر للمستخدم. بالنسبة لمشكلة "r" في "الفراولة"، يمكن أن تكون العملية الداخلية:

"أولاً يجب أن أفهم بنية الكلمة. يمكن ترميز الفراولة على شكل [r][aw][berry]. لحساب حرف الـ 'r'، عليّ إعادة بناء الكلمة كاملة على مستوى الحرف. تحتوي Str على: s-t-r (1 'r'). يحتوي Aw على: a-w (0 'r'). بيري يحتوي على: ب-ي-ر-ي (2 'ص'). المجموع: 1+0+2 + 0+2 = 3 'ص'. أتحقق من: فراولة = s-t-r-a-w-w-b-e-r-r-y. أعد حرف الراء: الموضع 3، الموضع 8، الموضع 9. تم التأكيد: 3 "ص".

هذا المنطق الداخلي مخفي حسب التصميم. تحظر OpenAI صراحةً على المستخدمين محاولة الكشف عن سلسلة تفكير o1، وتراقب المطالبات وربما تلغي الوصول إلى أولئك الذين ينتهكون هذه القاعدة. تتذرع الشركة بأسباب تتعلق بأمن الذكاء الاصطناعي والميزة التنافسية، ولكن تم انتقاد القرار باعتباره فقداناً للشفافية من قبل المطورين الذين يعملون مع النماذج اللغوية.

الحدود الثابتة: o1 ليست مثالية

على الرغم من التقدم المحرز، إلا أن o1 لم يحل المشكلة بالكامل. فقد اختبر بحث نُشر في مجلة Language Log في يناير 2025 نماذج مختلفة على تحدٍ أكثر تعقيدًا: "اكتب فقرة يكون الحرف الثاني من كل جملة فيها كلمة "رمز".

فشل o1 القياسي (20 دولارًا شهريًا)، حيث أخطأ في احتساب الحرف الأول من كل كلمة أولية على أنه "الحرف الثاني". o1 الاحترافي (200 دولار شهريًا) أصلح المشكلة... بعد 4 دقائق و10 ثوانٍ من "التفكير". ارتكب DeepSeek R1، وهو النموذج الصيني الذي هز السوق في يناير 2025، نفس الخطأ الذي ارتكبه o1 standard.

لا تزال المشكلة الأساسية قائمة: لا تزال النماذج ترى النص من خلال الرموز وليس الحروف، وقد تعلمت o1 "الالتفاف" حول هذا القيد من خلال الاستدلال، لكنها لم تتخلص منه. وكما أشار أحد الباحثين في مجلة Language Log: "الترميز هو جزء من جوهر ماهية النماذج اللغوية؛ وبالنسبة لأي إجابة خاطئة، فإن التفسير هو بالضبط "حسنًا، الترميز".

البحث الأكاديمي: نشأة الفهم على مستوى الشخصية

تحلل ورقة بحثية مهمة نُشرت في arXiv في مايو 2025 ("مشكلة الفراولة: ظهور الفهم على مستوى الشخصية في نماذج اللغة الرمزية") هذه الظاهرة من منظور نظري. وقد ابتكر الباحثون 19 مهمة تركيبية تعزل التفكير على مستوى الشخصية في سياقات محكومة، مما يدل على أن هذه القدرات تظهر فجأة وفي وقت متأخر من التدريب.

تقترح الدراسة أن تعلم تكوين الشخصية لا يختلف اختلافًا جوهريًا عن تعلم المعرفة المنطقية الشائعة - حيث ينشأ من خلال عمليات "الترشيح المفاهيمي" عندما يصل النموذج إلى كتلة حرجة من الأمثلة والروابط.

يقترح الباحثون تعديلاً معمارياً خفيف الوزن يحسّن بشكل كبير من الاستدلال على مستوى الأحرف مع الحفاظ على المزايا الاستقرائية للنماذج القائمة على الكلمات الفرعية. ومع ذلك، تظل هذه التعديلات تجريبية ولم يتم تنفيذها في النماذج التجارية.

الآثار العملية: متى تثق ومتى لا تثق

تعلّمنا حالة الفراولة درسًا مهمًا حول موثوقية النماذج اللغوية: فهي أدوات احتمالية وليست حاسبات حتمية. وكما أشار مارك ليبرمان في مجلة Language Log: "يجب أن تكون حذراً بشأن الوثوق باستجابة أي نظام ذكاء اصطناعي حالي في المهام التي تنطوي على عدّ الأشياء".

هذا لا يعني أن النماذج عديمة الفائدة. فكما لاحظ أحد المعلقين: "فقط لأن القطة ترتكب خطأً غبيًا يتمثل في خوفها من خيارة لا يعني أننا لا ينبغي أن نثق بالقط في المهمة الأصعب بكثير وهي إبعاد القوارض عن المبنى". نماذج اللغة ليست الأداة المناسبة إذا كنت ترغب في عد الحروف بشكل منهجي، لكنها ممتازة لمعالجة آلاف نصوص البودكاست تلقائيًا واستخراج أسماء الضيوف والمضيفين.

بالنسبة للمهام التي تتطلب دقة مطلقة - مثل هبوط مركبة فضائية على سطح المريخ، وحساب الجرعات الدوائية، والتحقق من الامتثال القانوني - تظل النماذج اللغوية الحالية غير كافية دون إشراف بشري أو تحقق خارجي. فطبيعتها الاحتمالية تجعلها قوية لمطابقة الأنماط وتوليد الإبداع، ولكنها غير موثوقة للمهام التي لا يُقبل فيها الخطأ.

المستقبل: نحو نماذج تفكّر بالساعة

صرحت OpenAI أنها تعتزم تجربة نماذج o1 التي "تستنبط لساعات أو أيام أو حتى أسابيع" لزيادة قدراتها على التفكير. في ديسمبر 2024، تم الإعلان عن o3 (تم تخطي اسم o2 لتجنب تعارض العلامات التجارية مع مشغل الهاتف المحمول O2)، وفي مارس 2025، تم إصدار واجهة برمجة التطبيقات لنموذج o1-pro، وهو أغلى نموذج ذكاء اصطناعي من OpenAI حتى الآن، بسعر 150 دولارًا لكل مليون رمز في المدخلات و600 دولار لكل مليون في المخرجات.

إن الاتجاه واضح: بدلاً من جعل النماذج أكبر وأكبر (التوسع)، تستثمر OpenAI في جعلها "تفكر" لفترة أطول (حوسبة وقت الاختبار). قد يكون هذا النهج أكثر استدامة من الناحية الحيوية والحاسوبية من تدريب نماذج ضخمة بشكل متزايد.

ولكن يبقى سؤال مفتوح: هل هذه النماذج "تستنبط" حقاً أم أنها ببساطة تحاكي الاستدلال من خلال أنماط إحصائية أكثر تطوراً؟ أفاد بحث لشركة Apple نُشر في أكتوبر 2024 أن نماذج مثل o1 يمكنها تكرار خطوات التفكير من بيانات التدريب الخاصة بها. من خلال تغيير الأرقام والأسماء في المسائل الرياضية، أو ببساطة إعادة تشغيل نفس المسألة، كان أداء النماذج أسوأ بكثير. بإضافة معلومات دخيلة ولكن غير ذات صلة منطقياً، انخفض الأداء بنسبة 65% لبعض النماذج.

الخلاصة: أدوات قوية ذات حدود أساسية

تكشف مشكلة الفراولة وحل o1 عن كلٍ من الإمكانات والقيود الكامنة في النماذج اللغوية الحالية. لقد أظهر OpenAI أنه من خلال التدريب المستهدف ووقت المعالجة الإضافي، يمكن للنماذج التغلب على بعض القيود الهيكلية للرموز. لكنهم لم يقضوا عليها - بل تحايلوا عليها.

بالنسبة للمستخدمين والمطورين، فإن الدرس العملي واضح: فهم كيفية عمل هذه الأنظمة - ما الذي تقوم به بشكل جيد وأين تفشل - أمر بالغ الأهمية لاستخدامها بفعالية. تعد النماذج اللغوية أدوات رائعة للمهام الاحتمالية ومطابقة الأنماط والتوليد الإبداعي وتوليف المعلومات. ولكن بالنسبة للمهام التي تتطلب دقة حتمية - الحساب والحساب والتحقق من حقائق محددة - تظل غير موثوقة دون إشراف خارجي أو أدوات تكميلية.

سيظل اسم "الفراولة" بمثابة تذكير ساخر بهذا القيد الأساسي: حتى أكثر أنظمة الذكاء الاصطناعي تقدماً في العالم يمكن أن تتعثر في حل أسئلة يمكن لطفل في السادسة من عمره أن يحلها على الفور. ليس لأنهم أغبياء، ولكن لأنهم "يفكرون" بطرق مختلفة تماماً عنا - وربما يجب أن نتوقف عن توقع أن يفكروا مثل البشر.

المصادر:

  • OpenAI - "تعلم التفكير المنطقي مع LLMs" (منشور المدونة الرسمية، سبتمبر 2024)
  • ويكيبيديا - 'OpenAI o1' (تم تحديث المدخل في يناير 2025)
  • كوسما، أدريان وآخرون - "مشكلة الفراولة: ظهور الفهم على مستوى الشخصية في نماذج اللغة الرمزية"، arXiv:2505.14172 (مايو 2025)
  • ليبرمان، مارك - "أنظمة الذكاء الاصطناعي لا تزال غير قادرة على العد"، سجل اللغة (يناير 2025)
  • يانغ، يو - "لماذا تعاني النماذج اللغوية الكبيرة عند عدّ الحروف في الكلمة؟"، ميديوم (فبراير 2025)
  • أورلاند، كايل - "كيف يكون أداء DeepSeek R1 في مواجهة أفضل نماذج التفكير المنطقي في OpenAI؟"، آرس تكنيكا
  • براون، نعوم (OpenAI) - سلسلة من المنشورات على X/تويتر (سبتمبر 2024)
  • TechCrunch - "OpenAI يكشف النقاب عن OpenAI عن نموذج o1، وهو نموذج يمكنه التحقق من الحقائق بنفسه" (سبتمبر 2024)
  • 16x موجه - "لماذا لا يمكن لـ ChatGPT حساب عدد روبية في الفراولة" (تم التحديث في يونيو 2025)

موارد لنمو الأعمال التجارية

9 نوفمبر 2025

أنظمة دعم اتخاذ القرار بالذكاء الاصطناعي: صعود دور المستشارين في قيادة الشركات

77% من الشركات تستخدم الذكاء الاصطناعي ولكن 1% فقط من الشركات لديها تطبيقات "ناضجة" - المشكلة ليست في التكنولوجيا ولكن في النهج: الأتمتة الكاملة مقابل التعاون الذكي. يحقق غولدمان ساكس مع مستشار الذكاء الاصطناعي على 10,000 موظف كفاءة توعية بنسبة 30٪ و12٪ من المبيعات المتبادلة مع الحفاظ على القرارات البشرية؛ وتمنع كايزر بيرماننتى 500 حالة وفاة/سنة من خلال تحليل 100 عنصر/ساعة قبل 12 ساعة ولكنها تترك التشخيص للأطباء. نموذج المستشار يحل فجوة الثقة (44% فقط يثقون في الذكاء الاصطناعي للشركات) من خلال ثلاث ركائز: الذكاء الاصطناعي القابل للتفسير مع المنطق الشفاف، ودرجات الثقة المعايرة، والتغذية الراجعة المستمرة للتحسين. الأرقام: تأثير بقيمة 22.3 تريليون دولار بحلول عام 2030، سيشهد موظفو الذكاء الاصطناعي الاستراتيجي عائد استثمار يبلغ 4 أضعاف بحلول عام 2026. خارطة طريق عملية من 3 خطوات - مهارات التقييم والحوكمة، والتجربة مع مقاييس الثقة، والتوسع التدريجي مع التدريب المستمر - تنطبق على التمويل (تقييم المخاطر تحت الإشراف)، والرعاية الصحية (الدعم التشخيصي)، والتصنيع (الصيانة التنبؤية). لا يتمثل المستقبل في حلول الذكاء الاصطناعي محل البشر، بل في التنسيق الفعال للتعاون بين الإنسان والآلة.
9 نوفمبر 2025

دليل كامل لبرمجيات ذكاء الأعمال للشركات الصغيرة والمتوسطة

60% من الشركات الإيطالية الصغيرة والمتوسطة الحجم تعترف بوجود ثغرات خطيرة في التدريب على البيانات، و29% منها ليس لديها حتى رقم مخصص - بينما ينمو سوق ذكاء الأعمال الإيطالي من 36.79 مليار دولار إلى 69.45 مليار دولار بحلول عام 2034 (معدل نمو سنوي مركب بنسبة 8.56%). لا تكمن المشكلة في التكنولوجيا بل في النهج المتبع: تغرق الشركات الصغيرة والمتوسطة في البيانات المبعثرة بين إدارة علاقات العملاء، وتخطيط موارد المؤسسات، وأوراق إكسل دون تحويلها إلى قرارات. وينطبق ذلك على أولئك الذين يبدأون من الصفر كما هو الحال بالنسبة لأولئك الذين يرغبون في التحسين. معايير الاختيار التي لها أهمية: سهولة الاستخدام بالسحب والإفلات دون الحاجة إلى أشهر من التدريب، وقابلية التوسع التي تنمو معك، والتكامل الأصلي مع الأنظمة الحالية، والتكلفة الإجمالية للملكية (التنفيذ + التدريب + الصيانة) مقابل سعر الترخيص وحده. خارطة الطريق المكونة من 4 خطوات - أهداف قابلة للقياس وقابلة للقياس وقابلة للقياس (تقليل معدل التخبط بنسبة 15% في 6 أشهر)، وتخطيط مصدر البيانات النظيف (القمامة الواردة = القمامة الخارجة)، وتدريب فريق ثقافة البيانات، ومشروع تجريبي مع حلقة تغذية راجعة مستمرة. يغيّر الذكاء الاصطناعي كل شيء: من ذكاء الأعمال الوصفي (ما حدث) إلى التحليلات المعززة التي تكشف الأنماط الخفية، والتنبؤية التي تقدر الطلب المستقبلي، والوصفية التي تقترح إجراءات ملموسة. يعمل Electe على إضفاء الطابع الديمقراطي على هذه القوة للشركات الصغيرة والمتوسطة.
9 نوفمبر 2025

نظام التبريد بالذكاء الاصطناعي من Google DeepMind: كيف يُحدث الذكاء الاصطناعي ثورة في كفاءة الطاقة في مراكز البيانات

يحقق Google DeepMind نسبة -40% من طاقة تبريد مركز البيانات (ولكن فقط -4% من إجمالي الاستهلاك، حيث إن التبريد يمثل 10% من الإجمالي) - دقة 99.6% مع خطأ بنسبة 0.4% على PUE 1.1 من خلال 5 طبقات من التعلم العميق، و50 عقدة، و19 متغير إدخال على 184,435 عينة تدريب (بيانات عامين). تم تأكيده في 3 منشآت: سنغافورة (أول نشر عام 2016)، وإيمشافن، وكاونسل بلافز (استثمار بقيمة 5 مليارات دولار). PUE على مستوى الأسطول على مستوى Google 1.09 مقابل متوسط الصناعة 1.56-1.58. يتنبأ نموذج التحكم التنبؤي بدرجة الحرارة/الضغط في الساعة التالية من خلال إدارة أحمال تكنولوجيا المعلومات والطقس وحالة المعدات في نفس الوقت. أمان مضمون: تحقق من مستويين، يمكن للمشغلين تعطيل الذكاء الاصطناعي دائماً. القيود الحرجة: عدم وجود تحقق مستقل من شركات التدقيق/المختبرات الوطنية، يتطلب كل مركز بيانات نموذجًا مخصصًا (8 سنوات لم يتم تسويقه أبدًا). يتطلب التنفيذ من 6 إلى 18 شهرًا فريقًا متعدد التخصصات (علوم البيانات، والتدفئة والتهوية وتكييف الهواء، وإدارة المرافق). قابل للتطبيق خارج مراكز البيانات: المنشآت الصناعية والمستشفيات ومراكز التسوق ومكاتب الشركات. 2024-2025: انتقال Google إلى التبريد السائل المباشر لوحدة المعالجة الحرارية TPU v5p، مما يشير إلى الحدود العملية لتحسين الذكاء الاصطناعي.