يعتمد الكثيرون على LLM أيضًا لإجراء العمليات الحسابية. هذا النهج لا يعمل .
المشكلة في الواقع بسيطة: النماذج اللغوية الكبيرة (LLM) لا تعرف حقًا كيفية الضرب. قد يحصلون على النتيجة الصحيحة في بعض الأحيان، تمامًا كما قد أعرف قيمة pi عن ظهر قلب. ولكن هذا لا يعني أنني عالم رياضيات، كما أنه لا يعني أن النماذج اللغوية الكبيرة (LLM) تعرف حقًا كيفية إجراء العمليات الحسابية.
مثال عملي
مثال: 49858 * 59949 = 298896167242 هذه النتيجة هي نفسها دائمًا، لا يوجد حل وسط. إما أن تكون صحيحة أو خاطئة.

حتى مع التدريب الرياضي الهائل، تنجح أفضل النماذج في حل جزء فقط من العمليات بشكل صحيح. من ناحية أخرى، تحصل حاسبة الجيب البسيطة على 100% من النتائج الصحيحة دائمًا. وكلما زادت الأرقام، كلما كان أداء الآلة الحاسبة البسيطة أسوأ.

هل من الممكن حل هذه المشكلة؟
المشكلة الأساسية هي أن هذه النماذج تتعلم بالتشابه وليس بالفهم. فهي تعمل بشكل أفضل مع المشاكل المماثلة لتلك التي تم تدريبها عليها، ولكنها لا تطور فهمًا حقيقيًا لما تقوله.
بالنسبة لأولئك الذين يرغبون في معرفة المزيد، أقترح هذا المقال عن "كيف يعمل برنامج الماجستير في القانون".
من ناحية أخرى، تستخدم الآلة الحاسبة خوارزمية دقيقة مبرمجة لإجراء العملية الحسابية.
هذا هو السبب في أننا يجب ألا نعتمد بشكل كامل على LLMs في العمليات الحسابية: حتى في ظل أفضل الظروف، مع وجود كميات هائلة من بيانات التدريب المحددة، لا يمكنها ضمان الموثوقية حتى في أبسط العمليات الأساسية. قد تنجح المقاربة الهجينة، لكن LLMs وحدها لا تكفي. ربما سيتم اتباع هذا النهج لحل ما يسمى بـ"مشكلة الفراولة".
تطبيقات ماجستير الآداب في دراسة الرياضيات
في السياق التعليمي، يمكن أن تعمل أجهزة إدارة التعلم الآلي كمدرسين مخصصين قادرين على تكييف التفسيرات مع مستوى فهم الطالب. على سبيل المثال، عندما يواجه الطالب مشكلة في حساب التفاضل والتكامل، يمكن أن يقوم معلم اللغة الإنجليزية المساعد بتقسيم المنطق إلى خطوات أبسط، مع تقديم شروح مفصلة لكل خطوة من خطوات عملية الحل. يساعد هذا النهج في بناء فهم قوي للمفاهيم الأساسية.
أحد الجوانب المثيرة للاهتمام بشكل خاص هو قدرة LLMs على توليد أمثلة ذات صلة ومتنوعة. إذا كان الطالب يحاول فهم مفهوم النهاية، فيمكن لـ LLM تقديم سيناريوهات رياضية مختلفة، بدءًا من الحالات البسيطة والتقدم إلى حالات أكثر تعقيدًا، مما يتيح فهمًا تدريجيًا للمفهوم.
يتمثل أحد التطبيقات الواعدة في استخدام لغة اللغة الإنجليزية الفورية لترجمة المفاهيم الرياضية المعقدة إلى لغة طبيعية يسهل الوصول إليها. وهذا يسهل توصيل الرياضيات إلى جمهور أوسع ويمكن أن يساعد في التغلب على الحاجز التقليدي للوصول إلى هذا التخصص.
كما يمكن أن تساعد أجهزة LLMs أيضًا في إعداد المواد التعليمية، وتوليد تمارين متفاوتة الصعوبة وتقديم ملاحظات مفصلة حول الحلول المقترحة من الطلاب. يتيح ذلك للمعلمين تخصيص مسار التعلم لطلابهم بشكل أفضل.
الميزة الحقيقية
كما يجب النظر، بشكل أعم، إلى "الصبر" الشديد في مساعدة حتى أقل الطلاب "قدرة" على التعلم: في هذه الحالة، يساعد غياب العواطف في هذه الحالة. على الرغم من ذلك، حتى المعلم "يفقد صبره" أحيانًا. انظر هذا المثال "المسلي المثال.

تحديث 2025: النماذج المنطقية والنهج الهجين
جلب 2024-2025 تطورات مهمة مع وصول ما يسمى "نماذج التفكير" مثل OpenAI o1 و deepseek R1. وقد حققت هذه النماذج نتائج مبهرة في المعايير الرياضية: حيث حلّ o1 بشكل صحيح 83% من المسائل في الأولمبياد الدولي للرياضيات، مقارنةً بـ 13% في GPT-4o. ولكن احذر: لم يحلوا المشكلة الأساسية الموضحة أعلاه.
توضح مشكلة الفراولة - عدّ حرف الراء في كلمة "فراولة" - القيد المستمر بشكل مثالي. o1 يحلها بشكل صحيح بعد بضع ثوانٍ من "التفكير"، ولكن إذا طلبت منه كتابة فقرة حيث يشكل الحرف الثاني من كل جملة كلمة "CODE"، فإنه يفشل. o1-pro، الإصدار 200 دولار في الشهر، يحلها... بعد 4 دقائق من المعالجة. لا تزال DeepSeek R1 والنماذج الحديثة الأخرى تخطئ في العد الأساسي. في فبراير 2025، ظل ميسترال يجيب على أنه لا يوجد سوى حرفين "r" في كلمة "فراولة".
الحيلة التي بدأت في الظهور هي النهج الهجين: عندما يتعين عليهم ضرب 49858 في 5994949، لم تعد النماذج الأكثر تقدماً تحاول "تخمين" النتيجة بناءً على أوجه التشابه مع العمليات الحسابية التي شوهدت أثناء التدريب. وبدلاً من ذلك، فإنها تتصل بالآلة الحاسبة أو تنفذ كود بايثون - تماماً كما يفعل الإنسان الذكي الذي يعرف حدوده.
ويمثل "استخدام الأدوات" هذا نقلة نوعية: لا يجب أن يكون الذكاء الاصطناعي قادراً على القيام بكل شيء بنفسه، بل يجب أن يكون قادراً على تنسيق الأدوات المناسبة. تجمع نماذج التفكير بين القدرة اللغوية لفهم المشكلة، والتفكير التدريجي لتخطيط الحل، والتفويض إلى الأدوات المتخصصة (الآلات الحاسبة، ومترجمي بايثون، وقواعد البيانات) للتنفيذ الدقيق.
الدرس المستفاد؟ إن أصحاب الرتب العليا في عام 2025 أكثر فائدة في الرياضيات ليس لأنهم"تعلموا" الضرب - فهم لم يفعلوا ذلك بالفعل بعد - ولكن لأن بعضهم بدأ يفهم متى يفوضون الضرب لمن يستطيع القيام به بالفعل. وتبقى المشكلة الأساسية: فهم يعملون بالتشابه الإحصائي وليس بالفهم الخوارزمي. وتظل الآلة الحاسبة ذات الـ 5 يورو أكثر موثوقية بلا حدود لإجراء عمليات حسابية دقيقة.