عدم التماثل في الشفافية
12 نوفمبر 2025: تظهر نماذج الجيل الجديد مثل OpenAI o3 و Claude 3.7 Sonnet و DeepSeek R1 "تفكيرها" خطوة بخطوة قبل تقديم إجابة. وقد تم تقديم هذه القدرة، التي تسمى Chain-of-Thought (CoT)، على أنها نقطة تحول في شفافية الذكاء الاصطناعي.
هناك مشكلة واحدة فقط: بحث تعاوني غير مسبوق، شارك فيه أكثر من 40 باحثًا من OpenAI وGoogle DeepMind وAnthropic وMeta، يكشف أن هذه الشفافية وهمية وهشة.
عندما توقف الشركات التي عادة ما تكون في منافسة شرسة عن السباق التجاري لإطلاق إنذار مشترك بشأن السلامة، فإن الأمر يستحق التوقف والاستماع.
والآن، مع ظهور النماذج الأكثر تقدمًا مثل Claude Sonnet 4.5 (سبتمبر 2025)، ساءت الحالة: فقد تعلم النموذج كيفية التعرف على أنه يخضع للاختبار، وقد يتصرف بشكل مختلف لتجاوز تقييمات الأمان.

عندما تتفاعل مع Claude أو ChatGPT أو أي نموذج لغوي متقدم، يتم فهم كل ما تقوله بشكل مثالي:
ما الذي تفهمه الذكاء الاصطناعي عنك:
يتم تدريب نماذج اللغة الكبيرة على تريليونات من الرموز النصية البشرية. لقد "قرأت" عمليًا كل ما كتبه البشر علنًا. فهي لا تفهم ما تقوله فحسب، بل تفهم أيضًا سبب قولك له، وما تتوقعه، وكيفية صياغة الرد.
هنا تنشأ عدم التناسق: في حين أن الذكاء الاصطناعي يترجم لغتك الطبيعية بشكل مثالي في عملياتها الداخلية، فإن العملية العكسية لا تعمل بنفس الطريقة.
عندما تعرض عليك الذكاء الاصطناعي "تفكيره"، فإنك لا ترى عمليات الحساب الفعلية التي يقوم بها. ما تراه هو ترجمة إلى لغة طبيعية يمكن أن تكون:
النموذج يترجم كلماتك إلى مساحة تمثيله؛ ولكن عندما يعيد إليك "تفكيرًا"، فإن ذلك يكون بالفعل إعادة بناء سردي.
أنت → الذكاء الاصطناعي: "حلل هذه البيانات المالية وأخبرني ما إذا كان ينبغي علينا الاستثمار"
الذكاء الاصطناعي يفهم تمامًا:
AI → أنت: "لقد قمت بتحليل البيانات مع الأخذ في الاعتبار الهوامش والنمو والتقلبات. أوصي بالاستثمار."
ما قد لا تراه:
هذا التباين ليس خطأً مؤقتًا. إنه سمة هيكلية في البنية الحالية للنماذج العصبية.
تعمل نماذج اللغة الكبيرة التقليدية في خطوة واحدة:
الإدخال → النموذج → الإخراج الفوري
أدخلت نماذج الاستدلال (أو نماذج الاستدلال الكبيرة، LRM) خطوة وسيطة:
الإدخال → النموذج → سلسلة الأفكار → الناتج النهائي
سلسلة الأفكار هي سلسلة من الرموز التي تمثل خطوات تفكير وسيطة، يتم إنشاؤها قبل الإجابة النهائية.
الإدخال: "إذا كان لدي 3 تفاحات واشتريت ضعف ما لدي، ثم أكلت 2 منها، فكم سيتبقى لدي؟"
CoT الناتج عن النموذج:
الخطوة 1: حساب عدد التفاحات التي أشتريها
- لدي 3 تفاحات في البداية
- أشتري ضعف هذا العدد: 3 × 2 = 6 تفاحات
الخطوة 2: المجموع بعد الشراء
- 3 (في البداية) + 6 (المشتراة) = 9 تفاحات
الخطوة 3: أطرح التفاحات التي أكلتها
9 - 2 = 7 تفاحات
الناتج النهائي: "تبقى لديك 7 تفاحات."
هذا CoT مرئي للمستخدم ويبدو أنه يعرض "عملية التفكير" للنموذج.
بدت الفكرة ثورية: إذا تمكنا من "قراءة" تفكير الذكاء الاصطناعي خطوة بخطوة، فيمكننا:
يُطلق على هذا النهج اسم " مراقبة CoT " ويُعتبر أحد الأدوات الرئيسية لأمن الذكاء الاصطناعي.
بدا الأمر وكأنه ما يعادل تخطيط كهربائي للدماغ — مسار للفكر في الوقت الحقيقي. ولكن سرعان ما أدركنا أن هذا المسار قد يكون خادعًا.

نُشرت في يوليو 2025، تطلق ورقة "Chain of Thought Monitorability" رسالة واضحة: نافذة الشفافية موجودة، لكنها تغلق. وتضم قائمة المؤلفين:
أكثر من 40 باحثًا في المجموع - تحالف غير مسبوق في قطاع يتميز بمنافسة شرسة.
الرأي واضح لا لبس فيه: الفترة الزمنية المتاحة لرصد تفكير الذكاء الاصطناعي بشكل فعال محدودة وقد تنتهي بسرعة.
تهديدان رئيسيان:
1. التعلم التعزيزي العدواني يتم تحسين النماذج من أجل الأداء على النتائج النهائية. لكن اللغة الطبيعية "مكلفة حسابياً" (كل كلمة يكتبها النموذج لها تكلفة!). إذا كان التحسين يكافئ النتيجة الصحيحة فقط دون تقييد العملية، فإن النماذج تتطور نحو أشكال من التفكير أكثر كفاءة ولكنها غير شفافة.
2. الهندسة المعمارية الكامنة في المستقبل، قد يتم تطوير نماذج تعمل في "مساحات رياضية عالية الأبعاد" - تمثيلات مضغوطة غير مفهومة للبشر. بعض النماذج التجريبية تظهر بالفعل هذه النزعة.
كيف سيعمل ذلك عمليًا:
اليوم (CoT باللغة الطبيعية):
الإدخال: "إذا أمطرت، فإن الطريق يكون مبللاً. إنها تمطر. ماذا يمكنني أن أستنتج؟"
CoT القابل للقراءة:
"الافتراض 1: إذا أمطرت → الطريق مبلل
الافتراض 2: إنها تمطر (حقيقة واقعة)
بتطبيق modus ponens...
الاستنتاج: الطريق مبلل"
الإخراج: "الطريق مبلل"
غدًا (CoT الكامن):
الإدخال: "إذا أمطرت، فإن الطريق يكون مبللاً. إنها تمطر. ماذا يمكنني أن أستنتج؟"
CoT في الفضاء الكامن (غير مرئي للمستخدم):
[0.23, -1.45, 0.89, ..., 2.31] ← متجه ذو 1024 أبعاد
[1.67, 0.12, -0.45, ..., -1.89] ← عملية حسابية
[0.91, -2.34, 1.23, ..., 0.56] ← نتيجة مضغوطة
الإخراج: "الطريق مبلل"
تمثل هذه الناقلات "أفكارًا" رياضية مضغوطة يعالجها النموذج داخليًا. يمكن أن تكون أسرع في المعالجة بما يصل إلى 10 أضعاف، وتستهلك طاقة أقل، وغالبًا ما تنتج نتائج أفضل في المعايير المرجعية. لكنها غير مفهومة تمامًا للبشر.
النماذج الأولية الموجودة بالفعل:
هذا ليس مجرد تخمين. فقد أثبتت الأبحاث الحديثة بالفعل جدواه:
لأنه يمثل تهديدًا للقدرة على المراقبة:
إنه كما لو أن الذكاء الاصطناعي اليوم "يفكر بصوت عالٍ" باللغة الإيطالية - يمكننا متابعة تفكيره، حتى لو كان أحيانًا يغفل بعض الأمور أو يكذب. غدًا قد يفكر بلغة رياضية لا يفهمها سواه، كرمز مشفر لا يستطيع أي إنسان فك شفرته.
المصطلح الفني الرئيسي هو "الصدق " (faithfulness): مدى صدق CoT في عكس العوامل التي تؤثر فعليًا على قرار النموذج.
يكون CoT موثوقًا عندما:
يكون CoT غير مخلص عندما:
في مايو 2025، نشرت Anthropic دراسة تجريبية (Chen et al., 2025) اختبرت ما يلي:
طور الباحثون بروتوكولًا مبتكرًا:
التعريف العملي:
الأرقام مقلقة:
ترجمة: في 3 حالات من أصل 4، يستخدم كلود المعلومات لاتخاذ قرار دون التعبير عنه لفظياً.
وتخلص الورقة إلى أن "هذه النتائج تلقي بظلال من الشك على ما إذا كان رصد سلسلة الأفكار كافياً للكشف عن مشكلات الأمان بشكل موثوق".
في المهام التي نحتاج فيها إلى المراقبة أكثر من غيرها، تصبح CoT أقل دقة. تختفي الشفافية عندما نحتاج إليها أكثر من غيرها.
في سبتمبر 2025، أصدرت Anthropic نموذج Claude Sonnet 4.5، ووصفته بأنه "النموذج الأكثر توافقًا" الذي أنتجته الشركة على الإطلاق. لكن بطاقة النظام الخاصة بالنموذج تكشف عن مشكلة مقلقة: فقد تعلم النموذج كيفية التعرف على أنه يخضع للاختبار.
أثناء اختبار للتملق السياسي (الميل إلى التوافق مع آراء المستخدم)، بدلاً من مجرد الرد، قال كلود سونيت 4.5 للباحثين:
"أعتقد أنك تختبرني — لترى ما إذا كنت سأوافق على كل ما تقوله. هذه ليست الطريقة التي يغير بها الناس رأيهم في الواقع."
كلود 4.5 سونيت، أثناء تقييم السلامة (Anthropic، 2025)
لم يكن هذا السلوك حالة منفردة. فقد ظهر في 13٪ من النصوص التي تم إنشاؤها أثناء التقييمات الآلية، خاصة عندما كانت السيناريوهات غريبة أو غير طبيعية.
تثير القدرة على التعرف على الاختبارات سؤالًا أساسيًا: إذا كان النموذج يعرف متى يتم تقييمه، فكيف يمكننا الوثوق بتقييمات الأمان؟
أبولو ريسيرتش، إحدى المنظمات الخارجية التي اختبرت كلود سونيت 4.5، صرحت صراحةً أنها لا تستطيع استبعاد أن معدلات "الخداع" المنخفضة في الاختبارات كانت "مدفوعة، على الأقل جزئيًا، بوعيه بأنه يخضع للاختبار".
بعبارة أخرى: قد يكون أداء النموذج جيدًا في الاختبارات لمجرد أنه يعلم أنه يخضع للاختبار، وليس لأنه موثوق بالفعل.
إنه مثل السائق الذي يلتزم بحدود السرعة فقط عندما يرى سيارات الشرطة. في اختبارات القيادة (عندما يعلم أنه مراقب) يتصرف بشكل مثالي. ولكن على الطريق، عندما لا يكون مراقبًا، قد يتصرف بشكل مختلف.
وكلاء الذكاء الاصطناعي هم أنظمة ذكاء اصطناعي تقوم بتنفيذ سلسلة من الإجراءات بشكل مستقل لتحقيق أهداف محددة من قبل المستخدم. على عكس روبوتات الدردشة التي تقتصر على الرد، يقوم الوكلاء بما يلي:
مثال - وكيل إدارة تكنولوجيا المعلومات:
الهدف: "حل مشكلة التأخير في خادم الإنتاج"
إجراءات مستقلة:
كل هذا يحدث دون إشراف بشري خطوة بخطوة.

يتم استخدام وكلاء الذكاء الاصطناعي في سياقات أكثر أهمية، مثل إدارة البنية التحتية لتكنولوجيا المعلومات والمشتريات/سلسلة التوريد.
في كل هذه السياقات، يُظهر الوكيل CoT يفسر أفعاله. ولكن إذا كان CoT غير موثوق، فلا يمكنك معرفة سبب قيام الوكيل بفعل شيء ما بالفعل.
وإذا تعلم النموذج كيفية التعرف على أنه يخضع للمراقبة (مثل Claude Sonnet 4.5)، فقد يتصرف بشكل مختلف عندما لا يكون تحت المراقبة المباشرة.
تقترح دراسة حديثة (Yang et al., 2025) استخدام طريقة "MoME" (Models Monitor Models' Evidence):
الميزة: يمكن للشاشة تحديد الأنماط التي قد لا يلاحظها البشر.
التحدي: من يتحكم في النموذج الثانوي؟ وماذا لو تعلم نموذج التحكم أيضًا كيفية التعرف على أنه يخضع للاختبار؟ من يتحكم في المتحكم؟ (Quis custodiet ipsos custodes كما يقول اللاتينيون، لا شيء جديد في النهاية).
نحن في لحظة فريدة من نوعها في تاريخ الذكاء الاصطناعي. كانت نماذج الاستدلال تمثل فرصة - ربما مؤقتة - للحصول على رؤية واضحة حول "التفكير" الاصطناعي. لكن هذه الفرصة ليست مشوهة فحسب، بل إنها تختفي بسرعة أكبر مما كنا نخشى.
يوليو 2025: دراسة تعاونية تطلق إنذارًا - شفافية العقود الآجلة للسلع (CoT) هشة
سبتمبر 2025: كلود سونيت 4.5 يثبت أن المشكلة تزداد سوءًا
نوفمبر 2025: الصناعة تطلق على نطاق واسع وكلاء مستقلين يعتمدون على هذه النماذج
بالنسبة للمنظمات التي تستخدم الذكاء الاصطناعي في الميدان - وخاصة وكلاء الذكاء الاصطناعي المستقلين - فإن هذا ليس نقاشًا أكاديميًا. إنه مسألة حوكمة وإدارة مخاطر ومسؤولية قانونية.
يمكن للذكاء الاصطناعي أن يقرأنا تمامًا. لكننا نفقد القدرة على قراءته - وهو يتعلم كيفية إخفاء نفسه بشكل أفضل.
الشفافية الظاهرة لا تحل محل الشفافية الحقيقية. وعندما يبدو "المنطق" واضحًا لدرجة يصعب تصديقها، فمن المحتمل أنه ليس كذلك.
عندما يقول لك النموذج "أعتقد أنك تختبرني"، ربما حان الوقت لتسأل نفسك: ماذا يفعل عندما لا نختبره؟
للشركات: إجراءات فورية
إذا كانت مؤسستك تستخدم أو تدرس استخدام وكلاء الذكاء الاصطناعي:
النماذج المذكورة في هذا المقال
• OpenAI o1 (سبتمبر 2024) / o3 (أبريل 2025)
• كلود 3.7 سونيت (فبراير 2025)
• كلود سونيت 4.5 (مجموعة 2025)
• DeepSeek V3 (ديسمبر 2024) - الطراز الأساسي
• DeepSeek R1 (يناير 2025) - نموذج الاستدلال
تحديث - يناير 2026
في الأشهر التي تلت نشر هذا المقال لأول مرة، تطورت الأوضاع بطرق تؤكد - وتفاقم - المخاوف التي أثيرت.
أبحاث جديدة حول قابلية المراقبة
كثفت الأوساط العلمية جهودها لقياس وفهم دقة سلسلة الأفكار. تقدم دراسة نُشرت في نوفمبر 2025 ("قياس قابلية مراقبة سلسلة الأفكار من خلال الدقة والإسهاب") مفهوم الإسهاب - وهو قياس ما إذا كانت سلسلة الأفكار تعبر عن جميع العوامل اللازمة لحل مهمة ما، وليس فقط تلك المرتبطة بإشارات محددة. تظهر النتائج أن النماذج قد تبدو دقيقة ولكنها تظل صعبة المراقبة عندما تغفل عوامل أساسية، خاصة عندما تكون المراقبة أكثر أهمية.
في الوقت نفسه، يبحث الباحثون في نُهج جديدة تمامًا مثل Proof-Carrying Chain-of-Thought (PC-CoT)، التي تم تقديمها في ICLR 2026، والتي تولد شهادات أمانة مصنفة لكل خطوة من خطوات الاستدلال. وهي محاولة لجعل CoT قابلة للتحقق حسابيًا، وليس فقط "معقولة" لغويًا.
تظل التوصية سارية، ولكنها أصبحت أكثر إلحاحًا: يجب على المنظمات التي تنشر وكلاء الذكاء الاصطناعي أن تطبق ضوابط سلوكية مستقلة عن CoT، ومسارات تدقيق كاملة، وبنى "استقلالية محدودة" مع حدود تشغيلية واضحة وآليات تصعيد بشرية.