بيانات التدريب على الذكاء الاصطناعي: 10 مليارات من الأعمال التي تدعم الذكاء الاصطناعي

الأعمال التجارية

بيانات التدريب على الذكاء الاصطناعي: 10 مليارات من الأعمال التي تدعم الذكاء الاصطناعي

تبلغ قيمة الذكاء الاصطناعي على نطاق واسع 29 مليار دولار أمريكي وربما لم تسمع بها من قبل. إنها الصناعة غير المرئية لبيانات التدريب التي تجعل ChatGPT والانتشار المستقر ممكنًا - سوق بقيمة 9.58 مليار دولار مع نمو سنوي بنسبة 27.7%. ارتفعت التكاليف بنسبة 4,300% منذ عام 2020 (Gemini Ultra: 192 مليون دولار). ولكن بحلول عام 2028 سينفد النص البشري العام المتاح بحلول عام 2028. في هذه الأثناء، دعاوى حقوق النشر وملايين جوازات السفر الموجودة في مجموعات البيانات. بالنسبة للشركات: يمكنك البدء مجانًا مع Hugging Face و Google Colab.

فابيو لوريا

الرئيس التنفيذي ومؤسس شركة Electe‍

لخص هذه المقالة بالذكاء الاصطناعي

الصناعة غير المرئية التي تجعل من ChatGPT و Stable Diffusion وكل أنظمة الذكاء الاصطناعي الحديثة الأخرى ممكنة

‍

أفضل سر مخفي في الذكاء الاصطناعي

عندما تستخدم ChatGPT لكتابة رسالة بريد إلكتروني أو توليد صورة باستخدام برنامج Midjourney، نادراً ما تفكر فيما يكمن وراء "سحر" الذكاء الاصطناعي. ولكن وراء كل استجابة ذكية وكل صورة تم إنشاؤها تكمن صناعة بمليارات الدولارات لا يتحدث عنها سوى القليل من الناس: سوق بيانات تدريب الذكاء الاصطناعي.

‍

هذا القطاع، الذي سيصل حجمه وفقاً لشركة MarketsandMarkets إلى 9.58 مليار دولار بحلول عام 2029 بمعدل نمو يبلغ 27.7% سنوياً، هو المحرك الحقيقي للذكاء الاصطناعي الحديث. ولكن كيف تعمل هذه الأعمال الخفية بالضبط؟

‍

النظام البيئي غير المرئي الذي يحرك المليارات

الشركات التجارية العملاقة

يهيمن عدد قليل من الشركات على عالم بيانات تدريب الذكاء الاصطناعي التي لم يسمع بها معظم الناس من قبل:

‍

شركة Scale AI، وهي أكبر شركة في هذا المجال بحصة سوقية تبلغ 28%، وقد بلغت قيمتها مؤخرًا 29 مليار دولار بعد استثمار Meta. ويدفع عملاء الشركة من الشركات ما بين 100,000 دولار وعدة ملايين من الدولارات سنوياً للحصول على بيانات عالية الجودة.

‍

تُدير شركة Appen، ومقرها أستراليا، شبكة عالمية تضم أكثر من مليون متخصص في 170 دولة يقومون بتعليم البيانات يدوياً وتنظيمها للذكاء الاصطناعي. وتستخدم شركات مثل Airbnb وJohn Deere وProcter & Gamble خدماتها "لتعليم" نماذج الذكاء الاصطناعي الخاصة بها.

‍

عالم المصادر المفتوحة

وفي موازاة ذلك، هناك نظام بيئي مفتوح المصدر تقوده منظمات مثل LAION (شبكة الذكاء الاصطناعي المفتوحة على نطاق واسع)، وهي منظمة ألمانية غير ربحية أنشأت LAION-5B، وهي مجموعة البيانات التي تضم 5.85 مليار زوج من الصور والنصوص التي جعلت الانتشار المستقر ممكناً.

‍

يقوم Common Crawl بإصدار تيرابايت من بيانات الويب الخام المستخدمة لتدريب GPT-3 و LLaMA والعديد من النماذج اللغوية الأخرى على أساس شهري.

‍

التكاليف الخفية للذكاء الاصطناعي

ما لا يعرفه الجمهور هو مدى ارتفاع تكلفة تدريب نموذج حديث للذكاء الاصطناعي. فوفقًا لشركة Epoch AI، زادت التكاليف بمعدل 2-3 مرات سنويًا على مدار السنوات الثماني الماضية.

‍

أمثلة على التكاليف الحقيقية:

Google Gemini 1.0 Ultra: حوالي 192 مليون دولار
GPT-4: تقدر بأكثر من 100 مليون دولار
التوقعات المستقبلية: أكثر من 1 مليار دولار أمريكي بحلول عام 2027

الرقم الأكثر إثارة للدهشة؟ وفقاً لموقع AltIndex.com، ارتفعت تكاليف التدريب على الذكاء الاصطناعي بنسبة 4,300% منذ عام 2020.

‍

التحديات الأخلاقية والقانونية التي تواجه القطاع

مشكلة حقوق الطبع والنشر

تتعلق إحدى أكثر القضايا إثارة للجدل باستخدام المواد المحمية بحقوق الطبع والنشر. في فبراير 2025، حكمت محكمة ديلاوير في قضية Thomson Reuters ضد ROSS Intelligence في فبراير 2025، بأن تدريب الذكاء الاصطناعي يمكن أن يشكل انتهاكًا مباشرًا لحقوق الطبع والنشر، رافضةً دفاع "الاستخدام العادل".

‍

نشر مكتب حقوق النشر الأمريكي تقريرًا من 108 صفحات خلص فيه إلى أن بعض الاستخدامات لا يمكن الدفاع عنها كاستخدام عادل، مما يمهد الطريق لتكاليف ترخيص ضخمة محتملة لشركات الذكاء الاصطناعي.

الخصوصية والبيانات الشخصية

كشف تحقيق أجرته مجلة MIT Technology Review أن DataComp CommonPool، وهي واحدة من أكثر مجموعات البيانات استخداماً، تحتوي على ملايين الصور لجوازات السفر وبطاقات الائتمان وشهادات الميلاد. ومع وجود أكثر من مليوني عملية تنزيل في العامين الماضيين، فإن هذا يثير مشاكل كبيرة تتعلق بالخصوصية.

‍

المستقبل: الندرة والابتكار

مشكلة بيانات الذروة

ويتوقع الخبراء أنه بحلول عام 2028 سيتم استخدام غالبية النصوص العامة التي تم إنشاؤها بواسطة البشر والمتاحة على الإنترنت. ويقود سيناريو "ذروة البيانات" هذا الشركات نحو حلول مبتكرة:

البيانات الاصطناعية: التوليد الاصطناعي لبيانات التدريب
اتفاقيات الترخيص: الشراكات الاستراتيجية مثل الشراكة بين OpenAI و Financial Times
البيانات المتعددة الوسائط: مزيج من النصوص والصور والصوت والفيديو

لوائح جديدة ستصدر قريباً

سيطلب قانون الشفافية في الذكاء الاصطناعي في كاليفورنيا من الشركات الإفصاح عن مجموعات البيانات المستخدمة في التدريب، بينما يطبق الاتحاد الأوروبي متطلبات مماثلة في قانون الذكاء الاصطناعي.

‍

الفرص المتاحة للشركات الإيطالية

بالنسبة للشركات التي ترغب في تطوير حلول الذكاء الاصطناعي، فإن فهم هذا النظام البيئي أمر بالغ الأهمية:

خيارات مناسبة للميزانية:

عناق الوجه: أكثر من 50,000 مجموعة بيانات مجانية
مجموعات البيانات مفتوحة المصدر: Common Crawl، و LAION، و MS COCO للمشاريع التجريبية

الحلول المؤسسية:

الذكاء الاصطناعي ومقاييس Appen للمشاريع ذات المهام الحرجة
الخدمات المتخصصة: مثل Nexdata للبرمجة اللغوية العصبية أو FileMarket AI للبيانات الصوتية

الاستنتاجات

تبلغ قيمة سوق بيانات التدريب في مجال الذكاء الاصطناعي 9.58 مليار دولار أمريكي، وتنمو بنسبة 27.7% سنوياً. هذه الصناعة غير المرئية ليست فقط محرك الذكاء الاصطناعي الحديث، ولكنها تمثل أيضًا أحد أكبر التحديات الأخلاقية والقانونية في عصرنا.

‍

في المقالة التالية سنستكشف كيف يمكن للشركات الدخول بشكل ملموس إلى هذا العالم، مع دليل عملي للبدء في تطوير حلول الذكاء الاصطناعي باستخدام مجموعات البيانات والأدوات المتاحة اليوم.

‍

بالنسبة لأولئك الذين يرغبون في معرفة المزيد الآن، قمنا بتجميع دليل مفصل مع خارطة طريق للتنفيذ والتكاليف المحددة ومجموعة الأدوات الكاملة - يمكن تنزيله مجانًا مع الاشتراك في newsletter.

‍

روابط مفيدة للبدء على الفور:

‍

بيئة التطوير: Google Colab (مجانًا مع وحدة معالجة الرسومات)
مجموعات البيانات مفتوحة المصدر: مجموعات بيانات تعانق الوجوه
أداة الشرح: استوديو التسمية (مجاناً)
النشر السريع: غراديو + مساحات الترددات العالية
الدورات التدريبية العملية: Fast.ai (مجاناً، عملياً)

المصادر التقنية:

توثيق وجه المعانقة
دروس PyTorch التعليمية
أدلة تينسورفلو
الأوراق ذات الرموز (نماذج SOTA + مجموعات البيانات)
‍

لا تنتظر "ثورة الذكاء الاصطناعي". ابتكرها. بعد شهر من الآن يمكن أن يكون لديك أول نموذج عملي لك، بينما لا يزال الآخرون يخططون.

موارد لنمو الأعمال التجارية

9 نوفمبر 2025

نظام التبريد بالذكاء الاصطناعي من Google DeepMind: كيف يُحدث الذكاء الاصطناعي ثورة في كفاءة الطاقة في مراكز البيانات

يحقق Google DeepMind نسبة -40% من طاقة تبريد مركز البيانات (ولكن فقط -4% من إجمالي الاستهلاك، حيث إن التبريد يمثل 10% من الإجمالي) - دقة 99.6% مع خطأ بنسبة 0.4% على PUE 1.1 من خلال 5 طبقات من التعلم العميق، و50 عقدة، و19 متغير إدخال على 184,435 عينة تدريب (بيانات عامين). تم تأكيده في 3 منشآت: سنغافورة (أول نشر عام 2016)، وإيمشافن، وكاونسل بلافز (استثمار بقيمة 5 مليارات دولار). PUE على مستوى الأسطول على مستوى Google 1.09 مقابل متوسط الصناعة 1.56-1.58. يتنبأ نموذج التحكم التنبؤي بدرجة الحرارة/الضغط في الساعة التالية من خلال إدارة أحمال تكنولوجيا المعلومات والطقس وحالة المعدات في نفس الوقت. أمان مضمون: تحقق من مستويين، يمكن للمشغلين تعطيل الذكاء الاصطناعي دائماً. القيود الحرجة: عدم وجود تحقق مستقل من شركات التدقيق/المختبرات الوطنية، يتطلب كل مركز بيانات نموذجًا مخصصًا (8 سنوات لم يتم تسويقه أبدًا). يتطلب التنفيذ من 6 إلى 18 شهرًا فريقًا متعدد التخصصات (علوم البيانات، والتدفئة والتهوية وتكييف الهواء، وإدارة المرافق). قابل للتطبيق خارج مراكز البيانات: المنشآت الصناعية والمستشفيات ومراكز التسوق ومكاتب الشركات. 2024-2025: انتقال Google إلى التبريد السائل المباشر لوحدة المعالجة الحرارية TPU v5p، مما يشير إلى الحدود العملية لتحسين الذكاء الاصطناعي.

9 نوفمبر 2025

سام ألتمان ومفارقة الذكاء الاصطناعي: "فقاعة للآخرين، وتريليونات لنا".

"هل نحن في فقاعة ذكاء اصطناعي؟ نعم"-سام ألتمان، أثناء إعلانه عن استثمارات بقيمة تريليون دولار في OpenAI. لقد كرر كلمة "فقاعة" ثلاث مرات في 15 ثانية، وهو يعلم تماماً أنها ستصبح عنواناً رئيسياً. ولكن إليكم المفارقة: يميّز بيزوس بين الفقاعة الصناعية (التي تترك بنية تحتية دائمة) والفقاعة المالية (التي تنهار دون قيمة). تبلغ قيمة OpenAI الآن 500 مليار دولار مع 800 مليون مستخدم أسبوعياً. الاستراتيجية الحقيقية؟ اعتدال الضجيج لتجنب التنظيم، وتعزيز الريادة. أصحاب الأساسيات الصلبة يزدهرون.

9 نوفمبر 2025

لماذا الرياضيات صعبة (حتى لو كنت من الذكاء الاصطناعي)

النماذج اللغوية لا تعرف كيف تضاعف حفظ النتائج بالطريقة التي نحفظ بها الباي (pi)، ولكن هذا لا يجعلها رياضيات. المشكلة هيكلية: فهي تتعلم عن طريق التشابه الإحصائي، وليس عن طريق الفهم الخوارزمي. حتى "النماذج المنطقية" الجديدة مثل o1 تفشل في المهام التافهة: فهي تحسب بشكل صحيح حرف "r" في كلمة "فراولة" بعد ثوانٍ من المعالجة، ولكنها تفشل عندما يتعين عليها كتابة فقرة حيث يشكل الحرف الثاني من كل جملة كلمة. يستغرق الإصدار المميز الذي تبلغ تكلفته 200 دولار شهرياً أربع دقائق لحل ما يقوم به الطفل على الفور. لا يزال DeepSeek و Mistral في عام 2025 يخطئان في عد الحروف. الحل الناشئ؟ نهج هجين - لقد اكتشفت أذكى النماذج متى تستدعي آلة حاسبة حقيقية بدلاً من محاولة إجراء العملية الحسابية بنفسها. نقلة نوعية: ليس من الضروري أن يعرف الذكاء الاصطناعي كيفية القيام بكل شيء ولكن يجب أن ينظم الأدوات الصحيحة. مفارقة أخيرة: يمكن لـ GPT-4 أن يشرح لك ببراعة نظرية النهايات ولكنه يخطئ في عمليات الضرب التي تحلّها آلة حاسبة الجيب بشكل صحيح دائماً. بالنسبة لتعليم الرياضيات فهي ممتازة - تشرح بصبر لا متناهٍ، وتكيّف الأمثلة، وتحلل المنطق المعقد. للعمليات الحسابية الدقيقة؟ اعتمد على الآلة الحاسبة، وليس على الذكاء الاصطناعي.

9 نوفمبر 2025

تنظيم الذكاء الاصطناعي لتطبيقات المستهلك: كيفية الاستعداد للوائح الجديدة لعام 2025

يمثل عام 2025 نهاية حقبة "الغرب المتوحش" للذكاء الاصطناعي: قانون الذكاء الاصطناعي في الاتحاد الأوروبي الذي يبدأ العمل به اعتبارًا من أغسطس 2024 مع التزامات محو أمية الذكاء الاصطناعي اعتبارًا من 2 فبراير 2025، والحوكمة ومبادرة الحوكمة العالمية للذكاء الاصطناعي اعتبارًا من 2 أغسطس. كاليفورنيا رائدة من خلال SB 243 (وُلدت بعد انتحار سيويل سيتزر، طفل يبلغ من العمر 14 عامًا طور علاقة عاطفية مع روبوت الدردشة) يفرض حظرًا على أنظمة المكافأة القهرية، والكشف عن التفكير في الانتحار، والتذكير كل 3 ساعات "أنا لست إنسانًا"، والتدقيق العام المستقل، وعقوبات بقيمة 1000 دولار/مخالفة. يتطلب SB 420 تقييمات الأثر لـ "القرارات المؤتمتة عالية الخطورة" مع حقوق استئناف المراجعة البشرية. الإنفاذ الفعلي: تم الاستشهاد بنوم 2022 عن الروبوتات التي تم تمريرها كمدربين بشريين، تسوية 56 مليون دولار. الاتجاه الوطني: ألاباما وهاواي وإلينوي وماين وماساتشوستس تصنف الفشل في إخطار روبوتات الدردشة الآلية التي تعمل بالذكاء الاصطناعي على أنه انتهاك لقانون UDAP. نهج الأنظمة ذات المخاطر الحرجة ثلاثي المستويات (الرعاية الصحية/النقل/الطاقة) اعتماد ما قبل النشر، والإفصاح الشفاف الذي يواجه المستهلك، والتسجيل للأغراض العامة + اختبار الأمان. الترقيع التنظيمي بدون استباق فيدرالي: يجب على الشركات متعددة الولايات التنقل بين المتطلبات المتغيرة. الاتحاد الأوروبي اعتبارًا من أغسطس 2026: إبلاغ المستخدمين بالتفاعل مع الذكاء الاصطناعي ما لم يكن واضحًا، والمحتوى الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي مصنفًا على أنه قابل للقراءة آليًا.