الصناعة غير المرئية التي تجعل من ChatGPT و Stable Diffusion وكل أنظمة الذكاء الاصطناعي الحديثة الأخرى ممكنة
عندما تستخدم ChatGPT لكتابة رسالة بريد إلكتروني أو توليد صورة باستخدام برنامج Midjourney، نادراً ما تفكر فيما يكمن وراء "سحر" الذكاء الاصطناعي. ولكن وراء كل استجابة ذكية وكل صورة تم إنشاؤها تكمن صناعة بمليارات الدولارات لا يتحدث عنها سوى القليل من الناس: سوق بيانات تدريب الذكاء الاصطناعي.
هذا القطاع، الذي سيصل حجمه وفقاً لشركة MarketsandMarkets إلى 9.58 مليار دولار بحلول عام 2029 بمعدل نمو يبلغ 27.7% سنوياً، هو المحرك الحقيقي للذكاء الاصطناعي الحديث. ولكن كيف تعمل هذه الأعمال الخفية بالضبط؟
يهيمن عدد قليل من الشركات على عالم بيانات تدريب الذكاء الاصطناعي التي لم يسمع بها معظم الناس من قبل:
شركة Scale AI، وهي أكبر شركة في هذا المجال بحصة سوقية تبلغ 28%، وقد بلغت قيمتها مؤخرًا 29 مليار دولار بعد استثمار Meta. ويدفع عملاء الشركة من الشركات ما بين 100,000 دولار وعدة ملايين من الدولارات سنوياً للحصول على بيانات عالية الجودة.
تُدير شركة Appen، ومقرها أستراليا، شبكة عالمية تضم أكثر من مليون متخصص في 170 دولة يقومون بتعليم البيانات يدوياً وتنظيمها للذكاء الاصطناعي. وتستخدم شركات مثل Airbnb وJohn Deere وProcter & Gamble خدماتها "لتعليم" نماذج الذكاء الاصطناعي الخاصة بها.
وفي موازاة ذلك، هناك نظام بيئي مفتوح المصدر تقوده منظمات مثل LAION (شبكة الذكاء الاصطناعي المفتوحة على نطاق واسع)، وهي منظمة ألمانية غير ربحية أنشأت LAION-5B، وهي مجموعة البيانات التي تضم 5.85 مليار زوج من الصور والنصوص التي جعلت الانتشار المستقر ممكناً.
يقوم Common Crawl بإصدار تيرابايت من بيانات الويب الخام المستخدمة لتدريب GPT-3 و LLaMA والعديد من النماذج اللغوية الأخرى على أساس شهري.
ما لا يعرفه الجمهور هو مدى ارتفاع تكلفة تدريب نموذج حديث للذكاء الاصطناعي. فوفقًا لشركة Epoch AI، زادت التكاليف بمعدل 2-3 مرات سنويًا على مدار السنوات الثماني الماضية.
الرقم الأكثر إثارة للدهشة؟ وفقاً لموقع AltIndex.com، ارتفعت تكاليف التدريب على الذكاء الاصطناعي بنسبة 4,300% منذ عام 2020.
تتعلق إحدى أكثر القضايا إثارة للجدل باستخدام المواد المحمية بحقوق الطبع والنشر. في فبراير 2025، حكمت محكمة ديلاوير في قضية Thomson Reuters ضد ROSS Intelligence في فبراير 2025، بأن تدريب الذكاء الاصطناعي يمكن أن يشكل انتهاكًا مباشرًا لحقوق الطبع والنشر، رافضةً دفاع "الاستخدام العادل".
نشر مكتب حقوق النشر الأمريكي تقريرًا من 108 صفحات خلص فيه إلى أن بعض الاستخدامات لا يمكن الدفاع عنها كاستخدام عادل، مما يمهد الطريق لتكاليف ترخيص ضخمة محتملة لشركات الذكاء الاصطناعي.
كشف تحقيق أجرته مجلة MIT Technology Review أن DataComp CommonPool، وهي واحدة من أكثر مجموعات البيانات استخداماً، تحتوي على ملايين الصور لجوازات السفر وبطاقات الائتمان وشهادات الميلاد. ومع وجود أكثر من مليوني عملية تنزيل في العامين الماضيين، فإن هذا يثير مشاكل كبيرة تتعلق بالخصوصية.
ويتوقع الخبراء أنه بحلول عام 2028 سيتم استخدام غالبية النصوص العامة التي تم إنشاؤها بواسطة البشر والمتاحة على الإنترنت. ويقود سيناريو "ذروة البيانات" هذا الشركات نحو حلول مبتكرة:
سيطلب قانون الشفافية في الذكاء الاصطناعي في كاليفورنيا من الشركات الإفصاح عن مجموعات البيانات المستخدمة في التدريب، بينما يطبق الاتحاد الأوروبي متطلبات مماثلة في قانون الذكاء الاصطناعي.
بالنسبة للشركات التي ترغب في تطوير حلول الذكاء الاصطناعي، فإن فهم هذا النظام البيئي أمر بالغ الأهمية:
تبلغ قيمة سوق بيانات التدريب في مجال الذكاء الاصطناعي 9.58 مليار دولار أمريكي، وتنمو بنسبة 27.7% سنوياً. هذه الصناعة غير المرئية ليست فقط محرك الذكاء الاصطناعي الحديث، ولكنها تمثل أيضًا أحد أكبر التحديات الأخلاقية والقانونية في عصرنا.
في المقالة التالية سنستكشف كيف يمكن للشركات الدخول بشكل ملموس إلى هذا العالم، مع دليل عملي للبدء في تطوير حلول الذكاء الاصطناعي باستخدام مجموعات البيانات والأدوات المتاحة اليوم.
بالنسبة لأولئك الذين يرغبون في معرفة المزيد الآن، قمنا بتجميع دليل مفصل مع خارطة طريق للتنفيذ والتكاليف المحددة ومجموعة الأدوات الكاملة - يمكن تنزيله مجانًا مع الاشتراك في newsletter.
روابط مفيدة للبدء على الفور:
المصادر التقنية:
لا تنتظر "ثورة الذكاء الاصطناعي". ابتكرها. بعد شهر من الآن يمكن أن يكون لديك أول نموذج عملي لك، بينما لا يزال الآخرون يخططون.