لقد أحدث علم البيانات الحديث ثورة في الطريقة التي نفهم بها القيم المتطرفة، وحوّلها من مجرد "أخطاء" يجب التخلص منها إلى مصادر قيّمة للمعلومات. في الوقت نفسه، يقدم لنا كتاب مالكولم جلادويل"data-meets-stories-of-success&_bhlid=899dc928bbb3b3da30aa99e1344458133a3da4a9ea2" target="_blank" id="">">القيم المتطرفة: قصة النجاح" منظورًا مكملاً للنجاح البشري كظاهرة شاذة إحصائيًا ولكنها ذات مغزى.
في الإحصاءات التقليدية، كان يتم تحديد القيم المتطرفة من خلال طرق بسيطة نسبيًا مثل المخططات التجميعية، ودرجة Z (التي تقيس مدى انحراف القيمة عن المتوسط) والنطاق الربعي (IQR).
على الرغم من أن هذه الطرق مفيدة، إلا أن لها قيودًا كبيرة. لن يستغرق الأمر سوى حالة شاذة واحدة لتشويه نموذج الانحدار الخطي تمامًا - على سبيل المثال، زيادة الميل من 2 إلى 10. وهذا يجعل النماذج الإحصائية التقليدية ضعيفة في سياقات العالم الحقيقي.
وقد قدم التعلم الآلي أساليب أكثر تطوراً تتغلب على هذه القيود:
لا علم البيانات يميز فئات مختلفة من القيم المتطرفة، ولكل منها آثار فريدة من نوعها:
يقدم جلادويل في كتابه "قاعدة الـ 10,000 ساعة" الشهيرة، مجادلاً بأن الخبرة تتطلب هذا القدر المحدد من الممارسة المتعمدة. ويضرب أمثلة على ذلك مثل بيل غيتس، الذي كان يتمتع بامتياز الوصول إلى جهاز كمبيوتر عندما كان لا يزال مراهقًا، مما أدى إلى تراكم ساعات برمجة قيّمة.
هذه النظرية، رغم روعتها، إلا أنها تعرضت للانتقاد مع مرور الوقت. فكما أشار بول مكارتني: "هناك العديد من الفرق الموسيقية التي قامت بـ 10,000 ساعة من التدريب في هامبورغ ولم تنجح، لذا فهي ليست نظرية مضمونة".
وقد اعترض العديد من المؤلفين والباحثين على المفهوم الكامن وراء هذه القاعدة، ولدينا نحن أنفسنا شكوك قوية حول صحة النظرية أو شموليتها. بالنسبة لأولئك المهتمين باستكشاف القضايا التي يتناولها الكتاب، أشير إلى هذا المثالولكن يمكنكم العثور على المزيد إذا كنتم مهتمين.
وبالمثل، في علم البيانات، أدركنا في علم البيانات أن كمية البيانات ليست هي المهمة فحسب، بل جودتها وسياقها. فالخوارزمية لا تصبح أفضل تلقائيًا مع زيادة البيانات، بل تحتاج إلى فهم السياق والجودة المناسبة.
يسلط جلادويل الضوء على كيفية تأثير الثقافة بشكل عميق على احتمالية النجاح. فهو يناقش، على سبيل المثال، كيف أن أحفاد مزارعي الأرز الآسيويين يميلون إلى التفوق في الرياضيات ليس لأسباب وراثية، بل بسبب عوامل لغوية وثقافية:
تتوافق هذه الملاحظة الثقافية مع النهج السياقي للقيم المتطرفة في علم البيانات الحديث. فكما أن القيمة قد تكون شاذة في سياق ما ولكنها طبيعية في سياق آخر، فإن النجاح أيضًا مرتبط بالسياق بشكل كبير.
في علم البيانات الحديث استراتيجيات مختلفة مختلفة للتعامل مع القيم المتطرفة:
لقد أحدثت التطبيقات الحديثة لمنهجيات الكشف عن الحالات الشاذة والشذوذ تحولاً جذرياً في الطريقة التي تحدد بها المؤسسات الأنماط غير الاعتيادية في مختلف القطاعات:
.png)
تتعلق إحدى دراسات الحالة المثيرة للاهتمام بشكل خاص بتطبيق تقنيات الكشف عن الحالات الشاذة القائمة على التعلم المعزز لتحليل البيانات الدقيقة التي أبلغت عنها صناديق التأمين والمعاشات التقاعدية الهولندية. فوفقًا للأطر التنظيمية ل Solvency II وFTK، يتعين على هذه المؤسسات المالية تقديم مجموعات بيانات كبيرة تتطلب التحقق الدقيق من صحتها. وقد طور الباحثون نهجًا تجميعيًا يجمع بين خوارزميات متعددة للكشف عن الحالات الخارجية، بما في ذلكتحليل النطاق التربيعي ومقاييس مسافة الجوار الأقرب وحسابات العوامل المحلية الخارجية، مع تعزيز التعلم المعزز لتحسين أوزان المجموعة. 1.
وقد أظهر النظام تحسينات كبيرة مقارنةً بالطرق الإحصائية التقليدية، حيث يعمل باستمرار على تحسين قدراته على الكشف مع كل حالة شاذة يتم التحقق منها، مما يجعله ذا قيمة خاصة للرقابة التنظيمية حيث تكون تكاليف التحقق كبيرة. وقد تصدى هذا النهج التكيفي للتحدي المتمثل في تغيير أنماط البيانات بمرور الوقت، مما يزيد من فائدة الحالات الشاذة التي تم التحقق منها سابقًا لتحسين دقة الكشف في المستقبل.
في تطبيق آخر جدير بالملاحظة، قام أحد البنوك بتطبيق نظام متكامل للكشف عن الحالات الشاذة يجمع بين البيانات التاريخية لسلوك العملاء وخوارزميات التعلم الآلي المتقدمة لتحديد المعاملات الاحتيالية المحتملة. قام النظام بمراقبة أنماط المعاملات لاكتشاف الانحرافات عن سلوك العميل الثابت، مثل التغيرات الجغرافية المفاجئة في النشاط أو أحجام الإنفاق غير النمطية.. 5.
تجدر الإشارة إلى أن هذا التطبيق جدير بالملاحظة بشكل خاص لأنه يجسد التحول من رد الفعل إلى الوقاية الاستباقية من الاحتيال، حيث أفادت التقارير أن القطاع المالي في المملكة المتحدة استعاد ما يقرب من 18% من الخسائر المحتملة من خلال أنظمة مماثلة للكشف عن الشذوذ في الوقت الحقيقي المطبقة في جميع العمليات المصرفية. وقد سمح هذا النهج للمؤسسات المالية بإيقاف المعاملات المشبوهة على الفور مع الإبلاغ عن الحسابات لإجراء المزيد من التحقيقات، مما أدى بشكل فعال إلى منع الخسائر المالية الكبيرة قبل أن تتحقق.. 3
قام الباحثون بتطوير وتقييم خوارزمية للكشف عن الحالات الشاذة قائمة على التعلم الآلي مصممة خصيصًا للتحقق من صحة بيانات الأبحاث السريرية في سجلات علم الأعصاب المتعددة. وأثبتت الدراسة فعالية الخوارزمية في تحديد الأنماط الشاذة في البيانات الناتجة عن عدم الانتباه أو الأخطاء المنهجية أو التلفيق المتعمد للقيم. 4.
قام الباحثون بتقييم العديد من مقاييس المسافة ووجدوا أن مزيجًا من حسابات المسافة كانبيرا ومانهاتن وماهالانوبيس يوفر الأداء الأمثل. وقد حقق التطبيق حساسية كشف تزيد عن 85 في المائة عند التحقق من صحتها مقابل مجموعات بيانات مستقلة، مما يجعلها أداة قيمة للحفاظ على سلامة البيانات في الأبحاث السريرية. توضح هذه الحالة كيف يساهم الكشف عن الشذوذ في الطب القائم على الأدلة، مما يضمن أعلى جودة ممكنة للبيانات في التجارب والسجلات السريرية. 4.
أظهر النظام قابليته للتطبيق عالمياً، مما يشير إلى إمكانية تطبيقه في أنظمة التقاط البيانات الإلكترونية الأخرى بخلاف تلك المستخدمة في سجلات علم الأعصاب الأصلية. تسلط هذه القدرة على التكيف الضوء على قابلية نقل مناهج الكشف عن الشذوذ المصممة جيدًا بين منصات إدارة البيانات الصحية المختلفة.
.png)
طبّقت شركات التصنيع أنظمة متطورة قائمة على الرؤية الآلية للكشف عن الشذوذ لتحديد العيوب في الأجزاء المصنعة. تقوم هذه الأنظمة بفحص آلاف المكونات المتشابهة على خطوط الإنتاج، باستخدام خوارزميات التعرف على الصور ونماذج التعلم الآلي المدربة على مجموعات بيانات كبيرة تحتوي على أمثلة معيبة وغير معيبة. 3
يمثل التطبيق العملي لهذه الأنظمة تقدمًا كبيرًا على عمليات الفحص اليدوي. فمن خلال الكشف عن أصغر الانحرافات عن المعايير المعمول بها، يمكن لأنظمة الكشف عن الشذوذ هذه تحديد العيوب المحتملة التي قد لا يتم اكتشافها لولا ذلك. وتكتسب هذه القدرة أهمية خاصة في الصناعات التي يمكن أن يؤدي فيها فشل أحد المكونات إلى نتائج كارثية، مثل صناعة الطيران، حيث يمكن أن يساهم جزء واحد معيب في وقوع حادث طائرة..
بالإضافة إلى فحص المكونات، قامت الشركات المصنعة بتوسيع نطاق الكشف عن الأعطال ليشمل الماكينات نفسها. تراقب هذه التطبيقات باستمرار معلمات التشغيل مثل درجة حرارة المحرك ومستويات الوقود لتحديد الأعطال المحتملة قبل أن تتسبب في توقف الإنتاج أو مخاطر السلامة..
قامت المؤسسات من جميع القطاعات بتطبيق أنظمة الكشف عن الحالات الشاذة القائمة على التعلم العميق لتحويل نهجها في إدارة أداء التطبيقات. وعلى عكس أساليب المراقبة التقليدية التي تتفاعل مع المشاكل بعد أن تؤثر على العمليات، فإن هذه التطبيقات تسمح بتحديد المشاكل الحرجة المحتملة.
يتعلق أحد الجوانب المهمة في التنفيذ بربط تدفقات البيانات المختلفة بمقاييس أداء التطبيق الرئيسية. يتم تدريب هذه الأنظمة على مجموعات كبيرة من البيانات التاريخية للتعرف على الأنماط والسلوكيات التي تشير إلى التشغيل العادي للتطبيق. عند حدوث انحرافات، تحدد خوارزميات الكشف عن الحالات الشاذة المشاكل المحتملة قبل أن تتحول إلى انقطاعات في الخدمة.
يعمل التطبيق التقني على تسخير قدرة نماذج التعلم الآلي على ربط البيانات تلقائيًا عبر مقاييس الأداء المختلفة، مما يتيح تحديد الأسباب الجذرية بدقة أكبر من أساليب المراقبة التقليدية القائمة على العتبة. يمكن لفرق تكنولوجيا المعلومات التي تستخدم هذه الأنظمة تشخيص المشاكل الناشئة ومعالجتها بسرعة أكبر، مما يقلل بشكل كبير من وقت تعطل التطبيقات وتأثيرها على الأعمال.
.png)
تركز تطبيقات أمن الكمبيوتر للكشف عن الشذوذ على المراقبة المستمرة لحركة مرور الشبكة وأنماط سلوك المستخدم لتحديد العلامات الخفية للتطفل أو النشاط غير الطبيعي الذي يمكن أن يتحايل على التدابير الأمنية التقليدية. تقوم هذه الأنظمة بتحليل أنماط حركة المرور على الشبكة وسلوك وصول المستخدم ومحاولات الوصول إلى النظام للكشف عن التهديدات الأمنية المحتملة.
تعتبر التطبيقات فعالة بشكل خاص في تحديد أنماط الهجوم الجديدة التي قد لا تكتشفها أنظمة الكشف القائمة على التوقيع. من خلال إنشاء سلوكيات أساسية للمستخدمين والأنظمة، يمكن للكشف عن الحالات الشاذة أن يكشف عن الأنشطة التي تنحرف عن هذه المعايير، مما قد يشير إلى وجود خرق أمني مستمر. تجعل هذه الإمكانية من الكشف عن الشذوذ عنصراً أساسياً في البنى الأمنية الحديثة لأمن الحاسوب، مكملاً للتدابير الوقائية التقليدية.3.
تظهر العديد من مناهج التنفيذ المشتركة من دراسات الحالة هذه. وتستخدم المنظمات عادةً مزيجاً من الإحصاءات الوصفية وتقنيات التعلم الآلي، مع اختيار أساليب محددة وفقاً لخصائص البيانات وطبيعة الحالات الشاذة المحتملة. 2.
تُظهر دراسات الحالة الواقعية هذه القيمة العملية للكشف عن الحالات الشاذة وغير الاعتيادية في مجموعة متنوعة من القطاعات. من منع الاحتيال المالي إلى التحقق من صحة بيانات الرعاية الصحية، ومن مراقبة جودة الإنتاج إلى مراقبة أنظمة تكنولوجيا المعلومات، نجحت المؤسسات في تطبيق منهجيات كشف متطورة بشكل متزايد لتحديد الأنماط غير العادية التي تستحق التحقيق.
يمثل التطور من النُهج الإحصائية البحتة إلى أنظمة الكشف عن الشذوذ القائمة على الذكاء الاصطناعي تقدمًا كبيرًا في القدرات، مما يتيح تحديدًا أكثر دقة للأنماط الشاذة المعقدة والحد من النتائج الإيجابية الخاطئة. مع استمرار نضوج هذه التقنيات وظهور المزيد من دراسات الحالة، يمكننا أن نتوقع المزيد من التحسينات في استراتيجيات التنفيذ والتوسع في مجالات تطبيق إضافية.
يوصي علم البيانات الحديث باتباع نهج هجين في التعامل مع القيم المتطرفة يجمع بين الدقة الإحصائية والذكاء السياقي للتعلم الآلي:
تمامًا كما يدعونا جلادويل إلى رؤية النجاح كظاهرة معقدة تتأثر بالثقافة والفرصة والتوقيت، يحثنا علم البيانات الحديث على رؤية القيم المتطرفة ليس كأخطاء بسيطة ولكن كإشارات مهمة في سياق أوسع.
ومثلما انتقل علم البيانات من النظر إلى القيم المتطرفة على أنها مجرد أخطاء إلى الاعتراف بها كمصادر للمعلومات القيّمة، يجب علينا أيضًا تغيير الطريقة التي ننظر بها إلى المهن غير التقليدية، أي الانتقال من التحليل العددي البسيط إلى فهم أعمق وأكثر سياقًا للنجاح.
وينبثق النجاح، في أي مجال، من التقاطع الفريد بين الموهبة والخبرة المتراكمة وشبكات العلاقات والسياق الثقافي. وكما هو الحال مع خوارزميات التعلم الآلي الحديثة التي لم تعد تستبعد القيم المتطرفة بل تسعى إلى فهمها، يجب أن نتعلم نحن أيضًا أن نتعلم رؤية القيمة في أندر المسارات.