تحضير البيانات للتعلم الآلي: دليل خطوة بخطوة
نشرت: 2023-07-07قبل سنوات ، عندما كانت Spotify تعمل على محرك التوصيات الخاص بها ، واجهت تحديات تتعلق بجودة البيانات المستخدمة لتدريب خوارزميات التعلم الآلي (ML). لو لم يقرروا العودة إلى مرحلة إعداد البيانات واستثمار جهد إضافي في تنظيف بياناتهم وتطبيعها وتحويلها ، فمن المحتمل ألا تكون تجربة الاستماع لدينا ممتعة.
أتاح التحضير الدقيق للبيانات لـ ML لمنصة البث تدريب محرك ML قوي يتنبأ بدقة بتفضيلات الاستماع للمستخدمين ويقدم توصيات موسيقية مخصصة للغاية. تجنب Spotify خطأ فادحًا ترتكبه الشركات عندما يتعلق الأمر بإعداد البيانات لـ ML - عدم استثمار جهد كافٍ أو تخطي المرحلة على الإطلاق.
تفترض العديد من الشركات أن إدخال كميات كبيرة من البيانات في محرك ML يكفي لتوليد تنبؤات دقيقة. الحقيقة هي أنه يمكن أن يؤدي إلى عدد من المشاكل ، على سبيل المثال ، التحيز الحسابي أو قابلية التوسع المحدودة.
يعتمد نجاح ML بشكل كبير على البيانات. والمحزن هو أن جميع مجموعات البيانات معيبة. هذا هو السبب في أن إعداد البيانات أمر بالغ الأهمية بالنسبة لـ ML. يساعد في استبعاد عدم الدقة والتحيز المتأصل في البيانات الخام ، بحيث يولد نموذج ML الناتج تنبؤات أكثر موثوقية ودقة.
في منشور المدونة هذا ، نسلط الضوء على أهمية إعداد البيانات لـ ML ومشاركة نهجنا في جمع البيانات وتنظيفها وتحويلها. لذا ، إذا كنت جديدًا على ML وترغب في ضمان نجاح مبادرتك ، فاستمر في القراءة.
كيفية تحضير البيانات للتعلم الآلي
تتمثل الخطوة الأولى نحو تبني ML بنجاح في صياغة مشكلة عملك بشكل واضح. فهو لا يضمن فقط أن نموذج ML الذي تقوم ببنائه يتماشى مع احتياجات عملك ، ولكنه يتيح لك أيضًا توفير الوقت والمال في إعداد البيانات التي قد لا تكون ذات صلة.
بالإضافة إلى ذلك ، فإن بيان المشكلة الواضح يجعل نموذج ML قابلاً للتفسير (مما يعني أن المستخدمين يفهمون كيفية اتخاذ القرارات). إنه مهم بشكل خاص في قطاعات مثل الرعاية الصحية والتمويل ، حيث يكون للتعلم الآلي تأثير كبير على حياة الناس.
مع حل مشكلة العمل ، حان الوقت لبدء عمل البيانات.
بشكل عام ، يمكن تقسيم عملية إعداد البيانات لـ ML إلى المراحل التالية.
- جمع البيانات
- تنظيف البيانات
- تحويل البيانات
- تقسيم البيانات
دعونا نلقي نظرة فاحصة على كل منها.
جمع البيانات
يبدأ إعداد البيانات لـ ML بجمع البيانات. أثناء مرحلة جمع البيانات ، تقوم بجمع البيانات للتدريب وضبط نموذج ML المستقبلي. عند القيام بذلك ، ضع في اعتبارك نوع البيانات وحجمها وجودتها: ستحدد هذه العوامل أفضل استراتيجية لإعداد البيانات.
يستخدم التعلم الآلي ثلاثة أنواع من البيانات: منظمة ، وغير منظمة ، وشبه منظمة.
- يتم تنظيم البيانات المنظمة بطريقة معينة ، عادةً في شكل جدول أو جدول بيانات. تمتد أمثلة البيانات المنظمة على نطاق المعلومات التي تم جمعها من قواعد البيانات أو أنظمة المعاملات.
- تتضمن البيانات غير المنظمة الصور ومقاطع الفيديو والتسجيلات الصوتية والمعلومات الأخرى التي لا تتبع نماذج البيانات التقليدية.
- لا تتبع البيانات شبه المنظمة تنسيق نموذج بيانات جدولي. ومع ذلك ، فهي ليست غير منظمة تمامًا ، لأنها تحتوي على بعض العناصر الهيكلية ، مثل العلامات أو البيانات الوصفية التي تسهل تفسيرها. تتضمن الأمثلة البيانات بتنسيق XML أو JSON.
تحدد بنية البيانات النهج الأمثل لإعدادها لتعلم الآلة. يمكن تنظيم البيانات المهيكلة ، على سبيل المثال ، بسهولة في جداول وتنظيفها عن طريق إزالة البيانات المكررة أو ملء القيم المفقودة أو توحيد تنسيقات البيانات. في المقابل ، يتطلب استخراج الميزات ذات الصلة من البيانات غير المهيكلة تقنيات أكثر تعقيدًا ، مثل معالجة اللغة الطبيعية أو رؤية الكمبيوتر.
يتأثر النهج الأمثل لإعداد البيانات لـ ML أيضًا بحجم بيانات التدريب. قد تتطلب مجموعة البيانات الكبيرة أخذ العينات ، والذي يتضمن اختيار مجموعة فرعية من البيانات لتدريب نموذج بسبب القيود الحسابية. قد يتطلب الحجم الأصغر ، بدوره ، من علماء البيانات اتخاذ خطوات إضافية لإنشاء المزيد من البيانات بناءً على نقاط البيانات الحالية (المزيد عن ذلك أدناه).
جودة البيانات التي تم جمعها أمر بالغ الأهمية أيضًا. يمكن أن يؤثر استخدام بيانات غير دقيقة أو متحيزة على مخرجات غسل الأموال ، مما قد يكون له عواقب وخيمة ، لا سيما في مجالات مثل التمويل والرعاية الصحية والعدالة الجنائية. هناك تقنيات تسمح بتصحيح البيانات من أجل الخطأ والتحيز. ومع ذلك ، قد لا تعمل على مجموعة بيانات منحرفة بطبيعتها. بمجرد أن تعرف ما الذي يجعل البيانات "جيدة" ، يجب أن تقرر كيفية جمعها ومكان العثور عليها. هناك عدة استراتيجيات لذلك.
- جمع البيانات من المصادر الداخلية: إذا كانت لديك معلومات مخزنة في مستودع بيانات مؤسستك ، فيمكنك استخدامها لتدريب خوارزميات تعلم الآلة. يمكن أن تتضمن هذه البيانات معاملات المبيعات وتفاعلات العملاء وبيانات من منصات التواصل الاجتماعي وبيانات من مصادر أخرى.
- جمع البيانات من مصادر خارجية: يمكنك اللجوء إلى مصادر البيانات المتاحة للجمهور ، مثل بوابات البيانات الحكومية ومستودعات البيانات الأكاديمية ومجتمعات مشاركة البيانات ، مثل Kaggle أو UCI Machine Learning Repository أو Google Dataset Search.
- تجريف الويب: تتضمن هذه التقنية استخراج البيانات من مواقع الويب باستخدام أدوات آلية. قد يكون هذا الأسلوب مفيدًا في جمع البيانات من المصادر التي لا يمكن الوصول إليها من خلال وسائل أخرى ، مثل مراجعات المنتجات والمقالات الإخبارية ووسائل التواصل الاجتماعي.
- المسوحات: يمكن استخدام هذا النهج لجمع نقاط بيانات محددة من جمهور مستهدف محدد. إنه مفيد بشكل خاص لجمع المعلومات حول تفضيلات المستخدم أو سلوكه.
ومع ذلك ، في بعض الأحيان ، لا تسفر هذه الاستراتيجيات عن بيانات كافية. عند حدوث ذلك ، يمكنك تعويض نقص نقاط البيانات باستخدام هذه الأساليب.
- زيادة البيانات: يتيح لك ذلك إنشاء المزيد من البيانات من العينات الموجودة عن طريق تحويلها بعدة طرق ، على سبيل المثال ، التدوير أو الترجمة أو القياس.
- التعلم النشط: هذا يسمح لك باختيار عينة البيانات الأكثر إفادة لتصنيفها من قبل خبير بشري.
- نقل التعلم: يتضمن ذلك استخدام خوارزميات ML المدربة مسبقًا والمطبقة لحل مهمة ذات صلة كنقطة انطلاق لتدريب نموذج ML جديد ، متبوعًا بضبط النموذج الجديد على البيانات الجديدة.
- مشاركة البيانات التعاونية: يتضمن ذلك العمل مع الباحثين والمنظمات الأخرى لجمع البيانات ومشاركتها من أجل هدف مشترك.
تنظيف البيانات
الخطوة التالية التي يجب اتخاذها لإعداد البيانات لـ ML هي تنظيفها. يتضمن تنظيف البيانات البحث عن الأخطاء والتناقضات والقيم المفقودة وتصحيحها. هناك عدة طرق لتنظيف البيانات.
معالجة البيانات المفقودة
القيم المفقودة هي مشكلة شائعة في ML. يمكن معالجتها عن طريق التضمين (فكر: ملء القيم المفقودة بالبيانات المتوقعة أو المقدرة) ، أو الاستيفاء (اشتقاق القيم المفقودة من نقاط البيانات المحيطة) ، أو الحذف (ببساطة إزالة الصفوف أو الأعمدة ذات القيم المفقودة من مجموعة البيانات.)
التعامل مع القيم المتطرفة
القيم المتطرفة هي نقاط بيانات تختلف اختلافًا كبيرًا عن بقية مجموعة البيانات. يمكن أن تحدث القيم المتطرفة بسبب أخطاء القياس أو أخطاء إدخال البيانات أو ببساطة لأنها تمثل ملاحظات غير عادية أو متطرفة. في مجموعة بيانات من رواتب الموظفين ، على سبيل المثال ، قد يكون الناشز هو الموظف الذي يكسب أكثر أو أقل بكثير من الآخرين. يمكن معالجة القيم المتطرفة عن طريق إزالتها أو تحويلها لتقليل تأثيرها أو التملك (فكر في: استبدال القيم المتطرفة بأقرب القيم الموجودة ضمن النطاق الطبيعي للتوزيع) أو معاملتها كفئة منفصلة من البيانات.
إزالة التكرارات
خطوة أخرى في عملية إعداد البيانات لتعلم الآلة هي إزالة التكرارات. لا تؤدي التكرارات إلى تحريف تنبؤات ML فحسب ، بل تهدر أيضًا مساحة التخزين وتزيد من وقت المعالجة ، خاصة في مجموعات البيانات الكبيرة. لإزالة التكرارات ، يلجأ علماء البيانات إلى مجموعة متنوعة من تقنيات تحديد الهوية المكررة (على سبيل المثال ، المطابقة الدقيقة ، أو المطابقة الغامضة ، أو التجزئة ، أو ربط التسجيل). بمجرد تحديدها ، يمكن إما إسقاطها أو دمجها. ومع ذلك ، في مجموعات البيانات غير المتوازنة ، يمكن في الواقع الترحيب بالنسخ المكررة لتحقيق التوزيع الطبيعي.
التعامل مع البيانات غير ذات الصلة
تشير البيانات غير ذات الصلة إلى البيانات غير المفيدة أو القابلة للتطبيق في حل مشكلة ما. يمكن أن تساعد معالجة البيانات غير ذات الصلة في تقليل الضوضاء وتحسين دقة التنبؤ. لتحديد البيانات غير ذات الصلة ، يمكن لفرق البيانات اللجوء إلى تقنيات مثل تحليل المكون الرئيسي ، وتحليل الارتباط ، أو ببساطة الاعتماد على معرفة المجال الخاصة بهم. بمجرد تحديدها ، تتم إزالة نقاط البيانات هذه من مجموعة البيانات ذات الصلة.
التعامل مع البيانات غير الصحيحة
يجب أن يتضمن إعداد البيانات للتعلم الآلي أيضًا معالجة البيانات غير الصحيحة والخاطئة. تتضمن الأساليب الشائعة للتعامل مع مثل هذه البيانات تحويل البيانات (تغيير البيانات بحيث تفي بالمعايير المحددة) أو إزالة نقاط البيانات غير الصحيحة تمامًا.
معالجة البيانات غير المتوازنة
مجموعة البيانات غير المتوازنة هي مجموعة بيانات يكون فيها عدد نقاط البيانات في فئة واحدة أقل بكثير من عدد نقاط البيانات في فئة أخرى. يمكن أن يؤدي هذا إلى نموذج متحيز يعطي الأولوية لطبقة الأغلبية ، بينما يتجاهل طبقة الأقلية. للتعامل مع المشكلة ، قد تلجأ فرق البيانات إلى تقنيات مثل إعادة أخذ العينات (إما الإفراط في أخذ عينة من فئة الأقلية أو التقليل من فئة الأغلبية لموازنة توزيع البيانات) ، وتوليد البيانات التركيبية (إنشاء نقاط بيانات إضافية لفئة الأقلية صناعياً) ، والتكلفة - التعلم الحساس (إعطاء وزن أكبر لفئة الأقليات أثناء التدريب) ، والتعلم الجماعي (الجمع بين نماذج متعددة مدربة على مجموعات فرعية مختلفة من البيانات باستخدام خوارزميات مختلفة).
تساعد هذه الأنشطة في ضمان أن بيانات التدريب دقيقة وكاملة ومتسقة. على الرغم من كونه إنجازًا كبيرًا ، إلا أنه لا يكفي إنتاج نموذج ML موثوق به حتى الآن. لذا ، فإن الخطوة التالية في رحلة إعداد البيانات لـ ML تتضمن التأكد من أن نقاط البيانات في مجموعة بيانات التدريب تتوافق مع قواعد ومعايير محددة. ويشار إلى تلك المرحلة في عملية إدارة البيانات باسم تحويل البيانات.
تحويل البيانات
أثناء مرحلة تحويل البيانات ، تقوم بتحويل البيانات الأولية إلى تنسيق مناسب لخوارزميات ML. وهذا بدوره يضمن أداء ودقة خوارزمية أعلى.
خبرائنا في إعداد البيانات لـ ML اسم تقنيات تحويل البيانات الشائعة التالية.
تحجيم
في مجموعة البيانات ، قد تستخدم الميزات المختلفة وحدات قياس مختلفة. على سبيل المثال ، قد تتضمن مجموعة بيانات العقارات معلومات حول عدد الغرف في كل عقار (تتراوح من غرفة واحدة إلى عشرة) والسعر (يتراوح من 50000 دولار أمريكي إلى 1000000 دولار أمريكي). بدون القياس ، من الصعب تحقيق التوازن بين أهمية كلتا الميزتين. قد تعطي الخوارزمية أهمية كبيرة للميزة ذات القيم الأكبر - السعر في هذه الحالة - ولا تكفي للميزة ذات القيم التي تبدو أصغر. يساعد القياس في حل هذه المشكلة عن طريق تحويل جميع نقاط البيانات بطريقة تجعلها تناسب نطاقًا محددًا ، عادةً ، بين 0 و 1. الآن يمكنك مقارنة المتغيرات المختلفة بالتساوي.
تطبيع
هناك تقنية أخرى مستخدمة في إعداد البيانات من أجل ML وهي التطبيع. إنه مشابه للقياس. ومع ذلك ، بينما يغير القياس نطاق مجموعة البيانات ، فإن التسوية يغير توزيعها.
التشفير
تحتوي البيانات الفئوية على عدد محدود من القيم - على سبيل المثال ، الألوان أو طرازات السيارات أو أنواع الحيوانات. نظرًا لأن خوارزميات ML تعمل عادةً مع البيانات الرقمية ، يجب تشفير البيانات الفئوية لاستخدامها كمدخلات. لذلك ، يشير الترميز إلى تحويل البيانات الفئوية إلى تنسيق رقمي. هناك العديد من تقنيات التشفير للاختيار من بينها ، بما في ذلك الترميز الساخن ، والتشفير الترتيبي ، وتشفير الملصقات.
التكتم
التكتم هو نهج لإعداد البيانات لـ ML الذي يسمح بتحويل المتغيرات المستمرة ، مثل الوقت أو درجة الحرارة أو الوزن ، إلى متغيرات منفصلة. ضع في اعتبارك مجموعة بيانات تحتوي على معلومات حول ارتفاع الأشخاص. يمكن قياس ارتفاع كل شخص كمتغير مستمر بالأقدام أو بالسنتيمتر. ومع ذلك ، بالنسبة لبعض خوارزميات تعلم الآلة ، قد يكون من الضروري تقسيم هذه البيانات إلى فئات ، مثل "قصير" و "متوسط" و "طويل". هذا هو بالضبط ما تفعله السرية. يساعد في تبسيط مجموعة بيانات التدريب وتقليل تعقيد المشكلة. تمتد المناهج الشائعة لتقدير التقدير القائم على التجميع والقائم على شجرة القرار.
تخفيض الأبعاد
يشير تقليل الأبعاد إلى الحد من عدد الميزات أو المتغيرات في مجموعة البيانات والاحتفاظ فقط بالمعلومات ذات الصلة لحل مشكلة ما. ضع في اعتبارك ، على سبيل المثال ، مجموعة بيانات تحتوي على معلومات عن سجل شراء العملاء. يتميز بتواريخ الشراء والعناصر المشتراة وأسعار العناصر والموقع الذي تمت فيه عمليات الشراء. لتقليل أبعاد مجموعة البيانات هذه ، فإننا نحذف جميع الميزات باستثناء أهمها ، على سبيل المثال ، عنصر تم شراؤه وسعره. يمكن إجراء تقليل الأبعاد باستخدام مجموعة متنوعة من التقنيات ، بعضها عبارة عن تحليل المكون الرئيسي ، والتحليل التمايز الخطي ، ودمج الجوار العشوائي الموزع على شكل حرف T.
تحويل السجل
طريقة أخرى لإعداد البيانات لـ ML ، يشير تحويل السجل إلى تطبيق دالة لوغاريتمية على قيم متغير في مجموعة بيانات. غالبًا ما يتم استخدامه عندما تكون بيانات التدريب شديدة الانحراف أو تحتوي على مجموعة كبيرة من القيم. يمكن أن يساعد تطبيق دالة لوغاريتمية في جعل توزيع البيانات أكثر تناسقًا.
عند الحديث عن تحويل البيانات ، يجب أن نذكر أيضًا هندسة الميزات. في حين أنها شكل من أشكال تحويل البيانات ، فإن هندسة الميزات هي أكثر من مجرد تقنية أو خطوة في عملية إعداد البيانات لـ ML. إنها تعني اختيار الميزات وتحويلها وإنشائها في مجموعة البيانات. تتضمن هندسة الميزات مزيجًا من التقنيات الإحصائية والرياضية والحسابية ، بما في ذلك استخدام نماذج ML ، لإنشاء ميزات تلتقط المعلومات الأكثر صلة في البيانات.
عادة ما تكون عملية تكرارية تتطلب اختبار وتقييم تقنيات ومجموعات ميزات مختلفة للتوصل إلى أفضل نهج لحل مشكلة ما.
تقسيم البيانات
تتضمن الخطوة التالية في عملية إعداد البيانات لـ ML تقسيم جميع البيانات المجمعة إلى مجموعات فرعية - وهي عملية تعرف باسم تقسيم البيانات. عادةً ما يتم تقسيم البيانات إلى مجموعة بيانات للتدريب والتحقق والاختبار.
- تُستخدم مجموعة بيانات التدريب لتعليم نموذج ML فعليًا للتعرف على الأنماط والعلاقات بين متغيرات الإدخال والمتغيرات المستهدفة. عادةً ما تكون مجموعة البيانات هذه هي الأكبر.
- مجموعة بيانات التحقق من الصحة هي مجموعة فرعية من البيانات المستخدمة لتقييم أداء نموذج أثناء التدريب. يساعد في ضبط النموذج عن طريق ضبط المعلمات الفائقة (فكر في: معلمات عملية التدريب التي يتم تعيينها يدويًا قبل التدريب ، مثل معدل التعلم أو قوة التنظيم أو عدد الطبقات المخفية). تساعد مجموعة بيانات التحقق أيضًا في منع التكييف الزائد لبيانات التدريب.
- مجموعة بيانات الاختبار هي مجموعة فرعية من البيانات تُستخدم لتقييم أداء نموذج مُدرَّب. هدفه هو تقييم دقة النموذج على بيانات جديدة غير مرئية. تُستخدم مجموعة بيانات الاختبار مرة واحدة فقط - بعد تدريب النموذج وضبطه بدقة على مجموعات بيانات التدريب والتحقق من الصحة.
من خلال تقسيم البيانات ، يمكننا تقييم مدى جودة أداء نموذج ML على البيانات التي لم يرها من قبل. مع عدم وجود تقسيم ، من المحتمل أن يكون أداء النموذج ضعيفًا على البيانات الجديدة. يمكن أن يحدث هذا لأن النموذج ربما يكون قد حفظ فقط نقاط البيانات بدلاً من أنماط التعلم وتعميمها على البيانات الجديدة.
هناك عدة طرق لتقسيم البيانات ، ويعتمد اختيار الطريقة المثلى على المشكلة التي يتم حلها وخصائص مجموعة البيانات. يقول خبراؤنا في إعداد البيانات لـ ML أنه غالبًا ما يتطلب بعض التجارب من فريق البيانات لتحديد استراتيجية التقسيم الأكثر فعالية. فيما يلي الاستراتيجيات الأكثر شيوعًا.
- أخذ العينات العشوائية: باستخدام هذه الاستراتيجية ، يتم تقسيم البيانات بشكل عشوائي. غالبًا ما يتم تطبيق هذا النهج على مجموعات البيانات الكبيرة التي تمثل السكان الذين يتم تصميمهم. بدلاً من ذلك ، يتم استخدامه في حالة عدم وجود علاقات معروفة في مجموعة البيانات ، والتي يمكن أن تتطلب نهجًا أكثر تخصصًا.
- أخذ العينات الطبقية: في هذه الإستراتيجية ، يتم تقسيم البيانات إلى مجموعات فرعية بناءً على تسميات الفصل أو الخصائص الأخرى ، متبوعة بأخذ عينات عشوائية من هذه المجموعات الفرعية. يتم تطبيق هذه الاستراتيجية على مجموعات البيانات غير المتوازنة حيث يتجاوز عدد القيم في فئة واحدة عدد القيم في فئة أخرى بشكل كبير. في هذه الحالة ، يساعد أخذ العينات الطبقي في التأكد من أن مجموعات بيانات التدريب والاختبار لها توزيع مماثل للقيم من كل فئة.
- أخذ العينات على أساس الوقت: تُستخدم هذه الإستراتيجية حيث تقوم البيانات التي تم جمعها حتى نقطة زمنية معينة بإنشاء مجموعة بيانات تدريبية ، بينما يتم تشكيل البيانات التي تم جمعها بعد نقطة التحديد في مجموعة بيانات اختبار. يتم استخدام هذا النهج عندما يتم جمع البيانات على مدى فترة طويلة من الزمن - على سبيل المثال ، في مجموعات البيانات المالية أو الطبية ، لأنه يسمح بضمان أن النموذج يمكنه إجراء تنبؤات دقيقة حول البيانات المستقبلية.
- التحقق المتقاطع: باستخدام هذه الإستراتيجية ، يتم تقسيم البيانات إلى مجموعات فرعية متعددة أو طيات. يتم استخدام بعض الطيات لتدريب النموذج ، بينما يتم استخدام الباقي لتقييم الأداء. تتكرر العملية عدة مرات ، مع استخدام كل طية كبيانات اختبار مرة واحدة على الأقل. هناك العديد من تقنيات التحقق المتبادل - على سبيل المثال ، التحقق من صحة k-fold والتحقّق المتقاطع الذي يترك مرة واحدة. عادةً ما يوفر التحقق المتقاطع تقديرًا أكثر دقة لأداء النموذج من التقييم في مجموعة بيانات اختبار واحدة.
في ملاحظة أخيرة
يعد الإعداد الصحيح للبيانات لـ ML أمرًا ضروريًا لتطوير حلول تعلم آلي دقيقة وموثوقة. في ITRex ، نتفهم تحديات إعداد البيانات وأهمية وجود مجموعة بيانات عالية الجودة لعملية تعلم الآلة الناجحة.
إذا كنت ترغب في تعظيم إمكانات بياناتك من خلال ML ، فاتصل بفريق ITRex. سيقدم خبراؤنا المساعدة في جمع بياناتك وتنظيفها وتحويلها.
تم نشر هذه المقالة في الأصل على موقع itrex الإلكتروني.