10 اتجاهات لمتابعة علم البيانات في عام 2020
نشرت: 2020-08-22يضاعف العديد من الباحثين في مختلف الجامعات أبحاثهم في البرمجة اللغوية العصبية
يعد الافتقار إلى بيانات التدريب ذات الصلة أحد أكبر عوامل العرض لأي مشروع لعلوم البيانات
سيكون عام 2020 والسنوات القليلة القادمة مثيرًا للغاية للشركات والفرق التي تتبنى علم البيانات
يعد الذكاء الاصطناعي موضوعًا ساخنًا اليوم ، وبينما هناك بعض المجموعات التي تدعي أن شتاءًا آخر قد يأتي ، فإن عددًا أكبر من السكان (بما فيهم أنا) يشعرون بقوة أن الصيف هنا ، وسيكون حفلة كبيرة واحدة. في الواقع ، مع التقدم في كل من الأجهزة والبرامج ، قد لا يكون هناك شتاء في الأفق لفترة طويلة. فيما يلي أهم 10 اتجاهات أنا متحمس لها في عام 2020.
الاحصاء الكمية
قرب نهاية عام 2019 ، تسبب إعلان Google عن قوة الحوسبة الكمومية ، التي تفوقت على الكمبيوتر العملاق القياسي بأكثر من مليار عامل ، في حدوث موجات في وسائل الإعلام. في حين أنه قد لا يكون هناك أي استخدام مباشر لها في تطبيقات العالم الحقيقي اليوم ، إلا أن هناك تركيزًا كبيرًا على الحوسبة الكمية في مختبرات الأبحاث في شركات مثل Google و IBM. لذلك ، في عام 2020 وما بعده ، نحن على يقين من أننا سنحقق قفزات نهائية في الحوسبة الكمية ، وقريبًا ، قد تصبح قابلة للتطبيق للتطبيقات العملية.
التطورات في معالجة اللغة الطبيعية (NLP)
كانت معالجة اللغة الطبيعية (NLP) محورًا مهمًا لفترة من الوقت ، ومع دخول المحولات ونماذج الانتباه مؤخرًا ، فإن الأمور تمضي قدمًا بكامل قوتها. قبل بضعة أشهر ، أصدرت OpenAI من Elon Musk نموذج GPT-3. يعتمد النموذج على نموذج هندسة المحولات ، والذي تم تدريبه على ما يصل إلى 175B من المعلمات. لقد غير هذا كل شيء. حقق النموذج SOTA في مهام نموذج اللغة المختلفة ويستمر في القيام بذلك في العديد من المهام الخاصة.
يضاعف العديد من الباحثين في مختلف الجامعات أبحاثهم في البرمجة اللغوية العصبية. بدءًا من تمثيلات الكلمات السياقية الأحدث إلى نمذجة التسلسل إلى التسلسل ، يتم تخصيص عدد كبير من الموارد لمعالجة اللغات الطبيعية وتمكين الآلة من فهم اللغة والاستجابة لها ، تمامًا مثل البشر.
مستودعات البيانات والأسواق
يعد الافتقار إلى بيانات التدريب ذات الصلة أحد أكبر عوامل العرض لأي مشروع لعلوم البيانات. ينتهي الأمر بالعديد من الفرق إلى قضاء ما يصل إلى 80٪ من وقتهم في جمع بيانات التدريب الصحيحة. على مدار العام الماضي ، فتحت العديد من الفرق المستقلة والمشاريع مفتوحة المصدر والمشاريع الممولة من القطاع العام الوصول إلى العديد من مجموعات البيانات المنظمة. تدخل المؤسسات أيضًا في مجال تحقيق الدخل من البيانات التي لديها إمكانية الوصول إليها أو تعمل كمجمعين للبيانات يجمعون البيانات ويطبيعونها وينظمونها في تنسيقات يمكن استخدامها من قبل فرق علوم البيانات الأخرى. سيشهد هذا الخط الجديد من الأعمال اتجاهًا تصاعديًا في السنوات القادمة.
التعليق التوضيحي كعمل تجاري
بينما يحدث جمع البيانات وتجميعها في مسارات متوازية ، فإن القطعة المهمة ، والتي تتضمن الحصول على نفس البيانات الموسومة والتعليقات التوضيحية والاستعداد للتدريب ، تكتسب قوة كبيرة أيضًا. توجد بالفعل أدوات وخدمات مثل الترك الميكانيكي - الذي يتيح التعهيد الجماعي للتعليقات التوضيحية - ولكن هناك الآن إدراك متزايد أن هذا يمكن أن يكون في الواقع عملًا قابلًا للتطبيق. تقوم العديد من البلدان النامية ، لا سيما تلك التي تعمل في اقتصادات العمالة الأرخص تكلفة ، بتطوير أعمال حول وضع علامات على البيانات مع فرق كبيرة من الأشخاص الذين يختارون بيانات المدخلات ويضعونها ويصنفونها وجعلها جاهزة للاستهلاك.
الواقع المعزز (AR)
منذ إطلاق تطبيقات Google Glass و Microsoft HoloLens ، بما في ذلك تطبيقات أخرى في السنوات القليلة الماضية ، تم إحراز تقدم كبير في الواقع المعزز. شهدنا هذا العام براءات اختراع وإعلانات من شركات مختلفة في نظارات الواقع المعزز ، والتي ستسمح للأشخاص بالتفاعل والعمل في بيئة محاكاة في العالم الحقيقي. ستغير النظارات الذكية لعام 2021 الطريقة التي يعمل بها العالم ويتواصل معه.
موصى به لك:
تحليلات البيانات كخدمة
يتطلب تحليل البيانات على نطاق واسع إعدادًا جيدًا للبرامج والأجهزة. يتعين على المرء إعداد مجموعات التعلم الآلي ، وتثبيت البرامج الضرورية - حتى برامج " التوصيل والتشغيل" - وتحمل تكلفة مقدمة كبيرة قبل تحليل المجموعة الأولى من البيانات. ومع ذلك ، هناك العديد من SaaS وحلول الخدمة الذاتية المتاحة حيث يمكن للمرء أن يبدأ ببنسات على الدولار. بالإضافة إلى ذلك ، مع توفر أدوات وتقنيات مثل AutoML مع جميع مقدمي الخدمة تقريبًا ، أصبحت تحليلات البيانات عالية القدرة متاحة الآن لأي شخص.
شرح الذكاء الاصطناعي
نماذج الذكاء الاصطناعي ، خاصة تلك التي تتعامل مع أبعاد أكبر مشتقة من البيانات والبيانات التي تم جمعها من نقاط اتصال مختلفة ، هي إلى حد كبير صناديق سوداء لنماذج التعلم العميق. تدخل البيانات ويخرج القرار (الإخراج). هناك القليل من الأسباب وراء اتخاذ قرار معين. مع انتقالنا إلى المستقبل حيث يتم استخدام الذكاء الاصطناعي في تطبيقات مثل التشخيص الطبي ، والمركبات ذاتية القيادة ، والتداول الآلي ، وحتى في التوظيف ووظائف صنع القرار الأخرى ، يصبح من المهم ضمان الشفافية والوضوح حول سبب وجود آلة معينة -النموذج المدروس توصل إلى قرار معين. هناك العديد من الأدوات والأطر مفتوحة المصدر التي أسفرت عن نتائج مبكرة جيدة في تفسير نماذج الذكاء الاصطناعي.
منظمة العفو الدولية المسؤولة والأخلاقية
إذا واجهت السيارة ذاتية القيادة خيارين ، يؤدي كلاهما إلى إلحاق ضرر بالإنسان ، فما القرار الذي يجب أن يتخذه الطراز؟ هل يجب أن يعتمد على البيانات أم يجب أن يكون هناك بعض قواعد الإلغاء؟
إذا تم إحراز تقدم جديد في الذكاء الاصطناعي ، فهل من المقبول استخدامه في تطبيق عسكري سيتم استخدامه في نهاية المطاف في الحرب؟
هذه بعض الأسئلة ، إلى جانب التحيز وحماية البيانات والتمييز وما إلى ذلك ، التي يحاول الذكاء الاصطناعي المسؤول والأخلاقي معالجتها. هناك حركة كبيرة حول الاستخدام الأخلاقي للذكاء الاصطناعي ، وتقوم العديد من الشركات بإنشاء فرق عمل وتحالفات مخصصة للتعامل مع هذا الأمر.
منصات تخزين البيانات وإدارة البيانات
كان التخزين موجودًا منذ فترة طويلة ، وكان بمثابة الخطوة الأساسية للمؤسسات لجمع البيانات وهيكلها بحيث تبدأ في جعلها منطقية. شهدت السنوات القليلة الماضية ظهور العديد من خدمات ومنصات التخزين التي يمكن أن تستخدمها فرق هندسة البيانات لبدء رحلات تخزين البيانات وتخزين البيانات.
علم البيانات ككفاءة أساسية للمنظمات
منذ سنوات عديدة ، كان يُنظر إلى التحليل الإحصائي وتحليل البيانات الضخمة على أنهما مهارات "خبيرة" تم تطويرها لفرق التحليل ، ولكن هذا تغير منذ بضع سنوات. في الوقت الحالي ، يفضل العديد من فرق العمل استخدام أعضاء فريقهم لأدوات التحليل لتحليل البيانات.
وبالمثل ، يوجد اليوم حركة يتم فيها بناء مهارات علوم البيانات داخل فرق العمل. تتعلم فرق العمل كيفية إدارة مشاريع علوم البيانات والتوقعات والجداول الزمنية ، وكيف تختلف المهارات وإدارة الفريق عن تلك الموجودة في فرق تطوير البرامج التقليدية.
باختصار ، ستكون 2020 والسنوات القليلة القادمة مثيرة للغاية للشركات والفرق التي تتبنى علوم البيانات ومجالات العمل ذات الصلة.