الذكاء الاصطناعي والتعلم الآلي في المعلوماتية الحيوية: ابتكار قوي للقيادة الثنائية

نشرت: 2023-02-16

مكنت التطورات في تقنيات تسلسل الحمض النووي الباحثين من تسلسل الجينوم البشري في يوم واحد فقط ، وهي مهمة استغرق إكمالها عقدًا من الزمن. هذه ليست سوى واحدة من العديد من المساهمات القوية للتعلم الآلي (ML) في المعلوماتية الحيوية.

نظرًا لأن العديد من شركات التكنولوجيا الحيوية توظف مستشاري ML لتسهيل عملية التعامل مع البيانات الطبية الحيوية ، فإن الذكاء الاصطناعي في سوق المعلوماتية الحيوية يواصل النمو. من المتوقع أن يصل إلى 37،027.96 دولارًا أمريكيًا بحلول عام 2029 ، بمعدل نمو سنوي مركب قدره 42.7٪ اعتبارًا من عام 2022. هل تريد أن تكون جزءًا من هذه الثورة الرقمية؟

تقدم هذه المقالة مقدمة موجزة عن ML ، وتشرح كيفية دعمها للبحوث الطبية الحيوية ، وتعدد التحديات التي قد تواجهها في نشر هذه التقنية.

مقدمة في التعلم الآلي للمعلوماتية الحيوية

ML هي مجموعة فرعية من مجال أوسع للذكاء الاصطناعي (AI). إنه يمكّن الأنظمة من التعلم بشكل مستقل من البيانات وتنفيذ المهام التي لم تتم برمجتها بشكل صريح للتعامل معها. هدفها هو إعطاء الآلات القدرة على أداء المهام التي تتطلب ذكاءً بشريًا ، مثل التشخيص والتخطيط والتنبؤ.

هناك نوعان رئيسيان من التعلم الآلي.

  1. يعتمد التعلم الخاضع للإشراف على مجموعات البيانات المصنفة لتعليم الخوارزميات كيفية استخدام نظام تصنيف حالي ، بما في ذلك كيفية عمل تنبؤات بناءً على هذا النظام. يستخدم هذا النوع من ML لتدريب أشجار القرار والشبكات العصبية.
  2. التعلم غير الخاضع للإشراف لا يستخدم التسميات. بدلاً من ذلك ، تحاول الخوارزميات الكشف عن أنماط البيانات من تلقاء نفسها. بعبارة أخرى ، يتعلمون أشياء لا يمكننا تعليمهم مباشرة. هذا مشابه لكيفية عمل الدماغ البشري.

من الممكن أيضًا دمج البيانات المصنفة وغير المصنفة أثناء التدريب ، مما سينتج عنه تعلم شبه خاضع للإشراف. يمكن أن يكون هذا النوع من التعلم الآلي مفيدًا عندما لا يكون لديك ما يكفي من البيانات المصنفة عالية الجودة لنهج التعلم الخاضع للإشراف ، ولكنك لا تزال ترغب في استخدامه لتوجيه عملية التعلم.

ما هي تقنيات التعلم الآلي الأكثر شيوعًا المستخدمة في المعلوماتية الحيوية؟

تندرج بعض هذه الخوارزميات بشكل صارم تحت فئات التعلم الخاضعة للإشراف / غير الخاضعة للإشراف ، ويمكن استخدام بعضها مع كلتا الطريقتين.

معالجة اللغة الطبيعية

معالجة اللغة الطبيعية (NLP) هي مجموعة من التقنيات التي يمكنها فهم اللغة البشرية غير المهيكلة.

يمكن للغة البرمجة اللغوية العصبية ، على سبيل المثال ، البحث في مجلدات من أبحاث الأحياء ، وتجميع المعلومات حول موضوع معين من مصادر مختلفة ، وترجمة نتائج البحث من لغة إلى أخرى. بالإضافة إلى الأوراق البحثية المتعلقة بالتعدين ، يمكن لحلول البرمجة اللغوية العصبية تحليل قواعد البيانات الطبية الحيوية ذات الصلة.

يمكن أن تفيد البرمجة اللغوية العصبية في مجال المعلوماتية الحيوية بالطرق التالية.

  • تفسير المتغيرات الجينية
  • تحليل مصفوفات تعبير الحمض النووي
  • علق وظائف البروتين
  • ابحث عن أهداف جديدة للعقاقير

الشبكات العصبية

هذه هياكل متعددة الطبقات تتكون من العقد / الخلايا العصبية. ترتبط الخلايا العصبية في الطبقات المجاورة ببعضها البعض عبر الروابط ، لكن الخلايا العصبية الموجودة في طبقة واحدة ليست مترابطة. تتلقى الخلايا العصبية الموجودة في طبقة واحدة المعلومات وتعالجها وتمررها كمدخلات إلى الطبقة التالية. وتستمر هذه العملية حتى تصل المعلومات المعالجة إلى طبقة المخرجات.

يُطلق على الشبكة العصبية الأساسية اسم Perceptron. يتكون من خلية عصبية واحدة تعمل كمصنف. يتلقى هذا العصبون مدخلات ويضعها في واحدة من فئتين باستخدام وظيفة التمييز الخطي. في الشبكات العصبية الكبيرة ، لا يوجد حد لعدد الطبقات أو عدد العقد في طبقة واحدة.

يمكن استخدام الشبكات العصبية من أجل:

  • تصنيف ملامح التعبير الجيني
  • توقع بنية البروتين
  • تسلسل الحمض النووي.

تجمع

التجميع غير الخاضع للإشراف هو عملية تنظيم العناصر في مجموعات مختلفة بناءً على التعريف المقدم للتشابه. نتيجة لهذا التصنيف ، فإن العناصر الموضوعة في مجموعة ما ترتبط ارتباطًا وثيقًا ببعضها البعض ، وتختلف عن العناصر الموجودة في المجموعات الأخرى.

على عكس التصنيف الخاضع للإشراف ، في التجميع ، لا نعرف مسبقًا عدد المجموعات التي سيتم تشكيلها. أحد الأمثلة الشهيرة على نهج ML هذا في المعلوماتية الحيوية هو التنميط التعبيري القائم على ميكروأري للجينات ، حيث يتم وضع الجينات ذات مستويات التعبير المماثلة في مجموعة واحدة.

تخفيض الأبعاد

في مشاكل تصنيف ML ، يتم إجراء التصنيفات بناءً على العوامل / الميزات. في بعض الأحيان ، هناك العديد من العوامل التي تؤثر على النتيجة النهائية ، مما يجعل من الصعب تصور مجموعة البيانات ومعالجتها. يمكن لخوارزميات تقليل الأبعاد تقليل عدد الميزات ، مما يجعل مجموعة البيانات أكثر قابلية للإدارة. على سبيل المثال ، قد يكون لمشكلة تصنيف المناخ رطوبة وهطول أمطار من بين سماتها. يمكن انهيار هذين العاملين في عامل واحد من أجل البساطة لأن كلاهما مرتبطان ارتباطًا وثيقًا.

تخفيض الأبعاد مكونان رئيسيان.

  • تحديد المعالم: اختيار مجموعة فرعية من المتغيرات لتمثيل نموذج كامل عن طريق تضمين المعالم أو ترشيحها أو تغليفها.
  • استخراج الميزات: تقليل عدد الأبعاد في مجموعة البيانات - على سبيل المثال ، يمكن تقسيم مساحة ثلاثية الأبعاد إلى مساحتين ثنائي الأبعاد.

يستخدم هذا النوع من الخوارزميات لضغط مجموعات البيانات الكبيرة من أجل تقليل الوقت الحسابي ومتطلبات التخزين. يمكنه أيضًا التخلص من الميزات الزائدة الموجودة في البيانات.

مصنفات شجرة القرار

هذا هو واحد من أشهر مصنفات التعلم الخاضع للإشراف الكلاسيكية. تطبق هذه الخوارزميات نهجًا تعاوديًا لبناء نموذج شجرة يشبه مخطط انسيابي ، حيث تمثل كل عقدة اختبارًا على ميزة. أولاً ، تحدد الخوارزمية العقدة العليا - الجذر - ثم تبني الشجرة بشكل متكرر ، معلمة واحدة في كل مرة. العقدة الأخيرة في كل تسلسل تسمى "العقدة الطرفية". إنه يمثل التصنيف النهائي ويحمل تسمية الفصل.

تتطلب نماذج شجرة القرار قوة حسابية عالية أثناء التدريب ، ولكن بعد ذلك يمكنهم إجراء التصنيفات دون حوسبة مكثفة. الميزة الرئيسية التي تجلبها هذه المصنفات إلى مجال المعلوماتية الحيوية هي أنها تولد قواعد مفهومة ونتائج قابلة للتفسير.

دعم شاحنات النقل

هذا نموذج ML خاضع للإشراف يمكنه حل مشاكل التصنيف المكون من مجموعتين. لتصنيف نقاط البيانات ، تبحث هذه الخوارزميات عن المستوى الأمثل الذي يقسم البيانات إلى فئتين مع أقصى مسافة بين نقاط البيانات.

النقاط الموجودة على جانبي الطائرة الفائقة تنتمي إلى فئات مختلفة. يعتمد بُعد الطائرة الفائقة على عدد الميزات. في حالة وجود ميزتين ، تكون حدود القرار عبارة عن خط ؛ بثلاث ميزات ، إنها لوحة ثنائية الأبعاد. تجعل هذه الخاصية من الصعب استخدام SVM للتصنيفات التي تحتوي على أكثر من ثلاث ميزات.

هذا النهج مفيد في التحديد الحسابي لجينات RNA الوظيفية. يمكنه تحديد المجموعة المثلى من الجينات للكشف عن السرطان بناءً على بيانات التعبير الخاصة بها.

أهم 5 تطبيقات لتعلم الآلة في المعلوماتية الحيوية

بعد إعطاء مقدمة موجزة عن ML وإبراز أكثر خوارزميات ML استخدامًا ، دعنا نرى كيف يمكن نشرها في مجال المعلوماتية الحيوية.

إذا وجدت أي من حالات الاستخدام هذه صدى معك ، فانتقل إلى متخصصي استشارات برامج الذكاء الاصطناعي لتنفيذ حل مخصص لعملك.

1. تسهيل تجارب التحرير الجيني

يشير التحرير الجيني إلى التلاعب بالتركيب الجيني للكائن عن طريق حذف وإدخال واستبدال جزء من تسلسل الحمض النووي الخاص به. تعتمد هذه العملية عادةً على تقنية كريسبر ، وهي فعالة إلى حد ما. ولكن لا يزال هناك الكثير من التحسين المطلوب في مجال اختيار تسلسل الحمض النووي الصحيح للتلاعب ، وهذا هو المكان الذي يمكن أن يساعد فيه ML. باستخدام التعلم الآلي للمعلوماتية الحيوية ، يمكن للباحثين تحسين تصميم تجارب تحرير الجينات والتنبؤ بنتائجها.

استخدم فريق بحثي خوارزميات ML لاكتشاف أكثر المتغيرات التوافقية المثلى لبقايا الأحماض الأمينية التي تسمح لبروتين تحرير الجينوم Cas9 بالارتباط بالحمض النووي المستهدف. نظرًا للعدد الكبير من هذه المتغيرات ، كان من الممكن أن تكون هذه التجربة كبيرة جدًا ، ولكن باستخدام نهج هندسي يحركه ML ، قلل من عبء الفحص بحوالي 95٪.

2. تحديد بنية البروتين

علم البروتينات هو دراسة البروتينات وتفاعلاتها وتكوينها ودورها في جسم الإنسان. يتضمن هذا المجال مجموعات بيانات بيولوجية ثقيلة ومكلفة من الناحية الحسابية. لذلك ، فإن التقنيات مثل ML في المعلوماتية الحيوية ضرورية هنا.

أحد أكثر التطبيقات نجاحًا في هذا المجال هو استخدام الشبكات العصبية التلافيفية لوضع الأحماض الأمينية للبروتينات في ثلاث فئات - الصفائح واللولب والملف. يمكن أن تحقق الشبكات العصبية دقة تصل إلى 84٪ مع الحد النظري من 88٪ إلى 90٪.

استخدام آخر لـ ML في البروتينات هو تسجيل نموذج البروتين ، وهي مهمة أساسية للتنبؤ ببنية البروتين. في نهج ML الخاص بالمعلوماتية الحيوية ، نشر باحثون من جامعة ولاية فايتفيل ML لتحسين نقاط نموذج البروتين. قاموا بتقسيم نماذج البروتين قيد البحث إلى مجموعات واستخدموا مترجم ML لاتخاذ قرار بشأن ناقل الميزة لتقييم النماذج التي تنتمي إلى كل مجموعة. تم استخدام متجهات الميزات هذه لاحقًا لتحسين خوارزميات ML أثناء تدريبهم على كل مجموعة على حدة.

3. اكتشاف الجينات المرتبطة بالأمراض

يستخدم الباحثون بشكل متزايد ML في المعلوماتية الحيوية لتحديد الجينات التي من المحتمل أن تكون متورطة في أمراض معينة. يتم تحقيق ذلك عن طريق تحليل المصفوفات الدقيقة للتعبير الجيني وتسلسل الحمض النووي الريبي.

اكتسب التعرف على الجينات قوة دفع في الدراسات المتعلقة بالسرطان لتحديد الجينات التي من المحتمل أن تساهم في الإصابة بالسرطان ، وكذلك لتصنيف الأورام من خلال تحليلها على المستوى الجزيئي.

على سبيل المثال ، استخدمت مجموعة من العلماء في جامعة واشنطن ML في خوارزميات المعلوماتية الحيوية ، بما في ذلك شجرة القرار ، وآلة ناقلات الدعم ، والشبكات العصبية لاختبار قدرتها على التنبؤ بأنواع السرطان وتصنيفها. نشر الباحثون بيانات تسلسل الحمض النووي الريبي من مشروع أطلس جينوم السرطان ، واكتشفوا أن آلة ناقل الدعم الخطي كانت الأكثر دقة ، حيث بلغت دقة 95.8٪ في تصنيف السرطان.

في مثال آخر ، استخدم الباحثون ML لتصنيف أنواع سرطان الثدي بناءً على بيانات التعبير الجيني. اعتمد هذا الفريق أيضًا على بيانات مشروع أطلس جينوم السرطان. صنف الباحثون العينات إلى سرطان الثدي الثلاثي السلبي - أحد أكثر أنواع سرطان الثدي فتكًا - وغير الثلاثي السلبي. ومرة أخرى ، قدم مصنف آلة متجه الدعم أفضل النتائج.

عند الحديث عن الأمراض غير السرطانية ، اعتمد الباحثون في جامعة بنسلفانيا على ML لتحديد الجينات التي ستكون هدفًا مناسبًا لأدوية مرض الشريان التاجي (CAD). استخدم الفريق أداة تحسين خطوط الأنابيب (TPOT) التي تعمل بنظام ML لتحديد مجموعة من أشكال النوكليوتيدات المفردة (SNPs) المتعلقة بـ CAD. قاموا بتحليل البيانات الجينومية من البنك الحيوي في المملكة المتحدة وكشفوا عن 28 تعدد الأشكال ذات الصلة. تم ذكر العلاقة بين SNPs على رأس هذه القائمة و CAD سابقًا في الأدبيات ، وقد أثبت هذا البحث صحة تطبيق ML.

4. اجتياز قاعدة المعرفة بحثًا عن أنماط ذات مغزى

تعمل تقنية التسلسل المتقدمة على مضاعفة قواعد البيانات الجينية كل 2.5 عام ، ويبحث الباحثون عن طريقة لاستخراج رؤى مفيدة من هذه المعرفة المتراكمة. يمكن لـ ML في المعلوماتية الحيوية التدقيق في المنشورات والتقارير الطبية الحيوية لتحديد الجينات والبروتينات المختلفة والبحث عن وظائفها. يمكن أن يساعد أيضًا في شرح قواعد بيانات البروتين واستكمالها بالمعلومات التي تسترجعها من الأدبيات العلمية.

يأتي أحد الأمثلة من مجموعة من الباحثين الذين نشروا المعلوماتية الحيوية و ML في تعدين الأدب لتسهيل تسجيل نموذج البروتين. عادةً ما ينتج عن النمذجة الهيكلية لرسو البروتين البروتين عدة نماذج يتم تسجيلها بشكل أكبر بناءً على القيود الهيكلية. استخدم الفريق خوارزميات ML لاجتياز أوراق PubMed حول تفاعلات البروتين والبروتين ، والبحث عن المخلفات التي يمكن أن تساعد في إنشاء هذه القيود لتسجيل النموذج. وللتأكد من أن القيود ستكون ذات صلة ، استكشف العلماء قدرة خوارزميات ML المختلفة على التحقق من جميع المخلفات المكتشفة للتأكد من ملاءمتها.

كشف هذا البحث أن كلاً من الشبكات العصبية باهظة الثمن من الناحية الحسابية وآلات ناقلات الدعم الأقل تطلبًا للموارد حققت نتائج مشابهة جدًا.

5. إعادة استخدام الأدوية

إعادة استخدام الأدوية ، أو إعادة التوصيف ، هي تقنية يستخدمها العلماء لاكتشاف تطبيقات جديدة لم تكن مخصصة للأدوية الموجودة. يتبنى الباحثون الذكاء الاصطناعي في المعلوماتية الحيوية لإجراء تحليل الأدوية في قواعد البيانات ذات الصلة ، مثل BindingDB و DrugBank. هناك ثلاثة اتجاهات رئيسية لإعادة استخدام الأدوية.

  • يبحث تفاعل الدواء المستهدف في قدرة الدواء على الارتباط مباشرة بالبروتين المستهدف
  • يتحقق التفاعل بين الأدوية والعقاقير في كيفية عمل الأدوية عند تناولها في مجموعات
  • يبحث تفاعل البروتين والبروتين في سطح البروتينات المتفاعلة داخل الخلايا ، ويحاول اكتشاف النقاط الساخنة والمواقع الخيفية.

طور باحثون من جامعة الصين للبترول وجامعة شاندونغ خوارزمية شبكة عصبية عميقة واستخدموها في قاعدة بيانات DrugBank. لقد أرادوا دراسة التفاعلات المستهدفة للدواء بين جزيئات الدواء وبروتين اندماج الميتوكوندريا 2 (MFN2) ، وهو أحد البروتينات الرئيسية التي يمكن أن تسبب مرض الزهايمر. حددت الدراسة 15 جزيءًا دوائيًا مع إمكانية الارتباط. بعد إجراء مزيد من التحقيق ، اتضح أن 11 منهم تمكنوا من الالتحام بنجاح مع MFN2. وخمسة منهم كان لديهم قوة ربط متوسطة إلى قوية.

التحديات التي يقدمها ML في المعلوماتية الحيوية

يختلف ML في المعلوماتية الحيوية عن ML في القطاعات الأخرى بسبب العوامل الأربعة أدناه ، والتي تشكل أيضًا التحديات الرئيسية لتطبيق ML في هذا المجال.

  1. يعد استخدام الذكاء الاصطناعي في المعلوماتية الحيوية مكلفًا. لكي تعمل الخوارزمية بشكل صحيح ، تحتاج إلى الحصول على مجموعة بيانات تدريب كبيرة. ومع ذلك ، من المكلف الحصول على 10000 فحص للصدر ، أو أي نوع آخر من البيانات الطبية في هذا الشأن.
  2. هناك صعوبات مرتبطة بمجموعات بيانات التدريب. في المجالات الأخرى ، إذا لم يكن لديك بيانات تدريب كافية ، يمكنك إنشاء بيانات تركيبية لتوسيع مجموعة البيانات الخاصة بك. ومع ذلك ، قد لا تكون هذه الحيلة مناسبة عندما يتعلق الأمر بالأعضاء البشرية. تكمن المشكلة في أن برنامج إنشاء المسح الضوئي الخاص بك قد ينتج عنه مسح لإنسان حقيقي. وإذا بدأت في استخدام ذلك دون إذن الشخص ، فستكون بذلك انتهاكًا صارخًا لخصوصيته.
  3. التحدي الآخر المرتبط ببيانات التدريب هو أنه إذا كنت ترغب في بناء خوارزمية تعمل مع الأمراض النادرة ، فلن يكون هناك الكثير من البيانات للعمل بها في المقام الأول.
  4. يجب أن يكون مستوى الثقة مرتفعًا جدًا. عندما تعتمد حياة الإنسان على أداء الخوارزمية ، هناك الكثير على المحك ، والذي لا يترك مجالًا للخطأ.
  5. لن يكون الأطباء منفتحين على استخدام نموذج ML إذا لم يفهموا كيف قدم توصياته. يمكنك استخدام الذكاء الاصطناعي القابل للتفسير بدلاً من ذلك ، لكن هذه الخوارزميات ليست قوية مثل بعض نماذج التعلم غير الخاضعة للرقابة في الصندوق الأسود.

للحصول على التحديات العامة المرتبطة بالذكاء الاصطناعي ونصائح التنفيذ ، راجع مقالتنا والكتاب الإلكتروني المجاني.

لتلخيص

تقنيات الذكاء الاصطناعي والتعلم الآلي لها العديد من التطبيقات في الطب وعلم الأحياء. على مدونتنا ، يمكنك العثور على مزيد من المعلومات حول الذكاء الاصطناعي في التجارب السريرية ، بالإضافة إلى استخدام الذكاء الاصطناعي في تشخيص السرطان وعلاجه ، إلى جانب فوائده الأخرى في الرعاية الصحية.

المعلوماتية الحيوية هي مجال آخر متعلق بالطب حيث تكون الحلول الطبية القائمة على ML و AI سهلة الاستخدام. تتطلب المعلوماتية الحيوية التعامل مع كميات كبيرة من أشكال مختلفة من البيانات ، مثل تسلسل الجينوم ، وهياكل البروتين ، والمنشورات العلمية. تشتهر ML بقدراتها على معالجة البيانات ؛ ومع ذلك ، فإن العديد من نماذج المعلوماتية الحيوية للذكاء الاصطناعي مكلفة للتشغيل. قد يستغرق تدريب خوارزمية التعلم العميق مئات الآلاف من الدولارات. على سبيل المثال ، استهلك تدريب نموذج AlphaFold2 للتنبؤ ببنية البروتين ما يعادل 100-200 وحدة معالجة رسومات تعمل لعدة أسابيع.

يمكنك العثور على مزيد من المعلومات حول ما يمكن توقعه من حيث السعر في مقالتنا حول تكلفة تطبيق الذكاء الاصطناعي. إذا كنت ترغب في نشر التعلم الآلي في المعلوماتية الحيوية ، فاتصل بنا. سنعمل معكم لإيجاد أفضل نماذج تعلم الآلة بميزانية معقولة.

هل تفكر في نشر التعلم الآلي في المعلوماتية الحيوية ، ولكنك لست متأكدًا من النموذج المناسب لك؟ ابقى على تواصل! سنساعدك في اختيار نوع ML الأنسب للمهمة. سنساعدك أيضًا في بناء / تخصيص وتدريب ونشر الخوارزمية.


تم نشر هذه المقالة في الأصل على موقع إتريكس.