أنباء وآراء

علم الأحياء الحاسوبي: خوارزمية تَعَلُّم آلة تتنبأ ببِنْية البروتينات 

تضافُر كامل للجهود بين مسارين بحثيين، سعيًا للتوصل إلى طُرق للتنبؤ بالبِني ثلاثية الأبعاد للبروتينات من خلال تسلسلات الأحماض الأمينية، وهو ما ترتب عليه تحقيق قفزة هائلة إلى الأمام في دقة هذه التنبؤات. 

محمد القُريشي

  • Published online:

تُجري البروتينات جميع العمليات الكيميائية والميكانيكية تقريبًا في الخلايا، أو تلعب دور عامل محفز لتلك العمليات. ومُعظم البروتينات (التي تكون مُخلَّقة على هيئة سلاسل خَطية من بقايا الأحماض الأمينية) يُطوى تلقائيًّا ليشكِّل بِنْية واحدة، أو عَددًا صغيرًا من البِني ثلاثية الأبعاد، يميل إلى اتخاذها. ويحدد تسلسل الأحماض الأمينية بِنْية البروتين، ونطاق حركته، وهو ما يحدد بدوره وظيفة ذلك البروتين. وعلى مدى عقود، حَدد علماء البيولوجيا البنيوية -باستخدام منهج تجريبي- آلافًا من بِنى البروتينات، لكنّ صعوبة تلك الدراسات جذبت العلماء إلى استخدام النهج الحوسبي الواعد للتنبؤ ببِنْية البروتينات باستخدام تسلسلات الحمض النووي. ومن هنا، يقدم سينيور وزملاؤه1 وصفًا لخوارزمية تُعرَف باسم «ألفا فولد» AlphaFold، تحقِّق تقدمًا كبيرًا في حل هذه المشكلة الكلاسيكية، عبر تطبيق تقنيات تعلُّم الآلة الحديثة.

إنّ تنوُّع بِنَى البروتينات يَحُول دون إمكانية التعرّف على القواعد البسيطة التي تحكم عملية طيّ البروتينات، مما يصعِّب عملية التنبؤ ببِنْية هذه البروتينات، لكنْ في المحصلة الأخيرة، تكون عملية طيّ البروتينات موجَّهة بنظرية الكَمّ. فإذا أمكن حساب طاقة جزيئات البروتين بدقة من خلال نظرية الكَمّ، وتطبيق ذلك على كل ترتيب بنيوي محتمَل، لأصبح من السهل التنبؤ بالبِنْية التي تميل طاقة البروتين إلى تشكيلها. ولسوء الحظ.. فإن المعالجة الكمّية للبروتينات تُعَد عملية عويصة من الناحية الحاسوبية (ربما تتمكن الحواسيب الكمّية من تغيير هذا الوضع)، كما أن المجموعة الكاملة للترتيبات البنيويّة المحتملة، التي يمكن لأي بروتين أن يتخذها، هائلةٌ لدرجة غير قابلة للحصر، وهو ما يمنعنا من استخدام هذا النهج القائم على تقصِّي جميع الاحتمالات في فك شفرة بِنْية البروتين.

وغير أن هذا لم يمنع العلماء من محاولة تبنِّي نهج مباشر في التعامل مع المشكلة، إذ ابتكر علماء كيمياء فيزيائية نماذج يَسهُل التلاعُب بها –وإن كانت تقريبيّة– لحساب طاقة البروتينات2 كما طوَّر علماء كمبيوتر وسائل لاستكشاف الترتيبات البنيوية للبروتينات3. وأُحرز تقدمٌ كبيرٌ في حل المشكلة الأولى، ولكنْ اتضح أن المشكلة الثانية عصية أكثر على الحل، إذ يمكن تشبيه مجموعة الأشكال التي قد يتخذها بروتين ما بقطعة أرض (مشهد طاقة)، حيث تتخذ المواقع المختلفة في هذه القطعة أشكالًا مختلفة، وتكون المواقع المتجاورة ذات أشكال متشابهة. وإضافةً إلى ذلك.. يعبِّر الارتفاع في قطعة الأرض عن الدرجة التي تميل بها الطاقة؛ لتشكيل بِنْيةٍ ما، دون غيرها، بحيث تكون النقاط الأكثر انخفاضًا هي المفضَّلة أكثر للطاقة.

وقد تطورت البروتينات الطبيعية، فأصبحت تماثل قطعة أرض تأخذ شكل القُمع، تتيح للبروتينات حديثة التكوّن، التي تدفعها التقلبات الحرارية للخلية، أنْ تعبرها لتشق طريقها إلى ترتيب بنيوي مُفضّل على غيره، وذلك في نطاقات زمنية ذات دلالة فسيولوجية (من بضع ملِّي ثوان إلى دقائق)4. ويمكن للخوارزميات أن تُجْرِي عملية مسح لقطعة الأرض هذه بدافع العثور على ترتيبات بنيويّة مفضَّلة على غيرها، من خلال اتباع زاوية انحدار قطعة الأرض، لكن وعورة تضاريس قطعة الأرض تجعل الخوارزميات تعلق فيما يشبه الأغوار والوديان البعيدة عن الأحواض البروتينية الأكثر انخفاضًا.

 

شهد مجال التنبؤ ببِنْية البروتينات تغيرًا في مساره قبل ما يقرب من عقد، وذلك بالتزامن مع نشر سلسلة من الأوراق البحثية المؤثِّرة5-7 التي تتقصى فكرة احتواء السجل التطوُّري على أدلة بشأن الكيفية التي تجري بها عملية طيّ البروتينات. وتستند الفكرة إلى الفرضية التالية: إذا كان عنصران من ثُمالة الحمض الأميني في بروتين معين يقعان على مقربة من بعضهما البعض في فراغ ثلاثي الأبعاد، فحينئذ يكون من المحتمَل لطفرة تلغي أحدهما، وتضع مكانه عنصر ثُمالة ثالثًا مختلفًا (على سبيل المثال.. بإحلال عنصر صغير محلّ آخر كبير) أنْ تُحفِّز لاحقًا طفرةً تغيِّر عنصر الثُمالة الآخر في اتجاه تعويضي (مُعاكس)، بحيث (في مثالنا هذا: سيحلّ عنصر ثُمالة كبير محلّ آخر صغير). وبالتالي، فإن هذه المجموعات من ثُمالة الأحماض الأمينية -التي تتطوّر  بصورة مشتركة- تقوم بترميز معلومات مكانية ذات أهمية. ويمكننا العثور على هذه المجموعات عن طريق تحليل تسلسلات البروتينات المرتبطة تطوريًّا.

ومن خلال تحويل هذه المعلومات المتعلقة بالتطور المشترك إلى مصفوفةٍ تُعرف بخريطة التلامُس الثنائية، التي تُرمِّز ثُمالة الأحماض الأمينية، تحدِّد أيًّا منها سيكون قريبًا، يمكن بالتالي حصر مجموعة الترتيبات البنيويّة التي تستحق الدراسة باستخدام عمليات البحث الخوارزمية. وهذا بدوره يتيح وضْع تنبؤ دقيق للترتيبات البنيوية التي تكون البروتينات أكثر مَيلًا إلى تشكيلها، خاصةً بالنسبة إلى البروتينات التي يُعرف عنها العديد من التسلسلات المرتبطة بالتطور. لم تكن هذه الفكرة جديدة8، لكنّ النمو السريع في البيانات المتاحة لتسلسلات الحمض النووي في أوائل العقد الثاني من القرن الحالي -الذي اقترن باكتشافات بالغة الأهمية على صعيد الخوارزميات- كان يعني أن الوقت المناسب لتطبيق هذه الفكرة قد حان أخيرًا.

يُعَد تحليل المعلومات الخاصة بالتطور المشترك مسؤولًا عن غالبية التقدم المُحرَز في مجال التنبؤ ببِنْية البروتينات في السنوات القليلة الماضية، لكنه لم يُلغِ الحاجة إلى الخوارزميات؛ لإجراء مسح لمَشاهد الطاقة الخاصة بالبروتينات، فخرائط التلامس الثنائية تحصر مساحة البحث، ولكنها لا تحدد بِنْية واحدة ثلاثية الأبعاد. وفضلًا عن ذلك.. فإن النواحي الرياضية التي يرتكز عليها تحويل بيانات التطور المشترك إلى خرائط تلامس تكون مقيدةً بأنواع المُدخلات المستخدَمة، والمخرَجات الناتجة. وقد أدَّى الاستخدام المبدئي للتعلم العميق (وهو أحد أنواع تعلُّم الآلة) في تحليلات التطور المشترك إلى تحسين الأوضاع، وذلك من خلال إدراج مدخلات أكثر ثراءً9. أما خوارزمية «ألفا فولد»، فهي تحقق المزيد من التقدُّم عن طريق تغيير المُخرَجات.

وبدلًا من بيانات التلامس الثنائية، تتنبأ خوارزمية «ألفا فولد» باحتمالات وجود فواصل ذات مسافات مختلفة بين ثمالات الأحماض الأمينية. ونظرًا إلى أن قِيَم هذه الاحتمالات وقِيَم الطاقة يمكن أن تحل إحداها محل الأخرى، فإن «ألفا فولد» تتنبأ بمشهد الطاقة، وهو مشهد يشترك في أدنى حوض له مع المشهد الحقيقي، ولكنه أكثر استواءً بكثير. في الواقع، يتميز المشهد الخاص بخوارزمية «ألفا فولد» باستواء شديد إلى حد أنه يلغي الحاجة إلى البحث تقريبًا. وهذا يتيح استخدام إجراء بسيط للعثور على البِنْية الأَمْيَل إليها البروتين، بدلًا من خوارزميات البحث المعقدة التي توظفها مناهج أخرى.

إنّ الفكرة القائلة إنّ عمليات البحث المعقدة ربما تكون غير ضرورية في التنبؤ ببِنْية البروتين غير مثيرة للعجب، إذا نظرنا إليها بأثر رجعي. فمِن الناحية الرياضية، تحدد المسافات بين النقاط على البروتين مواقعها النسبية. وبالتالي، يمكن أن يتيح التنبؤُ بالمسافات التنبؤَ بالبِنْية. وفضلًا عن ذلك.. هناك نماذج بسيطة نسبيًّا لمَشاهد الطاقة الخاصة بالبروتينات، وهي نماذج معروفة باسم «جو بوتينشيالز» Gō potentials، تكون فيها المسافات المحددة بشكل تجريبي بين ثمالات الأحماض الأمينية مُفَضَّلة على غيرها. ويمكن لهذه النماذج أن تدلنا على مسارات طيّ بروتين تُشَابِه تلك المسارات التي تتعرض لها البروتينات الحقيقية10. يشير هذا إلى أن طيّ البروتينات يحدث بصورة تشبه أشكال الأوريجامي البسيطة، أكثر مما تشبه العُقَد المتشابكة، بمعنى أن أجزاء البروتين يمكن أن تتجمّع في الوقت نفسه. وقد أظهرت أبحاثي أنه يمكن التنبؤ بالطيّ ضمنيًّا من خلال استخدام نموذج تعلُّم عميق، دون إجراء عملية بحث11، وقد أُدرج الحد الأدنى من إجراءات البحث في نموذج آخَر للتعلم العميق؛ بغرض التنبؤ ببِنى البروتينات12.

اللافت للنظر فيما يتعلق بخوارزمية «ألفا فولد» هو أن تمتُّعها بالدقة الكافية في التنبؤ بالمسافات يجعلها تتفوق في الأداء على طرق البحث الحديثة (الشكل 1). وقد استخدم سينيور وزملاؤه التطورات في تقنيات التعلم العميق، لاستخراج أكبر قَدْر ممكن من المعلومات البنيوية من تسلسلات البروتينات، حيث تفوقت الخوارزمية الناتجة في الأداء على جميع التقنيات المنافِسة في أحدث تقييم مُعمَّى للطرق المستخدَمة في التنبؤ ببِنَى البروتينات (الجولة الثالثة عشرة من فعالية التقييم الحاسم لتقنيات التنبؤ ببِنَى البروتينات، المعروفة اختصارًا بـCASP13)، وأنتجت الخوارزمية البِنْية المُفضلة لـ25 بروتينًا من أصل 43 بروتينًا، مقارنةً بـ3 بروتينات من أصل 43 أنتجتها الطريقة التالية لها في الترتيب. وبلغ متوسط دقة ​​تنبؤات خوارزمية «ألفا فولد» 6,6 أنجستروم لهذه المجموعة من البروتينات؛ أي أنه بالنسبة إلى البروتين الذي احتل المرتبة الوسطى في هذه المجموعة، كانت الذرّات في البِنَى المقترحة على بعد​​ 6,6 أنجستروم في المتوسط من مواقعها الفعلية.

الشكل 1: تنبؤات ببِنى البروتينات. يورد سينيور وزملاؤه1نظامًا لتعلُّم الآلة، يُطلَق عليه «ألفا فولد». يتنبأ هذا النظام بالبِنى ثلاثية الأبعاد للبروتينات باستخدام تسلسلات أحماضها الأمينية. وتوفر النتائج التي تحققها نمذجة القوالب (TM) قياسًا لمدى مطابقة البِنْية التي جرى التنبؤ بها لشكل البِنْية الفعلية العام، على مقياس من 0 إلى 1. وكانت النتائج التي ترتبت على نمذجة القوالب بخوارزمية «ألفا فولد» أفضل من نتائج نمذجة القوالب التي حققتها أنظمة تنبؤ أخرى بشأن 25 بروتينًا من أصل 43 في اختبار مُعمَّى. ويقارن هذا الشكل بين نتائج نمذجة القوالب بخوارزمية «ألفا فولد»، الملونة (باللون الأحمر)، وبين نتائج نمذجة القوالب بأنظمة التنبؤ الأخرى (باللون الرمادي) في اختبار مُعمَّى أُجري على ستة بروتينات يمكن نمذجة بِناها ثلاثية الأبعاد على أساس تسلسلات أحماضها الأمينية فحسب. ولم تتوفر بِنى ثلاثية الأبعاد لبروتينات ذات تسلسلات أحماض أمينية متماثلة؛ لاستخدامها كنقطة انطلاق لعملية النمذجة. وقد قدمت خوارزمية «ألفا فولد» التنبؤات الأكثر دقة لخمسة من البروتينات الستة. (مقتبَس من الشكل رقم "1ب" من المرجع رقم 1).

الشكل 1: تنبؤات ببِنى البروتينات. يورد سينيور وزملاؤه1نظامًا لتعلُّم الآلة، يُطلَق عليه «ألفا فولد». يتنبأ هذا النظام بالبِنى ثلاثية الأبعاد للبروتينات باستخدام تسلسلات أحماضها الأمينية. وتوفر النتائج التي تحققها نمذجة القوالب (TM) قياسًا لمدى مطابقة البِنْية التي جرى التنبؤ بها لشكل البِنْية الفعلية العام، على مقياس من 0 إلى 1. وكانت النتائج التي ترتبت على نمذجة القوالب بخوارزمية «ألفا فولد» أفضل من نتائج نمذجة القوالب التي حققتها أنظمة تنبؤ أخرى بشأن 25 بروتينًا من أصل 43 في اختبار مُعمَّى. ويقارن هذا الشكل بين نتائج نمذجة القوالب بخوارزمية «ألفا فولد»، الملونة (باللون الأحمر)، وبين نتائج نمذجة القوالب بأنظمة التنبؤ الأخرى (باللون الرمادي) في اختبار مُعمَّى أُجري على ستة بروتينات يمكن نمذجة بِناها ثلاثية الأبعاد على أساس تسلسلات أحماضها الأمينية فحسب. ولم تتوفر بِنى ثلاثية الأبعاد لبروتينات ذات تسلسلات أحماض أمينية متماثلة؛ لاستخدامها كنقطة انطلاق لعملية النمذجة. وقد قدمت خوارزمية «ألفا فولد» التنبؤات الأكثر دقة لخمسة من البروتينات الستة. (مقتبَس من الشكل رقم "1ب" من المرجع رقم 1).

كبر الصورة

هذا.. ولا تزال هناك تحديات قائمة، فخوارزمية «ألفا فولد» ليست دقيقة بما فيه الكفاية حتى الآن لاستعمالها في معظم التطبيقات، مثل تحديد الآليات التحفيزية للإنزيمات، أو كيفية ارتباط العقاقير بالبروتينات (إذ تتطلب كلتا العمليّتَين -في المعتاد- دقة تتراوح من 2 إلى 3 أنجستروم). وعلى الرغم من أن عملية البحث الخاص بخوارزمية «ألفا فولد» أبسط بكثير من غالبية الأساليب الحديثة، هناك احتمالية قائمة بأنْ تكون الخوارزمية بطيئة، إذ يستغرق توليد تنبؤ واحد فترة تتراوح بين عشراتٍ إلى مئات الساعات. وبالنسبة إلى بعض التطبيقات، مثل عمليات تصميم البروتينات، التي تتطلب نمذجة بِنَى كثير من تسلسلات البروتين المختلفة، فإن ذلك البطء يُمثّل عائقًا.

وعلى الرغم من ذلك.. فإننا نشهد لحظة فارقة في هذا المجال. وبالنظر إلى النمو المتزايد في العدد المتاح من تسلسلات البروتينات، فمِن المحتمل أن تتوفر البِنَى الأوّلية (ذات الدقة التي تبلغ حوالي 4 أنجستروم) لمعظم البروتينات التي تتكون من نطاق مطويّ واحدٍ خلال السنوات الخمس القادمة من خلال التنبؤات الخاصة ببِنَى البروتينات. وقد تؤدي هذه الوفرة واسعة النطاق في المعلومات البنيوية إلى إحداث تحوُّل في العلوم الحياتية، مثلما فعلت المعلومات حول تسلسلات الأحماض الأمينية في العقود السابقة تمامًا. وبوضع كل ما سبق إلى جانب التقدم السريع في تحديد بِنْية البروتينات، الذي أصبح ممكنًا بفضل الفحص المجهري الإلكتروني للعينات بالتبريد، فإننا ندخل في العصر الذهبي لعلم البيولوجيا البنيوية، وهو عصر يجعل من الممكن وضع أساس كمّي وميكانيكي للعلوم الحياتية، يستمد جذوره بشكل كبير من فرضيات بنيوية راسخة.

References

  1. Senior, A. W. et al. Nature 577, 706–710 (2020). | article
  2. Guvench, O. & MacKerell, A. D. Jr Methods Mol. Biol. 443,63–88 (2008). | article
  3. Maximova, T., Moffatt, R., Ma, B., Nussinov, R. & Shehu, A. PLoS Comput. Biol. 12, e1004619 (2016). | article
  4. Bryngelson, J. D., Onuchic, J. N., Socci, N. D. & Wolynes, P. G. Proteins 21, 167–195 (1995). | article
  5. Marks, D. S. et al. PLoS ONE 6, e28766 (2011). | article
  6. Jones, D. T., Buchan, D. W. A., Cozzetto, D. & Pontil, M. Bioinformatics 28, 184–190 (2012). | article
  7. Kamisetty, H., Ovchinnikov, S. & Baker, D. Proc. Natl Acad. Sci. USA 110, 15674–15679 (2013). | article
  8. Lapedes, A. S., Giraud, B. G., Liu, L. & Stormo, G. D. IMS Lecture Notes Monogr. Ser. 33, 236–256 (1999).  | article
  9. Wang, S., Sun, S., Li, Z., Zhang, R. & Xu, J. PLoS Comput. Biol. 13, e1005324 (2017). | article
  10. Hills, R. D. & Brooks, C. L. Int. J. Mol. Sci. 10, 889–905 (2009). | article
  11. AlQuraishi, M. Cell Syst. 8, 292–301 (2019). | article
  12. Ingraham, J., Riesselman, A., Sander, C. & Marks, D. in 7th Int. Conf. Learn. Represent. https://openreview.net/forum?id=Byg3y3C9Km (2019). 

محمد القُريشي يعمل في مختبر علم الصيدلة الخاص بالأنظمة في قسم بيولوجيا الأنظمة في كلية طب هارفارد في بوسطن بولاية ماساتشوستس 02115، الولايات المتحدة الأمريكية،

البريد الإلكتروني: alquraishi@hms.harvard.edu