أنباء وآراء

ثورة في توقُّع البِنى البروتينية

مختبر رائد عالميًّا في الذكاء الاصطناعيّ يَلِجُ بكامل طاقته مجال توقُّع البِنى البروتينية. والأداة الناتجة، المسمَّاة «ألفافولد2»، تَعِد بتغيير فهْمنا للبروتينات.

محمد القريشي

  • Published online:

يتجمَّع أغلب البروتينات ذاتيًّا في صورة بِنى محددة ثلاثية الأبعاد، تشترك مع جزيئات حيويّة في تحديد وظائف الخلايا وسلوكها. وخلال العقود الخمسة الماضية، حسم علماء البيولوجيا تجريبيًّا بِنَى أكثر من 180 ألف بروتين، وأودعوا بياناتها في «بنك بيانات البروتينات» Protein Data Bank1، وهو مورد متاح مجانًا على الانترنت. ورغم هذه الجهود المضنية، لا تزال بِنى مئات الملايين من البروتينات مجهولة، بما في ذلك بِنى أكثر من ثُلُثي البروتينات في البروتيوم البشري؛ أي المجموعة الكاملة من البروتينات التي ينتجها الجينوم البشريّ.

وفي بحثيْن نُشرا مؤخرًا في دورية Nature، وصف عالِمان يعملان في «ديب مايند» DeepMind، الشركة الشقيقة لجوجل، والقائمة في لندن، أداة تعلُّم آلة تسمَّى «ألفا فولد2» AlphaFold2، تتوقَّع بِنى البروتينات بدقة مقارِبة للدقة التجريبيّة2، وأفادا باستخدام الأداة في توقُّع بِنى بروتينات البروتيوم البشريّ3 كما أعلنت «ديب مايند» أنها استخدمت أداة «ألفا فولد2» لتوقُّع بِنى بروتينات بروتيوم 20 حيوان تجارب (انظر: go.nature.com/2w6zhus ). وأداة «ألفا فولد2» متاح استخدامها مجانًا للمجال الأكاديميّ، ومن المزمع أن تتيح شركة »ديب مايند «- بالتعاون مع معهد المعلوماتية الحيويّة الأوروبيّ في هينكستون بالمملكة المتحدة - البِنى المُتَوَقَّعة لكل ما عُرف تقريبًا من بروتينات بالمجان للجميع.

نظام «ألفا فولد2» - كما يوحي اسمه - هو الإصدار الثاني من نظام قدَّمته شركة «ديب مايند» قبل ثلاث سنوات في مسابقة التقدير التوقُّعي للبِنى البروتينية (CASP13). وكان الإصدار الأول منه مدهشًا من الناحية التقنيّة4، وتفوَّق في أدائه على منافسيه في المسابقة في مهمة توقّع بِنى البروتينات من تسلسلات الأحماض الأمينيّة، إلا أنه حاد عن التنبؤات الدقيقة لبِنى أصعب مجموعات البروتينات التي شملتها اختباراته بمقدار 6.6 أنجستروم في المتوسط. يعني هذا أنه في البروتينات متوسطة الترتيب في تلك المجموعات، كانت الذرّات في البِنى البروتينية التي توقعها النظام تبعد في المتوسط بمقدار 6.6 أنجستروم عن مواقعها الفعليّة. وهذا التنبؤ أقل دقة بكثير من الطرق التجريبيّة.

وإضافة إلى ذلك، زعم البعض أن نظام «ألفا فولد» الأصليّ لم يكن إلا صورة محسَّنة على نحو طفيف من خوارزميات منافِسة، سواء فيما يتعلق بالتصميم، أَم الأداء، إلا أن الإصدار الثاني «ألفا فولد2» يغير هذا جذريًّا. ففي الدورة التالية من المسابقة سالفة الذكر، التي أقيمت في عام 2020 باسم (CASP14) لم تَحِد توقعاته عن التنبؤات الدقيقة للبِنى البروتينية إلا بمقدار 1.5 أنجستروم، أي أن مواقع ذرّات البِنى التي تنبأ بها كانت تفصلها ذَرّة واحدة عن مواقعها الفعلية، فيما يدل على دقة تقترب من الطرق التجريبيّة. كما أن تصميمه لا يتشابه مع الكثير من الخوارزميات الموجودة بالفعل.

وتتسم مهمة توقّع البِنى البروتينية بالصعوبة لعدة أسباب؛ فالأشكال المحتملة لأي بروتين عددها ضخم، إلا أن الخوارزميّات يجب أن تنتقي أحدها فقط؛ كما أن عدد البِنى المعروفة قليل (نسبيًّا)، وهو ما يحدّ حجم البيانات المتاحة لتدريب أنظمة توقُّع البِنى البروتينيّة. والقواعد التي تحكم الفيزياء الحيوية للبروتينات ليست معروفة تمامًا، ومحاكاة هذه الآليات باهظة التكاليف؛ كما أن العوامل التي تحسم بِنْية البروتين لا تنشأ فقط من التفاعلات الموضعيّة فيما بين المجموعات الكيميائية المتقاربة في جزيء البروتين، وإنما تنشأ أيضًا من التفاعلات طويلة المدى، التي تمتد عبر البروتين كاملًا. وقد أفاد الباحث جون جامبر وفريقه البحثي بعدد كبيرً من الأفكار للتصدي لهذه الصعوبات في أثناء تصميمهم لنظام «ألفا فولد2».

يرتكز هذا التصميم على شبكة لتعلُّم الآلة – تُعْرَف باسم الشبكة العصبيّة الاصطناعيّة – تضع في اعتباراتها التفاعلات الموضعيّة والتفاعلات طويلة المدى في جزيئات البروتينات. وهذا يمثل نهجًا يختلف عن نهج الخوارزميات المبتكرة سابقًا لهذه الغاية، التي كانت عادةً ما تضع في اعتباراتها التفاعلات الموضعيّة فقط، لتخفيف العبء الحسابي في عملية توقُّع البِنى البروتينية. ولا يسعى نظام «ألفا فولد2» إلى رصد التفاعلات طويلة المدى باستخدام القدرات الحاسوبية بشكل بحت، وهو ما كان ليسفر عن محاولات يائسة لتحقيق هذه الغاية، حتى باستخدام الموارد المتاحة لدى شركة «جوجل». وبدلًا من ذلك، استحدث الباحثون عمليّات حسابيّة، ترصد التفاعلات طويلة المدى بكفاءة، بناءً على الملامح الأساسية للتركيب الهندسي للبروتين. وعلى سبيل المثال، تضع هذه العمليّات الحسابية في الاعتبار أن إحداثيات أي ثلاث ذرات في أي بروتين يجب أن تستوفي قاعدة متباينة المثلث (بعبارة أخرى، أن مجموع أطوال أي ضلعين من المثلث الذي تشكله الإحداثيات يجب أن يكون أكبر من طول الضلع المتبقي، أو يساويه).

ويستخدم نظام «ألفا فولد2» هذه العمليّات بشكلٍ متكرر (حوالي 200 مرة) لينقِّح تدريجيًّا نموذج شكل البروتين، حتى الوصول إلى بِنْيته النهائيّة ثلاثيّة الأبعاد. وهذا التنقيح المتكرر، الذي يُسْتخدم ملايين المرات، لا مئات المرات، هو مكوِّن رئيس في المنهجيّات الفيزيائيّة لتوقّع بِنَى البروتينات5 إلا أنه نادرًا ما يُسْتَخْدَم في منهجيّات تعلُّم الآلة، التي تتوقع البنى، بدلًا من ذلك، بالتعرُّف على أنماط الطفرات في البروتينات القريبة تطوريًّا من بعضها البعض؛ لاكتشاف ثمالات الأحماض الأمينيّة متزامنة التطور، وبالتالي المتقاربة مكانيًّا6 ويخرج نظام «ألفا فولد2» عن القالب بدمج هاتين الاستراتيجيتين معًا. ومن الأهمية بمكان هنا أن نظام «ألفا فولد2» لا يفرض القواعد المعروفة للفيزياء الحيوية الخاصة بالبروتينات، ولا يسعى إلى محاكاة عمليّة طيّ البروتين الفيزيائية، كما حدث في المحاولات السابقة 8،7. وعوضًا عن ذلك، يُجرِي بشكل بَحْت عمليّة تنقيح للتركيب الهندسي، تَعَلَّمها من محاولاته المتكررة لتوقُّع البِنى البروتينيّة. ومن هنا، يُعَد مثالًا على الثورة المدفوعة بتقنيات تعلَّم الآلة، التي اكتسحت مجال نمذجة البروتينات9،6.  

وفي ورقة بحثية ملحقة بتلك الخاصة بهذه الدراسة، أفادت كاثرين تونياسوفوناكول وفريقها البحثي3باستخدام نظام «ألفا فولد2»، ليتوقعوا تقريبًا جميع بِنى جميع البروتينات البشريّة التي تتخذ من تلقاء نفسها أشكالًا ثلاثية الأبعاد محددة بوضوح، وهو ما بلغ عدده إجمالًا 23391 بروتينًا. وكانت التوقعات بهذا العدد ممكنة سابقًا، إلا أن ثمة ثلاث مزايا للنظام الجديد تمثُّل خطوة كبيرة إلى الأمام.

أولًا، دقة التوقعات كبيرة بما يكفي لبناء فرضيّات، واستحداث معلومات بيولوجية، يمكن التحقق من صحتها تجريبيًّا. ثانيًا، التقييم الذاتيّ بناءً على معايير محددة لدقة كلّ توقُّع يتيح تقديرًا موثوقًا لصحة التوقعات على مستوى ثمالات الأحماض الأمينيّة المفردة (شكل 1)، وهو ما يمكِّن علماء الأحياء من الاستدلال على مواضع البروتينات المتوقَّعة بثقة. ثالثًا، يمكن استخدام نظام «ألفا فولد2» في التنبؤ ببِنَى بروتينات كاملة، ومنها البروتينات الكبيرة ذات الوحدات المتعددة ذاتية التجميع، وهي خاصّية شائعة في بروتينات الكائنات الثديية، مما يعني أن هذا النظام يتوقع "بموثوقية" بِنى حوالي 60% من جميع مواضع البروتينات البشريّة. أما غالبية المناطق المتبقيّة، فيُحتمل أنها غير قادرة على اتخاذ أشكال محددة بوضوح، أو لا تستطيع فعل ذلك، إلا في وجود جزيئات حيويّة أخرى.

شكل 1 | الثقة في توقعات نظام «ألفا فولد2» للبِنَى البروتينية. أفاد الباحث جون جامبر وفريقه البحثي2 بابتكار نظام تعلُّم آلة يُسَمَّى «ألفا فولد2»، يتوقَّع البِنَى البروتينيّة ثلاثيّة الأبعاد من خلال تسلسلات الأحماض الأمينيّة. واستخدمت كاثرين تونياسوفوناكوول وفريقها البحثي3 النظام نفسه لتوقّع بِنَى جميع البروتينات البشريّة التي تتجمع ذاتيًّا لتكوِّن بِنى محددة ثلاثية الأبعاد. وقد أنتج نظام «ألفا فولد2» معيارًا لقياس الثقة في تنبؤاته، يسمّى اختبار الفَرْق المتوقع في المسافة الموضعيّة (pLDDT)، لتقدير مدى تَوافُق الموضع المتوقع لكل ثمالة حمضٍ أمينيّ مع المواضع التي تم تحديدها تجريبيًّا، بدرجة من 1 إلى 100. وتُظهِر الرسوم البيانيّة أجزاء الثمالات التي تعبِّر عن نطاقات مختلفة في اختبار الفرق المتوقع في المسافة الموضعية، حيث: أ هي الثمالات التي سبق اكتشافها في تجارب تحديد البِنَى (3440359 ثمالة)، وب، هي الثمالات التي لم يكن في الإمكان اكتشافها في التجارب (589079 ثمالة)؛ وج، هي جميع الثمالات في البروتينات البشريّة (10537122 ثمالة). (البيانات من المرجع رقم 3)

شكل 1 | الثقة في توقعات نظام «ألفا فولد2» للبِنَى البروتينية. أفاد الباحث جون جامبر وفريقه البحثي2 بابتكار نظام تعلُّم آلة يُسَمَّى «ألفا فولد2»، يتوقَّع البِنَى البروتينيّة ثلاثيّة الأبعاد من خلال تسلسلات الأحماض الأمينيّة. واستخدمت كاثرين تونياسوفوناكوول وفريقها البحثي3 النظام نفسه لتوقّع بِنَى جميع البروتينات البشريّة التي تتجمع ذاتيًّا لتكوِّن بِنى محددة ثلاثية الأبعاد. وقد أنتج نظام «ألفا فولد2» معيارًا لقياس الثقة في تنبؤاته، يسمّى اختبار الفَرْق المتوقع في المسافة الموضعيّة (pLDDT)، لتقدير مدى تَوافُق الموضع المتوقع لكل ثمالة حمضٍ أمينيّ مع المواضع التي تم تحديدها تجريبيًّا، بدرجة من 1 إلى 100. وتُظهِر الرسوم البيانيّة أجزاء الثمالات التي تعبِّر عن نطاقات مختلفة في اختبار الفرق المتوقع في المسافة الموضعية، حيث: أ هي الثمالات التي سبق اكتشافها في تجارب تحديد البِنَى (3440359 ثمالة)، وب، هي الثمالات التي لم يكن في الإمكان اكتشافها في التجارب (589079 ثمالة)؛ وج، هي جميع الثمالات في البروتينات البشريّة (10537122 ثمالة). (البيانات من المرجع رقم 3)

كبر الصورة

وقد ساعد نظام «ألفا فولد2» بالفعل اختصاصِيِّي علم الأحياء البنيوي على التوصل إلى البِنى البلورية 10 لبعض البروتينات، وتنقيح التنبؤات حول بِنى بروتينية أخرى، جرى التوصل إليها باستخدام تجارب المجهر الإلكترونيّ فائق التبريد، حيث إنه يتيح لعلماء الفيزياء الحيوية الدارسين لحركة البروتينات بِنى بادئة (استاتيكيّة)، كما يتيح للباحثين الدارسين لتفاعلات البروتينات استحداث فرضيّات عن كيفيّة ارتباط أسطح البروتينات ببعضها البعض. كذلك يطرح «ألفا فولد2» فرصًا لصياغة خوارزميات جديدة لمجال نُظُم المعلومات الحيويّة، بناءً على البِنى البروتينيّة. وقد يساعد «ألفا فولد2» علماء بيولوجيا الأنظمة الحيوية على فهم سلوك المسارات الخلويّة والآليات الجزيئيّة، على أساس البِنى التي تشكِّلها. كما أن دراسات التطور التي تتناول نشأة الفئات الجديدة من البِنى البروتينية وعلاقتها بالوظائف الخلوية ولياقة الكائن الحي – وهي دراسات اعتمدت لزمن طويل على التسلسلات الجينيّة – صار إجراؤها اليوم أسهل.

وهذا يحث المرء حثًّا على تشبيه حجم هذا التقدم العلميّ بحجم إنجازات مشروع الجينوم البشريّ، إلا أن ثمة اختلافات مهمة بين كليهما. فعلى عكس تسلسلات الجينوم البشريّ، لم يتم تأكيد البِنَى التي توقعها نظام «ألفا فولد» تجريبيًّا بعد. وسيستغرق ظهور أدلة على صحة توقعاته وقتًا، حتى يثق العلماء في هذه التنبؤات. ولا شك أنّ القياسات التجريبيّة قد تتأثر بـ"التشويش" على عمليات القياس، والتحيزات، وعدم اكتمال البيانات (كمثال، مرّت 20 سنة على نشر أول مسودة بحثية عن الجينوم البشريّ، والتسلسل الكامل له11)، وعادة ما تتطلب التقنيات الحديثة لتحديد البِنى بعض الاستدلال الحسابيّ. ومع تحسُّن توقعات «ألفا فولد2»، قد يصبح من الصعب البت في التناقضات بين نماذج البروتينات، والتجارب، وهو موقف مألوف لعلماء الفيزياء12، إلا أنه غير مسبوق غالبًا في حقل البيولوجيا.

أما المواضع التي تتسم بتركيب فوضوي في البروتينات، والتي لا تملك أشكالًا محددة بوضوح، لكنها تشفِر في الغالب أجزاء ذات وظائف مهمة من البروتينات، فهي تمثِّل تحديًا مستمرًّا وأساسيًّا أمام «ألفا فولد2»، وبالتالي تمثل عائقًا يَحُول دون فهْمنا لبِنْية بعض البروتينات. ويلزم لدى تصميم الوسائل المستقبليّة أخذ هذا التركيب الفوضوي في الاعتبار، والبدء في فهم المرونة المتأصلّة في أغلب البروتينات.

أما في المقارنات الأخرى بين مشروع الجينوم البشريّ، والتقدُّم محل الدراسة، فترجح كفة نظام «ألفا فولد2»، حيث إن التنبؤ بالبِنَى البروتينيّة رخيص التكلفة (نسبيًّا)، وستكون التوقعات حول بِنى جميع البروتينات متاحة عن قريب، بينما استغرقت تقنيّة تعيين التسلسلات الجينيّة سنوات لتنتشر وتزدهر. والوسائل الحوسبية تتطور، ومن ثم ربما يصبح من الممكن قريبًا توقُّع بِنى المركبات المعقدة متعددة البروتينات، والبِنى البديلة للبروتين (في البروتينات التي تبدِّل هيئتها)، وبِنَى البروتينات المصممة، وذلك بمستويات من الدقة تضاهي مستوى الدقة الذي يحرزه حاليًّا نظام «ألفا فولد2». وأخيرًا، فالبِنَى البروتينية تتيح على الفور فهمًا متعمقًا لبعض النواحي البيولوجية، لأنها تتناسب مع الأطر النظريّة الراسخة التي تربط بِنْية البروتين بوظيفته، على عكس التسلسلات الجينيّة، التي كانت غامضة - إلى حد كبير - في فجر عصر علم الجينوم. ومن ثم، قد نحصد ثمار هذه الثورة الجديدة أسرع. 

References

  1. Bernstein, F. C. et al. J. Mol. Biol. 112, 535–542 (1977). | article
  2. Jumper, J. et al. Nature 596, 583–589 (2021). | article
  3. Tunyasuvunakool, K. et al. Nature 596, 590–596 (2021). | article
  4. Senior, A. W. et al. Nature 577, 706–710 (2020). | article
  5. Kuhlman, B. & Bradley, P. Nature Rev. Mol. Cell Biol. 20, 681–697 (2019). | article
  6. AlQuraishi, M. Curr. Opin. Chem. Biol. 65, 1–8 (2021). | article
  7. Jumper, J. M., Faruk, N. F., Freed, K. F. & Sosnick, T. R. PLoS Comput. Biol. 14, e1006578 (2018). | article
  8. Ingraham, J., Riesselman, A., Sander, C. & Marks, D. Int. Conf. Learning Representations https://openreview.net/forum?id=Byg3y3C9Km (2019).
  9. Wu, Z., Johnston, K. E., Arnold, F. H. & Yang, K. K. Curr. Opin. Chem. Biol. 65, 18–27 (2021). | article
  10. Millán, C. et al. Preprint at bioRxiv https://doi.org/10.1101/2021.06.21.449228 (2021).
  11. Nurk, S. et al. Preprint at bioRxiv https://doi.org/10.1101/2021.05.26.445798 (2021).
  12. Brumfiel, G. Nature https://doi.org/10.1038/nature.2012.10249 (2012). | article

محمد القريشي

يعمل في مركز إرفينج الطبي في جامعة كولومبيا، جامعة كولومبيا، نيويورك، نيويورك 10032، الولايات المتحدة الأمريكية.

البريد الإلكتروني: m.alquraishi@columbia.edu