صندوق الأدوات

ورشة عمل مُبسَّطة في نُظُم المعلومات الأحيائية

اختبار تجريبيّ لمُوصِّل حيويّ يجمع أدوات علم الجينوم وبياناته في حزمة مفيدة، يمكن تشغيلها في السحابة الإلكترونية.

دابليو. وايت جيبز

  • Published online:

ILLUSTRATION BY THE PROJECT TWINS

لقد جَعَلَت خدمات الحوسبة السحابية، التي تقدمها شركات مثل أمازون، ومايكروسوفت، وجوجل الحوسبة عالية الأداء في متناول الباحثين كافةً. وفي العقد المنصرم، حقق مشروع يُعرَف باسم "بَيُوكُونْدَكْتُور" (المُوصِّل الحيويّ) إنجازًا مماثلًا في مجال نظم المعلومات الأحيائية، الذي يتسم غالبًا بالتعقيد.

إنّ  مشروع بَيُوكُونْدَكْتُور - الذي أطلقته مجموعة من خبراء نظم المعلومات الأحيائية في عام 2001، بقيادة روبرت جنتلمان- يُقدِّم مجموعة من البرمجيات التي تُسَهِّل على الباحثين والمهندسين تحليل البيانات الجينومية، وتمثيلها بالصور، ومشاركتها. وقد جَمَّع المشروع آلاف الأدوات للأحياء الجزيئية الحاسوبية التي تعمل جميعها بلغة "آر" للبرمجة الإحصائية، جنبًا إلى جنب مع بيئة "آر ستوديو" البرمجية.

ومشروع بَيُوكُونْدَكْتُور مفتوح المصدر، شأنه شأن لغة "آر"، وبيئة "آر ستوديو"؛ حيث يمكن تنزيله وتثبيته مجانًا مثلهما، لكن مجموعات بيانات علم الجينوم قد تكون ضخمة، وتتطلب قوة معالجة، أو ذاكرة، أو مساحة تخزين أكبر مما هو متاح لدى الباحثين. ولحسن الحظ، يأتي مشروع بَيُوكُونْدَكْتُور أيضًا في شكل تكوينات جاهزة للاستخدام، يمكن تشغيلها باستخدام الموارد التي لا حدود لها تقريبًا، المتاحة على سحابة أمازون، أو غيرها من الخدمات المماثلة، وبأسعار تبدأ من أقل من 0.20 دولار أمريكيّ في الساعة.

في الواقع، لقد جَعَلَت السحابة الحاسوبية معدات الحاسب زهيدة التكلفة، بينما جعل مشروع بَيُوكُونْدَكْتُور برمجيات الجينوم مجانية. وتتيح الوثائق والبرامج التعليمية والدورات التدريبية الجيدة الوصول إلى هذه التقنيات لخبراء نظم المعلومات، والمبتدئين فيها على حد سواء. وما يَعِد به مشروع بَيُوكُونْدَكْتُور، الذي يعمل في السحابة الحاسوبية، هو خفض تكلفة علم الأحياء الحاسوبية، مع تمهيد طريق التعليم أمام علماء الأحياء الجزيئية، وتعزيز الإنتاجية.

الاختبار التجريبيّ

هل الأمر حقًّا بهذه السهولة التي يبدو عليها؟ تحدثتُ إلى الخبراء والمبتدئين في مشروع بَيُوكُونْدَكْتُور، ثم اختبرت هذه الورشة المُبسَّطة بنفسي.

تمثّلَتْ الخطوة الأولى في اختيار مهمة ما، وبعض البيانات التجريبية. لم يوجد نقص في الخيارات المتاحة؛ فالتحديث الأخير (3.6) الصادر في نهاية أكتوبر 2017 تَضَمَّن حوالي 1500 حزمة برمجية، و326 مجموعة بيانات تجريبية، و911 أداة توصيف. وتضمّ قاعدة بيانات محرك البحث "بَبْمِد" PubMed حوالي ألف مقال، تتناول استخدام بَيُوكُونْدَكْتُور بطرق متنوعة. فنشرت إحدى الدراسات1 في عام 2017 البرمجيات اللازمة لدراسة أنماط التعبير الجينيّ لدى أشخاص يعانون مرضًا طفيليًّا، ربما كان قاتلًا، قبل العلاج وبعده. وثمة دراسة أخرى حللت النماذج الاستقلابية من مَزارع عنب أصابها الجفاف2.

يشير مايكل لاف، عالِم الوراثة في جامعة كارولينا الشمالية في تشابل هيل، إلى أن مشروع بَيُوكُونْدَكْتُور صار "إلى حدٍّ كبير معيارًا للعديد من المهام في البيانات الجينومية عالية الإنتاجية، مثل تحليل التعبير الجينيّ، وتنسيق التوصيفات الجينومية من العديد من المصادر". وتُستخدَم الحزم أيضًا على نحو متزايد في علم الوراثة اللاجينية، وعلم الجينوم البيئيّ، ومعالجة الصور، والبروتيوميات.

يطلب لاف من طلابه الآن في مقرره التعليميّ التمهيديّ للدراسات العليا في الأحياء الحاسوبية استخدام بَيُوكُونْدَكْتُور. لذا، التمست نصيحة أنكي تشو، وهي طالبة دكتوراة لدى لاف، بدأت تَستخدِم بَيُوكُونْدَكْتُور منذ عام تقريبًا، لإجراء تحليل للتعبير التفاضليّ لبيانات الترانسكريبتوم. توصي تشو بالاطلاع على البرامج التعليمية، وأدلة الاستخدام العديدة، وكذلك النُّسَخ التجريبية الموضِّحة لكيفية الاستخدام، والمعروفة باسم "نُبَذ مختصرة" على موقع Bioconductor.org (انظر: "الغوص في أعماق بَيُوكُونْدَكْتُور").

سواء كنت تفضل التدريب الرسميّ، أم التعلُّم الذاتيّ، ستجد الكثير من الموارد المفيدة التي تعينك على ارتقاء منحنى تعلُّم بَيُوكُونْدَكْتُور.

وَرَد وصف مشروع بَيُوكُونْدَكْتُور بدقة في القسم المعنون Perspective (وجهة نظر) في دورية نيتشر ميثودز Nature Methods4 في عام 2015. وفيما يخص المبتدئين، يوصي مايكل لاف، عالِم الوراثة في جامعة كارولاينا الشمالية بمدينة تشابل هيل، بحضور اجتماع أو ورشة عمل عن مشروع بَيُوكُونْدَكْتُور. ويتوفر جدول الفعاليات، وكذلك الشرائح والأكواد من الاجتماعات السابقة، على الإنترنت.

ومُرْفَق بهذا المقال مقطع فيديو (انظر" go.nature.com/2antzqz)، يعرض الخطوات الأساسية لإنشاء خادم لمشروع بَيُوكُونْدَكْتُور على سحابة أمازون، واستخدامه لإجراء تحليلات للتعبير الجينيّ التفاضليّ، ولبيانات الترانسكريبتوم للحمض النوويّ الريبيّ. ويتوفر العديد من البرامج التعليمية الأخرى على قناة مشروع بَيُوكُونْدَكْتُور على "يوتيوب".

تُقَدِّم جامعة جونز هوبكنز في بالتيمور بولاية ميريلاند مقررًا تعليميًّا تمهيديًّا على نظام الفصول الإلكترونية "كورسيرا"، يُدرِّسه أخصائي نظم المعلومات الأحيائية كاسبر هانسن، وهو من أكثر المشاركين في تأسيس مشروع بَيُوكُونْدَكْتُور نشاطًا، وأطولهم مدةً في العمل بالمشروع.

ثمة خيار مجانيّ للتعلّم الذي يتحكم الدارس في وتيرته، يوفّره موقع التعلّم عبر الإنترنت "إيديكس"، وجامعة هارفارد في كامبريدج بولاية ماساتشوستس، كجزء من سلسلة من المقررات التعليمية التي تغطي أيضًا المفاهيم الرياضية، ومفاهيم علم البيانات، التي يستند إليها علم الجينوم الحاسوبيّ.

توجد العشرات من تسلسلات سير العمل الأساسية والمتقدمة، الموجهة لإنجاز المهام على الموقع الإلكترونيّ لبَيُوكُونْدَكْتُور. وقد خضع الكثير من هذه التسلسلات لتقييم الأقران، ونُشر على بوابة بَيُوكُونْدَكْتُور على موقع F1000Research.com. ويضم موقع بَيُوكُونْدَكْتُور أيضًا وثائق كاملة لجميع الحِزَم، ومجموعات البيانات، بالإضافة إلى برامج تعليمية خضعت لمراجعة المستخدمين.

دابليو وايت جيبز        

تتوفر كذلك للباحثين برامج تعليمية خضعت لمراجعة الأقران، تُعرَف باسم "تسلسلات سير العمل"، وتُحدَّث مع تطور المنصة. وأحد هذه التسلسلات، التي  شارك لاف في وضعها3 يُطلِع القرّاء خطوة بخطوة على تحليل للتعبير التفاضليّ لبيانات تسلسل الحمض النووي الريبي. وقد استرشدتُ بتسلسل سير العمل هذا في الاستكشاف الذي كنتُ أقوم به.

سبق أن فتحتُ حسابًا على سحابة أمازون الحاسوبية، المسماة "إيلاستيك كومبيوت كلاود"، (المعروفة اختصارًا باسم "EC2")، وقمت بتهيئة خوادم سحابية من قبل. وفيما يخص حديثي العهد بالحوسبة السحابية، يوفر مشروع بَيُوكُونْدَكْتُور لهم تعليمات خطوة بخطوة. وتثبيت بَيُوكُونْدَكْتُور على خادم "إي سي 2"، الذي يَستخدِم معالِجًا رباعي النواة، وذاكرة سعتها 16 جيجابايت، لم يتطلب سوى إدخال كود تعريف "البَيُوكُونْدَكْتُور" الذي أريده، وتحديد بضعة خيارات، والنقر على "تشغيل". وفي أقل من ساعة واحدة، كنتُ قد قمت بضبط وتهيئة الخادم، وسَجَّلْتُ دخولي إلى بيئة "آر ستوديو" البرمجية التي تعمل على ذلك الخادم، وبدأتُ جولتي في تسلسل سير العمل، الذي وضعه لاف. ينقِّب هذا التسلسل في بيانات تسلسل الحمض النووي الريبيّ، المُجمَّعة من خلايا المسالك الهوائية البشرية؛ لتعيين الجينات المُعبَّر عنها تفاضليًّا عند معالجة الخلايا بالكورتيكوستيرويد.

منحنى التعلُّم

إنَّ أغلب العمل في بَيُوكُونْدَكْتُور يُجرَى بكتابة كود "آر" مباشرةً في موجِّه أوامر "آر ستوديو"، بدلًا من التأشير والنقر بالفأرة. وتنفِّذ بيئة تطوير "آر ستوديو" أوامر لغة "آر"، وتُخرِج النتائج. وتُقدِّم أيضًا تفسيرات تفاعلية لكلٍّ من وظائف لغة "آر"، ووظائف بَيُوكُونْدَكْتُور، ويمكنها عرض قِيَم المتغيرات وهياكل البيانات؛ وهي خصائص مفيدة لتصحيح أخطاء الكود.

مَهَّد الكثير من هذه الخصائص الطريق أمامي في تسلسل سير العمل (انظر: go.nature.com/2antzqz). فإذا كتبت بضعة أحرف من اسم أمر أو متغيِّر ما، فستظهر لك قائمة بالنتائج المطابِقة المحتمَلة لما كتبت. وتكشف نصائح منبثقة أخرى عن بِنْية الأمر ووظيفته. وتظهر رسوم بيانية إلى جانب نافذة الكود يمكن مشاركتها على الإنترنت بسهولة. وبفضل توجيهات تسلسل سير العمل وهذه الخصائص، استغرقني الأمر ساعتين فقط - وأقل من تكلفة القهوة الجاهزة بالحليب - لتحويل بيانات أولية عن تسلسل الحمض النووي الريبي إلى سلسلة من الجداول الموجزة، والأشكال عالية الجودة الجديرة بالنشر، بما في ذلك الخرائط الحرارية للتعبير الجيني، وتحليلات المكونات الأساسية.

إنّ استخدام الرسوم البيانية حيثما اقتضت الحاجة فقط، مثل استخدامها في وضع المخططات وحِزَم المرئيات، يُسَهِّل التغلب على عقبة الدخول، ما يُمَكِّن الباحثين من الإسهام على نحو أيسر بأدوات بَيُوكُونْدَكْتُور الخاصة بهم، التي تُعرَف باسم "الحزم". وقد صارت تشو متأقلمة مع المنصة في غضون بضعة أشهر فقط بقَدْر مَكَّنها من تطوير حزمتها الخاصة لتعيين كمية التغيّرات في التعبير الجينيّ. ويساعد أيضًا التركيز في سطور الأوامر فريق تطوير بَيُوكُونْدَكْتُور الأساسيّ على تنفيذ ممارسات تطوير برمجيّ جيدة، تضمن عمل جميع المكونات، وفقًا لأدلة الاستخدام، وتماشيها معًا بسلاسة.

إنّ خيار التصميم يمكن أن يحدّ من سهولة الاستخدام. تقول تشو إنها وجدت صعوبة في فهم كيفية تجميع مشروع بَيُوكُونْدَكْتُور لأنواع مختلفة من البيانات - مثل متغيرات نوع المريض الاجتماعيّ، وعمره، ومكان الخزعة، وموضع الجين، ومستويات التعبير الجينيّ - على هيئة "مكونات برمجية مستقلة" يمكن تحليلها أو معالجتها كوحدات. يقول لاف: "فيما يخص المبتدئين المعتادين على أنواع البيانات الأساسية بلغة "آر" (كالمصفوفات والمُتجهات، وما إلى ذلك)، يوجد نوع من منحنى التعلُّم فيما يتعلق بتذكُّر جميع سبل التعامل مع هذه المكونات البرمجية الغنية بالبيانات، أو الوصول إليها".

لقد عشتُ تلك الحيرة بنفسي عند تعاملي مع تسلسل سير العمل، الذي وضعه لاف؛ إذ عملت غالبية عينات الأكواد بسلاسة، كما هو متوقع، وإن كانت هناك أخطاء قد نتجت عن بضعة أوامر، مع العلم بأن ثمة حزمة ضرورية لم تكن مُثبتة، وتمّ حلّ الأخطاء ببساطة بالنقر على زر "تثبيت حزمة" في بيئة "آر ستوديو"، وكتابة اسم الحزمة، لكن الانحراف عن البرنامج النصيّ لتسلسل سير العمل، ومحاولة إجراء تحليل من نوع جديد بمفردي سيتطلب مِنِّي تدريبًا أكثر بكثير.

تقول تشو إنها قَرَأَت مرارًا وتكرارًا النُبَذ المختصرة، وأدلة المستخدِم، حتى استوعبت سلوك كل وظيفة، واستظهرت الإعدادات الافتراضية، وأنواع البيانات. ويضيف لاف قائلًا: "عندما يصل المُحلِّل إلى مرحلة يعرف عندها ماهية الخطوات التالية، دون أن يضطر إلى البحث عنها في الوثائق، سيكون بوسعه إجراء معالجات معقدة جدًّا للبيانات، واستخلاص نتائج وأرقام جاهزة للنشر بشكل أو بآخر بسرعة مهولة باستخدام بَيُوكُونْدَكْتُور".

إنّ هذه البساطة هي التي تجذب الكثيرين للمشروع. يقول لاف، الذي كتب حزمة DESeq2، التي يقوم عليها تسلسل سير العمل الذي استخدمته، إنه تعلّق بالمشروع على الفور. ويسترجع تجربته مع المشروع قائلًا: "ذُهلتُ عندما اكتشفت أنه يمكن اكتشاف أنماط ظاهرية فرعية لمرض ما بمجرد النظر إلى القياسات المستخلصة من مصفوفات دقيقة. وانتهى بي الحال إلى الإسهام بأول حزمة لي في مشروع بَيُوكُونْدَكْتُور في عام 2011. ومنذ ذلك الحين، شاركت على نحو أكبر في تقديم الحِزَم، وتسلسلات سير العمل، وحضور الاجتماعات ذات الصلة، والمشارَكة في دعم الموقع، وغير ذلك".

لذا، بادِروا بتجربة المشروع. فمع وجود بَيُوكُونْدَكْتُور في السحابة الحاسوبية، صار الأمر أيسر من أي وقت مضى للغوص في نظم المعلومات الأحيائية.

Affiliation