صندوق الأدوات

علم الفلك يلجأ إلى الحوسبة السحابية

مستخدمو التليسكوبات يكشفون عن ستة دروس تتعلق بهجرة البيانات الضخمة من الخوادم المخصصة إلى سحابة الإنترنت. 

تشارلز كيو تشوي
  • Published online:

Illustration by The Project Twins

يمارس الفلكيون عملهم عادةً عبر التقدم بطلب إلى المراصد للسماح لهم باستخدام التليسكوبات لفترة من الزمن، وتنزيل البيانات الناتجة عن أرصادهم، لكن كم البيانات المتولدة عن التليسكوبات أخذ في التزايد بمعدلات فلكية -إن جاز التعبير- ومن ثم أضحت الوسائل القديمة عاجزة عن مواكبته.

فمرصد فيرا سي روبن في تشيلي –على سبيل المثال– جُهِّز لجمع بيانات تُقدَّر بعشرين تيرابايت في الليلة الواحدة، في إطار مشروع "المسح المكاني والزماني التراكمي" Legacy Survey of Space and Time (المعروف اختصارًا بـLSST)، الذي سيستمر طوال عشر سنوات، بمجرد أن يبدأ تشغيل المرصد في عام 2022. وهذا الكَمّ من البيانات يعادل إجمالي ما جمعه مشروع "مسح سلون الرقمي للسماء"Sloan Digital Sky Survey — الذي أعد الخرائط ثلاثية الأبعاد الأكثر تفصيلًا للكون حتى الآن —في الفترة ما بين عامي 2000 و2010. أما مشروع "مصفوفة الكيلومتر المربع"The Square Kilometre Array  —وهي مصفوفة يُعتزم أن تشكل التليسكوب الراديوي الأكبر على مستوى العالم، وتشمل مواقع في أستراليا وجنوب أفريقيا— فمن المزمع أن يولّد 100 ضعف ذلك الكَمّ من البيانات، منتجًا ما يصل إلى بيتابايتين يوميًّا، عند انطلاقه على الإنترنت في عام 2028. وبالإضافة إلى ذلك، سوف يولّد مشروع "الجيل التالي من المصفوفة بالغة الكبر" next–generation Very Large Array (اختصارًا ngVLA) مئات البيتابايتات سنويًّا، أي حوالي ألف ضعف ما ينتجه مشروع المصفوفة بالغة الكبر (VLA) اليوم، وفقًا لما ذكره برايان جليندينينج، المدير المساعد لقسم إدارة البيانات والبرمجة بالمرصد الفلكي الراديوي الوطني، الذي يقيم في ألباكركي بولاية نيو مكسيكو.

وتصعب حيازة مجموعات بيانات كهذه باتباع سير عمل تقليدي؛ فلا يمكن تنزيل هذا الكم من البيانات وتخزينه محليًّا، على حد قول ماريو يوردج، الفلكي بجامعة واشنطن في سياتل، فضلًا عن أن تصميم موارد حاسوبية محلية وصيانتها للتأقلم مع هذا الوضع يُعَد بدوره غير عملي. ويقدّر وليام أو مولاين -مدير مشروعات إدارة البيانات في مشروع "المسح المكاني والزماني التراكمي" في مدينة توسان بولاية أريزونا الأمريكية- أن تكلفة تطوير البنية التحتية الحاسوبية وتعيين طاقم العاملين اللازمين لإدارة مشروع "المسح المكاني والزماني التراكمي" من الصفر قد تقترب من 150 مليون دولار على مدار عشر سنوات. ومن ثم، وعوضًا عن ذلك، اتجه القائمون على المشروع، شأنهم في ذلك شأن الكثيرين من بقية المجتمع الفلكي، إلى الخدمات السحابية. وفي هذا المقال، نستعرض ستة دروس مستفادة من تجربة اختصاصيي علم الفلك في هذا الصدد.

الاستثمار في القوة الحوسبية للسحابة

لا يكفي نقل البيانات إلى سحابة الإنترنت، بل يحتاج الباحثون إلى أن يكونوا قادرين على التفاعل معها. وتعلِّق فروسي أيكونومو، التي تدير منصة العلوم التابعة لمرصد روبن، على هذا بقولها: "بدلًا من اتباع النموذج التقليدي الذي ينقل فيه الفلكيون البيانات على أجهزة الكمبيوتر الخاصة بهم، نرغب في أن يقوموا بتحميل الكود البرمجي الخاص بهم إلى البيانات" وإجراء تحليلات البيانات عن بُعد.

وعلى سبيل المثال، على حد قول ليان جاي، عالمة إدارة البيانات بمشروع "المسح المكاني والزماني التراكمي" التابع لمرصد روبين في مدينة توسان، سوف يتيح مشروع "المسح المكاني والزماني التراكمي" إمكانية الدخول المجاني على منصة العلوم الخاصة به على شبكة الإنترنت –وهي مجموعة من دفاتر "جوبيتر" Jupyter الحوسبية، وبوابات الويب، وواجهات برمجة التطبيقات (API)– لاستخدامها في أغراض تحليل البيانات، وتصفحها، واستخراجها. وباستخدام متصفح ويب، سوف يستطيع مستخدمو المشروع كتابة كود برمجي بلغة بايثون، وتشغيله، بغرض تحليل مجموعة بيانات المشروع بأكملها عن بُعد عبر خوادم يستضيفها المركز الوطني لتطبيقات الحوسبة الفائقة في أربانا بولاية ألينوي، وذلك بدلًا من تحميل البيانات إلى أجهزة الكمبيوتر الخاصة بهم.

وقد حقق هذا النهج نجاحًا مع فروع معرفية أخرى كذلك، ومنها -على سبيل المثال- تعاون مشروع "بانجيو"Pangeo ، وهو منصة تختص بتحليل كميات البيانات الضخمة في مجال علوم الأرض مع منصة "جوجل كلاود" Google Cloud، من أجل إتاحة بيانات المناخ بأحجام تقدَّر بالبيتا بايت للعامة، وجعْلها قابلة للحوسبة، وهو ما يُسهِّل على الباحثين التعاون معًا، وتوسيع نطاق أبحاثهم، وتكرار نتائجها، حسبما يعلق جو هامان، عالِم المناخ في المركز الوطني لأبحاث الغلاف الجوي في بولدر بولاية كولورادو.

أَلَا توجد بيانات ضخمة؟ لا يهم

"لا شك أن المشروعات التي لا تتضمن سوى بيانات متوسطة الحجم يمكنها أن تجني منافع كثيرة من الحوسبة السحابية"، على حد قول إيفيلينا مومتشيفا، عالمة مهام الرصد في معهد علوم تليسكوبات الفضاء في بالتيمور بولاية ميريلاند الأمريكية، إذ يمكن عندئذ للباحثين استخدام موارد حاسوبية تفوق بمراحل ما تتمتع به حاسباتهم المحمولة، مقابل تكلفة زهيدة نسبيًّا، حسبما تنوه مومتشيفا. وبعض من مزودي الخدمات السحابية يتيحون موارد حاسوبية مجانًا لأغراض تعليمية.

وعلى سبيل المثال، في عام 2015، لم تمتلك مومتشيفا وزملاؤها سوى خادم ذي معالج ثماني النواة لمشروع "3D-HST" الخاص بهم، الذي اضطلع بتحليل بيانات من "تليسكوب هابل الفضائي"، من أجل الوصول إلى فهمٍ أفضل للقوى التي تُشكّل المجرات في الكون البعيد. ومن ثم، لجأوا إلى الاستعانة بـ"خدمات أمازون ويب" AWS السحابية، حيث استطاعوا في نهاية المطاف تأجير خمسة خوادم مزودة بـمعالجات من فئة المعالجات التي تتمتع بـ32 نواة. وتعلِّق مومتشيفا على ذلك بقولها: "أشارت حساباتنا الأولية التقريبية إلى أن جميع المهام التي تَعَيَّن علينا القيام بها كانت ستستغرق ثلاثة أشهر، إذا استخدمنا أجهزة الكمبيوتر الخاصة بنا، لكنْ عبر الاستعانة بمزود خدمات سحابية، استغرق العمل خمسة أيام، وتَكلَّف أقل من ألف دولار".

السعر ليس كل شيء

لكن لا يزال ثمة جدل حول ما إذا كانت الخدمات السحابية أرخص من مراكز البيانات المحلية المتاحة للباحثين، أم لا. وعلى سبيل المثال، أفاد تقرير "مشروع ماجلان"، التابع لوزارة الطاقة الأمريكية، والصادر في عام 2011، بأن مراكز الحوسبة بالوزارة يُكبِّد استخدامها عادةً تكلفة أرخص مما تُكَبِّده الخدمات السحابية التجارية بما يتراوح ما بين ثلاثة أضعاف، وسبعة أضعاف. وقد ظل هذا الفرق في التكلفة كما هو تقريبًا حتى اليوم، بيد أنه باستخدام تقنيات تحسين الكود البرمجي، يستطيع الباحثون تقليص هذا الفارق. وعلى سبيل المثال، تشير التقديرات الصادرة عن جامعة واشنطن إلى أن العمليات المجراة على السحابة، التي تُكَلِّف 43 دولارًا لقاء التجربة الواحدة تكلف 6 دولارات فحسب بعد بضعة أشهر من تحسينها، حسبما يقول يورِدج. أما تنفيذ المهام نفسها في فترات زمنية متقاربة، باستخدام مركز بيانات محليّ، فكان سيكلف الفريق البحثي حوالي 75 ألف دولار لقاء استخدام الأجهزة الحاسوبية، والكهرباء، إلى جانب أجور العاملين، وفقًا لتقديرات يورِدج، وكان ذلك سيتطلب أن تظل الخوادم نشطة على مدار 87% من الوقت طوال ثلاث سنوات. وذلك المستوى من استخدامها "من المستبعد حدوثه إلى حد كبير"، على حد قوله.

وبالإضافة إلى ذلك، قد يؤثر عامل توفير الوقت على قرار الخيار الذي ستستخدمه. ويشرح يورِّدج هذا قائلًا: "إذا كانت عمليات تحليل البيانات تستغرق تسعة أشهر في مركز البيانات الذي تتبعه، بينما لا تستغرق سوى شهر على السحابة مقابل القدر نفسه من المال، فإن فارق الثمانية أشهر يصبح مثيرًا للاهتمام للغاية".

لكن الاختيار لا ينحصر بالضرورة في أحد الخيارين، حيث بإمكان المشروعات استخدام مراكز البيانات المحلية لأغراض التخزين، والحوسبة الروتينية، وتعزيز تلك الموارد من خلال تقنية "الاندفاع السحابي" (التي تُستخدم فيها سحابة هجينة، هي مزيج بين سحابة عامة وخاصة) في حال ارتفاع الطلب على البيانات ارتفاعًا كبيرًا يستدعي دعمًا إضافيًّا للقوة الحوسبية، على حد قول أو مولاين.

وفي الوقت نفسه، ربما تستطيع هيئات التمويل مساعدة الباحثين على التفاوض من أجل الحصول على أسعار أفضل، على حد قول فيليب بورن، مدير قسم علم البيانات بجامعة فيرجينيا في شارلوتفيل. وهذا هو ما تقوم به معاهد الصحة الوطنية الأمريكية (NIH) من خلال مبادرة "البنية التحتية للبحوث العلمية والتكنولوجية للاكتشاف والتجريب والاستدامة"، (اختصارًا STRIDES)، التابعة لها، التي تستعين بموارد سحابية لتنظيم بيانات هذه المعاهد.

وفي ذلك الصدد، يقول بورن: "في مبادرة STRIDES، إذا تعهدت مؤسسة تمويل ما بتخصيص قدر معين من أموالها للمنح، فإن شركات تزويد الخدمات السحابية -على غرار "جوجل"، و"مايكروسوفت"، و"أمازون"- في جميع أنحاء العالم تستطيع التنافس فيما بينها، بحيث يتمكن الباحثون من الحصول على أفضل العروض من مزودي هذه الخدمات". وقد ساعدت المبادرة -منذ إطلاقها في عام 2018- الباحثين في أكثر من 225 مشروعًا، بلغ إجمالي ساعات الحوسبة فيها حوالي 20 مليون ساعة، ووفرت ما يُقدَّر بستة ملايين دولار، حسب قول سوزان جريجوريك، المسؤولة عن الخطة الاستراتيجية لعلم البيانات الخاصة بمعاهد الصحة الوطنية في بيثيسدا بولاية ميريلاند الأمريكية.

دمج البيانات

عبر الجمع بين مجموعات بيانات متعددة، قد تكشف الحوسبة الحسابية عن معلومات ربما لم تكن لتظهر في كل مجموعة بيانات منفردة. وفي هذا الصدد.. تعلِّق مومتشيفا بقولها: "تتعاظم فائدة البيانات الفلكية عدة مرات كلما اجتمع المزيد منها في مكان واحد".

وقد ألهم مشروع "قاعدة البيانات العامة، التابعة لمعاهد الصحة الوطنية"NIH’s Data Commons  -وهو مشروع تجريبي، يخزِّن فيه الباحثون البيانات والبرامج المتعلقة بالطب الحيوي والدراسات السلوكية، ويتبادلونها معًا- يورِدج وآخرين بطلب تمويل يُخصص لبناء قاعدة بيانات عامة فلكية لجمْع مجموعات البيانات والأدوات الفلكية في موقع مشترك في السحابة. ويؤمل من ذلك "إزالة العراقيل المرتبطة بالبنى التحتية والعوائق البرمجية التي تَحُول دون ولوج الباحثين إلى تحليلات البيانات الضخمة"، على حد قول يورِدج، الذي أطلق بالفعل -بالتعاون مع زملائه- مجموعة بيانات تحت اسم مشروع "زويكي لرصد الأحداث الفلكية العابرة" Zwicky Transient Facility، الذي يشمل 100 مليار عملية رصد لملياري جرم. وإذا نجحوا في إظهار المنافع التي يحققها مشروعهم، فربما تحذو مشروعات أخرى حذوهم.

ويتصور يورِدج أن تأثير ذلك قد يشبه تأثير إطلاق شركة "جوجل" تطبيق "خرائط جوجل" Google Maps، وواجهة برمجة التطبيقات الخاصة به، إذ إن الشركة آنذاك "أتاحت عبر ذلك فرصةً لتطور منظومة كاملة من التطبيقات التي لم نكن نعرف أنها ممكنة."

التدريب أولًا وأخيرًا

لإنشاء مشروع على السحابة، يحتاج المستخدمون إلى إنشاء حساب لدى أحد مزودي الخدمات السحابية، والاختيار من بين منظومة محيرة من الخيارات، وتثبيت البرامج الخاصة بالخدمة، وتعديلها في الأغلب، كي تستطيع العمل على العديد من الأجهزة في وقت واحد. ويحذِّر بورن من أن الأخطاء في هذا السياق قد تكون باهظة الثمن، موضحًا ذلك بقوله: "لقد أهدر طلاب الدراسات العليا عديمو الخبرة -بغير قصد- الآلاف من ساعات تشغيل وحدات المعالجة المركزية على عمليات حوسبية لا يمكن السيطرة عليها، وتدور في حلقة مفرغة"، مشيرًا إلى المهام الحاسوبية التي لا تكتمل أبدًا، نظرًا إلى وجود أخطاء في الكود البرمجي.

 ولتجنب ذلك.. ينصح بروس بيريمان -وهو عالِم أول في مركز تحليل الأشعة تحت الحمراء ومعالجتها، التابع لمعهد كاليفورنيا للتكنولوجيا في باسادينا- المستخدمين بالتدرب قبلًا على هذه المهمة، عن طريق تنفيذ مشروعات تجريبية صغيرة النطاق باستخدام الأجهزة المحلية، أو سحابات المؤسسات الأكاديمية. ففي سحابة الإنترنت "تتضاعف تبعات الأخطاء".

ويضيف يورِدج أنه يجب عدم تجاهل الاعتبارات الأمنية. فعلى الرغم من أن الخصوصية والأمن في سحابة الإنترنت يتفوقان عليهما لدى الموارد المحلية، فإن تهيئة الموارد السحابية قد تكون عملية معقدة، وقد يتسبب خطأ ارتكبه مبرمِج تعوزه الخبرة في كشْف البيانات الخاصة بالباحث للجميع. وينوه يورِدج لذلك قائلًا: "إن مراكز البيانات الخاصة تكون عادةً مؤَمَّنة من قِبَل المؤسسة‘"، في حين قد يدع مزود الخدمة التجاري خطًأ كهذا يمر دون عائق.

التركيز على الانتشار

عبر تقديم الموارد الحاسوبية بتكلفة قليلة، أو مجانًا، فإن الحوسبة السحابية تتيح للمؤسسات الصغيرة تحقيق اكتشافات كبيرة. ويُعقِّب أو مولاين على هذا بقوله: "يمكنني إنشاء دفاتر حوسبية في جنوب أفريقيا، كي أشغلها عبر منصة علوم "المسح المكاني والزماني التراكمي"، التي تحوي جميع الأدوات المتوفرة بجامعة برينستون، وسيكون كل ما أحتاجه هو متصفح ويب".

لكن تحقيق ذلك بكفاءة يتطلب تدريبًا، على حد قول دارا نورمان، الفلكية والباحثة في المرصد الوطني لعلم الفلك الضوئي. وإحدى النقاط الجيدة للبدء منها في تحقيق ذلك هي دليل الحوسبة السحابية للعلوم والهندسة (go.nature.com/338hdpt)، الذي يصفه بيريمان بأنه "أفضل دليل عملي للبدء في استخدام السحابة". ويوجد أيضًا مشروع مختبرات ماست (MAST Labs) التجريبي، الذي يديره أرشيف ميكولسكي للتليسكوبات الفضائية (MAST)، وهو يحتوي على نماذج من الدفاتر الحوسبية التي تُستخدَم للولوج إلى بيانات الأرشيف عبر "خدمات أمازون ويب"، (go.nature.com/314gxyo)؛ إلى جانب دليل توجيهي من "خدمات أمازون ويب" عن استخدام بيانات التليسكوب هابل (go.nature.com/33bad0a).

وتنصح نورمان بالتعاون مع الباحثين في المعاهد الأصغر، للتأكد من أن الأفكار المقترحة في هذا السياق سوف تناسبهم على أرض الواقع. كما توصي بتشجيع بناء شبكات تَواصُل مع طلاب هذه المعاهد. وتختم حديثها مخاطِبةً الباحثين قائلة: " إذا كان العديد من الطلاب المتميزين الذين ترغب في ضمهم إلى معهدك يأتون من مراكز بحثية أصغر تعاني من نقص الإمكانيات، فسوف يفيدك إشراكهم في أبحاثك، كي تعدّهم للقيام بهذه المهام في مرحلة الدراسات العليا".

تشارلز كيو تشوي كاتب حُرّ، مقيم في مدينة نيويورك.