صندوق الأدوات

إحدى عشرة نصيحة للتعامل مع مجموعات البيانات الضخمة

إن معالجة مجموعات البيانات الضخمة ليست بالعملية اليسيرة، إلا أن هذه النصائح والحِيَل يمكن أن تجعلها أسهل.

آنا نوفوجرودسكي

  • Published online:

Illustration by The Project Twins

توجد البيانات الضخمة في كافة مجالات البحث العلمي، وهي تزداد ضخامة كل يوم؛ كما تزداد كذلك صعوبة التعامل معها. ومن المؤسف، حسبما تقول تريسي تيل، أن هذا النوع من الجهد كثيرًا ما يتعرض للإهمال أثناء مرحلة التدريب العلمي.

تقول تيل: "إن التعامل مع البيانات بوصفها عنصرًا مهمًّا يُعَد من أساسيات البحث العلمي، وهو مسألة ترتبط بأسلوب التفكير". وبالطبع تعرف تيل ما تتحدث عنه؛ فحتى شهر ديسمبر من عام 2019، كانت تشغل منصب المديرة التنفيذية لمؤسسة «ذا كاربنتريز» The Carpentries، التي تقع في مدينة أوكلاند في ولاية كاليفورنيا، والتي تُدرِّس للباحثين في شتى أنحاء العالم مهارات التشفير والتعامل مع البيانات. وتضيف تيل قائلة إنَّ المجتمع البحثي ينزع إلى إغفال الجهد والوقت اللازمَين لإدارة البيانات ومشاركتها، وإلى عدم اعتبار ذلك جزءًا أصيلًا من البحث العلمي، لكنَّها توضح مقترِحةً أنه "بوسعنا تغيير أسلوب تفكيرنا؛ لنتمكن من إعطاء هذا العمل حقه، بوصفه جزءًا من عملية البحث العلمي"، بدلًا من التعامل معه على أنَّه فكرة ثانوية.

ونستعرض هنا 11 نصيحة، يمكن للباحث من خلالها تحقيق أقصى استفادة من مجموعات البيانات الضخمة التي يمتلكها:

اعتنِ ببياناتك. تقول تيل: "احتفظ بياناتك الخام في حالتها الخام: أي لا تبدأ بمعالجتها، دون الاحتفاظ بنسخة منها أولًا". توصي تيل بتخزين بياناتك في مكانٍ يُنشئ نُسَخًا احتياطية تلقائيًّا، بحيث يمكن لأفراد المختبر الآخرين الوصول إليها، مع ضرورة الالتزام -في الوقت نفسه- بقواعد مؤسستك فيما يتعلق بالموافقة الطوعية، وخصوصية البيانات.

وتقول تيل إنه نظرًا إلى عدم الحاجة إلى الاطِّلاع على هذه البيانات كثيرًا، "يمكنك استخدام خيارات تخزين تفرض رسومًا أقل، نظير تخزين البيانات، وتفرض –في الوقت نفسه– رسومًا أعلى، نظير إمكانية الوصول إليها"، مثل خدمة «جلاسير» Glacier، التي توفرها شركة «أمازون»، بل ويمكنك حتى تخزين البيانات الخام على أقراصٍ صلبة متطابقة، محفوظة في أماكن مختلفة. وقد تتزايد تكاليف تخزين ملفات البيانات الضخمة مع الوقت، ولذا.. عليك أن تخطط ميزانيتك وفقًا لذلك.

ضع تصوُّرًا بصريًّا للمعلومات. يشير تايتوس براون –أستاذ نُظُم المعلومات البيولوجية بجامعة كاليفورنيا في مدينة ديفيس الأمريكية– إلى أنَّه مع تزايد صخامة مجموعات البيانات تظهر مشكلاتٌ جديدة. يقول براون: "ستواجه في كل مرحلة حالة جديدة مثيرة، وتتسم بالفوضوية". لذا.. فإن نصيحته هي: "ارسم الكثير من المخططات البيانية، وابحث عن القيم الشاذة فيها". ففي شهر إبريل الماضي، حلَّل أحد طلّاب براون ترانسكربتومات –وهي المجموعة الكاملة لجزيئات الحمض النووي الريبي، التي تُنتِجها خليةٌ أو كائن حي – مأخوذة من 678 كائنًا بحريًّا دقيقًا، مثل العوالق (L. K. Johnson et al. GigaScience 8, giy158; 2019). وحين وضع براون وطالبه شكلًا بيانيًّا للقيم المتوسطة لطول نُسخ جزيئات الحمض النووي الريبي، ونطاقها، ومحتواها الجيني، لاحظا أنَّ بعض القيم كانت صفرية؛ وهو ما أوضح لهما المواضع التي أخفق فيها سير العمل الحوسبي، وتوجَّب إعادة تشغيله مرة أخرى.

اعرِضْ خطوات عملك. حين يساعد بيتر إلمر –عالِم فيزياء الجسيمات– ابنه البالغ من العمر 11 عامًا في أداء واجباته المنزلية في مادة الرياضيات، يتوجب عليه تذكيره بتوثيق خطوات حل المسائل. يقول إلمر، الذي يعمل مديرًا تنفيذيًّا لمعهد البحوث والابتكار في برمجيات فيزياء الطاقة العالية بجامعة برينستون في ولاية نيوجيرسي الأمريكية: "يرغب ابني في كتابة الحل فحسب". ويمكن للباحثين الذين يتعاملون مع مجموعات ضخمة من البيانات أن يستفيدوا من النصيحة نفسها، التي أسداها إلمر إلى ابنه: "عَرْض خطوات عملك مهمٌّ بقدر الوصول إلى الحل النهائي".

ويعني هذا أنْ تُسَجِّل خطوات العمل للبيانات بالكامل كالتالي: أيّ نسخة بيانات استخدمتها، وما هي خطوات تنقيح البيانات والتحقُّق من جودتها، وما هي أكواد المعالَجة التي استخدمتها. هذه المعلومات لا تُقَدَّر بثمن في عملية توثيق الأساليب التي اتبعتها، وتكرار استخدام هذه الأساليب. فعلى سبيل المثال.. يستخدم إريك ليونز –المتخصص في البيولوجيا الحوسبية في جامعة أريزونا في مدينة توسان الأمريكية– أداة تصوير مقاطع الفيديو، المسماة: «أسكينما» asciinema، بغرض تسجيل ما يكتبه في سطر الأوامر، ولكنْ ثمة حلول أخرى أقل تطورًا من الناحية التقنية يمكنها أن تؤدي الغرض نفسه. يتذكَر ليونز أنَّ مجموعةً من زملائه كانوا يلتقطون صورًا لشاشات حواسيبهم، ويشاركونها مع زملائهم في مجموعة المختبر على تطبيق «سلاك» Slack، وهو منصة مراسلة فورية.

استخدِمْ أنظمة التحكم في النُسَخ. تسمح أنظمة التحكّم في النُّسَخ للباحثين بأنْ يعرفوا بدقة كيف تغيرت الملفات مع مرور الوقت، ومَن الذي أجرى التغييرات، لكنَّ بعض الأنظمة يضع حدًّا لحجم الملفات التي يمكنك استخدامها. تقول أليسا جودمان –عالمة الفيزياء الفلكية، المتخصصة في وضع تصوّر بصري للبيانات، وتعمل بجامعة هارفارد في كامبريدج بولاية ماساتشوستس الأمريكية– إنه يمكن استخدام مستودع البيانات «هارفارد داتافيرس» Harvard Dataverse (المتاح لجميع الباحثين استخدامه)، أو «زينودو» Zenodo، للتحكّم في نُسخ الملفات الكبيرة. وثمة خيارٌ آخر، هو شبكة «دات» Dat، وهي شبكة «نظير إلى نظير» peer-to-peer، المخصصة لمشاركة الملفات من أي حجم، وتصنيف نسخها. ويحتفظ النظام بسِجِلٍّ لا يسمح بالتلاعب، ويُسجِّل جميع العمليات التي تُجْرِيها على ملفاتك، حسبما يقول أندرو أوشيروف، وهو مطوِّر برمجيات أساسية في شبكة «دات» في كوبنهاجن. وتقول كاريسا ماكيلفي –وهي مديرة منتجات في شبكة «دات»، وتُقيم في مدينة أوكلاند بولاية كاليفورنيا– إنه يُمكن للمستخدمين كذلك توجيه النظام إلى حفظ نسخةٍ من كل إصدارٍ من الملف. وصحيحٌ أنَّ نظام «دات» يعتمد في الوقت الحالي على سطور الأوامر، إلا أن ماكيلفي تقول إنهم "يعملون بنشاط على تحديثه منذ فترة"؛ ويأمل الفريق في إصدار واجهة مستخدِم أكثر سهولة في استخدامها في وقتٍ لاحق من العام الحالي.

سَجِّلْ البيانات الوصفية. تقول تيل: "لن تكون بياناتك مفيدة، إلَّا إذا كان الآخرون يعرفون ماهيّتها أصلًا، بل وأنت نفسك في المستقبل". وهذه هي وظيفة البيانات الوصفية، التي تصف طريقة جمْع الملاحظات، وتنسيقها، وتنظيمها. ويوصي ليونز بالتفكير في البيانات الوصفية التي ستسجلها قبل أن تبدأ في جمع البيانات، كما ينصح بتخزين هذه المعلومات إلى جانب البيانات نفسها؛ سواء في أداة البرمجة المستخدمة لجمع الملاحظات، أم في ملف «اقرأني» README، أم في ملف آخر مُخصَّص لهذا الغرض. وتجدر الإشارة إلى أنَّ مشروع «أوبن كونيكتوم بروجِكت» Open Connectome Project، الذي يرأسه جوشوا فوجلستاين –المتخصص في علم الأعصاب الإحصائي في جامعة جونز هوبكنز في بالتيمور بولاية ميريلاند– يُسجِّل بياناته الوصفية بصيغة نَصّ عادي منظَّم، تُسمَّى «جسون» JSON. وأيًّا كانت الاستراتيجية التي ستختارها، حاوِلْ التفكير لأمد بعيد، كما يقول ليونز؛ فقد ترغب يومًا ما في دمج بياناتك مع بيانات مختبرات أخرى. فإذا كنتَ مبادِرًا ومبتكِرًا في تسجيل بياناتك الوصفية مُسبقًا، فسيكون هذا الدمج أسهل في المستقبل.

من المهم للغاية استخدام طريقة آلية لمعالجة بياناتك. يقول شُعيب مفتي –كبير مديري البيانات والتكنولوجيا في معهد آلين لعلوم الدماغ في سياتل بواشنطن– إنَّ مجموعات البيانات الضخمة أكبر بكثير من قدرتنا على فحصها بطريقة يدوية. لذا.. فإن استخدام الطرق الآلية أمر ضروري. فعلى سبيل المثال.. يستخدم فريق نُظُم المعلومات العصبية بالمعهد قالبًا للبيانات الخاصة بخلايا الدماغ والجينات، ولا يقبل هذا القالب إلَّا المعلومات الواردة بالصيغة الصحيحة، والمنتمية إلى الفئة الصحيحة، حسبما يقول مفتي. وعندما يحين وقت دمج هذه البيانات في قاعدة بيانات، أو مجموعة أكبر، تجري خطوات ضمان جودة البيانات بصورة آلية بواسطة أداتين مفتوحتي المصدر، هما: «أباتشي سبارك» Apache Spark، و«أباتشي إتش بيز» Apache Hbase، وذلك بغرض التحقق من صحة البيانات، وإصلاح المعيب منها آنيًّا. ويقول مُفتي: "إن مجموعة التطبيقات التي نستخدمها في استيعاب البيانات والتحقق من صحتها تعتمد بأكملها على الحوسبة السحابية، وهو ما يُمَكِّننا من توسيع نطاقها بسهولة". ومن جانبه يقول فوجلستاين إنَّ مشروع «أوبن كونيكتوم بروجِكت» يوفِّر كذلك ضمان جودة يعمل بطريقة آلية؛ وهو ما يولِّد تصوُّراتٍ بصرية لإحصاءات موجزة، يمكن للمستخدمين فحصها قبل المُضِي قُدُمًا في تحليلاتهم.

احرص على استغلال وقت الحوسبة بأفضل طريقة ممكنة. يتطلَّب التعامل مع مجموعات البيانات الضخمة حوسبةً عالية الأداء high-performance computing) HPC)، ولذا.. فإن معاهد أبحاث عديدة تملك الآن مرافق خاصة بها لإجراء الحوسبة عالية الأداء. وتمتلك مؤسسة العلوم الوطنية الأمريكية نظامًا وطنيًّا للحوسبة عالية الأداء، هو XSEDE، الذي يضم شبكة «جِتستريم» Jetstream للحوسبة السحابية، إلى جانب مراكز حوسبة عالية الأداء في جميع أنحاء البلاد. ويستطيع الباحثون تقديم طلب تخصيص الموارد عبر موقع xsede.org الإلكتروني، وإنشاء حسابات تجريبية عبر الرابط التالي: go.nature.com/36ufhgh. وثمة خياراتٌ أخرى.. تتمثل في شبكة ACI-REF، ومقرها في الولايات المتحدة، وشبكة NCI Australia، وكذلك مشروع «شراكة الحوسبة المتقدمة» Partnership for Advanced Computing في أوروبا، وشبكات «إليكسير» ELIXIR، إضافة إلى المؤسسات التجارية مقدِّمة الخدمات، مثل: «أمازون»، و«جوجل»، و«مايكروسوفت».

وحين يتعلق الأمر بالحوسبة، يُصبح الوقت من ذهب، حيث يعمل جوجي جان باحثًا متخصصًا في علوم الجينات بجامعة كوبنهاجن، ولكي يحقق جان الاستغلال الأمثل لوقت الحوسبة على مجموعتَي بيانات «جينوم دي كيه» GenomeDK، و«كمبيوتروم» Computerome في الدنمارك، فإن فريقه عادة ما يُجْرِي اختبارات على نطاق محدود، قبل نقل التحليلات الناتجة إلى شبكة الحوسبة عالية الأداء. وجان عضوٌ في «مشروع جينومات الفقَّاريات» Vertebrate Genomes Project، الذي يسعى إلى جمع جينومات حوالي 70 ألف نوعٍ من الفقَّاريات. ويقول جان: "نحتاج إلى وقت حوسبة يُقدَّر بملايين -أو حتى مليارات- الساعات".

احتفِظْ بعناصر بيئتك. يقول بنجامين هايب-كينز –المتخصص في علم الوراثة الدوائي الحوسبي في مركز الأميرة مارجريت للسرطان في مدينة تورنتو الكندية– إنك لكي تُكِّرر أي تحليلٍ في وقت لاحق، لن تحتاج إلى الإصدار نفسه من الأداة التي استخدمتها فحسب، بل ستكون بحاجة كذلك إلى نظام التشغيل نفسه، وكل مكتبات البرمجيات نفسها التي تتطلَّبها الأداة. ولهذا السبب.. يوصي هايب-كينز بالعمل في بيئة حوسبة مستقلة، يمكن تجميع مكوِّناتها في أي مكان، مثل حاويات «دوكر» Docker. ويستخدم هايب-كينز وفريقه المنصة الإلكترونية «كود أوشن» Code Ocean (التي ترتكز على «دوكر») للاحتفاظ بعناصر بيئتهم الافتراضية، ومشاركتها. وثمة خياراتٌ أخرى تتضمَّن: «بيندر» Binder، و«جيجانتوم» Gigantum، و«نيكست جورنال» Nextjournal. يقول هايب-كينز: "هكذا، يظل بمقدورك تشغيل الوظيفة نفسها بالطريقة ذاتها، إذا احتجت إلى ذلك، ولو بعد عشر سنواتٍ من الآن".

تجنَّبْ تحميل البيانات. إن تحميل مجموعات البيانات الضخمة وتخزينها ليس أمرًا عمليًّا. لذا.. يقول براون إنَّه يتوجب على الباحثين أن يُجْرُوا عمليات التحليل عن بُعد، بالقرب من أماكن تخزين البيانات. تستخدم مشروعات البيانات الضخمة تطبيق «جوبيتر نوتبوك» Jupyter Notebook، الذي يُنشِئ مستنداتٍ تدمج الأكواد البرمجية، والنصوص، والرسوم التوضيحية. يقول براون إنَّ الباحثين بإمكانهم «إنشاء» هذه المستندات على خوادم البيانات، أو بالقرب منها؛ لإجراء تحليلاتٍ عن بُعد، واستشكاف البيانات، وغير ذلك. ويضيف براون قائلًا إنّ استخدام «جوبيتر نوتبوك» ليس سهلًا بالنسبة إلى الباحثين الذين قد يزعجهم استخدام سطور الأوامر، ولكن ثمة منصاتٌ يسهل استخدامها، ويمكنها تخطِّي هذه المشكلة، ومن بينها «تيرا» Terra، و«سيفن بريدجز جينوميكس» Seven Bridges Genomics.

ابدأ مبكرًا. إنّ إدارة البيانات أمر بالغ الأهمية، حتى بالنسبة إلى الباحثين الشبان. ولذا.. ابدأ التدريب عليها مبكرًا. يقول إلمر: "يشعر الباحثون بأنهم لا يملكون أبدًا ما يكفي من الوقت لاستثماره في هذا"، لكنَّ بدء التدرُّب مبكرًا "سيُمكِّنك من توفير وقتك على المدى البعيد". ينصح إلمر بالبدء بتعلُّم أساسيات سطور الأوامر، إضافة إلى لغة برمجة، مثل «بايثون» Python، أو «آر» R، بناءً على أهمية أيٍّ منهما لمجالك البحثي. ويوافقه ليونز الرأي قائلًا: "الخطوة الأولى هي اعتياد التعامل مع البيانات من خلال سطور الأوامر". ويذكر ليونز أنَّ بعض معاونيه، ممن كانوا لا يجيدون استخدام سطور الأوامر، واجهوا في شهر نوفمبر عام 2019 مشكلةً في التعامل مع البيانات الجينومية، وذلك لأنَّ أسماء الكروموسومات لم تكن متطابقة في جميع ملفاتهم آنذاك. ويقول عن ذلك: "إنّ امتلاك بعض المهارات الأساسية في التعامل مع سطور الأوامر والبرمجة يُمَكِّنني من تصحيح أسماء الكروموسومات بسرعة".

اطلبْ المساعدة. إنّ المساعدة متاحة، سواءٌ على شبكة الإنترنت، أم خارجها. ويمكنك البدء من منتدى «ستاك أوفرفلو» Stack Overflow على شبكة الإنترنت. وتوصي تيل باستشارة أمناء المكتبة في مؤسستك بشأن المهارات التي تحتاجها، والموارد المتاحة لك. ويقول ليونز إنه ينبغي عليك ألا تُهمِل أنشطة التدريب في موقع عملك، ويضيف قائلًا: "تُعَد مؤسسة «ذا كاربنتريز» مكانًا ممتازًا للبدء".

 

آنا نوفوجرودسكي. صحفيةٌ تقيم بالقرب من مدينة بوسطن بولاية ماساتشوستس الأمريكية.