أنباء وآراء

علوم المواد الحاسوبيةالتنقيب في النصوص يرسم ملامح الاكتشافات العلمية مستقبلًا

يمكن استخدام الخوارزميات الحاسوبية لتحليل النصوص؛ بغرض العثور على العلاقات الدلالية بين الكلمات، دون تدخُّل بشري. وفي الآونة الأخيرة، تبنَّى باحثون هذه الطريقة، لتحديد الخصائص غيرالمذكورة للمواد المشار إليها في الأوراق العلمية.

أولكسندر إساييف

  • Published online:

إنّ إجمالي عدد المواد التي يُحتمل تخليقها – فيما يشار إليه أحيانًا بـ«فضاء المواد» – كبيرٌ للغاية، إذ توجد تجميعات لا تُعَد ولا تُحصى من المكونات والبِنى التي يمكن تخليق المواد منها. وقد أدّى تراكم البيانات التجريبية، التي تعبِّر عن قطاعات من هذا الفضاء، إلى إنشاء ركيزةٍ لمجال ناشئ هو «علم معلومات المواد»، الذي يدمج التجارب عالية الإنتاجية مع الحسابات والمناهج المعتمِدة على البيانات، في حلقة مُحْكمة تُستخدم فيها نتائج ومخرجات موقف كمدخلات جديدة في موقف آخر. وتتيح هذه الحلقة تصميم المواد على نحو منطقي. وحسبما يفيد تشيتويان وزملاؤه1 في ورقة بحثية نُشرت في دورية Nature، يمكن لأجهزة الكمبيوتر أن تستخلص معلومات عن علم المواد، تكون «مخفيّة» في نصوص الأوراق العلمية المنشورة، دون أي توجيه من البشر، وعلى نحو فعّال.

إنّ اكتشاف المواد - بخصائصها المحددة - تَمَثَّل دائمًا في عملية وليدة الصدفة، تستلزم إجراء التجارب بشكل مكثّف؛ وهي نتاج مزيج من البراعة والعِلْم، ويمارسها صُنّاع من ذوي المعرفة الواسعة. ومع ذلك.. يتسم هذا النهج القائم على التجربة والخطأ بأنه مُكلف وغير فعال، ومن ثمّ أصبح هناك اهتمام كبير باستخدام تقنيات تعلّم الآلة، لرفع كفاءة عملية اكتشاف المواد.

في الوقت الحالي، تهدف غالبية تطبيقات تعلّم الآلة إلى إيجاد دالة تجريبية، تُمثل في مخطط البيانات المُدخلة (على سبيل المثال.. المعاملات التي تحدد تركيب مادة ما)، وفق مُخرجات معروفة (مثل: خصائص المادة الفيزيائية أو الإلكترونية المُقاسة). ويمكن بعد ذلك استخدام هذه الدالة التجريبية، للتنبؤ بخصائص مثيرة للاهتمام في البيانات المُدخلة الجديدة. ويُوصَف هذا المنهج بأنه «خاضع للإشراف».. فعملية التعلم من البيانات التدريبية تشبه مُعَلِّمًا يشرف على طلابه، عبر اختيار الموضوعات والحقائق اللازمة؛ لتعلّم درسٍ معين، لكنْ ثمّة نهج مقابل، يقتصر فحسب على استخدام بيانات مُدخلة، ليست لها صلة واضحة بمخرجات مُحددة. وفي هذه الحالة.. يكون الهدف هو تحديد أنماط جوهرية في البيانات، التي يمكن استخدامها بعد ذلك في عملية تصنيف لتلك البيانات. ويُطلق على هذا النهج «التعلّم غير الخاضع للإشراف»، إذ لا توجد إجابات صحيحة مسبقة، ولا يوجد معلّم.

جَمَع تشيتويان وزملاؤه 3.3 مليون ملخصٍ من أوراق بحثية منشورة في مجالات علوم المواد، والفيزياء، والكيمياء، نُشِرت بين عاميّ 1922 إلى 2018. وخضعت ملخصات الأبحاث تلك للمعالجة وإدارة المحتوى، وذلك - على سبيل المثال - لإزالة نص لم يكن باللغة الإنجليزية، واستبعاد الملخصات التي تتضمّن أنواع بيانات وصفية غير مناسبة، مثل الأخطاء المطبعية، أو المُذكّرات. وأبقت هذه العملية في النهاية على 1.5 مليون مُلخّص لأوراق بحثية، كُتبت بمفردات.. يبلغ عددها حوالي 500 ألف كلمة.

بعد ذلك.. حلل المؤلفون النصوص المختارة باستخدام خوارزمية تعلّم آلة غير خاضعة للإشراف البشري، تُعرف باسم Word2vec2، طُوِّرت بغرض تمكين أجهزة الكمبيوتر من معالجة النصوص واللغة الطبيعية. وتأخذ خوارزمية Word2vec قِسمًا كبيرًا من النصوص، وتُمرِّره عبر شبكة عصبية اصطناعية (نوع من خوارزميات تعلّم الآلة)؛ لتمثيل كل كلمة من المفردات في مخطط، وفق مُتّجه رقمي، وتكون لكل واحدة منها عادة مئات الأبعاد. ويُطلق على المتجهات الناتجة «التضمينات» Embeddings، وتُستخدَم لوضع كل كلمة - ممثَّلة بنقطة بيانات - في فضاء مُتعدد الأبعاد يجسّد المفردات. وفي هذا الفضاء، تشكِّل الكلمات التي تتشاطر معاني مشتركة مجموعات بيانات. ومن ثم، تستطيع خوارزمية Word2vec إجراء تقديرات دقيقة حول معاني الكلمات، أو عن العلاقات الوظيفية فيما بينها، على أساس أنماط استخدام الكلمات في النص الأصلي. ومن الأهمية بمكان أن هذه المعاني والعلاقات لم تُرمّز بصورة مُفصَّلة من قبل البشر، لكنْ جرى تعلُّمها من النص الذي جرى تحليله بطريقة غير خاضعة للإشراف البشري.

وقد اكتشف الباحثون أن تضمينات الكلمات التي أمكن الحصول عليها فيما يتعلق بمصطلحات علم المواد قد أنتجت ارتباطات بين الكلمات تعكس قواعد من علم الكيمياء، على الرغم من أن الخوارزمية لم تَستخدِم أيّ واسمات مُعيّنة للتعرّف على المفاهيم الكيميائية، أو تأويلها. وحين جرى الجمع بين التضمينات باستخدام عمليات رياضيّة مختلفة، أمكن لها تحديد ارتباطات الكلمات التي تعبِّر عن مفاهيم معينة، مثل «العناصر الكيميائية»، و«الأكسيدات»، و«البِنى البللورية»، وما إلى ذلك. وتمكّنت التضمينات أيضًا من التعرّف على مجموعات من المواد المعروفة (في الشكل 1) تعبر عن التصنيفات التي يمكن استخدامها لوضع المواد الجديدة التي ستُصنع في المستقبل، في هيئة فئات.

الشكل 1 | تكوُّن مجموعات بيانات عن المواد، عبر تحليل نصي للأوراق العلمية. استخدم تشيتويان وفريقه البحثي1 خوارزمية تعلّم آلة، لتحليل النصوص في ملخصات 1.5 مليون ورقة بحثية؛ بهدف التعرّف على العلاقات بين الكلمات، بما في ذلك أسماء المواد. بعد ذلك.. جرى تمثيل كل مادّة كنقاط بيانية على رسوم بيانية، وصنفت الخوارزمية نقاط البيانات معًا في مجموعات، على أساس العلاقات الدلالية بين الكلمات المستخدَمة لوصف تلك المركبات. وتقابل مجموعات البيانات (الملونة) أنواعًا معينة من المواد؛ مثل الموصلات الفائقة، ومواد البطاريات، والمركبات العضوية. وقد بيّن المؤلفون أنه يمكن استخدام هذا النهج لاكتشاف خصائص بخلاف ما أُفيد به فيما يتعلق بالمواد المذكورة في المؤلّفات العلمية. (نسخة مقتبسة من الشكل S7a من الورقة البحثية)

  الشكل 1 | تكوُّن مجموعات بيانات عن المواد، عبر تحليل نصي للأوراق العلمية. استخدم تشيتويان وفريقه البحثي1 خوارزمية تعلّم آلة، لتحليل النصوص في ملخصات 1.5 مليون ورقة بحثية؛ بهدف التعرّف على العلاقات بين الكلمات، بما في ذلك أسماء المواد. بعد ذلك.. جرى تمثيل كل مادّة كنقاط بيانية على رسوم بيانية، وصنفت الخوارزمية نقاط البيانات معًا في مجموعات، على أساس العلاقات الدلالية بين الكلمات المستخدَمة لوصف تلك المركبات. وتقابل مجموعات البيانات (الملونة) أنواعًا معينة من المواد؛ مثل الموصلات الفائقة، ومواد البطاريات، والمركبات العضوية. وقد بيّن المؤلفون أنه يمكن استخدام هذا النهج لاكتشاف خصائص بخلاف ما أُفيد به فيما يتعلق بالمواد المذكورة في المؤلّفات العلمية. (نسخة مقتبسة من الشكل S7a من الورقة البحثية) 

كبر الصورة

وقد ذهب تشيتويان وزملاؤه إلى ما هو أبعد من مُجرّد تحديد العلاقات بين الكلمات؛ إذ وضّحوا كذلك كيف يمكن استخدام نهجهم لاكتشاف المواد مستقبلًا. وبدأوا في ذلك - عبر تدريب نموذج لتعلّم الآلة - على التنبؤ باحتمالية ظهور اسم إحدى المواد بالتزامن مع كلمة «الكهروحرارية» في النص (المواد الكهروحرارية هي التي يتسبب فيها الفَرْقُ في درجة الحرارة في توليد جهد كهربي، أو يتسبب الجهد الكهربي في توليد فرق في درجة الحرارة). وبحثت المجموعة بعد ذلك في النصوص للعثور على المواد التي لم يرد أنها تملك خصائص كهروحرارية، لكنّ أسماءها على علاقة دلالية قويّة بكلمة «كهروحرارية». وبالتالي، ربما تكون تلك المواد - في الواقع - تتسم بهذه الخاصية.

تَحَقَّق المؤلفون من صحة هذا النهج عبر تدريب نموذج، مستخدِمين في ذلك الأبحاث المنشورة قبل تاريخ عامٍ محدد، ثم تحققوا مما إذا  كان النموذج قد تعرّف على المواد التي أُفيد بأنها كهروحرارية في السنوات التالية. وتَبَيّن أن أول 50 مادة جرى انتقاؤها باستخدام هذه الطريقة كان احتمال دراستها خلال السنوات الخمس التالية - باعتبارها مواد كهروحرارية - أكبر بثماني مرّات، مقارنة بالمواد التي جرى انتقاؤها بشكل عشوائي. وكشف منهج تشيتويان وزملائه عن تطبيق ناجح آخر لعملية «التنقيب في النصوص»، بدأ استخدامه حاليًّا في مجالات تمتدّ من علم المواد، وصولًا إلى التعرّف على البروتينات 3، وبيولوجيا السرطان 4.

إنّ الجمع بين تعلّم الآلة غير الخاضع للإشراف البشري، والتنقيب في النصوص، بهدف الخروج باكتشافات علمية مثيرٌ  للاهتمام، لا سيّما بالنظر إلى التنامي المتزايد في استخدام كل من الأساليب الخاضعة للإشراف، وغير الخاضعة له في معالجة اللغة الطبيعية خلال السنوات القليلة الماضية، فضلًا عن تنامي وفرة المؤلّفات العلمية الرقمية، التي تغطي أكثر من مئة عام من الأعمال المنشورة. ولا شك أنه لا تزال هناك تحديات كثيرة؛ من أهمها: أن الأساليب غير الخاضعة للإشراف البشري عادةً ما تكون أقل دقة من النماذج التي يجري الحصول عليها من تعلّم الآلة الخاضع للإشراف البشري. وإضافة إلى ذلك.. فعلى الرغم من أن تضمينات الكلمات تبدو وسيلة واعدة للتعرّف على المواد التي تتصف بخصائص معينة، فلا يمكن استخدامها للتعرّف على مواد غير موصوفة في المؤلّفات العلمية، ولا تشكل أسماؤها جزءًا من المفردات القائمة بالفعل. ومع ذلك.. يمكن استخدام هذه الأساليب للعثور على خصائص غير معروفة مسبقًا للمواد الموجودة بالفعل، التي يمكن بعد ذلك استخدامها لأغراض أخرى.

يتطور عِلْم معلومات المواد بالتوازي مع نمو قواعد بيانات المواد، وبالطريقة نفسها التي نشأ بها علم معلومات الكيمياء قبل 20عامًا، وذلك بالتزامن مع إنشاء قواعد بيانات الكيمياء5.ويمضي التقدم بوتيرة سريعة، لأن الأساليبالقائمة على التنقيب في البيانات والمؤلفات العلمية هي أدوات قائمة بالفعلبين أيدي علماء البيانات، الذين يعملون في حقلالعلوم الكيميائية وعلوم المواد 6. إنّ الدراسات المستقبليةالتي تَستخدِم معالجة اللغة الطبيعية والتعلم غير الخاضع للإشراف البشري بطرق مشابهة لتلك التي استخدمها تشيتويان وفريقه البحثي، أو التي تَستخدِم كلًّا من التعلم الآلي الخاضع للإشراف وغير الخاضع لهعلى حد سواء، هي كلها دراساتيُتوقَّع لها أن تُعززتأثير علم البيانات على تصميم المواد واكتشافها.. فهل سيكون الاكتشاف الكبير التالي في مجال الموصّلات الفائقة -على سبيل المثال - وليد الحدس البشري التقليدي، أم عن طريق الآلة؟ على الأرجح، سيكون وليد مزج ذكيبينالذكاء البشري، وذكاء الآلة.

References

  1. Tshitoyan, V. at al. Nature 571, 95–98 (2019). | article
  2. Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S. & Dean, J. Proc. 26th Int. Conf. Neural Information Processing Syst.go.nature.com/2wvucor (2013).
  3. Spangler, S. et al. Proc. 20th ACM SIGKDD Int. Conf. Knowledge Discovery Data Mining 1877–1886 (ACM, 2014); https://doi.org/10.1145/2623330.2623667
  4. Choi, B.-K. et al. Proc. Natl Acad. Sci. USA 115, 10666–10671 (2018).| article
  5. Brown, F. K. Annu. Rep. Med. Chem. 33, 375–384 (1998). | article
  6. Butler, K. T., Davies, D. W., Cartwright, H., Isayev, O. & Walsh, A. Nature 559, 547–555(2018).| article

عمل أولكسندر إساييف في كلية إيشلمان للصيدلة بجامعة نورث كارولينا في تشابل هيل بمدينة تشابل هيل، نورث كارولينا 27599، الولايات المتحدة الأمريكية

البريد الإلكتروني: olexandr@olexandrisayev.com