أنباء وآراء

تقنيات تعلُّم الآلة تسهِّل التعرُّف على خصائص المواد اعتمادًا على البيانات المستقاة من مصادر متنوعة

تمكَّن الباحثون من تطوير استراتيجية جديدة لتعلُّم الآلة، تستفيد من حقيقة أن البيانات غالبًا ما تُجمع بطرق مختلفة، ذات مستويات دقة متباينة. وقد اعتُمد هذا النهج في بناء نموذج قادر على التنبُّؤ بإحدى الخصائص الأساسية للمواد.

روهيت باترا
  • Published online:

في إطار بحث العلماء المستمر عن مواد ذات خواص فائقة، دائمًا ما يسعون إلى تخليق مواد جديدة، وتوصيفها، وقياس خصائصها، عبر طائفة متنوعة من الطرق التجريبية، كما تُستخدَم النمذجة الحوسبية في تقدير خصائص المواد، غير أنه عادة ما يُلاحَظ وجود علاقة عكسية بين تكلفة التجارب (أو عمليات المحاكاة) من جهة، ودقة القياسات (أو التقديرات) من جهة أخرى؛ وهو السبب الذي تُعزى إليه محدودية عدد المواد التي يمكن اختبارها بدقة. وقد نشر الباحث تشي تشِن وزملاؤه1 دراسة في دورية "نيتشر كمبيوتشينال ساينس" Nature Computational Science عن نهجٍ لتعلُّم الآلة، يقوم على جمع البيانات من مصادر متعددة للقياس والمحاكاة (وجميعها يتوفَّر على مستويات مختلفة من التقريب)، بهدف التعرُّف على خصائص المواد، والتنبؤ بها. ويتيح النهج الذي استخدمه الباحثون إمكانية بناء نموذج أكثر شمولًا لتلك الخصائص، وأكثر دقة، مقارنة بما كان متاحًا في السابق، ومن ثم فإنه يُسهِّل فحص المواد الواعدة المرشحة.

عادةً ما يستعين علماء المواد بالتنبؤات التي يحصلون عليها من نماذج تعلُّم الآلة -إلى جانب "حدسهم الكيميائي"- من أجل تحديد التجارب التي ينبغي إجراؤها تاليًا3،2. فعلى سبيل المثال، استُخدِمَ الذكاء الاصطناعي لتحديد المركبات المرشحة لأنْ تكون بمثابة موصلات فائقة في درجات الحرارة المرتفعة4، والمواد القابلة للانحلال بالكهرباء، الموصلة للتيار الكهربي باستخدام أيونات الليثيوم5، وكذلك البوليمرات العازلة كهربائيًّا، التي يمكنها تحمُّل مجالات كهربائية كبيرة، دون أن تتفكك6. كما استُخدِمَ الذكاء الاصطناعي أيضًا لإيجاد طرق لتخليق المواد؛ أي تحديد الكواشف، والعوامل الحفَّازة، والظروف التجريبية التي يجب توافرها7.

في أغلب هذه الدراسات، يُتبع نهج التعلُّم الخاضع للإشراف (supervised learning)؛ حيث تُعرَّض الآلة لكمٍّ هائل من البيانات المعروفة حول التركيب الكيميائي للمواد، أو بِنْيتها الذرية، والخصائص المرتبطة بها، وذلك لبناء نموذج قادر على التنبؤ بخصائص مواد أخرى. والأمر الأهمُّ أنَّ جميع هذه الدراسات تقريبًا تستخدم نماذج مبنية على بيانات مأخوذة من مصدر واحد ثابت. ويشار إلى هذه النماذج بالنماذج أحادية الدقة، أو النماذج ذات الدقة المُفردة (single-fidelity models).

ومع ذلك، يُلاحَظ أنه في أغلب التطبيقات في عالم الواقع، يكون لقياسات خصائص المواد مستويات دقة متعددة، بناءً على الموارد المتاحة، فعلى سبيل المثال، تُجرى القياسات الأكثر دقة (عالية الدقة) على خصائص المواد البلورية باستخدام بلورات مفردة، وقد يكون تحضير هذه البلورات أمرًا شاقًّا. لذا، غالبًا ما تُجرى قياسات تقريبية (منخفضة الدقة) باستخدام عينات متعددة البلورات وسهلة التخليق. وعلى نحو مماثل، تُستخدم مجموعة من مخططات النمذجة الحوسبية متدرِّجة الدقة –والتكلفة كذلك- لحساب خصائص المواد؛ ولذلك فإن عنصر التكلفة غالبًا ما يضع قيدًا على الاستعانة بالنماذج عالية الدقة.

وبوجهٍ عام، يؤدي هذا التباين في أساليب القياس والنمذجة إلى بِنْية بيانات غير متجانسة؛ فالقياسات منخفضة الدقة متاحة بوفرة، في حين أن البيانات عالية الدقة نادرة. وجدير بالذكر أن لكل مستوى من مستويات الدقة مميزاته الخاصة: فالبيانات منخفضة الدقة تغطي مجموعة متنوعة من المركبات، أما البيانات عالية الدقة، فتكون أكثر تخصصًا ودقة. ولذا، فإن النماذج ذات الدقة المفردة (التي تكون مُدرَّبة على التعامل مع بيانات منخفضة الدقة فحسب، أو عالية الدقة فحسب) إما تفتقر إلى الدقة العالية، في حالة البيانات منخفضة الدقة، أو إلى الشمولية، في حالة البيانات عالية الدقة (الشكل 1).

شكل 1 | يمكن للبيانات متعددة مستويات الدقة أن تحسن النماذج التنبؤية المطورة باستخدام تعلُّم الآلة. قد يكون الحصول على بيانات عالية الدقة حول خصائص المواد أمرًا صعبًا، أو باهظ التكلفة. ولذا، غالبًا ما تُجمع بيانات أقل دقة (منخفضة الدقة)، بدلًا من ذلك. ولهذا السبب.. عادةً ما تكون مجموعات البيانات منخفضة الدقة أكبر من مجموعات البيانات عالية الدقة، وتغطي نطاقًا أكثر تنوعًا من المواد. وعادةً ما تستعين أنظمة تعلُّم الآلة بمجموعات بيانات مفردة لإنتاج نماذج تنبؤية لخصائص المواد. تنتج البيانات المتنوعة منخفضة الدقة نماذج عامة، ولكنها تقريبية وأقل دقة، في حين أن البيانات عالية الدقة تنتج نماذج دقيقة، غير أنها أقل شمولًا. وفي هذا الشكل، ينتِج تعلُّم الآلة المعتمِد على مجموعات البيانات الفردية من "أ" إلى "د" أربعة نماذج تنبؤية، يوضح الشكل مدى شموليتها ودقتها. وقد أشار تشِن وزملاؤه1 إلى بِنْية لتعلُّم الآلة يمكنها معالجة بيانات المواد المأخوذة من مجموعات متعددة ذات مستويات دقة مختلفة، وبذلك يمكنها توليد نماذج تنبؤية أكثر شموليةً ودقةً من تلك التي تُوَلِّدها مجموعات البيانات الفردية. وتشير البقعة الحمراء إلى شمولية ودقة نموذج جرى تدريبه باستخدام مجموعات البيانات المجمعة من "أ" إلى "د". والأمثلة في هذا الشكل توضيحية، ولا تعبّر عن بيانات حقيقية.

شكل 1 | يمكن للبيانات متعددة مستويات الدقة أن تحسن النماذج التنبؤية المطورة باستخدام تعلُّم الآلة. قد يكون الحصول على بيانات عالية الدقة حول خصائص المواد أمرًا صعبًا، أو باهظ التكلفة. ولذا، غالبًا ما تُجمع بيانات أقل دقة (منخفضة الدقة)، بدلًا من ذلك. ولهذا السبب.. عادةً ما تكون مجموعات البيانات منخفضة الدقة أكبر من مجموعات البيانات عالية الدقة، وتغطي نطاقًا أكثر تنوعًا من المواد. وعادةً ما تستعين أنظمة تعلُّم الآلة بمجموعات بيانات مفردة لإنتاج نماذج تنبؤية لخصائص المواد. تنتج البيانات المتنوعة منخفضة الدقة نماذج عامة، ولكنها تقريبية وأقل دقة، في حين أن البيانات عالية الدقة تنتج نماذج دقيقة، غير أنها أقل شمولًا. وفي هذا الشكل، ينتِج تعلُّم الآلة المعتمِد على مجموعات البيانات الفردية من "أ" إلى "د" أربعة نماذج تنبؤية، يوضح الشكل مدى شموليتها ودقتها. وقد أشار تشِن وزملاؤه1 إلى بِنْية لتعلُّم الآلة يمكنها معالجة بيانات المواد المأخوذة من مجموعات متعددة ذات مستويات دقة مختلفة، وبذلك يمكنها توليد نماذج تنبؤية أكثر شموليةً ودقةً من تلك التي تُوَلِّدها مجموعات البيانات الفردية. وتشير البقعة الحمراء إلى شمولية ودقة نموذج جرى تدريبه باستخدام مجموعات البيانات المجمعة من "أ" إلى "د". والأمثلة في هذا الشكل توضيحية، ولا تعبّر عن بيانات حقيقية.

كبر الصورة

وفي الدراسة التي أعدَّها تشِن وزملاؤه، أفادوا بتمكُّنهم من إجراء تهيئة لشبكة عصبية اصطناعية (نظام حاسوبي مستلهم من الدماغ البشري)، أطلقوا عليها "شبكة الرسوم البيانية ذات مستويات الدقة المتعددة". ويمكن لهذه الشبكة أن تتعرف على خصائص المواد باستخدام بيانات مأخوذة من تقنيات نمذجة مختلفة، وغيرها من التقنيات التجريبية. وفي تجربة لإثبات الأساس النظري الذي يقوم عليه هذا النهج، عَمَدَ الباحثون إلى تدريب شبكة الرسوم البيانية على التعرف على فجوات النطاق (bandgaps)؛ وهي الخاصية المتحكِّمة في عديد من الخصائص الكهربائية والبصرية للمواد الصلبة، مثل توصيل الكهرباء، والألوان. وقد استخدم الباحثون البيانات الخاصة بفجوة نطاق مأخوذة من خمسة مصادر: أربع مجموعات بيانات، مَثَّلت نتائج أنواع مختلفة من حسابات ميكانيكا الكَمّ، أما المصدر الخامس، فكان بيانات تجريبية. اشتملَتْ مجموعة البيانات ذات المستوى الأدنى من الدقة على نحو 50 ألف نقطة بيانات، ما يعادل قرابة مئة ضعف العدد في كل مجموعة من مجموعات البيانات الأخرى؛ ويُعد هذا أمرًا معتادًا فيما يتعلق بعدم تجانس البيانات المتاحة في علم المواد.

وبالنسبة إلى شبكة الرسوم البيانية التي ابتكرها الباحثون، يُعَد الرسم البياني للمادة –وهو تمثيل رياضي لبِنْية المادة، يتألف من عُقد تمثل الذرات، وحواف تمثل الروابط (بمثابة المُدخلات). وعند إدخال أحد هذه الرسوم إلى الشبكة، يخضع لسلسلة من العمليات الرياضية (الالتفافية)، من أجل تبادل المعلومات بين العُقد والحواف. ويَنتُج عن هذا متجه مخرجات، يُعرف بمتجه التمثيل الكامن، الذي يُمرَّر بدوره إلى شبكة عصبية اصطناعية أخرى، لمزيد من المعالجة، بهدف التنبؤ بالخاصية موضع الاهتمام (وهي فجوة النطاق في هذه الحالة). وتُستخدم مجموعة واحدة (أو أكثر) من مجموعات البيانات المعروفة أولًا، لتدريب الرسم البياني للمواد والشبكة العصبية الاصطناعية الثانية في آن واحد، لتهيئتهما لإجراء التنبؤات.

وتُعد تقنيات تعلُّم الآلة المعتمدة على شبكات الرسوم البيانية من بين أفضل التقنيات من حيث الأداء فيما يتعلق بالتعلم أحادي الدقة لخصائص المواد. وهي لا تتطلب إجراء خطوة هندسة الخصائص (التي يجري فيها تحويل تكوين المادة وبنائها الذري، أو أحدهما، إلى سلسلة من الأرقام، بصيغة يمكن قراءتها آليًّا)، وهو الأمر الذي يُعَد ضروريًّا لخوارزميات تعلُّم الآلة الأخرى8. ولتهيئة شبكة الرسوم البيانية للتعلم متعدد الدقة، قدَّم الباحثون متغيرًا جديدًا -يُضاف إلى المتغيرات المستخدَمة لتمثيل عُقد الرسم البياني وحوافِّه- يوضح مستوى دقة نقاط البيانات. ومن هنا، يتضح أن شبكة الرسوم البيانية التي ابتكرها الباحثون تضمن تبادل المعلومات بين العقد الذرية، وحواف الروابط، ومستوى دقة البيانات الذي يمثله المتغير الجديد؛ وهو ما يعني أن النهج الذي يستخدمه الباحثون قابل للتطبيق على أي عدد من مستويات الدقة.

وبالمقارنة بين أخطاء التنبؤ، تتجلَّى فائدة الأخذ بنهج تعدد مستويات الدقة، فعلى سبيل المثال.. أدَّت النماذج التي تحتوي على أربعة مستويات من الدقة إلى تقليل أخطاء التنبؤات بفجوات النطاق، بنسبة تتراوح بين 22%، و45%، مقارنةً بالنماذج أحادية الدقة. وبالمثل، كان أداء النماذج متعددة الدقة، التي تشتمل على مستويين، أو ثلاثة، أو خمسة مستويات من الدقة، أفضل من النماذج أحادية الدقة.

ولعلَّ هذا التحسن راجع إلى عاملَين أساسيين: أوَّلهما، الحجم الكبير للبيانات منخفضة الدقة، التي تمثل مجموعة من المواد أكثر تنوعًا كيميائيًّا مما تمثله مجموعة بيانات واحدة عالية الدقة؛ وتعرُّض شبكة الرسوم البيانية لهذا التنوع ينتُج عنه تمثيل كامن أفضل وأكثر شمولًا. أما العامل الثاني، فيتمثل في وجود ارتباط وثيق بين بيانات فجوة النطاق منخفضة الدقة وعالية الدقة؛ لأن العديد من فجوات النطاق في مجموعة البيانات منخفضة الدقة قريب في القيمة من نقاط البيانات المكافئة لتلك الفجوات في مجموعات البيانات عالية الدقة. ويتضح هذا العامل الثاني بجلاء في دقة التنبؤ العالية التي تحققت عند استخدام مجموعات البيانات عالية الدقة، المرتبطة ارتباطًا وثيقًا بمجموعة البيانات منخفضة الدقة.

والملاحَظ أن نهج تشِن وفريقه يتغلب على العقبات التي تواجه غيره من النُّهُج ذات مستويات الدقة المتعددة9،10، التي لا يمكن توسيع نطاقها بسهولة لتشمل مجموعات البيانات الكبيرة، أو لا يمكنها التعامل مع البيانات غير المتجانسة، أو لا يمكنها التعامل مع أكثر من مستويين من مستويات الدقة. لذا، فإن شبكة الرسوم البيانية متعددة الدقة التي ابتكرها الباحثون تُعَد نظامًا جديدًا فعالًا في رصد العلاقات المعقدة بين مجموعات البيانات ذات مستويات الدقة المتعددة. ورغم ذلك، تجدر الإشارة إلى أن الفريق لم يستكشف ما قد يحدث، إذا ما اتُّبع نهج مغاير في تقييم نقاط البيانات منخفضة الدقة، والأخرى عالية الدقة. وقد يصبح هذا التقييم ضروريًّا عندما يكون عدد النقاط منخفضة الدقة من الضخامة بحيث يمثل مجموعة البيانات متعددة الدقة تمثيلًا مفرطًا.

ولا تقتصر جدوى النظام الذي ابتكره الباحثون على علم المواد فحسب، بل إنه قابل للتعميم، إذ يمكن الاستعانة به في التعامل مع أي مشكلة يمكن تمثيلها بيانيًّا، مثل الشبكات الاجتماعية، والرسوم البيانية المعرفية (وهي أطر رقمية تمثل المعرفة كمفاهيم مترابطة بعلاقات فيما بينها). ونظريًّا، يمكن استخدام هذا النهج للتعرُّف على عدة خصائص في آنٍ واحد (فيما يُعرف بالتعلُّم متعدد المهام)، بدلًا من التعرف على خاصية واحدة فحسب، تتوافر بياناتها بمستويات دقة متعددة.

وهناك بعض الأسئلة الأساسية التي تبقى عالقة بغير جواب، ومن بينها: هل تضمن الأساليب متعددة الدقة تقديم أداء أفضل من النماذج أحادية الدقة، حتى عندما تكون جودة البيانات منخفضة الدقة رديئة للغاية؟ وماذا يحدث عندما تكون نقاط البيانات (سواءٌ أكانت منخفضة، أم عالية الدقة) غير مترابطة على نحو جيد؟ ثمة حاجة إلى إجراء مزيد من الأبحاث، بُغية فهم السيناريوهات التي يكون فيها التعلم ذو مستويات الدقة المتعددة أكثر فائدة، وتحقيق التوازن بين دقة التنبؤات، وتكلفة الحصول على البيانات. وفي غضون ذلك، لا شك أن الأساليب متعددة الدقة سوف تحقق مزيدًا من الانتشار، بالنظر إلى أنها تحقق استفادة مباشرة من غياب التجانس الأساسي واسع النطاق للبيانات في علم المواد، والعلوم الكيميائية.

References

  1. Chen, C., Zuo, Y., Ye, W., Li, X. & Ong, S. P. Nature Comput. Sci. 1, 46–53 (2021). | article
  2. Butler, K. T., Davies, D. W., Cartwright, H., Isayev, O. & Walsh, A. Nature 559, 547–555 (2018). | article
  3. Ramprasad, R., Batra, R., Pilania, G., Mannodi-Kanakkithodi, A. & Kim, C. npj Comput. Mater. 3, 54 (2017). | article
  4. Stanev, V. et al. npj Comput. Mater. 4, 29 (2018). | article
  5. Sendek, A. D. et al. Chem. Mater. 31, 342–352 (2019). | article
  6. Mannodi-Kanakkithodi, A. et al. Mater. Today 21, 785–796 (2018). | article
  7. Huo, H. et al. npj Comput. Mater. 5, 62 (2019). | article
  8. Chen, C., Ye, W., Zuo, Y., Zheng, C. & Ong, S. P. Chem. Mater. 31, 3564–3572 (2019). | article
  9. Rohit, B., Pilania, G., Uberuaga, B. P. & Ramprasad, R. ACS Appl. Mater. Interf. 11, 24906–24918 (2019).  | article
  10. Dahl, G. E., Jaitly, N. & Salakhutdinov, R. Preprint at https://arxiv.org/abs/1406.1231 (2014).

روهيت باترا

يعمل في مركز المواد النانوية بمختبر أرجون الوطني، ليمونت، إلينوي 60439، الولايات المتحدة الأمريكية.

البريد الإلكتروني: rbatra@anl.gov