أخبار

الذكاء الاصطناعي: «جوجل» تتفوق في لعبة «جـو»

برمجيات التعلم العميق تتفوق على اللاعبين في لعبة لَوْحِيَّة قديمة.

إليزابيث جيبني
  • Published online:

<p>أحبطت لعبة «جو» المعقدة الشائعة في آسيا جهود باحثي الذكاء الاصطناعي لعقود.</p>

أحبطت لعبة «جو» المعقدة الشائعة في آسيا جهود باحثي الذكاء الاصطناعي لعقود.

Nature Video


للمرة الأولى، هزم جهازُ حاسوب أحدَ اللاعبين المحترفين في لعبة «جو» Go، وهي لعبة لَوْحِيَّة قديمة، كان يُنظر إليها باعتبارها واحدةً من أكبر التحديات التي تواجه الذكاء الاصطناعي.

لطالما تفوق الحاسوب على أمهر لاعبي الشطرنج، والداما، والطاولة، بيد أنه كانت ثمة حاجة إلى إضافات كبيرة؛ حتى يربح الحاسوب في لعبة «جو»، وهو ما تَحَقَّق حاليًّا، وفق زعم شركة «ديب مايند» DeepMind. فقد هزم برنامجُ «ألفا جو» AlphaGo ـ الذي صممته شركة «ديب مايند» ـ اللاعبَ فان هو، بطل أوروبا في لعبة «جو» في الخمس دورات الكاملة اللازمة للحصول على البطولة، حسبما كشفت الشركة في بحث نُشر في دورية Nature في 27 يناير الماضي1. كما هزم البرنامج أيضًا منافسيه من البرامج الأخرى، بحيث فاز في %99.8 من الأدوار التي لعبها ضد أفضل البرامج الحالية، ولكن ما زال أمام البرنامج أن يخوض لعبة «جو» على مستوى بطولة عالمية ـ وذلك بعد انتهاء مباراة مارس الماضي ـ ضد اللاعب المحترف لي سيدول من كوريا الجنوبية، الذي يعتبره الكثيرون من أقوى اللاعبين على مستوى العالم. ويقول ديميس هاسبيس، المؤسس المشارك لشركة «ديب مايند»: «تملأنا الثقة في إمكانيّاتنا».

ويقول ريمي كولوم، المبرمج في ليل، فرنسا، الذي صمَّم نسخة تجارية من لعبة «جو» تُسمى «كريزي ستون» Crazy Stone: «إن هذه حقًّا نتيجة هائلة»، وهو مَن كان يعتقد أن لحظة تمكُّن برنامج حاسوبي من التفوق في تلك اللعبة لن تتحقق قبل مرور عقد من الزمان.

كان حاسوب «ديب بلو» للشطرنج ـ الذي طوَّرته شركة «آي بي إم» IBM، والذي تفوق على البطل جاري كاسباروف في الهزيمة الشهيرة التي وقعت في عام 1997 ـ مبرمَجًا بغرض الفوز في لعبة الشطرنج تحديدًا، بيد أن برنامج «ألفا جو» لم يكن مبرمَجًا من الأصل ليتغلب في لعبة «جو»، ولكنه تعلَّم استخدام خوارزمية عامة؛ سمحت له بتفسير أنماط اللعبة، في طريقة مشابهة للكيفية التي تعلَّم بها برنامج «ديب مايند» أن يلعب 49 نمطًا مختلفًا من لعبة أركيد 2Arcade.

يعني هذا أنه يمكن استخدام أساليب مشابهة على نطاقات الذكاء الاصطناعي الأخرى، تتطلب التعرف على أنماط معقدة، والتخطيط طويل الأمد، واتخاذ القرار، على حد قول ديميس هاسبيس، الذي يضيف: «كثير مما نحاول إنجازه في هذا العالم ينتمي إلى هذه الفئة من الخوارزميات». ومن أمثلة ذلك.. استخدام الصور الطبية؛ لوضع خطط التشخيص والعلاج، وتحسين نماذج تغير المناخ.

في الصين واليابان وكوريا الجنوبية، تحظى لعبة «جو» بشعبية كبيرة، ويلعبها لاعبون محترفون، بيد أنها لطالما حظيت باهتمام باحثي الذكاء الاصطناعي، بسبب تعقيدها. وتتسم القواعد ببساطة نسبية.. فالهدف من اللعبة هو الاستحواذ على معظم مساحة اللوح، من خلال وضع واحتجاز أحجار سوداء وبيضاء على شبكة تبلغ مساحتها 19×19، لكن اللعبة التي تحتوي على ما يبلغ متوسطه 150 حركة، لها مدى واسع من الاحتمالات، يبلغ 10170 أكثر من عدد الذرّات في الكون، بحيث لا يمكن حلها باستخدام خوارزميات تبحث عن أفضل تحرُّك.


ألعاب لا تعتمد على الحظ

تتسم لعبة «جو» بتعقيد أكبر مما في لعبة الشطرنج، لكن هذا لا يمنع حقيقةً أن لعبة الشطرنج لها الكثير من الإعدادات المحتملة، التي يمكن فك شفرتها باستخدام تقنية «القوة الغاشمة» brute force فقط. أما في حالة وجود لاعب حاسوبي، يقلل البرنامج من محاولاته؛ لحل اللعبة، لكن ينظر إلى عدة تحركات مستقبلية، ويتكهن باللاعب الذي ستكون له اليد العليا، لكن في لعبة «جو»، يُعَدّ إدراك مواقف الربح والخسارة بالغ الصعوبة، فالأحجار لها قِيَم مساوية، ويمكن أن تكون لها آثار ضمنية تظهر في جميع أنحاء اللوح.

ولتفسير لوحات «جو»، وتعلُّم أفضل التحركات الممكنة، استخدم برنامج «ألفا جو» تقنية التعلم العميق في الشبكات العصبية، وهي تقنية مستلهمة من طريقة عمل المخ، حيث تقوى الروابط بين طبقات الخلايا العصبية المحفزة عبر التجارب. وقد درس البرنامج في بادئ الأمر 30 مليون وضع من ألعاب المحترفين، بما يسمح باكتشاف معلومات حول حالة اللعب من بيانات اللوحة، كما هو الحال في تعرُّف برامج أخرى على الصور من البكسلات (انظر: Nature 505, 146-148; 2014). وبعد ذلك.. لعب البرنامج ضد نفسه عبر 50 حاسوبًا، بصورة شهدت تحسُّنًا مع التكرار، وهو ما يُعرف باسم التعلُّم بالتعزيز.

«يُجْهِز التعلُّم العميق على جميع مشكلات الذكاء الاصطناعي».

وقد كان البرنامج ينافس بقية برامج «جو» التجارية، التي تختار أفضل التحركات، عن طريق فحص عينة من برامج المحاكاة المستقبلية. بعد ذلك.. دمَج برنامج «ديب مايند» بين القدرة على اختيار التحركات وتجميعها، وتفسير لوحات «جو» بما يعطي برنامج «ألفا جو» فكرة أفضل حول الاستراتيجيات التي يُحتمل أن تكون ناجحة. ويُعَدّ هذا الأسلوب «مدهشًا»، كما يقول جوناثان شيفر، عالِم الحاسوب في جامعة ألبرتا في إدمونتون، كندا، الذي حلّ به برنامج «تشينوك»3 لعبة الداما في عام 2007. وبدلاً من اتباع الاتجاه السائد خلال الثلاثين عامًا الأخيرة من محاولة حل الألعاب باستخدام قدرة الحوسبة، تحوَّل برنامج «ديب مايند» إلى تقليد المعرفة الشبيهة بمعرفة البشر، وإنْ كان عبر التدريب، بدلاً من أن تتم برمجته، على حد قول جوناثان. ويُظْهِر الجانب الفذ هنا أيضًا قدرة التعلم العميق، الذي ينتقل من نجاح إلى آخر، كما يقول كولوم: «يُجْهِز التعلُّم العميق على جميع مشكلات الذكاء الاصطناعي».

يلعب برنامج «ألفا جو» بطريقة بشرية، على حد وصف فان: «إنْ لم يخبرني أحد أنه برنامج حاسوبي، لظننتُ أن اللاعب غريب الأطوار قليلًا، ولكنه شخص شديد المهارة». ويبدو أن البرنامج قد طوَّر أسلوبًا متحفظًا «بدلاً من أسلوب الهجوم»، حسبما يضيف توبي ماننيج، أحد محترفي لعبة «جو»، الذي قام بدور حَكَم المباراة.

كما تعمل شركة «فيسبوك» ـ المنافِسة لشركة «جوجل» ـ على تطوير برامج تَستخدم أسلوب التعلم الآلي لممارسة لعبة «جو»، بيد أن برنامجها الذي يُسمى بـ«دارك فورست» darkforest لا يزال متخلفًا عن أحدث تقنيات لعبة «جو» التجارية، حسبما ورد في طبعة أوليّة من ورقة بحثية نُشرت في نوفمبر الماضي4.

يقول هاسبيس إنه لا تزال هناك تحديات عديدة تعترض هدف شركة «ديب مايند»، المتمثل في تطوير نظام ذكاء اصطناعي معمَّم. وتحديدًا، لا يمكن لبرامجها أن تنقل بصورة مفيدة ما تعلمته حول نظام واحد ـ مثل «جو» ـ إلى مهام أخرى؛ وهو العمل الذي يؤديه البشر بسلاسة. ويقول هاسبيس: «ليس لدينا أي فكرة عن كيفية القيام بذلك. فلم نتوصل إليه بعد».

سيكون لاعبو «جو» شغوفين تجاه استخدام برامج الحاسب؛ لتحسين لعبتهم، كما يقول ماننيج، على الرغم من أن هاسبيس يقول إن «ديب مايند» ما زالت تفكر فيما إذا كانت ستطرح نسخة تجارية، أم لا.

ويضيف ماننيج قائلًا إن برنامج «ألفا جو» لم يقتل بهجة اللعبة. كما يقول إنه سيصير لِزامًا تغيير الشعارات التي تتفاخر بأن «جو» لعبة لا يمكن للحاسوب أن يربحها، ويضيف: «لن يثنيني أن برنامج حاسوبي قد تطور إلى الحدّ الذي لم أكن أحلم به عن ممارسة اللعبة».

  1. Silver, D. et al. Nature 529, 484–489 (2016).

  2. Mnih, V. et al. Nature 518, 529–533 (2015).

  3. Schaeffer, J. et al. Science 317, 1518–1522 (2007).

  4. Tian, Y. & Zhu, Y. Preprint at arXiv http://arxiv.org/pdf/1511.06410.pdf (2015).