أخبار

الذكاء الاصطناعي يهزم مُحترفي البوكر

الانتصار في مُتغيِّر معقَّد للعبة يقترب بالـ«بوتات» من حل مشكلات العالَم الواقعي الشائكة.

دوجلاس هيفين 

  • Published online:
البوكر ذات الستة لاعبين تخسر أمام الذكاء الاصطناعي.

البوكر ذات الستة لاعبين تخسر أمام الذكاء الاصطناعي. 

 Alexandre Rotenberg/Alamy

ها هي الآلات تنقل اللعبة مرة أخرى إلى مستوى جديد. تغلّب «بوت» Bot خارق يلعب البوكر، يُطلق عليه «بلوريباس»Pluribus، على مجموعة من أفضل اللاعبين المحترفين في لعبة بوكر «تكساس هولدم بلا حدود» Texas hold’em، التي يلعبها ستة لاعبين، وهي أحد أكثر أشكال اللعبة شعبيةً. تُعتبر هذه هي المرة الأولى التي يتغلب فيها برنامج ذكاء اصطناعي على لاعبين من صفوة اللاعبين البشريين، في لعبة يشترك فيها أكثر من طرفين. (N. Brown and T. Sandholm Science http://doi.org/c766; 2019).  

يقول جوليان توجيليوس من جامعة نيويورك في مدينة نيويورك، الذي يدرس الألعاب والذكاء الاصطناعي: "قد يبدو الانتقال من لعبة يشارك فيها لاعبان اثنان إلى ستة لاعبين مسألة متدرجة، إلا أنها خطوة كبيرة في الواقع"، ويضيف قائلًا: "لم يكن الجانب المتعلق بتعدد الأطراف المشارِكة في اللعبة أمرًا واردًا على الإطلاق في أي من الألعاب الأخرى التي تجري دراستها في الوقت الحالي.

سبق لفريق بلوريباس أنْ صَمَّم بالفعل برنامج ذكاء اصطناعيٍ يُدعى «ليبراتوس» Libratus، هزم محترفين في لعبة بوكر ثنائية. ومن خلال إجراء تحديث لـ«ليبراتوس»، استطاع الفريق بناء «بلوريباس»، على هيئة «بوت»، تلزمه قدرة معالجة حوسبية أقل بكثير للعب المباريات. ففي مباراة استمرت 12 يومًا، وشارك فيها أكثر من 10 آلاف يد (اليد هي الخمس أوراق التي في يد كل لاعب)، هزم «البوت» 15 لاعبًا بشريًّا بارزًا.

"لم يكن كثير من باحثي الذكاء الاصطناعي يعتقدون في إمكان فِعْل ذلك"، هكذا يقول نعوم براون، الذي يعمل في جامعة كارنيجي ميلون، ببيتسبرج في بنسيلفانيا، وفي أبحاث «فيسبوك» للذكاء الاصطناعي في مدينة نيويورك، والذي شارك زميله توماس ساندهولم من جامعة كارنيجي في تطوير «بلوريباس».

أثبتت برامج الذكاء الاصطناعي الأخرى، التي برعت في ألعاب بشرية - غلى غرار «ليبراتوس»، و«البوتات» التي طوّرتها شركة «ديب مايند» DeepMind، للعبة «جو»  Go- أنها لا تُهزَم في المباريات الثنائية ذات المحصلة الصفرية. في هذه السيناريوهات، هناك دائمًا فائز واحد، وخاسر واحد، ونظرية ألعاب تشرح أفضل استراتيجية محدَّدة المعالِم؛ فبمجرد استخدامها، تصبح الخسارة غير ممكنة.  

وحسبما يرى براون، فإن نظرية اللعبة تكون أقل نفعًا في وجود السيناريوهات التي تنطوي على أطراف متعددة، لها مصالح مُتنافسة، دون شروط واضحة للربح والخسارة، والتي تعبِّر عن معظم تحديات الحياة الواقعية. ومن خلال تعامل «بلوريباس» بنجاح مع لعبة البوكر متعددة اللاعبين، فإنه يضع أساسًا لتقنيات ذكاء اصطناعي مستقبلية للتعامل مع المشكلات المعقدة من هذا النوع. ويَعتقِد براون أن النجاح هو خطوة في اتجاه تطوير تطبيقات بعينها، مثل: عمليات التفاوض الآلية، والكشف عن الاحتيال بشكل أفضل، والسيارات ذاتية القيادة.

وللتعامل مع لعبة البوكر ذات الستة لاعبين، أدخل براون، وساندهولم تعديلات جذرية على خوارزمية بحث «ليبراتوس». تتقدم غالبية برمجيات الذكاء الاصطناعى الخاصة بالألعاب، عبر مخططات القرارات، للحصول على أفضل نقلة يمكن عملها في مَوقِف معين. ويفحص «ليبراتوس» مسارات اللعبة حتى نهايتها، قبل أي حركة، لكنّ التعقيد الذي يأتي بإضافة لاعبين، يجعل هذا التكتيك غير عملي.

تتطلب لعبة البوكر تفكيرًا منطقيًّا باستخدام معلومات مخفية، إذ يتعين على اللاعبين وضع استراتيجية تأخذ في اعتبارها البطاقاتِ التي قد يمتلكها خصومهم، وما قد يُخَمِّنه خصومهم عمّا بأيديهم، استنادًا إلى الرهان السابق، لكنّ وجود المزيد من اللاعبين يجعل عملية اتخاذ القرار أكثر صعوبة، لأنّ تلك العملية تتضمّن عندئذ تقييم عدد أكبر من الاحتمالات.

تمثلت القفزة الرئيسة في تطوير منهج يتيح لـ«بلوريباس» اتخاذ قرارات جيدة، بعد استشراف بضع خطوات فحسب، بدلًا من بحث المسارات حتى نهاية اللعبة.

يُعَلِّم «بلوريباس» نفسه من الصفر باستخدام شكل من أشكال «التعلّم المُعزّز»، يشابه ذلك المُستخدَم في الذكاء الاصطناعي «ألفا زيرو» Alpha-Zero، الذي تعتمد عليه لعبة «جو»، التابعة لـ«ديب مايند». يبدأ «بلوريباس» بلعب البوكر بطريقة عشوائية، ويتحسن مع تحديد أي الأفعال هي التي تجعله يربح المزيد من المال. ويلقي نظرةً إثر كل يد لاعبٍ على طريقة لعبه السابقة، ويفحص ما إذا كان سيحقق المزيد من المال، لو كان قد اتخذ قرارات مختلفة، مثل قرار رفع الرهان، بدلاً من الإبقاء عليه، أم لا. وإذا أدّت البدائل إلى نتائج أفضل، فسيكون من المرجح أن يختارها في المستقبل.

ومن خلال لعب تريليونات من مباريات البوكر ضد نفسه، يطوّر «بلوريباس» استراتيجية أساسية، يعتمد عليها في المباريات، وعند كل نقطة اتخاذ قرار، يقارِن حالة اللعبة بمخططها الأَوّلِيّ، ويستشرف بضع الالأويبحث خطوات مستقبلية، لمعرفة مدى نجاح الإجراء، ثم يقرر بعدها ما إذا كان يمكنه تحسين هذا الإجراء، أم لا.

مهد الذكاء الاصطناعي

يرجع نجاح «بلوريباس» بدرجة كبيرة إلى كفاءته. وعند اللعب، يتم تشغيله على وحدتي معالجة مركزيتين فحسب. وعلى النقيض من ذلك.. عندما تغلب بوت «جو» الأصلي - التابع لـ«ديب مايند» - على المحترفين البارزين لأول مرة، استخدم ما يقرب من 2000 وحدة معالجة مركزية، في حين يستخدم «ليبراتوس» 100 وحدة. وعندما يلعب «بلوريباس» ضد نفسه، يلعب يدًا في حوالي 20 ثانية، أي ضِعْف سرعة البشريين المحترفين تقريبًا.

لقد تَبيَّن أن الألعاب طريقة رائعة لقياس التقدم المُحرَز في الذكاء الاصطناعى، لأنه يمكن مقارنة النتائج مع نتائج أفضل البشر. وقد يتم الاحتفاء بالـ«بوتات»، باعتبارها خارقة، إذا فازت على نحو يخلو من التحيز، لكنّ براون يرى أن الذكاء الاصطناعي يتخطى مستوى قدراته الأُولى، قائلًا: "كان هذا آخِر تحدٍّ باقٍ في لعبة البوكر".

يعتقد توجيليوس أنه لا يزال هناك المزيد من الاستفادة التي يمكن أن يجنيها باحثو الذكاء الاصطناعي، والألعاب التي تقوم عليه، إذ يقول: "هناك الكثير من المساحات غير المستكشَفة". ويُذكر أنّ قليلًا من برامج الذكاء الاصطناعى أتقن أكثر من لعبة واحدة، وهو ما يتطلب قدرة عامة، بدلاً من مهارة متخصصة. وحسب رأي توجيليوس، فإن هناك ما هو أكثر من مجرد لعب الألعاب، ويستطرد قائلًا: "ثمة تحدٍّ آخر، يتمثل في تصميم هذه الألعاب، وهو تحدّ كبير أمام الذكاء الاصطناعي، إذا كانت ثمّة تحديات من الأساس".