تحقيق إخباري

علوم الحاسب الآلي: آلات تتعلم

باستخدام كميات هائلة من البيانات للتعرف على الصور والكلام، تقفز أجهزة الحاسب للتعلم العميق خطوات كبيرة نحو الذكاء الاصطناعي الحقيقي.

نيكولا جونز
  • Published online:

BRUCE ROLFF/SHUTTERSTOCK


قبل ثلاث سنوات، استخلص الباحثون في مختبر «جوجل X السري» في ماونتن فيو، كاليفورنيا، نحو عشرة ملايين صورة ثابتة من أشرطة فيديو يوتيوب، وأدخلوها في مشروع «دماغ جوجل»، وهو الذي يتألف من شبكة من 1000 حاسب مبرمج لاستيعاب العالم إلى حد كبير، كطفل آدمي صغير. وبعد ثلاثة أيام من البحث عن الأنماط المتكررة، قرر «دماغ جوجل» ـ من تلقاء نفسه تمامًا ـ أن هناك فئات متكررة بعينها يمكنه التعرف عليها، مثل: الوجوه البشرية، والأجسام البشرية، و ... القطط1.

أثار اكتشاف «دماغ جوجل» بأن الإنترنت مليئة بأشرطة الفيديو عن القطط موجةً من النكات بين الصحفيين، ولكنه كان أيضًا علامة بارزة على انطلاقة جديدة للتعلم المتعمق: وهي تقنية يزيد عمرها على ثلاثة عقود، وتتلخص في استخدام كميات هائلة من البيانات وقدرات المعالجة؛ لمساعدة الحاسب في حل المشاكل المشوشة التي يستطيع الإنسان حلها بشكل حدسي تقريبًا، من التعرف على الوجوه، إلى فهم اللغات.

والتعلم المتعمِّق ـ في حد ذاته ـ هو إحياء لفكرة أقدم للحوسبة، ألا وهي الشبكات العصبية. وهذه الأنظمة ـ المستوحاة من تصميم الخلايا العصبية الكثيفة والمترابطة في الدماغ ـ تحاكي التعلم البشري، عن طريق تغيير قوة الوصلات العصبية المحاكاة على أساس الخبرة. يتضمن حاسب «دماغ جوجل» حوالي مليون خلية عصبية، ومليار وصلة محاكاة عصبية، وكان أكبر عشر مرات من أي شبكة عصبية متعمقة سبقته. وقد واصل مؤسِّس المشروع، أندرو نج ـ الذي يعمل حاليًا مديرًا لمختبر الذكاء الاصطناعي في جامعة ستانفورد بولاية كاليفورنيا ـ جهوده لجعل أنظمة التعلم المتعمق عشر مرات أكبر مرة أخرى.

يحمل هذا التقدم في طياته أوقاتًا مثيرة لتقنية الذكاء الاصطناعي، التي تحاول جعل أجهزة الحاسب تفكر كالإنسان، ويكتنفها الإحباط في كثيرٍ من الأحيان. ففي السنوات القليلة الماضية، اندفعت شركات ـ مثل جوجل، وأبل، وآي بي إم ـ بقوة في الاستثمار في الشركات الناشئة والباحثين من ذوي الخبرة في مجال التعلم المتعمق. وبالنسبة إلى المستهلكين من أصحاب الاستخدامات اليومية، تشمل النتائج المرجوّة التوصل إلى برمجيات أفضل، لها القدرة على فرز الصور، وفهم الأوامر المنطوقة، وترجمة النصوص من لغات أجنبية. وفيما يخص العلماء والصناعة، يمكن لأجهزة الحاسب بالتعلم المتعمق البحث عن عقاقير محتملة، أو تخطيط شبكات عصبية حقيقية في الدماغ، أو التنبؤ بوظائف البروتينات.

يقول يان ليكان، مدير مركز علم البيانات في جامعة نيويورك، وأحد روّاد التعلم المتعمق: «لقد مضت تقنية الذكاء الاصطناعي من فشل إلى فشل، مع تقدم ضئيل. ويمكن أن تكون هذه قفزة أخرى».

ويتابع بقوله: «على مدى السنوات القليلة القادمة سوف نرى موجة من الالتهام الشره، وسيقفز الكثير من الناس على عربة التعلم المتعمق». ويوافق على ذلك جيتندرا مالك، الذي يدرس تعرُّف الحاسب على الصور في جامعة كاليفورنيا، بيركلي. هذا.. غير أنه على المدى البعيد، قد لا يحوز التعلم المتعمق السَّبْقَ، ولذا.. فإن بعض الباحثين يتابعون البحث في تقنيات أخرى تبدو واعدة. يقول مالك: «أنا لا أدري.. وبمرور الوقت سيقرر الناس أي تقنيات تعمل بشكل أفضل في المجالات المختلفة».


مستوحاة من الدماغ

في خمسينات القرن الماضي، عندما كانت أجهزة الحاسب جديدة، توقع الجيل الأول من باحثي الذكاء الاصطناعي بحماس أن تكون أنظمة الذكاء الاصطناعي المكتملة قاب قوسين أو أدنى من الظهور، لكن هذا التفاؤل قد تلاشى عندما بدأ الباحثون في استيعاب مدى التعقيد الكبير للمعرفة في العالم الحقيقي، وخاصة عندما يتعلق الأمر بأمور إدراكية، مثل: ما الذي يجعل حاسبًا يتعرف على صورة وجه أنها وجه إنسان، وليست قناعًا، أو وجه قرد. قضى المئات من الباحثين وطلاب الدراسات العليا عقودًا يُدْخِلون يدويًّا قواعد الترميز المتعلقة بكافة السمات المختلفة التي يحتاجها الحاسب للتعرف على الأشياء. يقول نج: «التوصل إلى السمات المناسبة أمر صعب، ويستغرق وقتًا طويلًا، ويتطلب معرفة خبيرة. ومن الطبيعي أن تسأل عما إذا كانت هناك طريقة أفضل».

كبر الصورة

IMAGES: ANDREW NG


في ثمانينات القرن الماضي، بدا أن هناك طريقة أفضل للتعلم المتعمق في الشبكات العصبية. فلهذه الأنظمة القدرة على تعلم القواعد الخاصة بها من نقطة الصفر، كما تمتاز بتماثل بديع، حيث تستخدم آليات مستوحاة من الدماغ لتحقيق وظائف تشبه وظائف الدماغ. تتطلب تلك الاستراتيجية ترتيب خلايا عصبية محاكاة في عدة طبقات. وعند تقديم صورة لمثل هذا النظام، سوف تلاحظ الطبقة الأولى من طبقات التعلم ببساطة كل «بكسلات» الإضاءة والإعتام في الصورة. قد تدرك الطبقة التالية أن بعض تلك البكسلات تشكل حدودًا، بينما قد تتمكن الطبقة التي تليها من التمييز بين الخطوط الأفقية والخطوط العمودية. وفي نهاية المطاف، قد تتعرف طبقة على العينين، وربما تدرك أن العينين عادةً ما تُوجَدَان في الوجه البشري (انظر «التعرف على الوجه»).

لم يكن أداء أول برامج التعلم المتعمق أفضل من أي أنظمة أخرى أكثر بساطة، حسبما يقول مالك. وبالإضافة إلى ذلك.. كان من الصعب التعامل معها. «دائمًا كانت إدارة الشبكات العصبية فنًّا دقيقًا. ينطوي الأمر على شيء من السحر الأسود»، حسب قوله. وتتطلب الشبكات سيلًا غنيًّا من الأمثلة للتعلم منها، مثل طفل يجمع المعلومات عن العالم من حوله. في ثمانينات وتسعينات القرن الماضي، لم يكن الكثير من المعلومات الرقمية متوفرًا، كما أن أجهزة الكمبيوتر في ذلك الوقت كانت تحتاج إلى وقت طويل لمعالجة ما كان متاحًا. كانت التطبيقات نادرة. ومن التطبيقات القليلة في تلك الفترة: تقنية وضعها ليكان، وتستخدمها البنوك حتى الآن لقراءة الشيكات المكتوبة بخط اليد.

ومع ذلك.. فمع مطلع الألفية الثانية كان دعاة من أمثال ليكان ومشرفه السابق، عالِم الكمبيوتر جيفري هينتون من جامعة تورونتو في كندا، مقتنعين بأن الزيادة التي تحققت في القدرة الحاسوبية، والتطور الرهيب الحادث في كَمّ البيانات الرقمية المتوفرة، يعنيان أن الوقت قد حان لدَفعة جديدة. يقول جورج دال، وهو أحد طلبة هينتون حاليًا: «أردنا أن نبيّن للعالم أن هذه الشبكات العصبية المتعمقة مفيدة حقًا، ويمكنها أن تساعد فعلًا».

كبداية، عالج هينتون، ودال، وعديد من الباحثين الآخرين المهمة الصعبة، والمهمة تجاريًّا، وهي التعرف على مفردات الكلام. ففي عام 2009، أفاد الباحثون2 أنه بعد التدريب على مجموعة بيانات تقليدية ـ تضمنت ثلاث ساعات من الأحاديث المسجلة والكلمات المكتوبة ـ كسرت شبكتهم العصبية للتعلم المتعمق الرقم القياسي للدقة في تحويل الكلمات المنطوقة إلى نص مكتوب، وهو الرقم القياسي الذي لم يتزحزح كثيرًا خلال عقد من استخدام الأسلوب القياسي القائم على استخدام القواعد. لفت هذا الإنجاز انتباه اللاعبين الرئيسين في سوق الهواتف الذكية، حسب قول دال الذي نقل هذه التقنية إلى مايكروسوفت خلال فترة تدريب له هناك. ويقول: «في ظرف بضع سنوات تحوَّل الجميع إلى التعلم المتعمق». وعلى سبيل المثال.. يعتمد «سيري Siri» ـ المساعد الرقمي المفعّل بالصوت في هواتف آي فون ـ على تقنية التعلم المتعمق.


قفزة هائلة

عندما اعتمدت «جوجل» أسلوب التعرف على الكلام بطريقة التعلم المتعمق في نظام التشغيل لهاتف أندرويد الذكي، حققت انخفاضًا بنسبة %25 في أخطاء التعرف على الكلمات. يقول هينتون: «هذا النوع من التحسن يُتوقع عادةً أن يستغرق تحقيقه عشر سنوات»، مما يعكس مدى الصعوبة التي كانت تكتنف إحراز تقدم في هذا المجال. ويضيف قائلًا «هذا بمثابة عشرة إنجازات تتحقق كلها معًا».

في الوقت نفسه، تمكَّن نج من إقناع جوجل بالسماح له باستخدام البيانات وأجهزة الحاسب الخاصة بها على ما أصبح يُعرف فيما بعد بمشروع «دماغ جوجل». كانت قدرة المشروع على التعرف على القطط بيانًا عمليًّا مقنعًا لأسلوب التعلم بدون إشراف (ولكنها بمفردها لم تكن مجدية تجاريًّا). يُعد هذا الأسلوب من أصعب طرق التعلم، حيث إن المدخلات تأتي بدون أي معلومات تبين كنهها، مثل الأسماء والعناوين، أو الفئات، ولكن نج سرعان ما اعتراه القلق، بسبب قلة عدد الباحثين من خارج جوجل الذين تتوفر لديهم الأدوات اللازمة للعمل في مجال التعلم المتعمق. يقول: «على إثر العديد من المحاضرات التي كنت ألقيها، كثيرًا ما كان يأتيني طلاب للدراسات العليا محبطين يقولون: «ليس لدينا 1000 جهاز حاسب تحت تصرفنا، فهل يمكننا حتى مجرد البدء في البحث في هذا المجال؟»»

ومن ثم بدأ نج في جامعة ستانفورد مرة أخرى يطوّر شبكات تعلم أكبر وأرخص للتعلم المتعمق باستخدام وحدات معالجة الرسوم (GPUs)، وهي رقائق حاسوبية فائقة السرعة، مصممة لألعاب الكمبيوتر المنزلي3. وكان هناك آخرون يقومون بالشيء نفسه. يقول نج: «بحوالي 100,00 دولار أمريكي من الأجهزة، يمكننا بناء شبكة بها 11 بليون وصلة، باستخدام 64 من وحدات معالجة الرسوم».


الآلة الفائزة

كان علماء الرؤية باستخدام الحاسب يريدون أن يروا تحقيق مكتسبات في اختبارات قياسية. يتذكر مالك أن هينتون قد سأله: «أنت من المتشككين. ما الذي يمكن أن يقنعك؟» أجاب مالك بأن الفوز في مسابقة ImageNet الدولية الشهيرة قد يؤدي الغرض.

في هذه المسابقة، تُدرِّب الفرق المتنافسة برامج الحاسب على مجموعة بيانات تضم حوالي مليون صورة تم تصنيفها يدويًّا إلى فئات. وبعد الانتهاء من التدريب، يتم اختبار البرامج بأن يُطلب منها اقتراح أسماء لعدد من الصور المماثلة التي لم يسبق لها رؤيتها من قبل. تُعطَى البرامج الفرصة لتقديم خمسة تخمينات لكل صورة من صور الاختبار، وإذا لم يكن الجواب الصحيح ضمن تلك التخمينات الخمسة، يُحسب ذلك كإجابة خطأ في الاختبار. في السابق كان الفائزون يحققون نسبة خطأ تبلغ حوالي %25 عادةً. وفي عام 2012، دخل مختبر هينتون المسابقة كأول متنافس يستخدم أسلوب التعلم المتعمق؛ فحقق معدل خطأ قيمته %15 فقط (المرجع 4).

«لقد سحق التعلم المتعمق كل الأساليب الأخرى»، حسبما قال ليكان، الذي لم يكن ضمن هذا الفريق. ومهَّد هذا الفوز لحصول هينتون على وظيفة بدوام جزئي لدى جوجل، واستخدمت الشركة البرنامج لتحديث برنامج جوجل+ للبحث في الصور في مايو 2013.

تم إقناع مالك.. «ففي مجال العلوم يجب أن تنقاد إلى الأدلة التجريبية، وقد كان هذا دليلًا واضحًا»، على حد قوله. ومنذ ذلك الحين، قام مالك بتكييف هذا الأسلوب لتحطيم الرقم القياسي في مسابقة أخرى للتعرف البصري5. وقد تبعه في ذلك عديد من الباحثين الآخرين. وبحلول عام 2013، استخدم جميع المتنافسين في مسابقة ImageNet أسلوب التعلم المتعمق.

«على مدى السنوات القليلة القادمة سوف نرى موجة من الالتهام الشره، وسيقفز الكثير من الناس على عربة التعلم المتعمق»

بعد تحقيق هذه الانتصارات في مجال التعرف على الصور والكلام، يزداد الاهتمام الآن بتطبيق أسلوب التعلم المتعمق في فهم اللغة الطبيعية – أي فهم الخطاب البشري جيدًا بما يكفي لإعادة الصياغة أو الإجابة على الأسئلة، على سبيل المثال - وكذلك الترجمة من لغة إلى أخرى. مرة أخرى، يتم ذلك حاليًا باستخدام قواعد يتم وضعها يدويًّا من النص المعروف، وعن طريق التحليل الإحصائي له. ومن الأمثلة المتقدمة لهذه التقنيات برمجيات مثل جوجل ترانسليت، التي يمكنها إعطاء نتائج مفهومة (وإنْ كانت مضحكة أحيانًا)، ولكنها لا ترقى إلى مصاف الترجمة البشرية السلسة. يقول لويس فون آهن خبير التعهيد الجماعي crowd sourcing، الذي تعتمد شركته Duolingo، ومقرها في بيتسبرج، بنسلفانيا، على البشر، وليس الحاسبات، في ترجمة النصوص. «الشيء الوحيد الذي يتفق الجميع عليه هو أنه حان الوقت لتجريب شيء مختلف».


علوم متعمقة

في غضون ذلك.. أثبت أسلوب التعلم المتعمق جدواه في مجموعة متنوعة من المهام العلمية. يقول هينتون: «الشبكات المتعمقة جيدة حقًا في التعرف على أنماط بعينها ضمن مجموعات البيانات». وفي عام 2012، رصدت شركة المستحضرات الصيدلانية ميرك جائزة لمن يستطيع التفوق على أفضل برامجها في المساعدة على التنبؤ بعقاقير مرشحة مفيدة. تلخصت المهمة في التنقيب خلال قاعدة بيانات تضمنت سجلات عن أكثر من 30,000 من الجزيئات الصغيرة، يتضمن كل منها آلاف الواصفات العددية للخواص الكيميائية، ومحاولة التنبؤ بكيفية تصرف كل منها إزاء 15 جزيئًا مستهدفًا. وباستخدام نظام للتعلم المتعمق، فاز دال وزملاؤه بجائزة قيمتها 22,000 دولار أمريكي. «لقد تمكَّنّا من تحقيق تحسن بنحو %15 على خط الأساس لشركة ميرك»، على حد قوله.

يستخدم البيولوجيون والباحثون في مجال الحوسبة ـ مثل سيباستيان سيونج من معهد ماساتشوستس للتقنية في كمبريدج ـ أسلوب التعلم المتعمق؛ لمساعدتهم على تحليل صور ثلاثية الأبعاد لشرائح في الدماغ. تتضمن مثل تلك الصور مجموعة متشابكة من الخطوط التي تمثل الوصلات بين الخلايا العصبية. وهذه تحتاج إلى تحديد، بحيث يمكن تخطيطها وعدّها. في الماضي، كان يُستعان بالطلبة الجامعيين لتتبع مسارات تلك الخطوط، غير أن العملية في صورتها الأوتوماتيكية تُعَدّ الطريقة الوحيدة للتعامل مع مليارات الوصلات، التي من المتوقع أن يتطلب الأمر التعامل معها مع استمرار مثل تلك المشاريع. ويبدو أن التعلم المتعمق سيكون أفضل وسيلة للأوتوماتيكية. يستخدم سيونج حاليًا برنامجًا للتعلم المتعمق لتخطيط الخلايا العصبية في جزء كبير من شبكية العين، ومن ثم إحالة النتائج للتأكد من صحتها بواسطة متطوعين في لعبة التعهيد الجماعي على الإنترنت، تُدعى EyeWire.

«يمتاز التعلم المتعمِّق بخاصية أنه إذا ما غذَّيته بالمزيد من البيانات؛ فإنه يتحسن أكثر فأكثر»

استخدم ويليام ستافورد نوبل ـ وهو عالِم حاسب بجامعة واشنطن في سياتل ـ أسلوب التعلم المتعمق لتعليم برنامج للنظر في سلسلة من الأحماض الأمينية والتنبؤ ببنية البروتين الناتج. وعلى سبيل المثال.. ما إذا كانت الأجزاء المختلفة ستشكل حلزونًا أم حلقة، ومدى سهولة تمَكّن مُذيب من التسلل عبر ثغرات في تلك البنية. وحتى الآن، قام نوبل بتدريب برنامجه على مجموعة واحدة صغيرة من البيانات، وخلال الأشهر المقبلة سينتقل إلى بنك بيانات البروتين: وهو مستودع بيانات عالمي، يضم حاليًا ما يقرب من 100,000 بنية بروتين.

يمكن لأسلوب التعلم المتعمق تحقيق أرباح كبيرة لعلماء الحاسب.. إذ يفكر دال في فرص إقامة شركات ناشئة، وتم التعاقد مع ليكان في ديسمبر 2013 ليرأس قسمًا جديدًا للذكاء الاصطناعي في «فيسبوك». تبشر هذه التقنية الواعدة بتحقيق النجاح العملي للذكاء الاصطناعي. و«يمتاز التعلم المتعمق بخاصية أنه إذا ما غذيته بالمزيد من البيانات؛ فإنه يتحسن أكثر فأكثر»، كما لاحظ نج. ويقول: «إن خوارزميات التعلم المتعمق ليست هي الوحيدة التي لها تلك الميزة، ولكن يمكن القول إنها الأفضل، وبالتأكيد فإنها الأسهل. ولذا.. فهي تُعد تقنية واعدة بدرجة هائلة للمستقبل».

ومع ذلك.. فليس كل الباحثين مؤيدين لهذه الفكرة. يقول أورين إتزيوني، مدير مركز ألن للذكاء الاصطناعي في سياتل، الذي تم إطلاقه في سبتمبر الماضي؛ بهدف تطوير الذكاء الاصطناعي، إنه لن يتم استخدام الدماغ كمصدر للإلهام. ويضيف: «الأمر يشبه ما حدث عند اختراعنا للطيران»، حيث إن التصاميم الأكثر نجاحًا للطائرات لم تكن على غرار مبادئ علم الأحياء للطيور. يتلخص الهدف المحدد لإتزيوني في ابتكار جهاز حاسب، أنه عندما يُعطَى رصة من الكتب المدرسية الممسوحة ضوئيًّا، فإنه يتمكن من اجتياز اختبارات موحدة في العلوم للمدرسة الابتدائية (يتم تكثيفها في نهاية المطاف لتصل إلى امتحانات ما قبل الجامعة). ولاجتياز الاختبارات، ينبغي أن يكون الحاسب قادرًا على قراءة وفهم الرسوم والنصوص. ولم يتم البَتّ بعد في الطريقة التي سيتبعها معهد ألين لتحقيق ذلك، ولكن إتزيوني يقول إن الشبكات العصبية والتعلم المتعمق ليسا في المقدمة على قائمة الخيارات المطروحة.

تكمن إحدى الأفكار المنافِسة في الاعتماد على حاسب يفكر على أساس الحقائق التي يتم إدخالها إليه، بدلًا من محاولة معرفة الحقائق الخاصة به من نقطة الصفر. ولذا.. فقد يبرمج عن طريق تأكيدات من نوع «جميع الفتيات بشر». وبعد ذلك.. عندما يُعرض عليه نص يذكر فتاة، يمكن للحاسب أن يستنتج أن الفتاة المعنية هي شخص. يتطلب الأمر الآلاف ـ إن لم يكن الملايين ـ من تلك الحقائق؛ لتغطية الجوانب العادية البسيطة من المعرفة حول العالم. وهذا تقريبًا هو ما تضمنه جهاز الحاسب «واتسون» من إنتاج شركة آي بي إم، الذي فاز في مباراة شهيرة من برنامج الألعاب التليفزيوني «جيوباردي» ضد عدد من كبار المتنافسين الآدميين في عام 2011. ومع ذلك.. فإن مجموعة Watson Solutions التابعة لـ«آي بي إم» مهتمة بتجربة أسلوب التعلم المتعمق؛ لتحسين التعرف على الأنماط، حسب قول روب هاي، كبير مسؤولي التقنية في الشركة التي يوجد مقرها الرئيس في أوستن، تكساس.

تأخذ جوجل أيضًا حذرها إزاء الموقف من الخيارات المتاحة.. فرغم أن أكثر أساليبها تطورًا في مجال توسيم الصور تقوم على شبكات التعلم المتعمقة لهينتون، فإن لديها أقسامًا أخرى بخيارات أوسع. ففي ديسمبر 2012، تعاقدت الشركة مع عالِم المستقبل، راي كورزويل؛ لمتابعة الطرق المختلفة لتعلم أجهزة الحاسب من الخبرة، بما في ذلك استخدام تقنيات تضم التعلم المتعمق، ولكنها لا تقتصر عليه. ففي مايو من العام الماضي، حصلت جوجل على جهاز حاسب كمّي من إنتاج شركة D-Wave في برنابي، كندا (انظر: Nature 498, 286-288; 2013). يمكن استخدام هذا الحاسب الواعد في مهام غير الذكاء الاصطناعي، كالحسابات الرياضية الصعبة، رغم أنه يمكن ـ نظريًّا ـ استخدامه كذلك في مجال التعلم المتعمق.

ورغم النجاحات التي حققتها تقنية التعلم المتعمق، فإنها لا تزال في مراحلها الأولى. يقول دال: «إنها جزء من المستقبل. ويمكن القول إنه من المدهش أننا حققنا الكثير جدًّا بإمكانيات قليلة جدًّا». ويضيف قائلًا: «ما زلنا في البداية».

  1. Le, Q. V. et al. Preprint at http://arxiv.org/abs/1112.6209 (2011).

  2. Mohamed, A. et al. 2011 IEEE Int. Conf. Acoustics Speech Signal Process. http://dx.doi.org/10.1109/ICASSP.2011.5947494 (2011).

  3. Coates, A. et al. J. Machine Learn. Res. Workshop Conf. Proc. 28, 13371345 (2013).

  4. Krizhevsky, A., Sutskever, I. & Hinton, G. E. In Advances in Neural Information Processing Systems 25; available at http://go.nature.com/ibace6

  5. Girshick, R., Donahue, J., Darrell, T. & Malik, J. Preprint at http://arxiv.org/abs/1311.2524 (2013).