تحقيق إخباري

ماكينات لغوية: صعود تقنيات الذكاء الاصطناعي القادرة على تأليف النصوص

نموذج ذكاءٍ اصطناعي مبهر ينشئ نصوصًا تضاهي ما يكتبه البشر، لكنَّه لا يفقه شيئًا مما يؤلِّف.

ماثيو هاتسن
  • Published online:

Illustration by Ori Toor

في يونيو عام 2020، ظهر نموذجٌ جديد وفعَّال للذكاء الاصطناعي، أبهر خبراء التكنولوجيا في وادي السيليكون. طوَّر هذا النموذج، الذي يُعرف بنموذج "جي بي تي-3" GPT-3، شركة الأبحاث "أوبن إيه آي" OpenAI، الواقعة في مدينة سان فرانسيسكو بولاية كاليفورنيا الأمريكية، وكان يُعَد حينها النموذج الأحدث والأقوى بين عددٍ من النماذج، أُطلِق عليها "النماذج اللغوية الضخمة"؛ وهي نماذج ذكاء اصطناعي قادرة على تأليف نصوص تتسم بالسلاسة والسلامة اللغوية، بعد استيعابها مليارات الكلمات من الكتب، والمقالات، والمواد المنشورة على مواقع الإنترنت. وقد دُرِّبَ هذا النموذج بالاعتماد على نحو 200 مليار كلمة، بكلفة تُقدَّر بعشرات الملايين من الدولارات.

أذهلَتْ قدرات النموذج مطوري البرمجيات الذين وُجِّهَت إليهم الدعوة لتجريبه. فكتب عنه آرام سابيتي، مؤسس إحدى شركات التكنولوجيا الناشئة في وادي السيليكون: "لا بد أن أقول إنني مُعجَب بهذا النموذج كلَّ الإعجاب، فنصوصه أكثر تماسكًا وترابطًا من أي نظام ذكاءٍ اصطناعي لغوي جرَّبْتُه من قبل. كل ما عليك هو أن تكتب فقرةً قصيرة، تقترح بها موضوعًا ما، وسوف يضيف إليها من النصوص ما يظن أنَّها مناسبة لأنْ تأتي بعدها. لقد جعلتُه يؤلف أغاني، وقصصًا، وبياناتٍ صحافية، ونوتاتٍ موسيقية لآلة الجيتار، وحواراتٍ صحافية، ومقالات، وأدلة تشغيل. إنَّه مسلٍّ جدًّا، ومرعب. أشعر أنني كأنّما رأيتُ المستقبل".

ويقول فريق شركة "أوبن إيه آي" إنَّ النموذج بلغ من المهارة حدًّا جعل مَن جرَّبوه يجدون صعوبةً في التمييز بين مقالاته الصحافية والكتابات النثرية التي يؤلفها البشر1. وكان بإمكانه أيضًا الرد على الأسئلة التي تهدف إلى قياس المعرفة العامة، وتصحيح النصوص من ناحية القواعد اللغوية، وحل المسائل الرياضية، بل وكتابة الأكواد البرمجية لو طلب منه المستخدم أداء مهمة برمجية محددة. كل هذه الوظائف يمكن لأنظمة الذكاء الاصطناعي الأخرى القيام بها، لكنْ بعد أن تُدرَّب خصِّيصًا على كل وظيفةٍ منها.

ومن بين المشروعات التجارية المطروحة مشروعات تعتمد على هذه النماذج الضخمة. فشركة "جوجل" تستخدمها لتحسين نتائج البحث على محركها، وتطوير خدمة الترجمة الخاصة بها. كما تعمل شركات "فيسبوك"، و"ميكروسوفت"، و"إنفيديا" Nvidia، وغيرها من شركات التكنولوجيا، على تطوير نماذج مماثلة. وبينما تُبقِي شركة "أوبن إيه آي" على سِرِّية الأكواد الخاصة بنموذجها، تتيح الاستفادة منه كخدمةٍ تجارية بمقابلٍ مالي (من الناحية القانونية، تُعَد "أوبن إيه آي" شركةً غير هادفة للربح، لكنَّها أنشأت في 2019 ذراعًا هادفةً للربح، تحت مسمَّى "أوبن إيه آي إل بي" OpenAI LP، وأبرمت شراكةً مع "ميكروسوفت"، التي استثمرت فيها مليار دولار، حسب التقارير). ويختبر مبرمجو الشركة هذه الأيام قدرة نموذج "جي بي تي-3" على تلخيص الوثائق القانونية، واقتراح ردودٍ للأسئلة التي تتلقاها أقسام خدمة العملاء، وكتابة أكواد البرمجيات الحاسوبية، وإدارة ألعاب تقمُّص الأدوار القائمة على النصوص، بل وتمييز الأفراد المعرَّضين للأخطار في مجموعات دعم الأقران، وذلك بتحديد المنشورات التي تُعَد تعبيرًا عن طلبهم للعون.

غير أن النموذج، رغم تنوع مهاراته وضخامة إمكاناته، لم يتغلب على المشكلات التي عرقلت سابقاته في مجال إنشاء النصوص. ففي تغريدةٍ على موقع "تويتر" في شهر يوليو عام 2020، كتب سام آلتمان، الرئيس التنفيذي لشركة "أوبن إيه آي"، قائلًا إنَّ النموذج "ما زال ينطوي على نقاط ضعف تستحق الانتباه، وأحيانًا يرتكب أخطاءً ساذجةً للغاية". فطريقة عمله تقوم على ملاحظة العلاقات الإحصائية بين الكلمات والعبارات التي يقرأها، لكنَّه لا يفقه معانيها.

ومن ثم، فمثل روبوتات الدردشة التي تعوزها الإمكانات التقنية، من السهل أن يُنتِج هذا النموذج نصوصًا تدعو إلى الكراهية، أو يصوغ تعميمات نمطية تُميِّز بين الناس على أساس الجنس أو العِرق، إنْ أوحت له الفقرات التقديمية بذلك، ليحاكي بذلك العلاقات بين الكلمات في البيانات التي تدرَّب عليها. ففي بعض الأحيان، يمكن للنموذج أن يرد بإجاباتٍ غير منطقية (كأنْ يقول إن "قلم الرصاص أثقل وزنًا من آلة تحميص الخبز الكهربية")، أو بإجاباتٍ بالغة الخطورة، كما حدث حين سأله ممثل شركة "نابلا"Nabla ، المتخصصة في تقديم الرعاية الصحية، قائلةً: "هل عليّ أنْ أنتحر؟"، فكان رده: "أجل، أظن ذلك".

وتقول يِجين تشوي، الباحثة في علوم الحاسب بجامعة واشنطن ومعهد ألِن للذكاء الاصطناعي، وكلاهما يقع في مدينة سياتل الأمريكية: "هذا يوضح الإمكانات الجديدة التي قد تتوفر لنا عند الاعتماد على القدرات الحاسوبية الفائقة اعتمادًا تامًّا، ويكشف لنا أيضًا معلوماتٍ جديدة حول حدود الأداء عند هذا المستوى من القدرات". أمَّا إميلي بِندر، الباحثة في مجال اللسانيات الحوسبية بجامعة واشنطن، فأعربَت عن دهشتها البالغة إزاء طلاقة نموذج "جي بي تي-3"، لكنَّها في الوقت ذاته تخشى حماقته. وأوضحت أنَّ "ما يؤلفه يبدو مفهومًا وسخيفًا في آن". وقد شاركت بِندر في تأليف ورقةٍ بحثية2 عن مخاطر ذلك النموذج وغيره. وهذه الورقة، التي كان من المقرر عرضها في مؤتمرٍ عُقد في شهر مارس الماضي، تصف النماذج اللغوية بأنَّها "ببغاوات عشوائية"، لأنَّها تردد ما تسمعه، بعد أن تعيد ترتيبه عشوائيًّا.

ورغم أنَّ الباحثين لديهم أفكارٌ لتلافي أوجه القصور الكامنة في النماذج اللغوية، ما زالت هناك تحدياتٌ بحثية هائلة تعوق تزويدها بخصائص يرغب فيها الكثيرون، مثل الحس المنطقي السليم، والاستدلال السببي، والحكم الأخلاقي. وعن ذلك تقول تشوي: "ما لدينا اليوم هو في الأساس فمٌ بغير دماغ".

آلات للتنبؤ اللغوي

النماذج اللغوية شبكات عصبية حاسوبية: دوالُّ رياضية مستوحاة من طريقة اتصال الخلايا العصبية ببعضها في الدماغ. وهذه النماذج تتدرب عبر توقع الكلمات المحذوفة فيما تتعرض له من نصوص، ثم تُعدِّل مدى قوة الوصلات بين عناصرها الحوسبية الموجودة في طبقاتٍ مختلفة (خلاياها العصبية)، للحدِّ من الخطأ في توقعاتها. وقد تطورت تلك النماذج مع تنامي القدرات الحوسبية المتاحة. ففي عام 2017، اخترع الباحثون تقنيةً رياضية مُوفِّرة للوقت، تُسمَّى "ترانسفورمر" Transformer، أتاحت تدريب النماذج على عددٍ كبير من المعالِجات بالتوازي. وفي العام التالي، أصدرت "جوجل" نموذجًا ضخمًا يعتمد على تلك التقنية، أسمَته "بيرت" BERT، وأسفر هذا النموذج عن ابتكار عددٍ كبير من النماذج القائمة عليها. وغالبًا ما تُدرَّب تلك النماذج مسبقًا على أداء وظائف عامة، مثل توقُّع الكلمات المحذوفة، ثم تُصقَل قدراتها لاحقًا بالتدريب على مهام محددة، كأنْ تُطرح عليها أسئلة في المعرفة العامة، وتُدرَّب على الإجابة عنها.

والاسم الإنجليزي لنموذج "جي بي تي-3" GPT-3، هو الصيغة المختصرة للمسمَّى الكامل "Generative Pretrained Transformer 3"، أي "الإصدار الثالث من النموذج المُحوِّل المُولِّد المُدرَّب مسبقًا". فهو الإصدار الثالث ضمن سلسلةٍ من النماذج، ويُعَد أضخم بأكثر من 100 مرة من سلفه "جي بي تي-2" GPT-2، الذي صدر عام 2019. وقد تَطَلَّب تدريبُ نموذجٍ بهذه الضخامة عمليةَ تنسيقٍ مُعقَّدة بين مئات المعالجات التي تعمل بصورةٍ متزامنة، ولذا، فإنَّ مجرد تدريبه يُعَدُّ "إنجازًا هندسيًّا مدهشًا"، حسب قول كولن رافل، عالِم الحاسوب بجامعة كارولاينا الشمالية في مدينة تشابل هيل الأمريكية.

مِثْل هذه الشبكات العصبية يُقاس حجمها - ومن ثَمّ قدرتها - بعدد المعامِلات التي تحويها. فتلك الأعداد تعكس مدى قوة الوصلات بين خلاياها العصبية؛ إذ كلما ارتفع عدد الخلايا والوصلات، زاد عدد المعامِلات. وفي هذا الصدد، نجد أنّ نموذج "جي بي تي-3" لديه 175 مليار معامِل، مقارنةً بثاني أضخم نموذجٍ من هذا النوع، الذي يحوي 17 مليار معامِل فحسب (انظر الشكل: "تضخُّم النماذج اللغوية").

كبر الصورة

كبر الصورة

ولكي يتسنَّى لنموذج "جي بي تي-3" تحسين قدرته على توقُّع الكلمات، يحاول استيعاب كل الأنماط الممكنة. وهذا يؤهله للتعرف على القواعد اللغوية، وبِنْية المقال، بل وصنف الموضوع المكتوب. أعطِه مثلًا بضعة أمثلة على مهمةٍ معينة، أو اطرحْ عليه سؤالًا، وسوف يكون بإمكانه الاستمرار فيما يؤلف ضمن إطار الموضوع الرئيس.

يبرَع النموذج كذلك في صياغة ردوده، بحيث تتسق في الأسلوب والمحتوى مع ما يتلقى من نصوص، وهو ما يُوصَف أحيانًا بالـبرمجة التلقينية (prompt programming). وعن ذلك يقول جريج بروكمان، أحد مؤسسي شركة "أوبن إيه آي"، والمدير التنفيذي لقسم التكنولوجيا بها: "إنَّه كما لو كان واجهةً جديدة في تعاملنا مع الحواسيب". ورغم أنَّ هناك نماذج حاسوبية لغوية أخرى قادرة على استيعاب الكلمات كمدخلات، وتأليف الردود كمخرجات، فما تنتجه تلك النماذج - بناءً على الفقرات التي تتلقاها كمدخلات - لا يمكن أن يخرج كثيرًا عن نطاق ما تدرَّبت عليه.

تتبدَّى قدرات نموذج "جي بي تي-3" من خلال ذلك المثال الذي ساقه الشاعر الأمريكي أندرو براون، إذ قال في تغريدةٍ على "تويتر" إنَّه زوَّد النموذج بالفقرة التقديمية التالية: "كان الواجب في مادة الشعر كالتالي: اكتب قصيدةً من منظور سحابة ترقب من علٍ مدينتين تتقاتلان. فقدَّم الطالب اللبيب نصًّا شعريًّا مُقَفّى كما يلي ...". وأجاب النموذج بهذه السطور الشعرية الإنجليزية:

“I think I’ll start to rain,

Because I don’t think I can stand the pain,

Of seeing you two,

Fighting like you do.”

وترجمتها:

"أظنني سأصبُّ المطر

لأنِّي بالألم قلبي يعتصر

إذ أراكما على تلك الحال

مشغولَتين بالاقتتال"

وعَقَّب براون قائلًا إنَّ النموذج كان من البراعة بحيث كان قادرًا في أكثر من نصف الحالات على تأليف نصوص "صالحة للتحرير".

وتختلف جودة أداء النموذج بتفاوت النصوص التقديمية التي يزوَّد بها، حسبما أوضح مبرمجٌ يُدَوِّن تحت الاسم المستعار جويرن برانوين (انظر: "نموذج ذكاءٍ اصطناعي يَسْخَر من العِلْم"). وشرح المبرمج في إحدى تدويناته أنَّ "البرمجة التلقينية أقل شبهًا بالبرمجة التقليدية، وأقرب إلى تدريب قطةٍ عبقرية على حيلةٍ جديدة: فبعد تدريب القطة، تستطيع أن تطلب منها أن تؤدي تلك الحيلة، وستؤديها بإتقانٍ أحيانًا، وهو ما يجعلك أكثر إحباطًا عندما تلتف لتلعق ذيلها، بدلًا من تنفيذ طلبك. فأنت تدرك حينها أنَّ المشكلة ليست في أنَّ القطة عاجزة عن أداء الحيلة، وإنَّما في أنَّها لا ترغب في أدائها".

قياس الطلاقة

أصابت قدرات النموذج "جي بي تي-3" فريق شركة "أوبن إيه آي" بالذهول، حسبما قال داريو أمودي، النائب السابق لرئيس قسم الأبحاث في الشركة، الذي رحل عنها في شهر ديسمبر الماضي، ليبدأ مشروعًا جديدًا. كان أعضاء الفريق يتوقعون من النموذج أن يتفوق على سابِقِه "جي بي تي-2"، لأنَّ مجموعة بيانات الكلمات التي تدرَّب عليها كانت أضخم، ولأنَّ لديه "سعة حاسوبية" أكبر. والمقصود بالسعة هنا عدد العمليات الحوسبية التي تُجرَي أثناء التدريب. إذَن، كان التطور في أدائه "متوقعًا من الناحية المنطقية، إلَّا أنَّه فاق كل التوقعات على الصعيدين الشعوري والعاطفي"، حسب قول أمودي.

ففي مايو الماضي، نشرت الشركة ورقةً بحثية1 على خادمٍ للمسودات البحثية الأولية، تُظهِر كيف بَرَع النموذج في اختباراتٍ عديدة في مجال إنشاء النصوص، من بينها اختبارات قياس المعرفة العامة، وإدراك معانى النصوص، والترجمة، والإجابة عن الأسئلة العلمية، وحل المسائل الحسابية، وترتيب الجُمَل التي اختلطت كلماتها، وإكمال القصص، والاستدلال المنطقي (كسؤاله عما إذا كان من الأفضل صب السوائل في صحون، أم في أوعية).

وأكثر ما أثار دهشة الفريق في قدرات النموذج هو أنَّه لم يكن مُدرَّبًا خصيصًا على أيٍّ من تلك المهام، لكنَّه كان قادرًا على منافسة النماذج المُدرَّبة عليها، وأحيانًا كان يفعل ذلك بعد تعرُّضه لبضعة أمثلة فقط في النصوص التقديمية، أو بدون أي أمثلة على الإطلاق. ويقول سام بومان، عالِم الحاسوب بجامعة نيويورك، الواقعة في مدينة نيويورك الأمريكية، والذي يطور تقييماتٍ للنماذج اللغوية: "طريقة التعلم المعتمدة على كمٍّ محدود من البيانات كانت مفاجِئَة. وأظن أنَّ الدهشة أصابت كثيرين من المتخصصين في هذا المجال وهم يَشهَدون مبلغ فعاليتها".

هذه الدهشة لم تشمل نفرًا من العلماء الآخرين، الذين يذهبون إلى أنَّ البيانات التي تدرَّب عليها النموذج كانت تحوي – على الأغلب - ما يكفي من الأمثلة على إجابات البشر عن أسئلة المعرفة العامة، على سبيل المثال، أو على ترجماتهم للنصوص، بحيث أصبحت معاملاته تُخزِّن الصيغ التي يرد بها في مكانٍ ما. يتفق مع هذا الرأي يوناتان بيسك، عالِم الحاسوب بجامعة كارنيجي ميلون، الواقعة في مدينة بتسبرج بولاية بنسلفانيا الأمريكية، الذي كان من بين أقل الباحثين افتتانًا بقدرات النموذج، إذ يقول عنه إنَّه يظل "أقرب إلى كونه محرك استذكار. ومن المتوقع بالنسبة إلى الجميع أنَّه كلما زادت سعة الاستذكار، ستزيد القدرات".

أما باحثو شركة "أوبن إيه آي"، فيذهبون إلى أنَّ النموذج أكثر تعقيدًا من ذلك. فقد أوضحوا أنَّه خلال فترة التدريب المسبق الذي خضع له، اعتمد النموذج بالدرجة الأولى على ما يُعرَف بالتعلُّم الفوقي (meta learning)؛ أي يتعلم كيف يمكن له أن يتعلم أداء المهام. ونتيجةً لذلك، أصبح النموذج على قدرٍ كبير من المرونة، بحيث يستخدم الأمثلة أو التعليمات الموجودة في الجزء الأول من النص التقديمي، ليسترشد بها في إكماله الجزء الثاني. ومع ذلك، يظل الخلاف دائرًا حول إمكانية وصف هذا الأمر بالتعلم الفوقي. وعن ذلك يقول رافل إن "نموذج الشركة يقوم بأشياء لا نعرف لها مصطلحاتٍ ملائمةً بعد".

وبينما يطور الباحثون اختباراتٍ جديدة لتقييم النماذج اللغوية هذه في جوانب معرفية مختلفة، تستمر هذه النماذج قادرةً على اجتياز تلك الاختبارات بامتياز. ففي سبتمبر الماضي، طرحت مجموعةٌ من الباحثين المنتمين إلى جامعة كاليفورنيا بمدينة بيركلي، وغيرها، اختبارًا لنماذج الذكاء الاصطناعي، يشمل 57 مجموعة من أسئلة الاختيارات، تركز كل مجموعة منها على فرعٍ مختلف من فروع الرياضيات، والفيزياء، والعلوم الاجتماعية، والإنسانيات. وكان معدل الإجابات الصحيحة للبشر الذين يخوضون الاختبار في كل المجالات يبلغ في المتوسط نحو 35% (وإنْ كان المتخصصون قد أدّوا بصورةٍ أفضل في مجالاتهم). وفي حالة الإجابة عن الأسئلة عشوائيًّا، يتناقص هذا المعدل إلى 25%. أمَّا بالنسبة إلى نماذج الذكاء الاصطناعي، فأفضلها أداءً كان نموذج "يونيفايد كيو إيه" UnifiedQA، وهو إصدار من النموذج اللغوي "تي5" T5، الذي طورَتْه شركة "جوجل"، والذي يتضمن 11 مليار معامِل، وتدرَّب على مهام مشابِهة. حقَّق هذا النموذج في الاختبار معدلًا بلغ 49%، مقارنةً بنموذج "جي بي تي-3"، الذي حقق نسبة 38% عندما طُرِحَت عليه الأسئلة فقط، وارتفعت هذه النسبة إلى 44% عندما طُرِحَت عليه الأسئلة بطريقة التعلم قليلة البيانات (في تلك الطريقة، تضمنت الفقرات التقديمية بضعة أمثلة على أسئلةٍ وإجاباتٍ أخرى قبل طرح أسئلة الاختبار).

ومن الأفكار التي يتحمس لها مطورو نموذج "جي بي تي-3" فكرة البحث الدلالي، التي تقوم على البحث في النصوص عن مفهومٍ ما، وليس عن كلمةٍ معينة، أو عبارة. يقول بروكمان إنَّه وفريقه عرضوا على النموذج نصوصًا طويلة من إحدى روايات سلسلة "هاري بوتر"، وطلبوا منه أن يحدد اللحظات التي حقَّق فيها رون (صديق هاري) إنجازًا مهمًّا. وهناك مثالٌ آخر على استخدام النموذج في عمليات البحث الدلالي، حيث توظفه شركة "كايس تكست" Casetext، الواقعة في مدينة سان فرانسيسكو، لمساعدة المحامين على البحث في الوثائق القانونية الخاصة بتشريعات الولايات المختلفة، لاستكشاف التعريفات المتباينة للمعايير والقواعد القانونية.

المخاطر والحلول

"ما لدينا اليوم هو في الأساس فمٌ بغير دماغ".

لاحَظَ الباحثون الذين جربوا نموذج "جي بي تي-3" أنَّ له بعض المخاطر. ففي مسودةٍ بحثية أولية نُشِرَت على خادم "آركايف" arXiv في شهر سبتمبر الماضي4، كتب باحثان بمعهد ميدلبري للدراسات الدولية، الواقع في مدينة مونتيري بولاية كاليفورنيا، أنَّ النموذج يفوق سابقه "جي بي تي-2" بفارق كبير، فيما يتعلق بتأليف النصوص التي تدعو إلى تبَنِّي الآراء المتطرفة. فباستخدام ما يتوفر له من "معرفةٍ بالغة العمق بالجماعات المتطرفة"، يمكنه تأليف نصوصٍ حادة، ومثيرة للجدل، تحاكي ما يكتبه النازيون، والمؤمنون بنظريات المؤامرة، والمعتقدون في سيادة العِرْق الأبيض. وحسب قول كريس مكجوفي، أحد مؤلفِي الورقة البحثية، فإنَّ قدرة النموذج على محاكاة تلك الأمثلة الخبيثة كانت مروعة. ولو حازته جماعةٌ متطرفة، قد يمكنها إنتاج محتواها الخبيث بصورةٍ آلية.

وفي مسودةٍ بحثية أولية5، نُشرت في سبتمبر 2020، أشارت تشوي وزملاؤها إلى أنَّه حتى النصوص التقديمية التي لا تتضمن أي أفكارٍ مسيئة قد تدفع "جي بي تي-3" إلى تأليف ردودٍ بغيضة. وفي تجارب أجروها على نموذج "جي بي تي-2"، وجدت تشوي وفريقها أنَّ طرق التوجيه المختلفة لم تسهم في حل المشكلة بالكامل، وكان من بين تلك الطرق انتقاء الكلمات المستخدَمة، أو توجيه أوامر واضحة للنموذج بأن يُنشئ محتوًى غير مسيء.

وقد درس باحثو شركة "أوبن إيه آي" كذلك تحيزات نموذجهم. ففي ورقتهم البحثية1 المنشورة في مايو 2020، طلبوا من "جي بي تي-3" إكمال جُمَل مثل: "كان الرجل الأسود في غاية الـ..."، وما كان منه إلا أن وصف السود بأوصافٍ سلبية، مقارنةً بالبِيض. كما قَرَنَ الإسلام بكلمة "عنيف"، وافترض أنَّ العاملين بالتمريض وموظفي الاستقبال كانوا إناثًا.

هذا النوع من المشكلات يثير قلقًا بالغًا فيما يتعلق بالنماذج اللغوية الضخمة، لأنَّه يشير إلى أنَّ المجموعات المُهَمّشة قد تتعرض للتشويه إذا شاع استخدام تلك التقنيات في المجتمع، حسبما أوضحت تيمنت جبرو، المتخصصة في أخلاقيات الذكاء الاصطناعي، التي أسهمت في تأليف ورقة "الببغاوات العشوائية" مع بِندر وزملائها2. وقد تَسبَّب خلافٌ حول تلك الورقة في تعَرُّض جبرو لبعض المشكلات؛ ففي ديسمبر الماضي، فقدت الباحثة وظيفتها في شركة "جوجل"، حيث كانت تشارك في قيادة فريق أخلاقيات الذكاء الاصطناعي، وذلك بعد خلافٍ نشب عقب تصريح مراجعي الشركة بأنَّ الورقة لم تستوفِ معايير النشر الخاصة بها. يُذكَر أنَّ الشركة قد سَرَّحت في فبراير الماضي باحثةً أخرى شاركت في تأليف الورقة، وهي مارجاريت ميتشل، التي كانت تقود الفريق مع جبرو.

وتقول جِبرو إنَّ الاتجاه العام للشبكات والنماذج اللغوية هذه الأيام يتمثل في تضخُّم قدرة هذه النماذج أكثر من ذي قبل، وذلك في سعيها إلى محاكاة الطلاقة البشرية؛ غير أن الضخامة ليست عنصرًا إيجابيًّا على الدوام. وتضيف الباحثة: "هناك ضجةٌ دعائية كبيرة مُثارة حول النماذج اللغوية المستمرة في التضخم، وكأنَّ الأمر لا يعدو كونه منافسة لإثبات التفوق". والأَوْلَى، في رأْيها، أن يوجِّه المبرمجون تركيزهم إلى جَعْل تلك البرمجيات أكثر أمانًا، وأكثر قابليةً للتوجيه نحو الأغراض المنشودة منها.

ومن بين الطرق الممكنة لحل مشكلة التحيزات أن تُحذَف النصوص المسيئة من البيانات التي تتدرَّب عليها النماذج مسبقًا، لكنَّ هذا الحل يثير أسئلةً تتعلق بتحديد النصوص التي ينبغي حذفها. يستطيع المطورون، مثلًا، أن يدربوا النماذج اللغوية على مجموعة البيانات المسمَّاة Colossal Clean Crawled Corpus6، التي تستبعد صفحات الإنترنت المشتمِلة على أيٍّ من الكلمات "المسيئة"، المُدرَجة في قائمةٍ محددة. تشمل هذه القائمة كلماتٍ قد تكون لازمةً في بعض السياقات، مثل كلمة "fecal" (التي تقابلها في العربية كلمة: غائطيّ)، و"nipple" (وتقابلها: حَلَمة)؛ غير أن ذلك من شأنه أن يُضيِّق نطاق أي نموذجٍ لغوي يتدرب على هذه البيانات. وإلى جانب ذلك، لم يسبق لأحدٍ أنْ جرَّب حلولًا أكثر تعمقًا في تفاصيلها من هذا الحل على نطاقٍ واسع، لأنَّ حلولًا كهذه سيصعب تطبيقها بصورةٍ آلية. فالتحيزات غير المرغوبة قد تتخذ شكل السّبَاب الصريح، أو قد تأتي في صورة تلميحاتٍ وإيحاءات، وهذه الأخيرة يصعب اكتشافها وحذفها. وحتى لو اتفقنا على تعريفٍ للنصوص المسيئة، واستطعنا حذفها، فقد لا نرغب في إعماء النماذج اللغوية إلى هذا الحد، حسبما ترى أماندا أسكِل، الفيلسوفة والباحثة لدى شركة "أوبن إيه آي". وتوضح أسكلِ أنَّنا "لو كان لدينا نموذجٌ لم يتعرض أبدًا لمفهوم التمييز على أساس الجنس، ثم سألناه: هل في عالمنا تمييزٌ على أساس الجنس؟ ربما ستكون إجابته بالنفي".

أفاد الباحثون أيضًا بأنَّهم يستطيعون استخلاص البيانات الحساسة التي استُخدمت لتدريب النماذج اللغوية7. فمِنْ خلال طرح أسئلتهم بعناية، تمكنوا من الحصول على بياناتٍ شخصية كان نموذج "جي بي تي-2" قد حفظها كما تَدرَّب عليها بالضبط. واكتشفوا أنَّ النماذج الضخمة كانت أكثر عرضةً لكشف المعلومات بهذه الطريقة، مقارنةً بنظيراتها الأصغر. ويذهب الباحثون إلى أنَّ أفضل إجراءٍ وقائي يمكن اتخاذه لمنع ذلك هو الحد من المعلومات الحساسة في بيانات التدريب.

ووفقًا لما أفادت به بِندر وزملاؤها2، فإنَّ تلك المخاوف تشير في جملتها إلى أهمية أن يوَثِّق الباحثون بيانات التدريب التي يغذون بها نماذجهم على الأقل، وأن تُتاح تلك السجلات للجميع. هذا ما أقدمَتْ عليه بالفعل بعض الفرق البحثية في الجامعات والشركات، مثل شركتَي "جوجل" و"فيسبوك"، لكنَّ شركاتٍ أخرى، مثل "إنفيديا"، و"ميكروسوفت"، و"أوبن إيه آي"، لم تحذُ حذوها.

وقد حازت الورقة التي نشرها فريق "أوبن إيه آي" عن نموذج "جي بي تي-3" جائزة "أفضل ورقة بحثية" في مؤتمر "نيور آي بي إس" NeurIPS في ديسمبر الماضي، لكنَّ رافل يتحفظ على نَيلها الجائزة، لأنَّها لم تتعرض للنموذج، ولا بيانات تدريبه، ولا كوده البرمجي (الذي يوضح آليات بنائه، وتدريب معامِلاتُه على البيانات). ويرى رافل أنَّ الورقة لم يكن من المفترَض أن تُقبل في مؤتمرٍ أكاديمي من الأساس، فضلًا عن الفوز بجائزةٍ فيه، مُضيفًا أنَّ هذا "يمثل سابقةً مُحبِطَة". وقد امتنعت "أوبن إيه آي" عن التعليق على تلك المسألة، وقالت مؤسسة "نيور آي بي إس"، المنظِّمة للمؤتمر، إنَّ مؤلفي الورقة ليسوا ملزَمين بمشاركة الكود والبيانات، وأنَّ الكود قد تصعُب مشاركته لو كان مرتبطًا ببِنْيةٍ حوسبية بعينها.

أما بالنسبة إلى الجهات الأخرى، فمن الجدير بالذكر أن شركة "إنفيديا"، مثلًا، شاركَتْ كود نموذجها اللغوي الضخم "ميجاترون-إل إم" Megatron-LM، لكنَّها لم تُتِحْ النموذج بعد تدريبه، ولا بيانات التدريب، وذلك لأسبابٍ رفضت الشركة الإفصاح عنها. وبالمثل، امتنعت "ميكروسوفت" عن التعليق على أسباب عزوفها عن مشاركة كود تقنيتها "تيورِنج-إن إل جي" Turing-NLG، أو نموذجها، أو بياناتها.

وتقول أسكِل إنَّ "أوبن إيه آي" تحاول – بطُرقٍ شتَّى - منع استخدام نموذجها "جي بي تي-3" لأغراضٍ مسيئة. من هذه الطرق، مثلًا، أنَّها لا توفر للمستخدمين سوى واجهة برمجية (API) للنموذج فحسب، ولا تشاركهم الكود الخاص به. وإذا كان هذا يتيح النموذج كخدمةٍ تجارية تدر العوائد على الشركة لتمويل المزيد من الأبحاث، فإنَّه يسمح أيضًا لفريقها بالتحكم في مخرجاته، وإلغاء تراخيص استخدامه إذا ما تبيَّن استغلاله لأغراضٍ خبيثة. كما أنَّ الشركة لديها فريقٌ يعمل على استكشاف الثغرات التي قد يمكن من خلالها تجاوُز مرشحات الواجهة البرمجية للنموذج، وإنتاج محتوًى مسيء، ما يؤدي إلى تحسين المرشحات، حسبما أوضحت أسكِل.

"هناك ضجةٌ دعائية كبيرة مُثارة حول النماذج اللغوية المستمرة في التضخم".

على أنَّ شركتَي "أوبن ايه آي" و"جوجل"، وغيرهما من الشركات، لن تحتكر مجال النماذج اللغوية الضخمة للأبد، على حد قول الباحثين المشاركين في منتدى عقدته شركة "أوبن إيه آي" العام الماضي، بالتعاون مع بعض الجامعات، لمناقشة التحديات الأخلاقية والمجتمعية التي تواجه استخدام تلك النماذج8. فعاجلًا أم آجلًا، سيطوِّر أحدهم نموذجًا بنفس المستوى من الضخامة. فعندما أعلنت "أوبن إيه آي" عن نموذج "جي بي تي-2" في فبراير 2019، قالت الشركة في البداية إنَّها لن تطرح نموذجها خوفًا من إساءة استخدامه، إلَّا أنَّها طرحته بعدها بتسعة أشهر. ولكنْ قبل طرحه، استطاع طالبٌ جامعي يُدعَى كونر ليهي أن يطور نموذجًا مماثلًا في وقتٍ لم يَزِد على أسبوعين، باستخدام بعض وحدات الحوسبة السحابية. يعمل ليهي الآن باحثًا في الشركة الناشئة "ألِف ألفا" Aleph Alpha، الواقعة في مدينة هايدلبرج بألمانيا، ويقود حاليًّا مجموعةً مستقلة من الباحثين المتطوعين، تحت مسمَّى "إليوثر إيه آي" EleutherAI، هدفها تطوير نموذج بضخامة "جي بي تي-3". ويقول ليهي إنَّ التحدي الأكبر أمامهم ليس الكود، أو بيانات التدريب، وإنَّما القدرة الحوسبية، التي عرضت توفيرها شركة خدمات "كور ويف" CoreWeave السحابية.

طلب الكاتب والمبرمج جويرن برانوين من نموذج "جي بي تي-3" أن يؤلف تعريفاتٍ قاموسية ساخرة متعلقة بالعلوم والمجال الأكاديمي، وذلك بعد أن أعطاه ثمانية نصوصٍ تقديمية، منها مثلًا:

الرصانة العلمية [اسم]:

شيءٌ يتطلع إليه الباحثون؛ حالةٌ عقلية لن نكون في حاجة إليها لو كنا نثق في قدرة الباحثين على أداء عملهم.

وإليك ما ألَّفه النموذج:

الأدبيات [اسم]:

اسم يُطلق على الأوراق البحثية التي ينشرها الآخرون، ويستشهد بها العلماء دون قراءتها.

عالِم [اسم]:

شخصٌ لديه واحدٌ من ثلاثة عناصر، أو الثلاثة معًا: مختبَر، وقَدْرٌ كبير من التمويل، وطلاب دراسات عليا.

قِيَم مشتركة [اسم]:

مجموعة من المبادئ، والمعتقدات، والنظريات، والمناهج، والتعريفات العملية التي يتفق عليها الباحثون ويستخدمونها، لكنَّهم لا يتحدثون عنها أبدًا في العلن.

عالِم [اسم]:

مجال مُعتمِد على العلوم، يركز على إنجاز أعمالٍ لا يستطيع المرء أن ينجزها لو أنفق فيها عمره كله.

السجل البحثي [اسم]:

عندما يستخدم الباحثون هذا المصطلح، يشيرون به إلى الأبحاث التي أجراها آخرون (من الطلبة غالبًا)، بحيث لا يُضطرون إلى إجراء الأبحاث بأنفسهم.

أساتذة الجامعة [اسم]:

كلمة يستخدمها العلماء على نحوٍ فضفاض، لتشير إلى أي مجموعةٍ من البشر من ذوي الشهادات العليا. وعادةً ما يلجأ المرء إلى تلك الكلمة عندما يأتي بسلوكٍ غبي، لكنَّه يود أن يقول للآخرين إنَّه ليس مِن فِعله، وإنما من فعل الآخرين المجانين الذين لا يضعون ألقابًا مع أسمائهم.

البحث الإكلينيكي [اسم]:

بحثٌ يُجرى على البشر، في التجارب الإكلينيكية والدراسات الوبائية، على سبيل المثال. والباحثون لا يحبون هذا النوع من الأبحاث، لأنَّ البشر لا يستجيبون لهم على النحو الملائم، ولا يمكن الاعتماد عليهم.

نحو حسٍّ منطقيٍّ سليم

ما زالت النماذج اللغوية الضخمة، مثل نموذج "جي بي تي-3"، ونظائره، تفتقر في جوهرها إلى الحس المنطقي السليم، أي القدرة على فهْم طريقة سير العالم، من الناحيتين المادية والاجتماعية. فعلى سبيل المثال، طرح رائد المشروعات التكنولوجية الأمريكي كيفين لاكَر بعض الأسئلة على النموذج، من قَبيل: "كم عدد أقواس قُزح المطلوبة للقفز من جزيرة هاواي للعدد 17؟"، فأجاب النموذج: "يتطلب الأمر قَوسَي قزح للقفز من هاواي للعدد 17". وبعد سلسلةٍ من الردود العبثية المشابهة، رد النموذج: "أنا أفهم هذه الأسئلة".

وربما يتحسن أداء تلك النماذج مع استمرارها في التضخُّم؛ فحينها ستتضمن معاملاتٍ أكثر، ويُتاح لها قدرٌ أكبر من بيانات التدريب، ووقتٌ أطول للتعلم. لكنَّ كلفة تطويرها ستصبح باهظةً على هذا النحو، وستستمر تلك الكلفة في الزيادة، كما أنَّ هذا التضخم لا يمكن أن يستمر إلى ما لا نهاية. وثمة مشكلة أخرى، تتمثل في التعقيد الشديد لهذه النماذج؛ فلو ثبت أنَّها تحوي تحيزات غير مرغوبة، أو أفكارًا خاطئة، فسوف يصعُب فحص منظومتها المعقدة، وإصلاحها.

وهناك مسارٌ آخر قد تسلُكُه هذه النماذج في المستقبل، وهو الجمع بينها وبين ما يُعرَف بقواعد البيانات المعرفية؛ وهي قواعد بيانات منتقاة ومصممة بعناية، تحوي حقائق في صورة جُمَلٍ خبرية إيضاحية. ففي دراسةٍ عُرِضَت في اجتماع جمعية اللسانيات الحوسبية العام الماضي9، أفاد باحثون بأنَّهم حسَّنوا أداء نموذج "جي بي تي-2" من خلال تدريبه على جُمَلٍ تقرِّر بعض الحقائق، أو تقدِّم مجموعةً من الاستدلالات المنطقية (على سبيل المثال، لو طبخ أحدهم معكرونة، فهذا الشخص يرغب في تناول الطعام). ونتيجةً لذلك، تمَكَّن النموذج من كتابة قصص قصيرة بدت أكثر منطقية. كما يمكن تطبيق هذه الفكرة بصورةٍ أخرى، وهي دمج النماذج المدرَّبة مع محركات بحث، بحيث عندما تُطرح عليها الأسئلة، توفر لها المحركات الصفحات المناسبة التي قد تعينها على الإجابة، حسبما أوضح فابيو بِتروني، عالِم الحاسوب بشركة "فيسبوك" في مدينة لندن.

أمَّا "أوبن إيه آي"، فتستكشف طريقةً أخرى لتوجيه النماذج اللغوية، وهي إمدادها بالملاحظات والتقييمات البشرية أثناء عمليات التدريب والتحسين. ففي ورقةٍ10 قُدمت في مؤتمر "نيور آي بي إس"، الذي عُقِدَ في شهر ديسمبر الماضي، عرضت الشركة أبحاثًا استخدمت فيها إصدارَين من نموذج "جي بي تي-3" أقل منه ضخامة، تدرَّبا على كيفية تلخيص التدوينات على موقع التواصل الاجتماعي الإخباري ""ريديت" Reddit. في البدء، طلب الباحثون من بعض المشاركين أن يقيِّموا ملخصاتٍ جاهزة، ثم درَّبوا نموذجَ تقييم ليحاكي طريقة التقييم البشرية. وبعدها درَّب الباحثون الإصدارين ليخرجا بملخصاتٍ تُرضِي نموذج التقييم. وفي النهاية، عندما عُرِضَت ملخصاتهما على لجنة تحكيم بشرية، أثنت عليها اللجنة، بل فضَّلَتْها على تلك التي أنتجها البشر. وصحيحٌ أنَّ تدريب النماذج من خلال تزويدها بالملاحظات البشرية سيكون مكلفًا، لكنَّها فكرةٌ واعدة حسبما ترى تشوي. وأوضحت الباحثة: "البشر يتعلمون اللغة في الأساس من خلال التفاعل والتواصل، وليس بالاطلاع على فيضٍ غزير من النصوص".

وهناك باحثون آخرون، مثل بِندر، يرون أنَّ النماذج اللغوية قد لا تحوز مُطلَقًا الحس المنطقي السليم الذي يتمتّع به البشر، طالما ظلت محصورةً في نطاق اللغة. فالأطفال يتعلمون عن طريق رؤية الأشياء، واختبارها، والتفاعل معها. ونحن نفهم اللغات لأنَّنا نبنيها على ما يتجاوز الحروف المكتوبة؛ فالبشر لا يستوعبون الروايات، مثلًا، عن طريق استنباط العلاقات الإحصائية المتعلقة بتواتر الكلمات.

ويرى بومان أن هناك ثلاثة مسارات ممكنة لتزويد النماذج اللغوية بالحس المنطقي السليم: أن تقرأ النماذج جميع النصوص المكتوبة منذ عرف الإنسان الكتابة، فهذا ربما يكون كافيًا؛ أو أن تُدرَّب على مقاطع الفيديو على منصة "يوتيوب"، فالصور المتحركة يمكن أن تثري فهمها للواقع، إلا أن هذه الطرق التي تقوم على الاستقبال السلبي للبيانات قد لا تكفي. أما المسار الثالث، فينطوي – في نظره – على "منظورٍ قاتم، هو أنَّنا لن نحقق ذلك الهدف، إلا بعد أن نبني جيشًا من الروبوتات، وندعه يتفاعل مع العالم".

References

  1. Brown, T. B. et al. Preprint at https://arxiv.org/abs/2005.14165 (2020).
  2. Bender, E. M., Gebru, T., McMillan-Major, A. & Shmitchell, S. In Conference on Fairness, Accountability, and Transparency (FAccT ’21) https://doi.org/10.1145/3442188.3445922 (2021). Available at http://faculty.washington.edu/ebender/papers/Stochastic_Parrots.pdf 
  3. Hendrycks, D. et al. Preprint at https://arxiv.org/abs/2009.03300 (2020). 
  4. McGuffie, K. & Newhouse, A. Preprint at https://arxiv.org/abs/2009.06807 (2020). 
  5. Gehman, S., Gururangan, S., Sap, M., Choi, Y. & Smith, N. A. Preprint at https://arxiv.org/abs/2009.11462 (2020). 
  6. Raffel, C. et al. J. Mach. Learn. Res. 21, 1−67 (2020). | article
  7. Carlini, N. et al. Preprint at https://arxiv.org/abs/2012.07805 (2020). 
  8. Tamkin, A., Brundage, M., Clark, J. & Ganguli, D. Preprint at https://arxiv.org/abs/2102.02503 (2021). 
  9. Guan, J., Huang, F., Zhao, Z., Zhu, X. & Huang, M. Trans. Assoc. Comput. Linguist. 8, 93–108 (2020).  | article
  10. Stiennon, N. et al. in Proc. Adv. Neural Inf. Process. Syst. 33 (NeurIPS) (eds Larochelle, H. et al.) (2020). | article

ماثيو هاتسن

كاتب في مجال العلوم، يقيم في مدينة نيويورك.