تعليقات

تصميم الذكاء الاصطناعي بحيث يكون مُنصِفًا

يوصي جيمس زو، ولوندا شيبينجر بتحديد مصادر عدم الإنصاف، وبإزالة التحيز في بيانات التدريب، وبتطوير خوارزميات تقاوِم الاختلال في البيانات.

  • Published online:
غالبًا ما تتعرف الخوارزميات المُدرَّبة على مجموعات البيانات المتحيزة على الصورة اليسرى فقط، بصفتها عروسًا.

غالبًا ما تتعرف الخوارزميات المُدرَّبة على مجموعات البيانات المتحيزة على الصورة اليسرى فقط، بصفتها عروسًا.

Left: iStock/Getty; Right: Prakash Singh/AFP/Getty

عندما ينقل تطبيق الترجمة Google Translate المقالات الإخبارية المكتوبة باللغة الإسبانية إلى اللغة الإنجليزية، فغالبًا ما تتحوّل العبارات التي تُشير إلى النساء إلى عبارات ذكورية، مثل: "هو قال"، أو "هو كتب". وتميل البرمجيات – المُصمَّمة لتنبيه مستخدمي كاميرات «نيكون» عندما يبدو أن الشخص الذي يُصوّرونه يرمش بعينيه – إلى اعتبار أن الآسيويين يرمشون بعيونهم دائمًا. كما أن الخوارزمية الشهيرة لتضمين الكلمات، التي تُستخدَم لمعالجة وتحليل كميات ضخمة من بيانات اللغة الطبيعية، تُصنِّف الأسماء الأمريكية والأوروبية على أنها لطيفة، بينما تُصنِّف أسماء الأمريكيين الذين هم من أصول أفريقية على أنها غير لطيفة.

هذه مجرد عينة بسيطة من الأمثلة العديدة التي اكتُشفت حتى الآن على قيام تطبيقات الذكاء الاصطناعي بالتمييز بشكلٍ منهجيٍّ ضد مجموعات معينة من البشر.

والتحيز في صنع القرارات ليس حِكرًا على الذكاء الاصطناعي، ولكنْ حسب قول العديد من الباحثين، فإن اتساع نطاق استخدام الذكاء الاصطناعي يجعل من المهم معالجة هذا التحيز على وجه الخصوص. والواقع أن انتشار هذه المشكلة في كل مكان يعني أننا بحاجة إلى حلول منهجية لها. ونستعرض في هذا البحث عددًا من الاستراتيجيات الممكنة لمواجهتها.

بيانات مُختَلَّة

في كلٍّ من الأوساط الأكاديمية والصناعية، يحظى علماء الحاسوب بالمديح والشهرة (من المنشورات بالدوريّات العلمية، وحتى التغطية في وسائل الإعلام)؛ لقيامهم بتدريب خوارزميات لا تتوقف عن التطوّر والتعقّد. ولا يُولَى سوى القليل من الاهتمام نسبيًّا لكيفية جمع البيانات، ومعالجتها، وتنظيمها.

يعود سبب من الأسباب الرئيسة وراء التحيز في الذكاء الاصطناعي إلى بيانات التدريب، حيث يتم تدريب معظم مهام التعلم الآلي على مجموعات ضخمة من البيانات المُعرَّفة. فعلى سبيل المثال.. غالبًا ما يتم تدريب الشبكات العصبية العميقة لتصنيف الصور على قاعدة بيانات ImageNet، وهي مجموعة تضم أكثر من 14 مليون صورة موسومة. وفي مجال معالجة اللغة الطبيعية، يتم تدريب الخوارزميات القياسية على مجموعات بيانات تتألف من مليارات الكلمات. وعادةً ما يقوم الباحثون ببناء مجموعات البيانات تلك عن طريق استخلاصها من مواقع الويب، مثل Google Images، وGoogle News، باستخدام مصطلحات استعلام محددة، أو من خلال تجميع معلومات يسهل الوصول إليها من مصادر مثل موسوعة «ويكيبيديا». بعد ذلك.. يتم تعريف عناصر مجموعات البيانات هذه، غالبًا بواسطة طلاب الدراسات العليا، أو عبر منصات التعهيد الجماعي مثل منصة Amazon Mechanical Turk.

يمكن أن تنتج مثل هذه الطرق - دون قصد - بيانات تشفر تحيزات تتعلق بالنوع، والعِرق، والثقافة.

وكثيرًا ما يتم تمثيل بعض المجموعات تمثيلًا زائدًا مع تمثيل مجموعات أخرى تمثيلًا ناقصًا. ويأتي أكثر من 45% من بيانات ImageNet، التي تغذي البحوث في مجال الرؤية الحاسوبية، من الولايات المتحدة الأمريكية2، التي يقطنها 4% فقط من سكان العالم. وفي المقابل، تُسهِم الصين والهند معًا بنسبة 3% فقط من بيانات ImageNet، رغم أنهما تُمثّلان 36% من سكان العالم. وهذا الافتقار إلى التنوّع الجغرافي يفسّر جزئيًّا لماذا توسم خوارزميات الرؤية الحاسوبية صورةً لعروس أمريكية تقليدية ترتدي رداءً أبيض بكلمات مثل "عروس"، و"فستان"، و"امرأة"، و"زفاف"، بينما توسم صورةً لعروس من شمال الهند بألفاظ مثل "فن استعراضي"، و"زي تنكري"2.

في الطب على وجه الخصوص، يمكن أن تكون تنبؤات التعلم الآلي عرضةً للتأثر بمجموعات بيانات التدريب المتحيزة، لأن عملية إنتاج ووسم البيانات الطبية باهظة التكاليف. وفي عام 2017، استخدم الباحثون أسلوب التعلم العميق؛ للتعرّف على سرطان الجلد من صور فوتوغرافية، حيث قام الباحثون بتدريب نموذجهم على مجموعة بيانات من 129,450 صورة، تم استخلاص 60% منها من Google Images .3 غير أن أقل من 5% من هذه الصور كانت لأفراد من ذوي البشرة الداكنة، ولم يتم اختبار الخوارزمية على هؤلاء الأشخاص. وبالتالي، يمكن أن يختلف أداء المُصنِّف اختلافًا كبيرًا عبر الشرائح السكانية المختلفة. ويمكن أيضًا تعقب مصدر آخر من مصادر التحيّز إلى الخوارزميات نفسها.

سيحاول برنامج التعلم الآلي التقليدي زيادة دقة التنبؤ الإجمالية لبيانات التدريب. وإذا ظهرت مجموعة معينة من الأفراد في بيانات التدريب بوتيرة أكبر من غيرها، فسيعمل البرنامج على تحسين أدائه بشأن هؤلاء الأفراد، لأن ذلك سيعزز من دقته الكلية. ويقوم علماء الحاسوب بتقييم الخوارزميات بناءً على مجموعات بيانات "اختبارية"، ولكن عادةً ما تكون هذه عيّنات فرعية عشوائية من مجموعة التدريب الأصلية، وبالتالي، فمن المُرجَّح أن تتضمن التحيزات نفسها.

يمكن أن تؤدي الخوارزميات المَعيبة إلى تضخيم التحيز من خلال حلقات التغذية الراجعة. فلنتأمل حالة الأنظمة المُدرَّبة إحصائيًّا، مثل تطبيق الترجمة Google Translate، التي تَستخدِم الضمائر المذكرة، وليس المؤنثة، بشكل افتراضي. ويرجع هذا التنميط إلى أن نسبة الضمائر المذكرة تبلغ ضعف الضمائر المؤنثة في مصادر نصوص اللغة الإنجليزية. والأسوأ من ذلك.. أنه في كل مرة يرتكب تطبيق للترجمة هذا الخطأ، يزداد التكرار النسبي للضمير المذكر على شبكة الإنترنت، وهو ما قد يؤدي إلى تقويض التقدم المتحقق بصعوبة نحو تحقيق الإنصاف4. والجدير بالذكر أن نسبة الضمائر المذكرة إلى الضمائر المؤنثة قد انخفضت من الأربعة أضعاف في ستينيات القرن الماضي بفضل التحوُّلات الاجتماعية واسعة النطاق.

اختلال التوازن

كثيرًا ما يعبِّر التحيز في البيانات عن اختلالت عميقة وخفية في البِنَى التحتية المؤسسيّة، وعلاقات القوى الاجتماعيّة. فعلى سبيل المثال.. رغم أن ويكيبيديا تبدو وكأنها مصدر غني ومتنوع للبيانات، إلا أن أقل من 18% من قيود السيرة الذاتية على الموقع تخص النساء. وتشتمل المقالات عن النساء على روابط تقود إلى مقالات عن الرجال أكثر من العكس، مما يجعل الرجال أكثر ظهورًا لمحركات البحث. كما تتضمن تلك المقالات ذِكرًا أكثر للشركاء وأفراد الأسرة من الرجال5.

ولهذا.. ينبغي مراعاة الاحتياطات الفنية، والوعي بالجوانب الاجتماعية عند بناء مجموعات بيانات للتدريب. وعلى وجه التحديد.. ينبغي اتخاذ الخطوات اللازمة لضمان أن مجموعات البيانات هذه متنوعة، ولا تمثّل شرائح معينة تمثيلًا ناقصًا. وهذا يعني تجاوز التصنيفات التقليدية – "امرأة/ رجل"، "أسود/ أبيض"، وما إلى ذلك – التي تُخفِق في إدراك تعقيدات النوع الاجتماعي، والهويات العِرقية.

بدأ بالفعل بعض الباحثين في العمل على ذلك (انظر: Nature 558, 357–360; 2018)، فعلى سبيل المثال.. كشف علماء الحاسوب مؤخرًا عن أن الأنظمة التجارية للتعرّف على الوجه تخطئ في تصنيف الجنس بشكل أكبر بكثير عند التعامل مع النساء ذوات البشرة الداكنة، مقارنةً بالرجال ذوي البشرة الأفتح، بمعدل خطأ يبلغ 35%، مقابل 0.8%6. ولمعالجة ذلك.. جمع الباحثون مجموعة بيانات جديدة من الصور، تألفت من 1270 شخصًا، راعوا فيها التوازن من حيث النوع الاجتماعي، والعِرق. ومن المنتظر أن تؤدي إعادة تدريب خوارزميات تصنيف الوجه الحالية والضبط الدقيق لأدائها باستخدام هذه البيانات إلى تحسين دِقّتها.

وللمساعدة على تحديد مصادر التحيز، نوصي بأن يستعين القائمون على تعريف مجموعات بيانات التدريب ببيانات وصفية قياسية بشكل منهجي. وتعمل بالفعل فِرَق بحثية عديدة على تصميم «صحف بيانات»7 تتضمن بيانات وصفية، ووسومًا على غرار "بطاقات المعلومات الغذائية"؛ من أجل بيان مكونات مجموعات بيانات التعلم الآلي (http://datanutrition.media.mit.edu/).

كبر الصورة

Ref. 2

ينبغي أن تُرفَق مع كل مجموعة بيانات تدريبية معلوماتٌ عن كيفية جمْع وتعريف البيانات. وإذا كانت البيانات تتضمن معلومات تتعلق بأشخاص، فينبغي توفير إحصائيات موجزة عن الموقع الجغرافي، والنوع الاجتماعي، والعِرق، وغيرها من البيانات الديموغرافية (انظر: "النفوذ على الصور"). وإذا كانت البيانات موسومة عبر التعهيد الجماعي، فينبغي إدراج المعلومات الأساسية عن المشاركين في العملية، مع توفير صيغة الطلب أو التعليمات الدقيقة التي أُعطيت لهم لتنفيذ هذا العمل.

وينبغي للقائمين على تجميع مجموعات البيانات توفير تعريف دقيق للواصِفات المرتبطة بالبيانات، قدر الإمكان. فعلى سبيل المثال.. في حالة البيانات المتعلقة بالعدالة الجنائية، ستؤدي معرفة نوع "الجريمة" التي تم تدريب نموذجٍ من النماذج عليها إلى إيضاح كيفية تطبيق هذا النموذج، وتفسير أدائه.

إصلاحات مُدمَجة

وفي الوقت الحالي، تطلب دوريّات علمية كثيرة من المؤلفين تقديم أنواع مماثلة من المعلومات عن البيانات التجريبية، كشرط مسبق للنشر. فعلى سبيل المثال.. تطلب دورية Nature من المؤلفين تحميل جميع بيانات المصفوفات المجهرية للتعبير الجيني على مستودع Gene Expression Omnibus مفتوح المصدر، الذي يطلب بدوره من المؤلفين تقديم بيانات وصفية عن البروتوكول المُتَّبع في إجراء التجارب. ونحن نشجّع الجهات التنظيمية لمؤتمرات التعلم الآلي - مثل المؤتمر الدولي للتعلم الآلي - أن يطلبوا بيانات وصفية بمواصفات قياسية، كعنصر أساسي من عملية تقديم الأبحاث، ومراجعتها بواسطة النظراء. كما ينبغي للجهات التي تستضيف مستودعات البيانات، مثلOpenML ، والمنصّات التي تنظّم مسابقات الذكاء الاصطناعي، مثل Kaggle، القيام بالأمر نفسه.

وأخيرًا، ينبغي لعلماء الحاسوب السعي لتطوير خوارزميات أكثر مقاوَمةً للتحيزات البشرية في البيانات.

يجري اتباع منهجيات عديدة لتحقيق ذلك، وتنطوي إحدى هذه المنهجيات على تضمين قيود، وفي الأساس.. تحفيز نموذج التعلّم الآلي؛ لضمان تحقيق أداء مُنصِف عبر مختلف المجموعات الفرعية، وبين الأفراد المتشابهين8. وتتضمن منهجية متصلة تغيير خوارزمية التعلم؛ للحد من اعتمادها على الصفات الحساسة، مثل العِرق، والنوع الاجتماعي، والدخل، وأي معلومات مرتبطة بتلك الخصائص9.

إن هذه المنهجيات الناشئة للحد من التحيز واعدة، ولكنها بحاجة إلى تنقيحها وتقييمها في العالَم الحقيقي.

ومع ذلك.. تواجه مثل هذه الحلول تحديًا مستمرًّا، يتمثل في ضرورة التسجيل الدقيق لبيانات العِرق والنوع الاجتماعي، وغيرها من المعلومات ذات الصلة. وما لم يتم تسجيل الفئات الملائمة، فسيكون من الصعب معرفة القيود التي ينبغي فرضها على النموذج، أو التصحيحات التي يتعين إدخالها. كما تتطلب هذه المنهجيات من مصممي الخوارزميات التحديد المسبق لأنواع التحيزات التي يريدون تجنبها.

وثمة نهجٌ تكميليّ ينطوي على استخدام أسلوب التعلم الآلي نفسه؛ لاكتشاف وقياس التحيز في الخوارزميات والبيانات. نُطلِق على هذا الإجراء "مراجعة الذكاء الاصطناعي"، حيث تضطلع بدورِ المراجعِ خوارزميةٌ تفحص نموذج التعلم الآلي الأصلي بشكل منهجي؛ للتعرّف على التحيز في كلٍّ من النموذج، وبيانات التدريب.

ومن الأمثلة على ذلك.. عملنا الأخير باستخدام أسلوب شائع للتعلم الآلي، يُطلَق عليه "تضمين الكلمات"؛ لتحديد القوالب النمطية التاريخية في الولايات المتحدة. وفي هذا الأسلوب، يتم تمثيل كل كلمة إنجليزية بنقطة في الفراغ (مُتَّجه هندسي) بحيث تُعبِّر المسافة بين المتجهات عن التشابه الدلالي بين الكلمات المتناظرة. ويكشف هذا الأسلوب عن علاقات التشابه، مثل أن العلاقة بين "رجل"، و"ملك" هي مثل العلاقة بين "امرأة"، و"ملكة". وقد طوّرنا خوارزمية — مراجع الذكاء الاصطناعي — للاستعلام في تضمين الكلمات عن التشابهات الأخرى بين الجنسين. وقد كشف ذلك عن أن العلاقة بين "رجل"، و"طبيب" هي مثل العلاقة بين "امرأة"، و"ممرضة"، وأن علاقة بين "رجل"، و"مبرمج حاسوب" هي مثل العلاقة بين "امرأة"، و"ربة منزل".1

وبمجرد أن يكشف المراجع عن القوالب النمطية في تضمين الكلمات، وفي بيانات النصوص الأصلية، يمكن الحد من التحيز، عن طريق تعديل مواضع متجهات الكلمات. وإضافة إلى ذلك.. من خلال تقييم الكيفية التي تطوّرت بها القوالب النمطية، يمكن الحد من تحيز الخوارزميات المُدربة على النصوص التاريخية. وقد كشف أسلوب تضمين الكلمات لكل عشر سنوات من بيانات النصوص الأمريكية من Google Books خلال الفترة من عام 1910، حتى عام 1990 - على سبيل المثال - عن نتائج صادمة، وعن مواقف متغيرة تجاه الأمريكيين الذين هم من أصول آسيوية. فقد تحوّل وصف هذه المجموعة من "وحشية"، و"بربرية" في عام 1910 إلى "مكبوتة المشاعر"، و"حساسة" في عام 1990؛ مع تحوّلات مفاجئة بعد الحرب العالمية الثانية، وموجات الهجرة التي شهدتها فترة الثمانينيات من القرن العشرين.

تصحيح

بينما يسعى علماء الحاسوب، وعلماء الأخلاق، وعلماء الاجتماع، وغيرهم، لتحسين درجة الإنصاف في البيانات، وفي تطبيقات الذكاء الاصطناعي، يجب علينا جميعًا التفكير في المفاهيم المناسِبة للإنصاف. فهل ينبغي أن تمثّل البيانات العالَم كما هو في الواقع، أم العالَم الذي يطمح الكثيرون لإنشائه؟ وبالمثل، هل ينبغي لأداة الذكاء الاصطناعي التي تُستخدَم لتقييم المرشحين المحتملين لوظيفةٍ أن تقيِّم مواهبهم وخبراتهم، أم أن تقيِّم احتمالية اندماج الشخص الذي سيقع عليه الاختيار في بيئة العمل جيدًا؟ ومَن ينبغي أن يقرر مفاهيم الإنصاف التي تستحق الأولوية؟

للإجابة هذه الأسئلة، وتقييم التأثير الأوسع نطاقًا لبيانات التدريب والخوارزميات، على الباحثين في مجال التعلم الآلي التعاون مع علماء الاجتماع والخبراء في الإنسانيات، والنوع الاجتماعي، والطب، والبيئة، والقانون. وقد بدأت جهود مختلفة تشق طريقها؛ لمحاولة تعزيز مثل هذا التعاون، ومنها مبادرة «ذكاء اصطناعي محوره الإنسان»، التي نشارك فيها بجامعة ستانفورد في كاليفورنيا. ويجب أن تبدأ هذه المشاركة على المستوى الجامعي، حيث ينبغي أن يتسنى للطلاب فحص السياق الاجتماعي للذكاء الاصطناعي في الوقت نفسه، وهم يتعلمون كيف تؤدي الخوارزميات وظائفها.

تشكّلالأدوات،والبرامج،والعملياتمواقفنا،وسلوكياتنا،وثقافتنا. ويعيدالذكاء الاصطناعي بناءالاقتصاداتوالمجتمعات،ويغيِّرطريقةالتواصلوالعمل،ويعيد رسم ملامحالحوكمة والسياسات. فقدعانتمجتمعاتناطويلًا من مظاهرعدمالمساواة،وينبغيألايطيلالذكاءالاصطناعي- بدون قصد - أمد هذه المعاناة، أو حتى يزيدها سوءًا.

References

  1. Bolukbasi, T., Chang, K.-W., Zou, J., Saligrama,V. & Kalai, A. Adv. Neural Inf. Proc. Syst. 2016,4349–4357 (2016). | article
  2. Shankar, S. et al. Preprint at https://arxiv.org/abs/1711.08536 (2017).
  3. Esteva, A. et al. Nature 542, 115–118 (2017).| article
  4. Schiebinger, L. et al. (eds) Gendered Innovationsin Science, Health & Medicine, Engineering andEnvironment, Engineering, Machine Translation(2011–2015).| article
  5. Wagner, C., Garcia, D., Jadidi, M. & Strohmaier, M.Proc. 9th Int. AAAI Conf. Web Soc. Media 454–463(2015). | article
  6. Buolamwini, J. & Gebru, T. Proc. Mach. Learn. Res.81, 1–15 (2018). | article
  7. Gebru, T. et al. Preprint at https://arxiv.org/abs/1803.09010 (2018).
  8. Dwork, C., Hardt, M., Pitassi, T., Reingold, O. &Zemel, R. Proc. 3rd Innov. Theor. Comp. Sci. Conf.2012, 214–226 (2012).| article
  9. Zemel, R., Wu, Y., Swersky, K., Pitassi, T. & Dwork,C. Proc. 30th Int. Conf. Int. Conf. Mach. Learn. 28,III-325–III-333 (2013). | article
  10. Garg, N., Schiebinger, L., Jurafsky, D. & Zou, J. Proc.Natl Acad. Sci. USA 115, E3635–E3644 (2018). | article

جيمس زو أستاذ مساعد علم البيانات الطبية الحيوية، و(شرفيًّا) علوم الحاسوب والهندسة الكهربائية، جامعة ستانفورد، كاليفورنيا، الولايات المتحدة الأمريكية.

لوندا شيبينجر تشغل كرسي أستاذية جون إل. هيندز لتاريخ العلوم، ومديرة الابتكارات المستندة إلى النوع الاجتماعي في العلوم، والصحة، والطب، والهندسة، والبيئة بجامعة ستانفورد، كاليفورنيا، الولايات المتحدة الأمريكية. البريد الإلكتروني: jamesz@stanford.edu؛ schieb@stanford.edu