تعليقات

سياسات: عشـرون ملاحظـة لتفسيــر الادعـاءات العلميــة

ستساعد القائمةُ التالية غيرَ العلماء على طرح الاستفسارات على مستشاريهم، وعلى فهم محدودية الأدلّة، وفقًا لقول كلٍّ من وِليام ج. سذَرلاند، وديفيد شبيجلهالتر، ومارك أ. برجمان.

  • وِليَم ج. سذَرلاند
  • ديفيد شبيجلهالتر
  • مارك برجمان
  • Published online:

<br>اصطدم العلم والسياسة بقضايا خلافية، كتراجُع أعداد النحل، ومشكلات الطاقة النووية، ودور الغرير في السلّ البقري.


اصطدم العلم والسياسة بقضايا خلافية، كتراجُع أعداد النحل، ومشكلات الطاقة النووية، ودور الغرير في السلّ البقري.

BADGER: ANDY ROUSE/NATURE PICTURE LIBRARY; NUCLEAR PLANT: MICHAEL KOHAUPT/FLICKR/GETTY; BEE: MICHAEL DURHAM/MINDEN/FLPA


كانت المطالبات بإدماجٍ أوثق للعلم في صنع القرار السياسي شائعةً لعقود. فهناك مشكلات خطيرة في تحويل العلم إلى سياسات، بدءًا من الطاقة، مرورًا بالصحة والبيئة، وصولًا إلى التعليم.

أحد الاقتراحات لتحسين الأمور.. هو تشجيع المزيد من العلماء على المشاركة في الحياة السياسية. ورغم أنه اقتراح جدير بالثناء، إلا أنه من غير الواقعي أن نتوقع زيادة كبيرة في مشاركة العلماء في السياسة. هناك اقتراح آخر.. يقضي بتوسيع دور كبار المستشارين العلميين1، وزيادة عددهم وأوقات وجودهم للإدلاء باستشاراتهم، وزيادة مشاركتهم في العمليات السياسية. وكلٌّ من هذين الاقتراحين لا يتعامل مع المشكلة الأساسية، وذلك للجهل العلمي بين عديد مِمَّن يصوِّتون في المجالس النيابية.

هل نعلِّم السياسيين العلومَ إذن؟ إنها فكرة جذابة، ولكنْ أيٌّ من هؤلاء السياسيين المشغولين دائمًا يملك الوقت الكافي؟ من الناحية العملية، لا يقرأ صنّاع السياسات بحوثًا أو كتبًا علمية أبدًا تقريبًا. ويفسِّر لهم مستشاروهم، أو الدعاة الخارجيون، البحوثَ ذات الصلة بموضوعهم اليومي، مثل: المتقدِّرات (mitochondria)، أو السلّ البقري، أو التخلّص من النفايات النووية. ونادرًا ما تكون هناك ـ إنْ حدث ذلك أساسًا ـ تجربة مراقبة مكرَّرة عشوائية، مزدوجة التَّعْمِيَة (أي: مَشُوبَة بالغموض من جهة المشاركين فيها، وجامعي البيانات)، مصمَّمة بشكل جميل، ولها حجم عيِّنة كبير، واستنتاج لا لَبْس فيه؛ لمعالجة موضوعٍ محددٍ للقرار السياسي.

في هذا السياق، نقترح أن تكون الأولوية المُلِحَّة هي تحسين فهم صنّاع السياسات لطبيعة العلم غير الكاملة. وتتمثل المهارات الأساسية في القدرة على استجواب الخبراء والمستشارين بذكاء، وفهم نوعية ومحدودية ومحاباة الأدلة. ونطلِق على هذه المهارات مصطلح «المهارات العلمية التفسيريّة». هذه المهارات أسهل منالًا من تلك المطلوبة لفهم العلوم الأساسية نفسها، ويمكنها أن تشكّل جزءًا من مجموعة المهارات الكبيرة التي يمتلكها معظم السياسيين.

ولتحقيق هذه النتيجة.. نقترح عشرين مفهومًا ينبغي أن تكون جزءًا من التعليم الذي يتلقّاه موظفو الخدمة المدنية، والسياسيون ومستشاروهم، والصحفيون، وأيّ شخص غيرهم مِمّن قد يتفاعل مع العلم أو العلماء. وربما يفضِّل السياسيون المشكِّكون ـ بطريقة صحيّة ـ في الدعاة العِلْميين أنْ يتسلّحوا بهذه الحزمة الأساسية من المعرفة.

لسنا من السذاجة بمكانٍ، لنصدِّق أن القرارات السياسة المحسَّنة ستُتَّبَع تلقائيًّا. إننا ندرك تمامًا أن المحاكمة العلميّة ـ في حدّ ذاتها ـ مثقَلَة بالقيمة والتقدير، وأن الانحياز والمحتوى مكمِّلان لطريقة جمع البيانات وتفسيرها. وما نقدِّمه هنا هو قائمة بسيطة من الأفكار التي يمكنها مساعدة صناع القرار على تحليل الطريقة التي تسهم بها الأدلة في صنع القرار، وربما تجنُّب التأثير غير الضروري لذوي المصالح الخاصة. يبقى الجزء الأصعب ـ وهو القبول الاجتماعي للسياسات المختلفة - في أيدي السياسيين، والعملية السياسية الواسعة.

بالطبع، ستكون لدى البعض الآخر قوائم مختلفة قليلًا، ولكنْ ما نودّ الإشارة إليه هو أن الفهم الأوسع لهذه المفاهيم العشرين من قِبَل المجتمع سيكون خطوة مميزة إلى الأمام.


التباين والعشوائية يسبِّبان التنوع. يتباين العالَمُ الحقيقي بشكل لا يمكن توقُّعه. ويسعى العِلم في معظم جوانبه إلى اكتشاف أسباب وجود الأنماط التي نراها. فما الذي جعل هذا العَقد أكثر دفئًا من سابقه؟ ولماذا توجد طيورٌ أكثر في بعض المناطق، دون غيرها؟ هناك عديد من التفسيرات لهذه الاتجاهات، وبالتالي فإن التحدّي الرئيس للبحوث هو فصل وإبراز أهمية العملية موضع الاهتمام (على سبيل المثال.. تأثير تغيُّر المناخ على تعداد الطيور) من بين عددٍ كبير من مصادر التباين الأخرى (من التغيّرات واسعة النطاق، ككثافة المزروعات، وانتشار الكائنات الغازِيَة، إلى العمليات المحليّة، مثل الأحداث العشوائية التي تحدِّد المواليد والوفيات).


لا توجد قياسات دقيقة. من الناحية العملية، تنطوي جميع القياسات على بعض الخطأ. وإذا تكرّرت عملية القياس، يمكن للمرء أن يسجِّل نتيجةً مختلفة. وفي بعض الحالات، قد يكون خطأ القياس كبيرًا، مقارنةً بالفروق الحقيقية. لذا.. إذا أخبرك أحدهم أنّ الاقتصاد قد نما بنسبة %0.13 في الشهر الماضي، فهناك احتمال أنْ يكون قد تقلَّص في الواقع. ويجب تقديم النتائج بدقّة متناسبة مع الخطأ المُرَافِق لها، لتجنُّب الإيحاء بدرجة من الدقّة لا سند لها.


الانحياز أمرٌ شائع. قد يعطي التصميم التجريبي أو أجهزة القياس نتائج غير نمطيّة في اتجاه معيّن. فمثلًا، تحديد السلوك الانتخابي بسؤال الناس في الشارع، أو البيت، أو عن طريق الإنترنت سوف يأخذ عيِّنات من نِسَب مختلفة من السكان، وقد يعطي الجميع نتائج مختلفة. ونظرًا إلى ارتفاع فرص كتابة ونشر الدراسات التي تشير إلى «نتائج ذات دلالة إحصائية»، فإن المؤلَّفات العلمية تميل إلى إعطاء صورةٍ مبالَغ فيها عن حجم المشكلات أو فعّالية الحلول. ربما يكون الانحياز إلى التجربة نتيجةَ التوقّعات.. فقد يفترض المشاركون الذين يتلقّون علاجًا ما أنهم سيشعرون بفرق؛ وبالتالي قد يتصرفون بشكل مختلف، أو يُبَلِّغون عن حدوث تأثير. وقد يتأثّر الباحثون الذين يجمعون النتائج عندما يعرفون مَنْ تلقّى العلاج. والتجربة المثالية يجب أن تكون مزدوجة التعمية: أي لا يعرف المشاركون فيها ولا جامعو البيانات مَنْ الذي تلقّى، وماذا تلقّى. قد يكون هذا الأمر واضحًا في التجارب التي تُجرى على الأدوية، لكنه مستحيلٌ بالنسبة إلى كثيرٍ من الدراسات الاجتماعية. ويأتي تأكيد الانحياز عندما يجد العلماء دليلًا على نظرية مفضّلة، ومن ثم يصبح انتقادهم للنتائج التي توصلوا إليها غير كافٍ، أو نجد أنهم توقفوا عن البحث عن الأدلة المعاكسة.


العيِّنة الأكبر حجمًا أفضل عادةً. عادةً ما يكون المتوسط المأخوذ من عدد كبير من الملاحظات أكثر فائدة من المتوسط المأخوذ من عدد أصغر. فمعرفتنا تتحسن كلما زاد تجميع الأدلة. ويكتسب هذا الأمر أهميةً خاصةً عندما تتأثر الدراسات بأعداد كبيرة من التنوعات الطبيعية وأخطاء القياس. لذا.. من الطبيعي أن تختلف فعالية الدواء العلاجية بين مجموعة من المشاركين، بل يكون تقدير متوسط فعاليته العلاجية أكثر دِقّة ووثوقًا فيه إثر تجربة تضم عشرات الآلاف، بدلًا من مئات المشاركين.


الارتباط لا يقتضي السببيّة. من المفيد أنْ نفترض أنّ أحد الأنماط هو السبب في نمط آخر. ومع ذلك.. فقد يكون الارتباط مجرّد صدفة، أو قد يكون نتيجةً لحدوث كلا النمطين بسبب عاملٍ ثالث، كمتغيّر «مُرْبِك»، أو «كامِن». على سبيل المثال.. اعتقد علماء البيئة في وقتٍ ما أن الطحالب السامّة تقتل السمك في مصبات الأنهار، ولكنْ اتّضح فيما بعد أن الطحالب نَمَتْ حيث مات السمك، فعرفنا أن الطحالب إذن لم تسبِّب موت السمك2.


تَرَاجُع المتوسط قد يكون مضلِّلًا. من المرجّح أن تكون الأنماط المتطرفة في البيانات ـ بشكل جزئي على الأقل ـ انحرافاتٍ يمكن عزْوُها إلى الصدفة أو الخطأ. ومن المرجّح أن يكون الإحصاء المقبل أقل تطرُّفًا. فعلى سبيل المثال.. إذا وُضعت كاميرات السرعة في الأماكن التي تشهد عددًا كبيرًا من الحوادث، فلا يمكن أن يُعزى أي انخفاض في معدّل الحوادث إلى وجود الكاميرا؛ إذ ربما يكون الانخفاض قد حدث نتيجة سبب آخر.


محاولة استقراء ما وراء البيانات أمرٌ محفوف بالمخاطر. لا تنطبق الأنماط الموجودة ضمن نطاق معيّن بالضرورة على ما عداها خارج هذا النطاق. وبالتالي، فإنه من الصعب جدًّا توقُّع استجابة النظم البيئية لتغيُّر المناخ، عندما يكون معدّل التغيّر أسرع مما كان قد اخْتُبِر في التاريخ التطوري للأنواع الموجودة، وعندما تكون التقلّبات الشديدة في الطقس جديدة كليًّا.


احذر من سوء فهم المعدّل الأساسي. إن قدرة اختبار غير كامل على تحديد حالةٍ ما تعتمد على إمكانية حدوث تلك الحالة (المعدل الأساسي). على سبيل المثال.. قد يُجْرِي شخصٌ اختبار دم، تبلغ دقة تحديده لمرض نادر %99، وتكون نتيجته إيجابية، ومع ذلك.. فقد يكون من غير المرجَّح أن يكون مُصابًا بهذا المرض. وإذا خضع لهذا الاختبار 10,001 شخص، بينهم شخص واحد فقط مصاب بالمرض، فغالبًا ما ستكون نتيجة هذا الاختبار لدى هذا الشخص إيجابية، ولكنْ قد تكون نتيجة اختبار 100 شخص آخرين (%1) إيجابية أيضًا، على الرغم من عدم إصابتهم بالمرض. وهذا النوع من الحسابات يكون قيِّمًا عند وضع أي إجراءات مسحيّة في الاعتبار، كعدد الإرهابيين في المطارات مثلًا.

DAWID RYSKI

الضوابط مهمّة. يتم التعامل مع مجموعة المراقبة بالطريقة نفسها التي تُعامَل بها المجموعة التجريبية تمامًا، باستثناء تطبيق العلاج. وفي غياب مجموعة المراقبة (كضابط للأمور)؛ يصعب تحديد ما إذا كان علاج معيَّن مؤثرًا بالفعل، أم لا. ويساعد الضبطُ الباحثين على التأكّد بشكل معقول من عدم وجود متغيّرات مُرْبِكة تؤثر على النتائج. وفي بعض الأحيان يذكر المشاركون في التجارب حدوث نتائج إيجابية، بسبب موضوع البحث، أو الشخص الذي يقدّم العلاج، أو حتى بسبب لون قرص الدواء3. ويُبْرِز هذا أهمية مقارنة النتائج مع مجموعة مراقبة، مثل الأقراص الخالية من أي مادة فعّالة (العلاج الوهمي).


الاختيار العشوائي يتجنب التحيُّز. أثناء إجراء التجارب، يجب اختيار الأفراد أو الجماعات التي سيُجرى عليها الاختيار عشوائيًّا، كلما كان ذلك ممكنًا. إن مقارنة التحصيل العلمي للأطفال الذين يطبِّق أهلهم برنامجًا صحيًّا بالتحصيل العلمي للأطفال الذين لا يطبقه أهلهم، ستعاني على الأرجح من التحيّز (فقد تكون إمكانية انضمام الأسر الأفضل تعليمًا إلى البرنامج أعلى، على سبيل المثال). والتجربة المصمَّمة تصميمًا جيدًا يجب أن تتجّه إلى الاختيار العشوائي لبعض الآباء؛ لتَلَقِّي البرنامج، في حين لا يتلقاه البعض الآخر.


اسْعَ إلى التكرار المفيد، لا إلى التكرار المتماثِل الزائف. من الأرجح أن تكون النتائج المتسّقة عبر عديد من الدراسات المكررة على مجموعات مستقلة، أكثر صلابة. ومن الممكن الجمع بين نتائج عدة تجارب من هذا القبيل في مراجعة منهجيّة، أو تحليل تجميعي؛ لتقديم نظرة شاملة للموضوع، مع قوّة إحصائية يُحتمَل أن تفوق كثيرًا الدراسات الفردية. إن تطبيق إجراءٍ ما على عدة أشخاص في مجموعة، على فئة من الأطفال مثلًا، قد يكون مضلّلًا، لأن الأطفال سيكون بينهم كثير من الخصائص المشتركة، بخلاف الإجراء المُطبَّق. وقد يقع الباحثون في خطأ «التكرار الزائف»، إذا لجأوا إلى التعميم من هؤلاء الأطفال إلى الجماعات الأوسع التي لا تشترك فيما بينها بالقواسم المشتركة نفسها. ويؤدي التكرار الزائف إلى إيمان غير مبرَّر بالنتائج. فلقد أسهمَ التكرار الزائف لدراسات وفرة سمك القدّ في الضفاف الكبرى في نيوفاوندلاند بكندا في انهيار ما كان يُعتبَر أكبر مصيد لسمك القد في العالم4.


العلماء بَشَر. للعلماء مصلحة ـ بلا شك ـ في الترويج لأعمالهم، وكثيرًا ما يكون هذا للحصول على مزيدٍ من التمويل لوضعهم وبحوثهم، مع أنه قد يكون في بعض الأحيان من أجل تحقيق مكاسب مالية مباشرة. ومن الممكن أن يؤدي هذا إلى الإبلاغ الانتقائي عن النتائج، والمبالغة فيها أحيانًا. والعرض بين الأقران ليس معصومًا من الخطأ.. فقد يفضِّل محرِّرو الدوريّات النتائجَ الإيجابية، والأخبار الجديرة بالنشر. لذا.. فإن تعدُّد مصادر الأدلة واستقلالها وتكرارها يُعَدّ أكثر إقناعًا.


التميُّز مهم. الدلالة (المعنوية) الإحصائية، التي يشار إليها بـP، هي مقياس لإمكانية حدوث نتيجةٍ ما عن طريق الصدفة. وهكذا، عندما تكون P مساوية لـ0.01، فإنها تعني وجود إمكانية تعادل 1 من 100، لكَوْن التأثير العلاجي قد حدث بشكل عشوائي، في حين لم يكن للعلاج تأثير على الإطلاق في الواقع. وعادةً ما يبلِّغ العلماء عن النتائج المهمة عندما تقلّ قيمة P للاختبار عن 0.05 (1 من 20).

الفصل بين انعدام التأثير، وغياب الأهمية الإحصائية. إن عدم وجود نتيجة ذات أهمية إحصائية (كأنْ تكون قيمة P > 0.05) لا يعني غياب تأثير كامن.. إنه يعني عدم التمكّن من الكشف عن أي تأثير. وقد لا يكون بإمكان دراسة صغيرة أن تكشِف عن وجود تغيُّر حقيقي. فمثلًا، أشارت الاختبارات التي أجريت على محاصيل القطن والبطاطس المعدَّلة وراثيًّا؛ لإنتاج سمّ يحميها من الحشرات الضارة إلى عدم وجود أيّ آثار عكسية على الحشرات النافعة، مثل الملقّحات. ولكن لم تكن عيِّنات أيٍّ من هذه التجارب كبيرة بما يكفي للكشف عن الآثار الحادثة على الكائنات المفيدة، إنْ وُجدت5.


حجم التأثير مهمّ. إنّ إمكانية الكشف عن الاستجابات الصغيرة تكون أقلّ احتمالًا. فقد تؤدي دراسة تضم العديد من المكرّرات إلى نتيجة ذات دلالة إحصائية، ولكنْ حجم تأثيرها صغير (وربما تكون بالتالي غير مهمة). إن أهمية حجم التأثير هي مسألة حيوية، أو فيزيائية، أو اجتماعية، وليست إحصائية. في تسعينات القرن العشرين، طلب محرِّر دوريّة «علم الأوبئة» الأمريكية Epidemiology من الكُتّاب التوقف عن استخدام الدلالة الإحصائية في المقالات التي يقدّمونها، نظرًا لدأبهم على إساءة تفسير معنى الاختبارات المهمة بشكل متكرر؛ ما أدَّى إلى إصدار توصيات غير فعّالة أو مضلَّلة في مجال السياسة الصحية العامة6.


ملاءمة الدراسة تحدّ من التعميمات. يعتمِد اعتبارُ الدراسة ملائِمةً على مدى مشابهة الظروف التي تجري بموجبها لظروف المسألة موضع الاعتبار. فمثلًا، هناك حدود للتعميمات التي يمكن للمرء أن يطلقها على البشر، استنادًا إلى التجارب المُجْرَاة على الحيوانات، أو التجارب المخبريّة.


المشاعر تؤثر على إدراك المخاطر. من منظور واسع، يُمْكِن التفكير في المخاطر على أنها احتمال وقوع حدثٍ ما ضمن إطار زمني، والنظر في العواقب التي يمكن أنْ تترتب عليه، لو وقع هذا الحدث. ويتأثر إدراك الناس للمخاطر بشكل متباين بعوامل عدة: منها ندرة هذا الحدث، ومدى قدرتهم على التحكّم، التي يعتقدون أنهم يملكونها، ومدى سوء النتائج، وما إذا كانت المخاطرة طوعية، أم لا. وعلى سبيل المثال.. يقلّـِل الناس في الولايات المتحدة من المخاطر المترتّبة على وجود مسدس في المنزل بمائة ضعف ما يجب أنْ تكون عليه، ويبالغون في تقدير مخاطر الحياة بالقرب من مفاعل نووي بـعشرة أضعاف ما يجب أنْ تكون عليه7.


التبعيّات تغيِّر المخاطر. من الممكن حساب عواقب الأحداث منفردةً، مثل المدّ الشديد، والأمطار الغزيرة، وتغيُّب العمال الأساسيين. وإذا كانت الأحداث مترابطة فيما بينها، ( كوجود عاصفة تسبِّب ارتفاع المدّ، أو أمطار غزيرة تمنع العمّال من الوصول إلى موقع العمل مثلًا)؛ فحينئذ يكون احتمال حدوثها المشترك أعلى كثيرًا من المتوقَّع8. ويُذكَر أنّ التأكيد الذي قدمته وكالات تقدير الجدارة الائتمانية على أنّ مخاطر تخلُّف مجموعات الرهون العقارية معًا منخفضة جدًّا قد شَكَّلَ عنصرًا أساسيًّا في انهيار أسواق الائتمان في عام 2008.


يمكن التنقيب بعُمْق عن البيانات، أو تنقيتها كالثمار.
من الممكن إعداد الأدلة؛ لدعم إحدى وجهات النظر. فمن أجل تفسير وجود ارتباطٍ واضحٍ بين استهلاك الزبادي أثناء الحمل، وإصابة الذُّرِّيّة بالربو فيما بعد9، فإن المرء بحاجة إلى معرفة ما إذا كان المؤلّفون قد بادروا لاختبار هذه الفرضية في حد ذاتها، أم أنهم توّصلوا إلى هذه النتيجة عبر مجموعة ضخمة من البيانات. على النقيض، فإن الأدلّة المتوفّرة لبوزون هيجز أثبتت بشكل خاص مدى الصعوبة التي وجدها الباحثون في البحث عنها ـ «تأثير البحث في أماكن أخرى». والسؤال الذي ينبغي طرحه هو: «ما هو الشيء الذي لم يتم إخبارنا به؟»


القياسات المتطرفة قد تكون مضلِّلة. إنّ أي ترتيب من القياسات (فعالية مدرسة معينة مثلًا) سيُظْهِر اختلافًا، بسبب عدة عوامل: الفروق في القدرة الفطرية (كأهلية المدرِّس)، والعيّنات المأخوذة (إذ قد يصادف أن تكون عيّنة الأطفال غير نمطية، وذات مضاعفات)، والتحيّز (حيث إنه من الممكن أنْ تُوجَد المدرسة في منطقةٍ يكون الناس فيها غير أصحاء على نحو غير عادي)، والخطأ في القياس (يمكن قياس النتائج بطرق مختلفة لمدارس مختلفة). ومع ذلك.. عادةً ما يُعزى الاختلاف الناتج إلى الاختلاف في القدرة الفطرية فقط، مع تجاهل مصادر الاختلاف الأخرى. ويصبح هذا الأمر مشكلةً بوجود العبارات التي تصف هذه النتيجة المتطرفة (مثل «تضاعف نسبة النجاح»)، أو تقارِن حجم التطرف مع المتوسط («نسبة النجاح في مدرسة (س) تعادل ثلاثة أضعاف معدّل النجاح الوطني»)، أو المجموعة («هناك فرق يعادل عدد أضعاف (س) بين أداء أعلى المدارس وأدناها‘). ونادرًا ما تمثِّل جداول نطاقٍ ما ـ على وجه الخصوص ـ موجزًا موثوقًا به للأداء.

  1. Doubleday, R. & Wilsdon, J. Nature 485, 301302 (2012).

  2. Borsuk, M. E., Stow, C. A. & Reckhow, K. H. J. Water Res. Plan. Manage. 129, 271282 (2003).

  3. Huskisson, E. C. Br. Med. J. 4, 196200 (1974)

  4. Millar, R. B. & Anderson, M. J. Fish. Res. 70, 397407 (2004).

  5. Marvier, M. Ecol. Appl. 12, 11191124 (2002).

  6. Fidler, F., Cumming, G., Burgman, M., Thomason, N. J. Socio-Economics 33, 615630 (2004).

  7. Fischhoff, B., Slovic, P. & Lichtenstein, S. Am. Stat. 36, 240255 (1982).

  8. Billinton, R. & Allan, R. N. Reliability Evaluation of Power Systems (Plenum, 1984).

  9. Maslova, E., Halldorsson, T. I., Strøm, M., Olsen, S. F. J. Nutr. Sci. 1, e5 (2012).