“ماذا تقول البيانات؟” عالمة بيانات ناقدة للبيانات!

ضمنعلم النفس, مواد عامة
يوليو 23, 2020
د. رباب الحربي
1679المشاهدات
0 تعليقات

ترجمة: د. رباب الحربي

بعد آلاف السنين من الاعتماد على القصص والخبرات والحكايات القديمة كدليل على آرائنا، يطالب معظمنا اليوم أن نستخدم البيانات لدعم حججنا وأفكارنا.

سواء كانت معالجة السرطان أو حل عدم المساواة في مكان العمل أو الفوز بالانتخابات، يُنظر إلى البيانات الآن على أنها حجر رشيد للتغلب على أي عوائق تحول دون فهمنا للعالم من حولنا. ولكن مع تعلقنا الشديد بالبيانات، قمنا بخلط البيانات بالحقائق. وهذا له آثار سلبية على قدرتنا على فهم وتحسين الأشياء التي نهتم بها.

أنا أستاذ علوم البيانات في جامعة نيويورك ومستشار العلوم الاجتماعية للشركات، حيث أجري بحوثًا كميًة لمساعدتهم على فهم التنوع وتحسينه. أنا أكسب رزقي من البيانات، ومع ذلك أجد باستمرار أنه سواء كنت أتحدث إلى الطلاب أو العملاء، يجب أن أذكرهم بأن البيانات ليست صورة مثالية للواقع: إنها بنية بشرية بشكل أساسي، وبالتالي تخضع للتحيزات والقيود، وغيرها من العيوب. والسؤال الذي يتكرر دائما عند محاولتنا لفهم ودراسة المشكلات التي تواجهنا هو:

“ماذا تقول البيانات؟”

البيانات لا تقول أي شيء. البشر هم من يقولون. يقولون ما يلاحظونه أو يبحثون عنه في البيانات – البيانات توجد فقط لأن البشر اختاروا جمعها، وقاموا بجمعها باستخدام أدوات من صنع الإنسان.

لا يمكن للبيانات أن تقول أي شيء عن مشكلة ما أكثر من أن تتمكن المطرقة من بناء منزل، أو يتمكن الطحين من صنع معكرون. تعد البيانات مكونًا ضروريًا في الاكتشاف، ولكنها تحتاج إلى الإنسان لتحديدها، وتشكيلها، ثم تحويلها إلى نتائج ذات معنى.

وبالتالي فإن جودة البيانات تعكس جودة ومدى دقة ومهارة الباحث الذي يعالجها. لذا إذا كانت البيانات بمفردها لا تستطيع أن تفعل أو تقول أي شيء، فما هي البيانات؟

ما هي البيانات؟

البيانات هي تقريب وصورة غير كاملة لبعض جوانب العالم في وقت ومكان معينين (أعلم أن هذا التعريف أقل جاذبية مما كنا نتوقعه جميعًا). إنها ما ينتج عندما يريد البشر أن يعرفوا معلومات عن شيء ما، ويحاولون قياسه، ثم يجمعون هذه القياسات بطرق معينة.

فيما يلي أربع عيوب في البيانات قد يقع فيها الباحث:

أخطاء عشوائية

أخطاء منهجية

أخطاء في اختيار ما يجب قياسه

وأخطاء الاستبعاد

لا تعني هذه الأخطاء أن نفقد ثقتنا في صدق البيانات، ولكن تعني أن نجمع البيانات بعناية وحذر أكثر، أن نسأل أنفسنا عن مدى دقة هذه البيانات، وكيف نزيد من هذه الدقة. وجهة النظر هذه ليست معادية للعلم أو للبيانات. على العكس: إن زيادة الشفافية وإدراك الأخطاء المحتملة يمكن أن تجعل نتائجنا أقوى.

الأول هو أخطاء عشوائية. وتحدث عندما يقرر الشخص قياس شيء ما، ثم إما بسبب عطل في أجهزة القياس أو بسبب خطأ من الشخص نفسه، فإن البيانات المسجلة تكون خاطئة. على سبيل المثال عند تعليق ميزان حرارة على الحائط لقياس درجة الحرارة، أو استخدام سماعة الطبيب لحساب عدد دقات القلب. إذا كان مقياس الحرارة غير دقيق، فقد لا يخبرك بعدد الدرجات الصحيحة. وقد تكون سماعة الطبيب دقيقة، لكن الطبيب الذي يقوم بالعد قد يتحرك ويخطئ في العد.

في الفحوصات الطبية تظهر الأخطاء العشوائية في شكل نتائج إيجابية خاطئة. عندما تكون نتيجة فحص السرطان إيجابية خاطئة مثلاً، تعني أن النتائج توحي بأن الشخص مصاب بالسرطان ولكن الحقيقة عكس ذلك. هناك العديد من الأسباب التي قد تؤدي إلى ظهور نتيجة إيجابية خاطئة، يتلخص معظمها في حدوث خطأ عند عملية تحويل حقيقية عن العالم (لدى الشخص سرطان أم لا) إلى بيانات (من خلال التصوير الشعاعي للشخص).

إن عواقب هذا الخطأ العشوائي حقيقية أيضًا. تظهر الدراسات أن الإيجابية الخاطئة يمكن أن تؤثر سلباً على الصحة العقلية، على الرغم من أن الشخص سليم في الواقع، اقتناعه بالنتيجة الإيجابية الخاطئة وخوفه منها يدفع به إلى مزيد من الفحوصات (مما يزيد من فرص حدوث المزيد من الإيجابيات الكاذبة).

بشكل عام، طالما أن أجهزتنا ليست معطلة ونحن نبذل قصارى جهدنا، نأمل أن تكون هذه الأخطاء العشوائية إحصائيًة فقط وبالتالي يتم إلغاؤها ونقضها بمرور الوقت – على الرغم من أن هذا ليس عزاءًا كبيرًا إذا كان الفحص الطبي الخاص بك هو أحد هذه الأخطاء.

والثاني هو أخطاء منهجية. يحدث هذا عندما يقوم الباحث (من دون قصد) بإضافة بعض البيانات غير الصحيحة إلى البيانات الكلية، مما قد يؤدي به إلى استنتاجات خاطئة حول موضوع دراسته. قد يحدث هذا لأسباب عديدة منها أخطاء: في اختيار العينة، أو عند أخذ العينات منها، أو من ينضم إلى دراستك أو يملأ استبيانك.

أحد الأخطاء المنهجية الشائعة هو التحيز في الاختيار. على سبيل المثال، استخدام البيانات من مشاركات تويتر لفهم المشاعر العامة حول مشكلة معينة غير دقيق لأن معظمنا لا يغرد. وأيضاً اولئك الذين يغردون قد لا تُظهر مشاركاتهم مشاعرهم الحقيقية.

من المؤسف أن الدراسات الطبية مليئة بالتحيزات المنهجية أيضًا: غالبًا ما تستند إلى المرضى الذين لديهم الوسائل التي تساعدهم في الوصول إلى طبيب أو التسجيل في تجربة سريرية. توظيف التكنولوجيا الحديثة قد يساعد في التغلب على هذا النوع من التحيز. إذا كان كل من لديه ساعة أبل مثلاً، يستطيع إرسال معدل ضربات قلبه وخطواته يوميًا إلى السحابة الإلكترونية، فسنحصل على الكثير من البيانات مع قدر أقل من التحيز. لكن هذا قد يؤدي إلى تحيز جديد تمامًا: من المرجح أن تكون البيانات الآن مائلة إلى الاشخاص الأغنياء في العالم الذين تتوفر لهم مثل هذه التكنولوجيا.

والثالث هو أخطاء اختيار ما يجب قياسه. يحدث هذا عندما نعتقد أننا نقيس شيئًا ما، ولكننا في الواقع نقيس شيئًا آخر.

أعمل مع العديد من الشركات المهتمة بإيجاد طرق لاتخاذ قرارات توظيف وترقية أكثر موضوعية. كيف يمكننا الحصول على المزيد من البيانات لإقناع المدراء باتخاذ قرارات أفضل؟ وكيف يمكننا تطبيق الفلاتر المناسبة للتأكد من توظيف الموهوبين؟ وهل البيانات تقيس ما يعتقدون أنها تقيسه؟

على سبيل المثال، إذا كنا نبحث عن أفضل المرشحين للوظائف، فقد نفضل أولئك الذين ذهبوا إلى الجامعات العليا. ولكن بدلاً من أن يكون ذلك مقياسًا للمواهب، فقد يكون مجرد مقياس لمكانة اجتماعية أعطت شخصًا ما التسلسل “الصحيح” من الفرص لإدخاله في كلية جيدة في المقام الأول. وقد تكون درجات اختبار القياس تعبيرًا رائعًا عن قدرة الوالدين على الدفع مقابل مدرس خاص.

الشركات – وطلابي – مهووسون للغاية بمنهجيات البحث لدرجة أنهم يتخطون السؤال الأعمق: لماذا نقيس هذا الشيء بهذه الطريقة في المقام الأول؟ هل هناك طريقة أخرى يمكننا من خلالها فهم الأشخاص بشكل أكثر شمولاً؟ وبالنظر إلى البيانات المتوفرة لدينا، كيف يمكننا ضبط الفلاتر بحيث نقلل التحيز إلى أقصى درجة ممكنة؟

وأخيرا أخطاء الاستبعاد. يحدث هذا عندما يتم تجاهل بعض الأشخاص في البحث بشكل منهجي، والتي يمكن أن تؤدي إلى بيانات ونتائج لا تعكس الواقع بشكل سليم. على سبيل المثال، من المرجح أن تموت النساء بسبب الأزمات القلبية أكثر من الرجال، والذي يُعتقد أنه يرجع في حد كبير إلى حقيقة أن معظم بيانات القلب والأوعية الدموية في الأبحاث تعتمد على الرجال، الذين يعانون من أعراض مختلفة عن التي تعاني منها النساء. استبعاد النساء كعينة لهذه الدراسات أدى إلى نتائج لا تعكس الواقع بصورة كاملة.

يمكن أن يؤدي اختيار دراسة شيء ما إلى تحفيز المزيد من البحث حول هذا الموضوع، وهو تحيز بحد ذاته. نظرًا لأنه من الأسهل الاعتماد على البيانات الحالية بدلاً من إنشاء بيانات جديدة، غالبًا ما يجتمع الباحثون حول مواضيع معينة – مثل النساء البيض المرشحات للمناصب (يتم استبعاد النساء السود) أو صحة القلب والأوعية الدموية للذكور (يتم استبعاد النساء) – على حساب الآخرين.

لماذا لا نزال بحاجة إلى الإيمان بالبيانات؟

في عصر مناهضة الفكر والأخبار والعلوم المزيفة، أشعر بالتردد في طرح موضوع كهذا. لكني أعتقد أن فائدة البيانات والعلوم لا تأتي من حقيقة أنها مثالية وكاملة، ولكن من حقيقة أننا ندرك محدودية جهودنا. تمامًا كما نريد تحليل الأشياء بعناية باستخدام الإحصائيات والخوارزميات، نحتاج أيضًا إلى جمعها بعناية. كلما تواضعنا وكنا أكثر وعيا بحدودنا، كلما زادت قوة أبحاثنا.

هذا لا يعني التخلص من البيانات. بل يعني أنه عندما ندرج الأدلة في تحليلنا، يجب أن نفكر في التحيزات التي أثرت على موثوقيتها. لا يجب أن نسأل فقط “ماذا تقول؟” ولكن اسأل “من جمعها؟ وكيف جمعها؟ وكيف أثرت هذه القرارات على النتائج؟”

نحتاج إلى التشكيك في البيانات بدلاً من افتراض أنه لمجرد أننا قمنا بتعيين رقم لشيء يصبح فجأة الحقيقة المطلقة. عندما تواجه دراسة أو مجموعة بيانات، أدعوك للتساؤل: ما الذي قد يكون مفقودًا من هذه الصورة؟ ما هي الطريقة الأخرى للنظر فيما حدث؟ وماذا يقيس هذا القياس، أو يستبعد، أو يحفز؟

ختاماً، نحن بحاجة إلى أن نكون دقيقين بشأن البيانات كما بدأنا أن نكون حول الإحصاءات والخوارزميات والخصوصية. طالما أن البيانات تعتبر حقيقة مطلقة معصومة، فإننا نخاطر بخلق وتعزيز الكثير من “الحقائق” غير الدقيقة للعالم من حولنا.

رابط المقال الأصلي:

بقلم أندريا جونز روي

أستاذ علوم البيانات، جامعة نيويورك

https://qz.com/1664575/is-data-science-legit/

ترجمة بتصرف: د. رباب الحربي