إعداد إمكانية الوصول

خيارات الألوان

لون أحادي لون باهت مظلم

أدوات القراءة

عزل حاكم

القصص

ما يجب على الصحفيين الاستقصائيين معرفتُه عن الرّسوم البيانيّة المعرفيّة

English

جزءٌ كبير من استجابة جوجللأي بحث قائمة على معلومات منظمة من الرسم البياني المعرفي لـ جوجل، وليس من روابط المواقع الإلكترونيّة.

في عام 2012، أعلنت Google أن مستخدمي محرك البحث الخاص بها سيتمكنون قريبًا من البحث عن “أشياء، وليس عن سلاسل” (بالنصّ).

أي أن Google ستعيد ما يُعرف بالمعلومات المُنظَّمة عن الأشخاص والأماكن والأحداث والأفلام وغيرها من المفاهيم، وليس فقط القائمة التقليدية لروابط المواقع التي تحتوي على كلماتٍ مطابقٍة لعباراتِ البحث. هذه المعلومات مستمدّة من ما يُعرف بـ”الرسم البياني المعرفي” (Knowledge Graph).

لا يقتصر الأمر على غوغل،  فقد أصبحت الرسوم البيانية المعرفيّة ظاهرة متنامية في السنوات الأخيرة وسط مجتمعِ علومِ البيانات، مما وجّه عمل الكثير من التطبيقات ومنها المساعدون الافتراضيون مثل Siri و Alexa. في الوقت نفسه، هناك بعض الجدل حول الماهية الفعليّة للرسم البياني المعرفي. (فالمصطلح رنّان ويحلو للناس استخدامه) ولكن بحسب أحد التعريفات الشائعة فالرسم البياني المعرفي يمثّل قواعد معرفيّة بالإضافة إلى تكامل البيانات.

قواعد المعرفة هي مجموعاتٌ من البيانات التي تُرجمت إلى أنطولوجيا (قاعدة وجود) مشتركة، وتمّ تحويلها إلى شبكة من الأشياء والعلاقات. “الكلاسيكيات” هنا هي البيانات العامة من ويكيبيديا (ويُسمّى رسمها البياني المعرفي ويكيداتا) أو مواقع خاصة بمجال (دومين) مثل قاعدة بيانات الأفلام  IMDb.

يشير تكامل البيانات إلى مجموعة من التقنيات لربط الأشياء معًا عبر مجموعات بيانات متعددة. في بعض الأحيان يكون هذا سهلاً، كما هو الحال عندما تذكر مجموعتان منفصلتان من البيانات نفس رقم الهاتف أو عنوان البريد الإلكتروني أو الرقم الضريبي أو رقم الحساب المصرفيّ الدوليّ. وفي أحيان أخرى يكون الأمر أصعب بكثير.

منذ انطلقت منصة Aleph التابعة لـ”مشروع الإبلاغ عن الجريمة المنطَّمة والفساد” (OCCRP)   لأول مرة على الإنترنت سنةَ 2016 مرّت بتحوّلٍ مشابه لـلتحوّل الذي مرّت به Google – من “السلاسل” إلى “الأشياء”.

بدأت منصة Aleph  كأداةٍ للبحث في المستندات النصية، ولكن سرعان ما أدركنا أن البيانات التي تم جمعها لتحقيقاتنا لم تكن تتناسب دائمًا مع هذا النموذج. على سبيل المثال، فإن جدولَ تفاصيلِ الدّفع يمكن تفسيره ببساطة على أنه مجموعة كبيرة من الكلمات، وليس باعتباره شبكةً معقّدة من النّاس والشركات والمعاملات كما يراها صحفيونا، ولذلك قد يرغبون في التعمّق فيها أكثر.

رداً على ذلك، قررنا تغيير ما تفعله منصّة Aleph، وبدلاً من الاكتفاء بالبحث في النص في الوثائق، أدركنا أنه يجب علينا القيام بعمليّة فَهْرَسة للمفاهيم وكيفية ارتباطها ببعضها، حتى نتمكن من إنتاج رسمٍ بيانيٍّ معرفيّ يسمح لنا بالنظر إلى البيانات من حيث الدلالات (المعاني)، وليس من حيث النصّ فقط.

إنشاء لغة جديدة

للقيام بذلك، كنا بحاجة إلى إنشاء أنطولوجيا، لغة مجرّدة تضع خريطةً بالأشياء التي تهمّنا. في حالة IMDb، قد يرغب مستخدموه في معرفة منْ مثَّلَ في أي فيلم وفي أي سنةٍ كان ذلك، أو قد يريدون معرفة من هو ذلك الممثل الذي رأوه في ذلك الفيلم.

ما الذي يهمّ الصحفيين الاستقصائيين؟ يمكن العثور على الإجابة على هذا السؤال، مثل أيّ سؤال آخر في الصحافة، في حانة الفندق الذي يُعقد فيه مؤتمرٌ لمن يعملون في القطاع الذي نستقصي عنه. ستسمع جملًا مثل: “لدي هذه الوثيقة التي تربط رئيس الوزراء بشركة مملوكة من قِبَل عصابةٍ ترتكب جرائم منظمة. الآن أحتاج أن أعرف ما إذا كانت الشركة تحصل على عقود من الحكومة”. وفي وقت لاحق من المساء، قد يتمّ رسمُ شبكةٍ من المشتبهِ بهم على منديل ورقيّ من مناديل الحانة.

هذه الرسومات تلخّصُ جوهرَ ما نقوم به، الأسماء والأفعال التي تُستَخدّم في التقارير الاستقصائية. بدلاً من الأفلام والمخرجين، نقوم بصيد سجلّات الشركات، والمستندات المسرَّبة، وبيانات العقوبات لمعرفة المزيد عن الأشخاص والشركات والعقود والعقارات وتراخيص التعدين والسُّفن ورسائل البريد الإلكتروني المرتبطة بالملكية والمدفوعات والروابط العائلية. (لا عليك، فنحن أيضًا نستمتع بالأفلام أحيانًا). كلّ تحقيق نجريه قد يتطلب إدخال اسم جديد أو اثنين، أو يُطْلعنا على طرق جديدة يمكن من خلالها ربط الأسماء ببعضها.

غالباً ما يكون تحديد الأسماء والأفعال التي يجب التقاطها في البرمجيات مسألة خاضعة للتقدير، وقائمة على تامفاضلة بين الدّقة وقابلية الفهم. على سبيل المثال، نحن لا نميّز حتى الآن بين “الشركات” و”الشركات الائتمانية”. ورغم أنّ العاملين في مجال القانون في بريطانيا قد لا يعجبهم خيارنا، إلا أننا ببساطة لم نرَ ما يكفي من البيانات الخام حول الشركات الائتمانية بما يكفي لتبرير التفريق عمليًا بين الكلمتين.

لقد أطلقنا على توصيفنا اسم اتبع المال  (FtM) ويدعم كل البيانات الموجودة في منصة Aleph. يمكن إنشاء بيانات FtM أو الكيانات بطرق عديدة. يتمّ استخراج بعضها من محتويات إلكتروني تمّ تسريبه (الأشخاص الذين يرسلون ويستقبلون ويردّون على الرسائل). يتم رسم بعضها كجزء من مخطط الشبكة في Aleph  أو يتم إنشاؤها على نطاق واسع عبر مجموعة من التعليقات التوضيحية من بيانات منظمة مثل جدول المدفوعات المذكور أعلاه.

يستخدم برنامج (اليف) في (أو سي سي آر بي) الأسماء الرئيسية، أو ما يسمى بـ “الأشياء”، في “اتبع المال”. وتركز مجموعة ثانية من الكيانات على وصف الأفعال أو الارتباطات بين هذه الكيانات.

 

بالطبع، لا تزال وثائق مثل ملفات PDF، وثائق Word، وأرشيف البريد الإلكتروني جزءًا مهمًا من جمع البيانات. ولكن على المستوى التقني، فهي مجرد نوع من الكيانات التي يمكن ربطها، على سبيل المثال، بشركة أو بعقد شراء حكومي.

إنه شيء، لكن هل هو الشيء نفسه؟

كثيرًا ما يتوجّب على الصحفي الاستقصائي أن يتحقّقَ من التشابه بين الأشياء:  هل هذا الشخص الذي يتلقى أموالاً من جهة غسيل أموال أذربيجاني هو فعلًا نفس الرجل الذي رشّح نفسه للرئاسة في بلدي؟

وهنالك العديد من العوامل التي تعطينا مفاتيح تُمكّننا من الوصول إلى هذا الاستنتاج. هل يحملان الاسم نفسه، نفس تاريخ الميلاد، الجنسية، الرقم الضريبي؟ هل نعرف عن أمور تربطهم بآخرين مذكورة في كِلتا مجموعات البيانات؟ هل يمكننا العثور على وثائق من مصادر أخرى من شأنها أن تقوّي هذا الاستنتاج؟ ولنأخذ على سبيل المثال اسم “دونالد جون ترامب” – الذي يمكن أن يشير بنفس القدر إلى الرئيس الأمريكي الخامس والأربعين (المولود عام 1946)، أو ابنه الأكبر (المولود عام 1977).

لقطة شاشة لـ أليف.

في Aleph قمنا بتنفيذ شكل بسيط من التقاط وتجميع هذه الإشارات: التأكد بالمقارنة بين مجموعات البيانات. يمكّنُ هذا الخيار المستخدمين من التعامل مع مجموعة بيانات واحدة (مثلاً: كلّ السياسيين في بلد معين، أو جميع الشركات في مخططِ شبكة) على أنها بحث مجمّع في جميع مجموعات البيانات الأخرى في النظام. يتم تسجيل التطابقات باستخدام جميع الخصائص المعروفة للمرشحين – الأسماء وتواريخ الميلاد وتواريخ دخول المناصب والجنسيات و المعرِّفات والعناوين – كمعايير للتصنيف.

إن كنت ستلجأ لعصا سحرية لتحويل أحد محققي OCCRP إلى سكريبت بايثون ، فأعتقد أن هذا ما سيفعله: العثور على أجزاء مُطابِقة من الأدلة في العديد من المواقع، ومن ثم تجميعها معًا في قصّة مُقْنعة.

هذا هو المكان الذي سوف تتقاطع فيه الرسوم البيانية المعرفية مع التعلُّم الآلي: يمكن أن تؤدي تقنيات مثل تضمينات الرسوم البيانية (graph embedding) إلى تحويل مكونات FtM إلى عروض تمكّننا من مقارنة بيانات معقدة. ويمكننا أن نتعلم من تعليقات صحفيينا لنعرف ما الذي يمكننا اعتباره رابطًا جيدًا بين مجموعتين من البيانات، وما هي التطابقات الضعيفة لدرجة أنها لا تظهر للمستخدم.

بمجرد أن يتمّ تحويل كل كيان في Aleph إلى مثل هذا التضمين (وهو سهم توجيه بالأساس) يمكننا أيضا محاولة القيام بالشيء نفسه مع الاستعلامات المرْسَلة من قبل مستخدمينا، بحيث لا تعتمد هذه الاستعلامات على النص، بل على مقارنة سياق المستخدم وجميع الأبعاد.

ومع ذلك، فإن الصحفيين البشريين سيقولون لك أيضًا إن معايير ما يمكن الإبلاغ عنه كوصلة عالية بشكل لا يصدق. إنهم بحاجة إلى طرح أسئلة مثل: “هل سأضع سمعتي على المحكّ من أجل هذا الكلام؟” أو “هل هذا الكلام كافٍ لبناء قضية قوية في محكمة التشهير في المملكة المتحدة؟” غالبًا ما تكون الإجابة على هذا السؤال أنك ستحتاج إلى المزيد من البيانات لمعرفة ذلك بما لا يدع مجالاً للشكّ.

 نُشِرتهذه المادة أصلا على Medium.   أُعيد نشرها هنا بعد الاستئذان من صاحبها.

فريدريش ليندنبرغ هو تقنيّ مدني يعمل على الأدوات والأساليب الفعالة للصحافة والمناصرة القائمة على البيانات. يعمل في مشروع الإبلاغ عن الجريمة المنظمة والفساد ويعيش بين برلين وسراييفو.

 

إعادة نشر مقالتنا عبر الانترنت أوطباعة تحت رخصة النشاط الابداعي

إعادة نشر هذا المقال


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

إقرأ التالي

ورقة نصائح الأمن والأمان نصائح وأدوات

كيف يمكن للصّحفيين أن يعتنوا بأنفسهم عند التّحقيق في الصور القاسية للحرب والصراع

يواجه خبراء المصادر المفتوحة كمًا هائلاً من الصّور القاسية. فكيف يمكن للصّحفيين حماية أنفسهم من الأذى الناجم عن مشاهدة الصّور الصّادمة باستمرار؟
التّحقيقات مفتوحةُ المصدرِ التي كانت في السابق محصورةً بمواقع متخصّصة مثل Bellingcat، دخلت عالم الصحافة السائدة، مدفوعة بالحاجة إلى التحقُّق على الفور من كميات كبيرة من الصور ومقاطع الفيديو والادّعاءات. بات لدى وسائل الإعلام الكبيرة مثل بي بي سي ونيويورك تايمز فرق مخصصة للتّحقيقات البصريّة، وتزايدت أهمية عملها في سياق حرب المعلومات.

العثور على سجلات أمريكية لمتابعة التّحقيقات العابرة للحدود

دليل لبعض مصادر البيانات الحكوميّة الأمريكيّة التي يمكن أن تساعد الصّحفيين الأجانب والأمريكيين في تغطية الحروب الأمريكيّة ومبيعات الأسلحة وتأثير السياسة الخارجيّة الأمريكيّة.

رون ديبرت في الجلسة الافتتاحية #gijc23

الأمن والأمان

أزمة القرصنة العالمية: كيف يمكن للصحفيين الاستقصائيين مواجهتها

تم تحذير أكبر تجمع على الإطلاق من الصحفيين الاستقصائيين من أنهم يواجهون وباء التجسس السيبراني ، ويجب أن يذهبوا إلى الهجوم لفضح الممثلين السيئين الذين يسعون إلى تقويض الأمن الرقمي.

توصّل الموقع الاستقصائيّ الفنزويلي Armando.info إلى أن ميامي ومواقع أخرى في جنوب فلوريدا أصبحت مراكز للشّركات والممتلكات المسجلّة من قبل مسؤولين سابقين رفيعي المستوى في الدّولة الفنزويليّة.

منهجية

كيف تمكن “أرماندوا. إنفو” من كشف أصول سرية لمسؤولين فنزويليين في فلوريدا

عندما شرع فريق في Armando.info في العثور على أفراد مرتبطين بالحكومة الفنزويلية والذين قد يكون لديهم استثمارات سرية – وحتى تصاريح إقامة – في الولايات المتحدة، لم يتخيلوا أبدًا حجم ما سيجدونه بمجرد أن يبدأوا في متابعة الأموال.