

بعد أن تحدد الأداة جوازات السفر المحتملة وتقرأ فيها المنطقة المقروءة آليًا، يتم تحميل التنبؤات على منصّة Prophecies المختصة بتدقيق البيانات. يمكن لأعضاء الفريق مراجعة التنبؤات وتصحيحها – كما تظهر في الرسم هنا. الصورة: الاتحاد الدولي للصحافيين الاستقصائيين
جوزات السّفر هي المفتاح لكشف السرِّيّة الخارجيّة – كيف نستخدم التعلّم الآلي للعثور عليها بكفاءة
إقرأ هذه المقال في
يمكن أن تساعد جوازات السفر في كشف الملكيّة السريّة للشركات الخارجيّة، ولكن غالبًا ما يكون العثور عليها صعبًا. قررنا في الاتّحاد الدولي للصحافيين الاستقصائيين أن نبني أداةَ كشفٍ جديدة لتسريع هذه العمليّة.
غالبًا ما تكون جوازات السّفر هي المفتاح لكشف الملكيّة السرية للشركات الخارجيّة والصّناديق الاستئمانية، ولكن قد يكون من الصّعب العثور عليها بين ملايين المستندات المسرَّبة. لتبسيط هذه العمليّة، عقدنا شراكةً مع علماء التعلُّم الآليّ (ML) من مركز موارد صحافة الذكاء الاصطناعي في جامعة أوسلوميت والإذاعة العامة النرويجية NRK لتطوير أداة للكشف عن جوازات السّفر.
“تعدُّ جوازات السّفر داخل تسريبات المستندات الكبيرة مصدرًا لا يقدر بثمن يساعد في العثور على الأفراد الذين يهمّون العامّة، ولتقسيم العمل بين شركاء من بلدان كثيرة ومختلفة.” – “أوغستين أرمينداريز”، كبير مراسلي البيانات في الاتّحاد الدولي للصحافيين الاستقصائيين.
تعمل هذه الأداة جزئيًا على أتمتة التعرُّف على المستندات التي تحتوي على جوازات سفر وتستخرج المعلومات الأساسية – مثل اسم حامل جواز السفر والجنسيّة وتاريخ الميلاد. يتم الاحتفاظ بجميع هذه البيانات في المنطقة المقروءة آليًا (MRZ) – وهما السطران اللذين يحتويان كلمات وحروفًا ورموزًا في الجزء السفلي من صفحة صورة جواز السفر.
القدرة على البحث في هذه المعلومات تمكّن صحفيي البيانات من التحقُّق من صحّة النتائج التي توصّلوا إليها ومشاركتها بكفاءة مع الصحفيين، مما يؤدّي إلى التوصّل إلى أدلّة أعلى جودةً من ذي قبل.
كيف يساعد الكشف عن جوازات السّفر الصحفيين الاستقصائيين؟
غالبًا ما تكون جوازات السفر جزءا مهمًا من لعبة التركيب التي يحاول الصحفيون الاستقصائيون تجميعها أثناء بحثهم في ملكيّة الشّركات الخارجيّة والصّناديق الاستئمانيّة. وغالبًا ما تكون الجوازات هي الحلقة المفقودة عند التحقيق في ملكية الكيانات المخفيّة في الولايات القضائيّة السريّة. عادةً ما يستخدم الصّحفيّون جوازات السّفر لتحديد المستفيدين النّهائيين لمقدّمي الخدمات الخارجيّة أثناء المشاريع الاستقصائيّة التي تنطوي على تسريبات بيانات هائلة، كما رأينا خلال التّحقيقات التعاونية للاتحاد الدّولي للصحافيين الاستقصائيين والتي كشفت عن سرّيّة الشركات الخارجيّة مثل أوراق باندورا، وأوراق بنما، وأوراق بارادايس.
في تحقيق أوراق باندورا، قام الاتّحاد الدّولي للصحافيين الاستقصائيين وشركاؤه الإعلاميين بفحص ملايين الوثائق للكشف عن الروابط بين الشركات الخارجية والصناديق الاستئمانية والأشخاص المرتبطين بها في عشرات البلدان. في الأشهر الأولى من التحقيق، عمل فريق البيانات في الاتحاد الدولي للصحافيين الاستقصائيين على توفير قوائم بأسماء العملاء للشركاء من وسائل الإعلام حتى يتمكن الصحفيون من العثور على الأدلّة بكفاءة.
استعرض الفريق آلاف الصفحات من سجلّات الشركات لتحديد التعاملات الخارجية لـ 36 من قادة العالم الحاليين والسابقين وأكثر من 300 من المسؤولين الحكوميين والسياسيين الحاليين والسابقين في جميع أنحاء العالم. كانت جوازات السفر جزءًا مهمًا من اللعبة.
” تعدُّ جوازات السّفر داخل تسريبات المستندات الكبيرة مصدرًا لا يقدر بثمن يساعد في العثور على الأفراد الذين يهمّون العامّة، ولتقسيم العمل بين شركاء من بلدان كثيرة ومختلفة”، يوضح “أوغستين أرمينداريز”، كبير مراسلي البيانات في الاتحاد الدولي للصحافيين الاستقصائيين. “غالبًا ما تكون قوائم البلدان لحملة جوازات السفر والمستفيدين منها هي أفضل نقطة انطلاق للصحفيين الجدد في التسريب لبدء البحث عن قصة تهمّ جمهورهم.”
ومع ذلك، غالبًا ما يكون تحديد موقع هذه المستندات ومراجعتها مهمة شاقة، تشبه العثور على إبرة في كومة قش.
لماذا يمكن أن يكون الكشف عن جواز السفر أمرًا شاقًا؟
تحتوي المنطقة المقروءة آليًا، المميزة باللون الأحمر في هذا الرسم، على بيانات جواز السفر الرئيسية، مثل اسم حامل جواز السفر والجنسية وتاريخ الميلاد. الصورة: الاتّحاد الدولي للصحافيين الاستقصائيين
على الرغم من قوته، فقد أثبت تسلسل العمل الذي اتبعناه في السابق لتحديد جوازات السفر وسط كمية هائلة من المستندات المسربة أن الأمر مرهق ونتائجه غير موثوقة في بعض الأحيان.
للعثور على جوازات السفر، استخدم الصحفيون Datashare، وهو محرك بحث مفتوح المصدر للاتحاد الدولي للصحافيين الاستقصائيين يُستخدم للبحث عن الوثائق المرتبطة بتحقيق معين، ولإجراء نوعين من استفسارات البحث. لقد بحثوا عن مصطلحات الكلمات الرئيسية الشائعة داخل جوازات السفر مثل أسماء البلدان، “تاريخ انتهاء الصلاحية”، “مكان الميلاد”، “رقم جواز السفر”، “تأشيرة …” إلخ. أو بحثوا عن أسماء ملفات جواز السفر الشائعة مثل “passport.pdf” أو “passport.jpg”.
لزيادة دقة البحث، يمكنهم قصر البحث على الصور وملفات PDF، والتي تستخدم عادة لتخزين النسخ الضوئية لجوازات السّفر، لكن كلتا الطريقتين كانتا ضعيفتين ولم تنجحا بفعالية.
من ناحية، فاتتهم جوازات سفر كثيرة، لأن الملفات التي تحتوي على جوازات سفر لا يتم تسميتها دائمًا على هذا النحو بوضوح. علاوة على ذلك، نظرًا لتفاوت جودةِ المسحِ الضّوئي، يمكن أن تجد خاصية استخراج النص على Datashare صعوبة في استخراج النص بالشكل الصحيح (الذي يتم تشغيله بواسطة OCR، أو خاصية التعرف البصري على الأحرف) مما يقلل من عدد تطابقات البحث. المشكلة الأخرى هي أن الكثير من مصطلحات الكلمات الرئيسية لجواز السفر موجودة أيضًا في غيرها من المستندات مما يؤدي إلى نتائج خاطئة.
غالبًا ما يتطلب تحديدُ جوازاتِ السفرِ باستخدام تسلسلِ العملِ هذا أسابيع من المراجعة الدقيقة، والبحث في آلاف صفحات المستندات على أمل العثور على نسخ فعلية لجوازات السفر.
كيف ساعد تعاوننا في التعلم الآلي مع الباحثين؟
كان الهدف من تعاوننا مع OsloMet و NRK هو الاستفادة من خوارزميات “رؤية الكمبيوتر” الحديثة لتسريعِ عمليةِ الكشف عن جواز السفر وأتْمَتَتِها جزئيًا.
قدّرنا أن النموذج قادر على استعادة 100٪ من صفحات جواز السفر الموجودة داخل المستندات بمعدل دقة 86٪: ما نسبته 14٪ فقط من الصور المصنفة على أنها جوازات سفر كانت نتائج خاطئة.
كيف يعمل النموذج؟ للكشف عن جوازات السفر في المستندات، يتم تحويل الملفات أولاً إلى صور، ثم يتم الكشف عن صور جواز السفر داخل المستندات باستخدام نموذج اكتشاف YOLO مفتوحِ المصدر. عندما يتم اكتشاف جواز سفر، تقرأ الأداة المنطقة المقروءة آليًا باستخدام خاصية تعرف بصري خاصّة، تلتقط التفاصيل الأساسية مثل اسم حامل جواز السفر وتاريخ الميلاد ورقم جواز السفر والبلد وتاريخ الإصدار.
كان استخراج معلوماتِ جوازِ السفر بدقة وضمان عدم تفويتِ جواز السفر أمرًا صعبًا. كان لابد من ضبط نموذج YOLO، الذي تم تدريبه في الأصل على اكتشاف الأشياء العامة، لاكتشاف جوازات السفر على وجه التحديد.
أمضى فريق OsloMet و NRK شهورًا في مراجعة الوثائق التي يشاركها الاتحاد الدولي للصحافيين الاستقصائيين والتعليق عليها، وتدريب النماذج، ومعايرة عتبات الكشفِ للحصول على الأداء الأمثل. باستخدام مجموعة بيانات كبيرة ومتنوعة من صور جوازات السفر، قدّرنا أن النموذج قادر على استعادة 100٪ من صفحات جواز السفر الموجودة داخل المستندات بمعدل دقة 86٪: ما نسبته 14٪ فقط من الصور المصنفة على أنها جوازات سفر كانت نتائج خاطئة.
كيف قمنا بدمج هذا في تسلسل عملنا؟
لدمج النموذج الذي قدّمه الباحثون في تسلسل عملِ التحقيقِ لدينا، قام الاتحاد الدولي للصحافيين الاستقصائيين بتحويله إلى خدمة كاملة يمكن نشرها وتشغيلها على خوادم تعالج ما يصل إلى 500 صفحة من المستندات في الدقيقة على جهاز مزوّد بذاكرة معالجة رسومات (GPU) بسعة 16 جيجابايت (رمز الخدمة مفتوح المصدر بينما النموذج غير متاح للجمهور لأسباب تتعلق بالسرية).

بعد أن تحدد الأداة جوازات السفر المحتملة وتقرأ فيها المنطقة المقروءة آليًا، يتم تحميل التنبؤات على منصّة Prophecies المختصة بتدقيق البيانات. يمكن لأعضاء الفريق مراجعة التنبؤات وتصحيحها – كما تظهر في الرسم هنا. الصورة: الاتحاد الدولي للصحافيين الاستقصائيين
عند اكتمال عملية اكتشاف جواز السفر، تتم مراجعة تنبؤات الأداة من قبل فريق بيانات الاتحاد الدولي للصحافيين الاستقصائيين باستخدام Prophecies وهي منصةٌ مفتوحة المصدر لتدقيق البيانات. بفضل الدقة العالية للنموذج، فإن الغالبية العظمى من الصور التي تم اكتشافها كجوازات سفر هي فعلاً صور لجوازت سفر، مما يجعل المراجعة أكثر كفاءة. بعد قبول النتائج، يقوم فريق البيانات في الاتحاد الدولي للصحافيين الاستقصائيين بوضع علامات على المستندات التي تحتوي على جوازات سفر في Datashare، مما يسمح باستخدامها من قبل فريق الإبلاغ على الفور.
حتى الآن، استخدمنا الأداة لتصنيف مئات الآلاف من صفحات مستندات Datashare. مكّنتنا الأداة من اكتشاف جوازات السفر بسهولة وكفاءة، وأتاحت لنا أيضًا اكتشاف جوازات السفر بشكل أكثر منهجيّة. كما أننا نبحث أيضًا عن طرق لبدء الحل الآلي للكيانات – مطابقة المستندات مع الأفراد – باستخدام معلومات جواز السفر المستخرَجة بواسطة الأداة.
نناقش حاليا الخطوات التالية لمشاركة وتفصيل المنهجية المستخدمة لتدريب نموذج الأداة، مما يسمح للمؤسسات الأخرى بتدريب نموذجها الخاص ببياناتها الخاصة.
على سبيل المثال، خلال تحقيق مستمر، حدّد فريق البيانات التابع للاتحاد الدولي للصحافيين الاستقصائيين بدقة حوالي 500 مسح ضوئي لجوازات السفر من بين أكثر من 110,000 وثيقة. استخدمنا أولا Datashare لتضييق نطاق البحث إلى 75,000 مستند يحتوي على صور، ثم اعتمدنا على الأداة لاكتشاف حوالي 1,000 صورة تم تحديدها على أنها جوازات سفر. تمت مراجعة كل تنبؤ ثلاث مرات من قبل صحفيين مختلفين باستخدام منصّة Prophecies، من خلال جولات التحقق المتعددة.
بعد إزالة النسخ المكررة والاحتفاظ فقط بالصفحات التي تحتوي على معلومات عن البلد، تم أخيرا تحديد حوالي 500 جواز سفر فريد وبلد إصدارها. نجح تسلسلُ العملِ في تقليل مهمة تحليل أكثر من 110,000 وثيقة إلى 3,000 مراجعة مستهدفة فقط. إحالة عملية اكتشاف الجوازات إلى الخوارزمية وفّر لنا ساعات ثمينة، وحافظَ على وقتِ صحفيي البيانات ليقوموا بالمهام ذات القيمة المضافة العالية مثل تدقيق البيانات.
يقول أرمينداريز: “تعد أداة اكتشاف جوازات السفر طريقة سريعة للغاية للتدقيق في مجموعات المستندات الكبيرة وتحديد جوازات السفر المحتملة بسرعة”. “يمكن للمحققين بعد ذلك تحديد الذين يهمّهم أمرهم في جمع جوازات السفر بسرعة بالإضافة إلى تحديد أقسام التسريب لتمشيطها يدويًا.”
في الوقت الحالي، نموذج الأداة متاح فقط لموظفي الاتحاد الدولي للصحافيين الاستقصائيين وأعضائه وشركائه لأسباب أمنية وسرية، ومع ذلك، نعتقد أنه يمكن أن يفيد المنظمات الصحفية الأخرى. نناقش حاليًا الخطوات التالية لمشاركة وتفصيل المنهجية المستخدمة لتدريب نموذج الأداة، مما يسمح للمؤسسات الأخرى بتدريب نموذجها الخاص ببياناتها الخاصة.\
كيف نحافظ على السرية والأمن؟
رغم قوةِ بياناتِ جوازِ السفر لأغراض التحقيق إلا أنّها بيانات حسّاسة للغاية وسرّية بالطبع. لضمان حماية مصادرنا والبيانات التي نتلقاها منها، نأخذ الخصوصية والأمان على محمل الجد – كما نفعل دائمًا عند العمل مع البيانات المسربة. لم تغادر أي بياناتٍ بنيتنا التحتية أثناء تطوير المشروع أو أثناء استخدام الأداة، ولم نعتمد على أطراف ثالثة. يعتمد أمان بنيتنا التحتيّة على ركائز مختلفة تتضمن الحلول التقنية بالإضافة إلى تدريب المستخدمين. يلتزم موظفو الاتحاد الدولي للصحافيين الاستقصائيين أو الشركاء الذين يعملون في المشروع باتفاقيات عدم الإفصاح.
نظرًا لأن نماذج التعلُّم الآلي تخضع لهجمات استدلال العضوية، فقد قررنا عدم نشر أوزان النموذج ومشاركتها، حيث كان من الممكن أن يساعد ذلك المهاجمين في معرفة جوازات السفر التي تم تدريب النموذج عليها.
التعلم الآلي بالتعاون مع الإنسان
أظهر تطوير أداة الكشف عن جوازات السفر أن الاعتماد على التعلم الآلي بالتعاون مع الإنسان يمكن أن يساعد المراسلين على مواجهة تحديات الصحافة الاستقصائية الحرجة بكفاءة. أثبت التعاون مع شركاء من الأوساط الأكاديمية أنه تعاون مثمر في تنفيذ حلول التعلم الآلي الحديثة هذه. نحن ممتنون للغاية لشركائنا على دعمهم ونتعاون معهم بالفعل – ومع شركاء أكاديميين آخرين – في مشاريع جديدة، ونبحث عن طرق للجمع بين خبرة صحفيي البيانات وأحدث التطورات في هذا المجال.
كليمان دومورو هو مهندس تعلم آلي في الاتحاد الدولي للصحفيين الاستقصائيين (ICIJ) ، حيث يركز على دمج أدوات وخوارزميات التعلم الآلي في محرك بحث الاتحاد الدولي للصحافيين الاستقصائيين Datashare، ويدعم الصحفيين في تحليل الوثائق أثناء تحقيقاتهم. كما يتعاون مع الباحثين الأكاديميين لضمان استفادة الاتحاد الدولي للصحافيين الاستقصائيين من أحدث التطورات في مجال التعلم الآلي. قبل انضمامه إلى الاتحاد الدولي للصحافيين الاستقصائيين ، درس الذكاء الاصطناعي والروبوتات، كما عمل كمهندسِ تعلمٍ آليّ في Collective Thinking و Sonos ، حيث تخصص في معالجة اللغة الطبيعية وفهمها، وفهم اللغة الشفهية والمكتوبة للإنسان.