Web Kazımanın Etiği ve Veri Gazeteciliği
Bu Yazıyı Oku
Veri kazıma, İnternet sitelerinde sunulmuş olan bilgileri almak için kullanılan bir yol. Veri kazıma araçlarının birçok şirket tarafından kullanıldığını daha önceki yazımda açıklamıştım. Bununla birlikte, kamu ve özel kuruluşlarının verilerini giderek daha çok ulaşılabilir hale getirmesiyle veri kazıma kod bilen gazeteciler için de önemli bir araç haline geliyor.
Veri kazıma araçlarıyla, diğer bir ifade olan “bot”larla, çok büyük miktarlardaki veriyi toplayarak haber yapmak mümkün. Örneğin ben, Kanada’nın Quebec ve Ontario şehirlerindeki alkol fiyatlarını karşılaştırdığım bir haber için veri kazıma yöntemini kullandım. Radyo Kanada için çalışan meslektaşım Florent Daudens, Montreal’in çeşitli mahallerindeki kira fiyatlarını karşılaştırmak için veri kazıma araçlarını kullandı.
Peki gazetecilerin veri kazıma yaparken dikkat etmesi gereken etik kuralları neler?
Teknolojiye aşina olmayan insanların veri kazımayı, veri çalma(hacking) gibi gördüğünden beri bu kurallar giderek önem kazanmaya başladı. Maalesef ne Code of Ethics of the Fédération professionnelle des journalistes tarafından ne de Kanada Gazeteciler Derneği bu soruya net bir cevap veremedi. Bu yüzden ben de bu soruyu veri gazeteciliği yapan arkadaşlarıma sordum. Üzerine kişisel deneyimlerimi ekledim.
Kamu verileri, gerçekten kullanılabilir mi?
Veri gazetecileri bu konuda hemfikir: Eğer bir kuruluş verilerini kendi internet sitesinde yayımlıyorsa, bu verilerin herkes tarafından erişilip kullanılabileceği anlamına gelir.
Cédric Sam, Hong Kong’da South China Morning Post Gazetesi’nde çalışyor. Daha önce La Presse ve Radip- Canada için de çalışan Sam, “Neredeyse her gün İnternet’te veri kazıma yapıyorum” diyor. Ona göre “bot”lar yani veri kazıma araçları da insanlar kadar sorumluluk sahibi. “İster bir veriyi kullanmak için kopyalayıp yapıştıran bir kişi, ister bunu yapmak için bir programı kodlayan yazılımcı olsun, sonuç aynı. Veri kazıma araçlarını kullanmak, sizin için çalışan 1000 kişi olması gibi bir şey.” Ancak, devlet sunucuları yurttaşlarının kişisel verilerini de içeriyor. Konuyla ilgili olarak William Wolfe-Wylie. CBS Televizyonu’nda bilgisayar programcısı ve Centennial College ve Munk School at University of Toronto’da gazetecilik eğitmeni, “Bu tip verilerin çoğu gizlenmiştir, aksi taktirde mahremiyet ile ilgili yasalar ihlal edilir” diyor.
İşte veri kazıma ve veri çalma(hacking) arasındaki sınır ortaya çıkıyor: yasalara saygı göstermek.
Bu argümana göre gazeteciler gizli verilere erişmeye çalışarak, sıradan İnternet kullanıcılarının ulaşamadığı verileri kullanmamalı. “Gazetecilerin yasal sınırları kabul edip, bunlara saygı göstermeleri, çok önemli” diyor Wolfe-Wylie. Ek olarak, kısa bir süre öncesine kadar Montreal Gazzette için veri gazeteciliği yapan Roberto Rocha, gazetecilere zor bir durumla karşılaşmamaları için her zaman verilerini kullanacağı İnternet sitelerindeki “kullanıcı şartları ve kullanım koşulları” bölümünü okumalarını tavsiye ediyor.
Gazetecilerin güvende olduklarını doğrulayabilmek için diğer önemli bir ayrıntı ise robots.txt dosyaları. Bu dosyalar, web sitelerinin kök klasöründe(root) bulunuyor ve site içindeki hangi verinin kazınıp kazınamayacağını belirtiyor. Aşağıda Royal Bank of Canada için oluşturulmuş örnek bir robots.txt dosyası var. http://www.rbcbanqueroyale.com/robots.txt
Kendinizi tanıtmak ya da gizlenmek?
Gazeteci olarak çalıştığınız haber için soru sormak istediğinizde ilk işiniz kendinizi tanıtmaktır. Ama bir sunucuya ya da veritabanına sorgular gönderen bir bot kullandığınızda ne yapmalısınız? Aynı kural hala geçerli mi? Ottowa Citizen’ın iç işleri muhabiri Glen Mcgregor’a bu sorunun cevabı “evet”. “ İnternet sitelerinin “http header” larına adımı, telefon numaramı yazıyor ve ‘Ben bu siteden veri kazıma yapan bir gazeteciyim. Bir sorununuz ya da şüpheniz varsa beni arayın” şeklinde bir not bırakıyorum.
“Eğer İnternet sitesi yöneticisi, sitesinde çok büyük miktarda hareket gördüğünde korkup saldırıya uğradığını düşünürse bunun kimin yaptığını öğrenmek için siteyi kontrol edecektir. Böylelikle benim telefon numarımı ve notumu da görecektir. Yaptığımın etik olarak önemli bir şey olduğunu düşünüyorum.”
Jean Hugues Roy, Université du Québec à Montréal’de gazetecilik profesörü ve veri kazıma programlamacısı, McGregor’a katılıyor. Fakat, herkes bu konuda aynı fikirde değil. L’Actualité’nin baş editörü Philippe Godier internetteki her şeyi kimliği belirlenemeyecek şekilde yapmayı tercih ediyor. Godier, “Bazen, proxy programlarını kullanıyorum” diyor. “Bir bot yerine gerçek bir insanmışım gibi görünmek için IP adresimi ve ‘header’larımı değiştiriyorum. Kurallara saygı duyuyorum aynı zamanda da kimliğimin tespit edilemez olmasını istiyorum.” sözlerine ekliyor. Gizli mikrofon ya da gizli kamera kullanarak haber yapılırken olduğu gibi, İnternet sitelerinden veri çekerken kimlik gizlemek de etik açısından tartışmalı bir durum. FPJQ’dan The Ethics of Code bu durumla ilgili izlenmesi gereken birkaç kural belirtiyor.
4.a) Gizli prosedürler
Bazı durumlarda, gazetecilerin bilgiye erişmek için gizli yöntemleri kullanma hakları vardır: sahte kimlikler, gizli kamera ve mikrofonlar, casusluk, sızma.
Bu yöntemler aşağıdaki durumlarda kurallar için birer istisna olmalıdır. Gazetecilerin bu yöntemleri kullandığı durumlar şunlardır:
Aranan bilgi kamu yararı içeriyorsa; örneğin toplumda kınanmasının kesin olduğu olayları açığa çıkarmak için.
Bilginin diğer yollardan edilnilmemesi veya doğrulanamaması ile daha önce kullanılan yöntemlerin başarısız olması;
Kamunun sağlayacağı yarar, bireylerin duyduğu rahatsızlıktan büyükse.
Bu tip durumlarda halk kullanılan yöntemler hakkında bilgilendirilmelidir.
Eğer kullandığınız program bütün işi yapıyorsa, kullandığınız kodlarda kendinizi belirtmeniz, en iyi yol olacaktır. Bununla birlikte hedeflediğiniz kuruluşun, bir gazeteci haber yapmak için kullanıyor diye sağladığı verinin erişimini değiştirme ihtimali varsa, temkinli olmakta fayda var. Ve gazeteci kimliğinizle tespit edilip, hedeflediğiniz sitenin sizi engellemesinden korkuyorsanız, endişelemeyin. IP adresinizi değiştirmeniz çok kolay. Bazı gazeteciler için en uygun yol; veri kazıma yapmadan önce ihtiyaç duydukları veriyi ilgili kurumlardan istemek. Eğer talepler reddedilirse veri kazıma yapmak bir seçenek oluyor. Bu durumun şöyle bir avantajı da var. Bu kurumlar talebinize hızlıca yanıt verir ve işlenmemiş veriyi size sağlarsa zaman kazanmış olursunuz.
Kodunuzu yayınlamak ya da yayımlamamak?
Şeffaflık gazeteciliğin diğer bir önemli göstergesidir. Şeffaflık olmazsa, halk gazetecilere güvenmeyecektir. Bununla ilgili FPJQ Code of Ethics:
4.b)Bilgi Toplamak
Gazeteciler, her zaman kendilerinin gazeteci oldukları belirterek mesleklerini icra ederler. Bilgiyi belirli gazetecilik yöntemlerini kullanarak toplarlar: röportaj, kaynak taraması, dosyaların danışılması ve belli kişilerle iletişime geçilmesi
Veri gazetecilerinin büyük bir çoğunluğu haber yapmak için kullandıkları verileri yayımlıyorlar. Takındıkları bu şeffaf tavır onların haberlerinin gerçek verilerine dayandığını kanıtlıyor, ve insanların isterlerse doğruluğunu kontrol etmesine olanak tanıyor. Peki ama ya gazetecilerin kullandığı kodlar? Bir veri kazıyıcının komutunda yapılan tek bir hata, elde edilen tüm verinin analizini tamamen çarpıtabilir. O zaman, kodlar veriler gibi halka tamamen açılmalı mı? Açık kaynak yazılımlar için kodların görünür olması bir zorunluluktur. Burada temel amaç, diğer insanların yazılımı geliştirmelerine izin vermektir, fakat aynı zamanda bu durum kullanıcılara yazılımın ne işe yaradığına dair detaylı bir şekilde güven verir. Bununla birlikte veri gazetecileri için kullandıkları kodları görünür hale getirmek ya da gizlemek zor bir seçim.
“Birçok açıdan, biz birer işletmeyiz” diyor Sam. “Ben bunun rekabet için bir avantaj olduğunu düşünüyorum ve haber yapmaya bu yöntemle devam edeceksiniz, kodlarınızı kendinize saklamalısınız. Her zaman her şeyi veremezsiniz.”
Roberto Rocha da kodların yayımlanmaması gerektiğini düşünenlerden. Ancak, Rocha’nın kendi kodlarının bazılarını yayımladığı bir GitHub hesabı var; Chad Skelton, Jean Hugues Roy ve Philippe Godier’in olduğu gibi. Gothier, “Bunun gerçekten tüm gemilerdeki gelgitleri ortadan kaldırdığını düşünüyorum” diyerek “ Kodlarımızı ve teknolojimizi daha çok paylaştıkça, herkese daha fazla yardımcı oluruz. Kimsenin çaba sarf etmeyerek başarılı olamayacağı hiçbir şeyi yapmıyorum ben. Dünyayı yeniden şekillendirmiyorum.” düşüncesini ortaya koyuyor. Jean-Hugues Roy katılıyor, bilim insanlarının metodolojisini yayımlandığı gibi gazetecilerin de yöntemlerinin kopyalamasına izin vermeleri gerektiğini ekliyor. Yine de profesör istisnaların olduğunun altını çiziyor. Roy, şu anda Kanadalı halka açık şirketlerin belgelerinin nereden yayımlandığını bulmasını sağlayan SEDAR üzerinden veri kazıyan bir botla çalışıyor.
“Genellikle kodlarımı halka açık bir şekilde yayımlarım. Bu sefer kararsızım. Durum karışık ve bu iş için çok zaman ayırıyorum.”
Diğer taraftan, Glen McGregor kodlarını yayımlamıyor, fakat biri isterse onları karşı tarafa gönderiyor. Bir muhabir kaynağını korumak için gücü yettiğince her şeyi yapar. Muhabir kaynağının güvenini kazanarak, daha önemli bilgileri ona vermesi için umut eder. Fakat muhabir bunu aynı zamanda kaynağını sadece kendisine saklamak için de yapar. Sonuç olarak web kazıma kaynağın bot versiyonu olarak görülebilir. Düşünülmesi gereken diğer bir soru gelecekte gazetecilerin botlarının patentinin olup olmayacağı. Kim bilir? Belki bir gün bir gazeteci kodlarını vermeyi Daniel LeBlanc’ın “Ma Choutte” adlı kaynağını açıklamaması gibi bir yol izleyerek reddeder. Dahası, bugünlerde botlar gitgide daha çok insanlaşıyor.
Not: Bu etik bir dilemmadan daha çok teknik bir detaydır. Bildiğiniz gibi veri kazımanın altın kuralı, sitenin altyapısına saygı göstermektir. Lütfen komutlarınız arasında birkaç saniye bırakın ve siteye aşırı yüklenme yapmayın.
Nael Shiab
Yazının Orijinali: http://gijn.org/2015/08/12/on-the-ethics-of-web-scraping-and-data-journalism/