Image: Shutterstock
Bir Araştırmayı Mahvedebilecek 10 Basit Veri Hatası
Rakamlarla ilgili hatalar, araştırmacı hikayeler için basamaklı bir etkiye ve izleyici güveni için zarar verici bir etkiye sahip olabilir çünkü diğer birçok hatalı rakam, eğilim iddiası ve sonuç bu ilk hatadan kaynaklanabilir.
Yakın zamanda Nashville, Tennessee’de düzenlenen NICAR23 konferansında, Araştırmacı Muhabirler ve Editörler (IRE) tarafından düzenlenen yıllık veri gazeteciliği zirvesinde GIJN, birkaç konuşmacıdan geçmiş araştırmaları tehdit eden veya mahveden yaygın veri hatalarını veya dikkatsizliklerini önermelerini istedi.
Amerikan Üniversitesi Araştırmacı Habercilik Atölyesi‘nde veri editörü olan Aarushi Sahejpal, “Her gazeteci bir hata yapar, önemli olan bu hatayı bir daha yapmamak için akıllı davranmak ve izleyicilerinize karşı şeffaf olmaktır” diyor. “Ancak hata yapma olasılığını kesinlikle en aza indirebilirsiniz.”
Sahejpal, diğer uzmanlar tarafından da yinelenen bir özetle, hatalardan kaçınmanın genellikle kendinize üç soru sormaktan geçtiğini söylüyor: Veri setinin tamamı gerçekten elinizde mi? Verilerin gerçekte ne anlama geldiğini öğrenmek için verilerin arkasındaki kişiyle konuştunuz mu? Ve veriler size ne söylemiyor?
Yine de hatalar olabiliyor ve işte veri gazeteciliği uzmanlarına göre 10 yaygın neden.
1-Elektronik tablolarda boş satır tehdidini unutmak. ProPublica’da yerel habercilik alanında çalışan veri gazeteciliği eğitmeni Samantha Sunne‘ye göre yaygın ve yıkıcı hatalardan biri, Google Sayfanızdaki bir veri sütununun tamamını seçtiğinizi veya vurguladığınızı varsaymaktır. Sunne’e göre sorun, elektronik tabloların alttaki boş satırları vurgulamayı bırakması ve Sunne, bu veri dışlamasını fark etmedeki başarısızlığın bazı muhabirlerin araştırmalarında yanlış sonuçlara ulaşmasına neden olduğunu söylüyor.
Sunne, “Çoğu zaman verilerinizde boş satırlar görürsünüz, belki de sayfa sonu oradadır ya da o öğe için veri yoktur ve aşağı kaydırmazsanız bunları kolayca fark etmeyebilirsiniz,” diye açıklıyor. “Tümünü gerçekten seçmeye dikkat etmezseniz, analizinizi tamamen yok edebilir.”
Onun çözümü ne? Herhangi bir veri sütununa tıkladıktan sonra Control A’ya (veya Command A’ya) bir kez basın – ve ardından boş satırların altındaki verileri de yakalamak için Control A’ya (veya Command A’ya) tekrar basın.
2-Devlet isimlendirmesinin veya kodlamasının değişip değişmediğini kontrol etmemek. Reuters’te veri gazeteciliği editörü olan Janet Roberts, devlet ve belediye kurumlarının genellikle işlev kodlarını değiştirdiğini ve bunun siz onların verilerini toplarken gerçekleşebileceğini ve muhabirlerin yayın öncesinde veri setinizdeki tüm verilerin aynı şey için geçerli olup olmadığını kontrol etmelerinin çok önemli olduğunu söylüyor.
Roberts, “St. Paul’de (Minnesota) gecekondu sahipleriyle ilgili bir araştırma yapıyorduk ve bina kodu ihlal verilerini aldık ve belirli bir tür suçu en çok işleyen ev sahibini bulacaktık,” diye hatırlıyor. “Tüm hesaplamaları yaptık ama bir noktada, bina departmanının kodları değiştirdiği ortaya çıktı, yani belki bir “02” eskiden fare istilası anlamına geliyordu ama şimdi kaldırımınızı süpürmediğiniz anlamına geliyor ya da her neyse. Neyse ki bunu sürecin çok derinlerinde de olsa öğrendik çünkü bunu öğrenmemiş olsaydık tüm hikaye yanlış olacaktı.“
Ve ekliyor: “Buradaki potansiyel hata, verileri anlamamak verileri tutan kişilerle konuşmamaktır. Verilerin zaman içinde nasıl geliştiğini sorun.”
3-Yüzdeleri yüzde puanları ile karıştırmak. Bu basit hata uzun yıllardır bir sorundur ve yanlışlıkla izleyicileri yanıltabilir. Sunne, “Bir şey %20’den %30’a sıçrarsa, bu aslında %50’lik bir artıştır, %10’luk bir artış değil, bu yanıltıcı olabilir ve dikkat edilmesi önemlidir” diyor. Veri uzmanları, yüzde değişimin bir oranı ifade ettiğini, ancak yüzde puan değişiminin bir miktar anlamına geldiğini vurguluyor. Karışıklığı önlemek için, %100’lük bir artışı “iki katına çıktı” diyerek tanımlamak daha iyidir. Sahejpal, “Pek çok insan yüzde puanları ile yüzdeler arasındaki farkı anlamıyor” diyor. “Aynı şekilde ‘kişi başına’ ifadesinde de oran ve kişi başına kelimelerini aynı cümlede kullanmak çoğu zaman mantıklı değildir, çünkü kişi başına demek kişi başına demektir.”
4-Yuvarlak sayıları iki kez kontrol etmeden kabul etmek. Roberts’a göre, 7.000 veya 2.000 gibi büyük yuvarlak sayılar veya yuvarlak veri satırı sayıları, genellikle gerçek bir toplamdan ziyade bir kayıt araması veya veri aktarımında bir sınır anlamına gelebilir.
“Elimizde sadece 5.000 şirketin bir konuda gerekli raporları doldurduğunu gösteren veriler vardı ve biz de ‘Tam olarak 5.000 mi?’ diye düşündük.” Roberts bunu hatırlıyor. “Bu alışılmadık ve aynı zamanda düşük bir sayı gibi görünüyordu. Muhabirin fark etmediği şey, web sitesinin arama sonuçlarını 5.000 kayıtla sınırladığı ve gerçek sonuçların bunun yaklaşık üç katı olduğuydu.”
Sahejpal, “Eğer 1.000 ya da 10.000 satırlık bir veri kümeniz varsa, bir şeylerin yanlış olduğuna bahse girerim,” diyor. “Bir dosyayı indirdikten sonra filtrelenmiş bir versiyon indirdiklerini fark etmeyen kaç öğrencim olduğunu size anlatamam. Bir başka hata da veri setinizin aralığının bir devlet web sitesinde bildirilen aralığa eşit olup olmadığını kontrol etmemenizdir.”
5-Sayı formatlarının farklı ülkelerde farklı olduğunu unutmak. Uluslararası Araştırmacı Gazeteciler Konsorsiyumu (ICIJ) Latin Amerika Koordinatörü Emilia Diaz-Struck, “ABD’de 1.753,00 $ Latin Amerika’da ‘1.753,00 $’ olarak yazılır, virgüller, noktalar ve kesme işaretleri farklı yerlerdedir ancak elektronik tablolar farklı noktalama işaretlerini hesaba katmaz” diyor. “Sayıların kökenini düşünmezseniz gerçekten temel kavramsal hatalar yapmanız da mümkün.”
6-Veriler “yanlış göründüğünde” içgüdülerinizi göz ardı etmek. Rakamlar elektronik tabloda kontrol edildikten ve bir insan veri kaynağıyla iki kez kontrol edildikten sonra bile, deneyimli gazeteciler bazen bu rakamları sarsıcı veya konuyla ilgili bilgileriyle çelişkili bulabilirler. ICT’nin (eski adıyla Indian Country Today) kıdemli editörü Dianna Hunt, muhabirlerin bu duyguya saygı duyması ve bu rakamları bağımsız olarak kontrol etmek için alternatif veya tarihsel veriler ya da akademik araştırmacılar araması veya en azından o konu için “top sahasında” olup olmadıklarını kontrol etmesi gerektiğini söylüyor. Örneğin bu his, orijinal hükümet verilerini toplayanların büyük hatalar yaptığını ya da giriş aşamasında sadece bir ondalık nokta yazım hatası olduğunu gösterebilir.
Hunt, “Bir şeyler yanlış göründüğünde içgüdülerinize kulak vermelisiniz, bu benim üzerinde çalıştığım birçok soruşturmada kesinlikle işe yaradı” diyor.
7-Veri setinin arkasındaki insanla konuşmamak. Sahejpal, “Verileri kullanmadan önce kaynağa ulaşmanız ve her sütunun ne anlama geldiğini anlamanız gerekir” diyor. “Bakın, belki de mükemmel bir metodolojiye sahip bir web sitesinden veri indiriyorsunuz ama bahse girerim ki baktığınız verilerin çoğu gerçekte ne anlama geldiği ve ne anlama gelmediği konusunda net değil. Veri gazeteciliği yapan insanlar genellikle bunu açıklamıyor ama aslında hepimiz insanlarla sandığınızdan çok daha fazla konuşuyoruz sadece bilgisayar ekranlarına bakmıyoruz.”
Ve ekliyor: “Veri girişi yapan insanlara ulaşmanın bir yolunu bulmak, onların veri setiyle ne yapılacağını bulmaktan çok daha kolaydır.”
8-Veri setinin tüm hikayeyi anlattığını varsaymak. İlgili bir veri seti elde eden Sahejpal, muhabirlerin derhal veri setinin yanıtlamadığı ilgili soruları derlemelerini ve belirgin bir şekilde yayınlamalarını öneriyor.
“Bir editör olarak hatalardan kaçınmak için yaptığım bir numaralı şey, verilerin size ne söylemediğini listelemektir” diyor. “Veri setinizdeki ‘sınırlamalar bölümü’ dediğimiz şey en güçlü müttefikinizdir çünkü size neyi söylemediğini bilirseniz, neyi söylememeniz gerektiğini ve hangi soruları sormanız gerektiğini bilirsiniz.”
Sahejpal ekliyor: “Örneğin Washington DC’deki park cezası ihlallerine ilişkin bir veri setiniz varsa, analizinizi etkileyebilecek bölgelerin ve elinizde olmayan değişkenlerin bir listesini yaparsınız ve hemen ardından neye ihtiyacınız olduğuna dair tam bir resme sahip olursunuz. Ardından verilerden sorumlu kişiyle telefonda görüşür ve elinizdekileri teyit edersiniz.”
9-Grafiklerde veya çizelgelerde yanlış ölçek kullanmak. Medya kuruluşları tarafından yayınlanan ve hatta gazetecilere verilen grafikler bazen eksenlerde sıfır yerine “1.500” gibi keyfi bir sayı ile başlar, bu da izleyicilerin kafasını karıştırabilir veya basitçe yanlış olabilir. Sahejpal, “Ortaya koyduğunuz görselleştirmeler konusunda eleştirel olun” diyor. “Doğruluğundan emin olmak için hem X hem de Y eksenini, karşılaştırılan değişkenleri ve ölçeği kontrol ettiğinizden emin olun. Herhangi bir veri görselleştirmesinde, ölçeğin yanlış başlayıp başlamadığını veya değişim artışlarının mantıklı olup olmadığını görmek önemlidir. Bu tür hataları her zaman görüyorum.”
10-Google E-Tablolar’da sıralama yaparken sütunları birbirine bağlamayı unutmak. Sıralanmış veriler genellikle satırları örneğin en kötüden en iyiye doğru gösterecek şekilde düzenleyerek kolay açılar sağlar: Belki de bir sütunun en üstünde şehir başına bazı nedenler için en yüksek ölüm oranları ve aşağıda daha iyi performans gösteren şehirler.
Google E-Tablolar’da sıralama şaşırtıcı derecede basittir ve hatta programın açılır önerileri ile yardımcı olur ancak sayfa üzerinde adım adım bir sıra gerektirir.
ESPN’de veri muhabiri olan Tisha Thompson‘a göre, muhabirler birçok işlevle oynayabilir, ancak muhabirlerin unutmaması gereken bir adımın Google E-Tablolar’da sıralama yaparken “sol üstteki kareye” tıklamak olduğu konusunda uyarıyor: hem sütun hem de satır eksenlerini seçen boş kutu. Bu kutu, sıralanmış bir sütunu tüm veri kümesine bağlar. Bu kareyi unutmanın sadece rakamlarınızı bozmakla kalmayacağını, aynı zamanda bunu yayınlamadan önce hatayı fark etmeden de yapabileceğini söylüyor.
Thompson, “Sol üst köşeye dikkat etmemek yapacağınız en kolay hatadır ve kariyerinizi sona erdirebilir” diye uyarıyor. “Verilerinizi her zaman diğer satırlara ve satırlara bağlı tutmak istersiniz, bu nedenle tüm kit ve külliyatı vurgulamanız gerekir. Asla sadece tek bir sütunu sıralamayın; her zaman sol üst köşeyi kullanın, bu ayakkabılarınızı bağlamak gibi olmalıdır.”
Ek kaynaklar
Veri Gazeteciliğinde İlk 10
GIJN Kaynak Merkezi: Veri Gazeteciliği
2022’nin En İyi 10 Veri Gazeteciliği Projesi
Rowan Philp GIJN için çalışan bir muhabirdir. Daha önce Güney Afrika’nın Sunday Times gazetesinin baş muhabiriydi. Dış muhabir olarak dünya çapında iki düzineden fazla ülkede haber, siyaset, yolsuzluk ve çatışma haberleri yapmıştır.