
GIJN
Araştırmacı Gazetecilere Metin Analizinde Yol Gösterecek İpuçları
Bu Yazıyı Oku
Araştırmacı gazeteciler genellikle büyük belgeleri veya metin halindeki verileri gözden geçirme ve birleştirme zorluğuyla karşı karşıya kalırlar. Bu çok yorucu ve yoğun emek gerektiren bir iş olabilir.
İdeal olarak, kolay analiz için verilere elektronik tablo, CSV veya JSON dosyası gibi kolay bir formatta erişilebilir. Önlenebilir sağlık tehditlerini araştıran The Examination ve Latin Amerika’ya odaklanan bir veri gazeteciliği kuruluşu olan Data Critica‘da veri analisti olan Fernanda Aguirre, çoğu zaman verilerin PDF’ler, e-postalar, makaleler ve sosyal ağ gönderileri gibi çıkarılması zor kaynaklarda sıkışıp kaldığını belirtti.
Aguirre, 13. Küresel Araştırmacı Gazetecilik Konferansı’ndaki (#GIJC23) bir oturumda “Bu tür belgeleri analiz etmek, yapılandırılmış bir şekilde geldiklerinde olduğu kadar sezgisel değildir” diyor. Yapılandırılmamış veri olarak bilinen, özellikle metin tabanlı verilerle uğraştığımız zaman fazladır.”
Aguirre GIJC23’te yapılandırılmış verileri analiz etmenin metin formundaki bilgileri analiz etmekten daha kolay olduğunu vurguladı. Çünkü yapılandırılmış verilerin gazetecilerin aritmetik işlemler uygulayarak, kategorileri sayarak ve yüzdeleri ya da değişim oranlarını hesaplayarak verileri kolayca manipüle etmelerine olanak sağladığını belirtti.
Aguirre, verileri bu kolay kullanılabilir duruma getirmek için ölçülebilir bir şeye dönüştürülmesi gerektiğini söyledi.
“Bu basitçe, bizi daha fazla araştırmamız gereken yöne işaret eden içgörüleri çıkararak yapılır” diyen Aguirre, “metin içeren belgeleri analiz etmenin amacının onlardan yararlı bilgiler çıkarmak olduğunu” belirtti.
Ancak bu süreç göz korkutucu olabilir, bu nedenle Aguirre araştırmacı gazetecilere süreç boyunca rehberlik edecek ipuçları verdi.
Sorular Sorun: Aguirre, herhangi bir belgeyi analiz etmek için ilk adımın, gazetecilerin tıpkı diğer bilgi kaynaklarında olduğu gibi bir dizi ilgili soru sorması gerektiğini söyledi.
Belgeye bağlı olarak, sorular olaya karışanların isimlerini, olay yerini ya da olay gününü ortaya çıkarabilir. Bu ilk aşama tamamen gerçeklerin temelini ve muhtemelen olayların kronolojisini oluşturmakla ilgilidir.
Metni İşleyin: Aguirre, analizin bir sonraki aşamasında, anlamsal içerik içermeyen terimler olan “bağlaçlar vs..” çıkarılmasının önemli olduğunu söyledi. Artikel ve bağlaçları da içeren bu tür kelimelerin yaygın olarak kullanıldığını, ancak gerçek bir bilgi ya da anlam taşımadıklarını da sözlerine ekledi. Resmi bir liste olmamakla birlikte Aguirre, her durak sözcük listesinin dile göre değişeceğini söyledi.
Doğal Dil İşlemeyi Dikkate Alın
Bazen metin analizi karmaşık olabilir. Bu gibi durumlarda Aguirre, bilgisayarların insanların yazma ve konuşma biçimlerini anlamasına yardımcı olan bir tür yapay zeka dil öğrenme modeli olan Doğal Dil İşleme’nin (NLP) kullanılmasını önerdi. Belgelerin analizinde kullanılabilecek birkaç kullanışlı NLP tekniğinin altını çizdi.
Adlandırılmış Varlık Tanıma (NER): Bu teknik, belgelerdeki farklı türdeki varlıkların çıkarılmasını sağlar. Aguirre, bu tekniğin bir belgenin ne hakkında konuştuğunu anlamak ve adlandırılmış varlıkların isimler, yerler, milliyetler, dini veya siyasi gruplar, kuruluşlar ve şirketler, ajanslar ve kurumlar ve konumlar gibi önceden tanımlanmış kategorilere sınıflandırılmasında yararlı olduğunu söyledi.
Konu Modelleme: Bu teknik, bir metin gövdesi içindeki benzer kelime gruplarını analiz etmeye ve tanımlamaya yardımcı olur. “Konu modellemesini sadece verilerinizi analiz etmek için değil, aynı zamanda düzenlemek için de bir teknik olarak düşünmeyi seviyorum” diyen Aguirre, bu teknikle LSA, LDA, BERTopic, Top2Vec gibi algoritmaların kullanılabileceğini sözlerine ekledi. Veri bilimcisi Kurtis Pykes da konu modellemesini, bir metin gövdesi içindeki benzer kelime gruplarını analiz eden ve tanımlayan bir tür istatistiksel modelleme olarak açıkladı. Bu yaklaşım, belgeleri taramak, belgelerdeki kelime ve kelime öbeği kalıplarını tespit etmek ve benzer kelimeleri konular halinde üretmek veya gruplamak için kullanılır. Konu modellemesi, bir dizi metin belgesi içindeki gizli konuları keşfetmek ve tanımlamak için kullanılır.
DocumentCloud: Bu, gazetecilerin kaynak belgeleri yüklemesine, düzenlemesine, analiz etmesine, açıklama eklemesine ve açık web’de yayınlamasına olanak tanıyan popüler, açık kaynaklı bir yazılım programıdır. Gumshoe, DocumentCloud platformuna yakın zamanda entegre edilen araçlardan biridir. Bu yapay zeka aracı, gazetecilerin ve haber merkezlerinin, örneğin Bilgi Edinme Özgürlüğü talepleri sonucunda alınan devasa belgeleri incelerken karşılaştıkları zorlukları ele almayı amaçlıyor.
Hugging Face: MUO‘da yakın zamanda yayınlanan bir makalede, Hugging Face’in dil ve bilgisayarla görme projeleri üzerinde çalışmak için araçlar ve kaynaklar sağlayan açık kaynaklı bir platform olduğu açıklandı.(Hem ücretsiz hem de ücretli katmanları var.) Aguirre, Hugging Face’in özünde kullanıcıların “çok çeşitli diller için mevcut olan çok özel modülleri bulmalarına” yardımcı olduğunu söyledi. Ayrıca Hugging Face, kullanıcıların makine öğrenimi modelleri oluşturmalarını, eğitmelerini ve dağıtmalarını sağlayan bir veri bilimi platformudur. Bir veri bilimi platformu olmasının yanı sıra Hugging Face, yapay zeka uzmanlarının, makine öğrenimi mühendislerinin ve veri bilimcilerinin fikirlerini paylaşmak ve gerekli desteği almak için bir araya geldiği bir merkez veya topluluk görevi görüyor.
İş birliği Yapın
Belgeleri analiz etme süreci bazen gazetecilerin sahip olamayabileceği teknik beceriler gerektirmektedir. Aguirre, bu gibi durumlarda gazetecileri, karmaşık soruşturmalarla başa çıkmalarına ve belgelerdeki farklı türden varlıkları ayıklamalarına yardımcı olacak veri ekipleri ve hatta programcıları olan akademi veya diğer haber merkezleriyle iş birliği yapmaya çağırdı.
Aguirre, iş birliğinin özellikle programlama yapmayan gazeteciler için “belgelerle ilgili karmaşık soruşturmalarla başa çıkmanın harika bir yolu” olduğunu söyledi.
Gazetecilerin bir belgeyi analiz etmeden önce birkaç sayfa okumak zorunda olmadıklarını, ancak belgelerin içindeki belirli sayfalara gitmek ve gerekli bilgileri çıkarmak için NLP tekniklerini kolayca kullanabileceklerini de sözlerine ekledi.
Aguirre, bu tekniklerin belgelerde belirli bilgilerin nerede aranacağını bulmaya yardımcı olduğunu açıkladı.
Araştırmacı Gazetecilik için Metin Analizi konulu GIJC23 panelinin tamamını Youtube kanalından ya da girişe eklediğimiz videodan izleyebilirsiniz.