Kaynak

» İpucu Sayfası

•

Başlıklar

» Haber Yazım Araçları ve İpuçları » Veri Gazeteciliği

Kodlama Becerisi Gerektirmeyen Ücretsiz Veri Çekme Araçları

Yazan Rowan Philp • 5 Temmuz 2022

Bu Yazıyı Oku

中文

Araştırmacı gazeteciler için en son ipuçlarını ve araçları araştırdığımız GIJN Araç Kutusu‘na tekrar hoş geldiniz. Bu yazıda muhabirlerin belgelerden veri kazımak için kullanabilecekleri üç ücretsiz aracı ve nispeten kolay çözüm yöntemleri keşfedeceğiz. Bu teknikler 2022 Araştırmacı Muhabirler ve Editörler konferansında (IRE22) anlatıldı. Gazeteciler büyük ilgi gösterdi. Muhabirler araştırmaları için ihtiyaç duydukları verileri nihayet elde ettiklerinde, genellikle ikinci bir sorunla karşı karşıya kalırlar: bu verilerin nasıl seçileceği ve çıkarılacağı, böylece e-tablolara aktarılıp nasıl kullanılacağı. Birçok küçük haber odası için manuel giriş, gelişmiş kodlama veya maliyetli ticari OCR (optik karakter tanıma) hizmetleri gerçekçi veri kazıma seçeneği olmayabilir.

Dahası, IRE22’deki birkaç kıdemli gözlemci gazeteci, taranmış belgeler veya “düz” PDF’ler gibi yapılandırılmamış veya “ölü” biçimlerde yayınlanan kamuya açık belgelerin miktarında bir artış görmediklerini, aynı zamanda bazı devlet kurumlarının kasıtlı olarak kullandıklarını kaydetti. Bu formatlar habercililk sürecine yük bindiriyor.

Son bir meydan okumada, dünya çapındaki birçok ajans, muhabir istenen veriler için web sayfalarını kontrol ederler, bunu tek tek kutuları tablolara kopyalayıp yapıştırırlar ve tam veri setinin sonuna ulaşmak için çok sayıda sekmeyi veya sayfayı manuel olarak tıklamaları gerekir.

Bugün ABD’de araştırmacı gazeteci olan Kenny Jacoby , “Bir ton kamuya açık kayıt talebinde bulunuyorum ve istediğim belge veya verileri istediğim formatta almamın artık son derece nadir olduğunu görüyorum” dedi . “Bazen size belgeyi veren ajans kasıtlı olarak hayatınızı zorlaştırmak istiyormuş gibi görünüyor metni bir PDF’den çıkarırlar veya göndermeden önce tararlar veya veriler sütunsuz ve yapılandırılmamış bir biçimdedir. Bu engeller bizi gerçekten yavaşlatabilir, bu yüzden bunlarla başa çıkmak için araçlara sahip olmak önemlidir.”

Google Pinpoint ve PDF’leri Fethetmek için Yeni Özellikleri

2020’de GIJN, Google Journalist Studio’dan yeni bir AI destekli belge ayrıştırma aracının kullanıma sunulduğunu ilk duyuranlardan biriydi ve şimdi ” Pinpoint ” olarak markalandı. Yeni piyasaya sürülen aracı, çok sayıda belge ve resimde hızla arama yapabilen gelişmiş OCR’ye sahip “turbo şarjlı bir Ctrl-F” işlevi olarak tanımladık. IRE22’deki bir veri oturumunda Jacoby, Pinpoint’in o zamandan beri profesyonel gazeteciler için kolay erişime sahip ücretsiz, dijital bir ana araca dönüştüğünü söyledi, kısmen geliştiricilerinin araştırmacı gazetecilerin girdileri sayesinde.Jacoby, Pinpoint’in veri özelliklerinin artık şunları içerdiğini gösterdi:

“Fakülte” gibi tek bir anahtar kelime ararsanız, bu kelimeyi yalnızca yüklediğiniz araştırma dosyanızda bulmakla kalmaz, aynı zamanda “öğretmen” veya “kampüs” veya “profesör” gibi ilgili kelimeleri de vurgular. Ayrıca aranan terim için agresif varyasyonları da bulur; Portekizce, İspanyolca, Fransızca ve Lehçe dahil yedi dili destekliyor ve istenmeyen terimleri eksi işaretiyle hariç tutabilir.
Taranmış veya PDF belgeleri demetleri – hatta elle yazılmış karalama sayfaları – yükleyin ve bunları hızla “canlı”, aranabilir, kopyalanabilir metin belgelerine dönüştürebilir. Yataydan farklı yönlerde çalışan kelimeleri bile okur.

Araç, yalnızca görüntülerdeki tabelaları veya grafitileri tanıyıp metne dönüştürmekle kalmayacak, aynı zamanda görüntülerin arka planında plaketlerde veya duyuru panolarında fark ettiği uzun küçük metin pasajlarını yeniden üretebilir. (Pinpoint demosu sırasında, yoğun, açılı bir biyografik plaket üzerindeki küçük yazıları tek bir fotoğrafta okuyup işleyebildiğinde gazeteci katılımcılarından sesli bir nefes geldi. Bir NBC Telemundo muhabiri Valezka Gil , “Aman Tanrım! Sen! az önce hayatımı değiştirdim – bana çok zaman kazandıracak.”)
Jacoby, sesli ve görüntülü deşifre özelliğinin artık o kadar gelişmiş olduğunu ve sesli röportajlarının aranabilir deşifrelerini oluşturmak için Trint veya Otter gibi küçük abonelik ücretleri olan özel deşifre hizmetleri yerine ücretsiz Pinpoint aracını kullandığını söylüyor. “Bu tek özellik, o araçlara benziyor, ancak ücretsiz” dedi. “Trint ve Otter’ın yapmadığı bir şey, kimin konuştuğunu tanımlamaması ve her kişiye bir isim atamaması örneğin ‘Hoparlör 2’ gibi. Ancak konuşmadaki mantıksal kırılmaları ve seslerdeki bükülme noktalarını belirler. Metin transkriptinde bir noktaya tıklayabilirsiniz ve o noktada oynatmaya başlayacaktır.”

Jacoby, Pinpoint’in özelliklerine ücretsiz erişimin artık çok kolay olduğunu ve teknisyenlerinden büyük projeler için ekstra depolama talep edilebileceğini söyledi.”Kullanmak için onay almanız gerekiyor, ancak ben ve karım gazeteci olduğumuz için kaydolduğumuzda neredeyse anında onaylandık” dedi. “Bir iş e-posta adresine ihtiyacınız olabilir, ancak içeri girmek zor değil ve oradaki ekip çok duyarlı.”Dezavantajı? Pinpoint tamamen çevrim içi bir hizmet. “Bu, bir internet bağlantısına ihtiyacınız olduğu ve belgelerinizi bir yerde bir sunucuya yüklediğiniz anlamına gelir ve diyelim ki Google mahkeme celbi aldıysa belgelerinizin teslim edilmesi olasıdır” diye uyardı. “Ayrıca, OCR belgesinin bir kopyasını indirmenize izin vermiyor Pinpoint’te yaşıyor, bu yüzden metni kopyalayıp yapıştırmanız gerekiyor. Ama muhtemelen sektördeki en iyi OCR’ye sahip.”

Kenny JacobyIRE22’deki gazeteciler, ücretsiz Google Pinpoint aracının optik karakter tanıma (OCR) özelliğinin, bu fotoğraftaki mavi biyografik plaket üzerindeki yazı kadar küçük metinleri okumak ve kopyalamak için yeterince güçlü olduğunu öğrenince şaşırdılar. Resim: Kenny Jacoby

Web Sitelerindeki Veriler için ImportHTML/ XML Hack

ProPublica’dan Craig Silverman’ın kısa süre önce GIJN için gösterdiği gibi : Herhangi bir web sitesinin arkasındaki kaynak kodu, araştırmacı gazeteciler için çok sayıda kazma aracı sağlar ve kodlayıcı olmayanlar için ürkütücü görünümüne rağmen “Control-F” veya “Command-” dışında hiçbir beceri gerektirmez. F”, gezinmek için. Google E-Tablolar’da IRE22’de yapılan bir oturumda, serbest gazeteci Samantha Sunne , bu kodun web sitelerindeki uzun tabloları veya belirli veri öğelerini kolayca almak ve saniyeler içinde tüm verilerini ihtiyacınız olan biçimde doldurmak için nasıl kullanılabileceğini gösterdi. Bir elektronik tabloda. Dosyanıza yüzlerce kutuyu tek tek kopyalayıp yapıştırmanıza gerek yok. Teknik, Google E-Tablolar’a ilk, sol üst kutusunda ihtiyacınız olan bir kaynak kod öğesini bir web sayfasından (örneğin, karşıdaki sayfada beğendiğiniz bir veri tablosu oluşturan kod çıkarmak için talimat veren bir formül yazılır. Aslında, herhangi bir sitede iyi biçimlendirilmiş bir veri tablosu çıkarmak için gerçekten herhangi bir koda bakmanız gerekmez. Sadece şu adımları izleyin:

Bir web sayfasından tek bir veri tablosunu içe aktarmak için – ne kadar uzun olursa olsun – aşağıdaki formülü Google E-Tablolar’a yazmanız yeterlidir: =IMPORTHTML(“URL”, “tablo”) Veriler bir liste olarak biçimlendirilmişse, “liste”yi deneyin. ” yerine “tablo” – ve örneğin bir sayfadaki ikinci listeyi istiyorsanız, virgül ve boşluktan sonra 2 rakamını eklemeyi deneyin: =IMPORTHTML(“URL”, “list”, 2)

GIJN, US Federal Deposit Insurance Corp.’un web sitesinden 564 başarısız bankanın bulunduğu bir tabloyu içe aktarmak için bu hack’i denediğinde tüm süreç FDIC URL’sini kopyalamaktan Google E-Tablolar’ı açmaya ve tüm banka listesini mükemmel bir şekilde sütunlar halinde biçimlendirmeye kadar 15 saniyeden az sürdü. Ancak, URL’den sonra bir virgül ve parantez içindeki iki öğenin etrafında tırnak işaretleri dahil olmak üzere formül için gereken tam noktalama işaretlerini kullanmak önemlidir. Dikkat çekici bir şekilde, canlı web sitesi verilerinde yapılan güncellemeler de otomatik olarak Google E-Tablosunda görünecektir – bu nedenle, bu güncelleme işlevini devre dışı bırakmadığınız sürece, araştırmanız sırasında sayfayı sürekli kontrol etmeniz gerekmez.

Yine de Sunne, muhabirlerin html öğelerine en azından biraz aşina olmalarının, bilgisayarların karşılıklı sayfalarda gördüğümüz verileri nasıl paketlediklerini anlamalarının, hatalı biçimlendirilmiş bilgileri işlemeyi kolaylaştırmanın ve daha fazlasını kazmanın önemli olduğunu söyledi. Daha gelişmiş formüllerle daha derine inin.

Herhangi bir sayfayı oluşturan kodu bulmak için sitedeki herhangi bir boş veya beyaz alana sağ tıklayın ve “sayfa kaynağını görüntüle” veya “sayfa kaynağını göster” seçeneğine tıklayın. Genel olarak, hatırlanması gereken önemli nokta, insan odaklı web sayfasında gördüğünüz tüm kelimelerin bilgisayar kaynak kodu sayfasında da görünmesi gerektiğini söyledi, böylece herhangi bir veri terimini bulmak için basitçe “Ctrl-F” yapabilirsiniz.

Kodu, onu yakalamak için hangi öğe etiketlerinin kullanıldığını görün ve formüldeki bu etiketlerle denemeler yapın. Sunne, “Yararlı olsa da, ImportHTML formülü yalnızca tabloları ve listeleri çekebilir ancak başka bir formül, ImportXML, herhangi bir html öğesini çekebilir,” diye açıkladı. “Çok benziyor eşittir işareti; formül adı, URL ancak çok daha spesifik olabilirsiniz.” Bunu nasıl yapacağınız aşağıda açıklanmıştır:

Bir web sayfasındaki belirli veri öğelerini içe aktarmak için – tek tek tablo satırları veya yalnızca kalın metin veya başlıklar gibi – aşağıdaki gibi bir formül deneyin (veri başlıkları örneği için): =IMPORTXML(“URL”, “//h2”) veya bu (tablo satırları için): =IMPORTXML(“URL”, “//table/tr”)

Muhabirlerin html sözlüklerinde bulabileceği “//h2” (başlık) ve “/tr” (tablo satırı) gibi yaygın olarak kullanılan birçok html öğesi vardır ancak Sunne gazetecilerin verileri çevreleyen öğeleri basitçe not etmelerini önerir. İhtiyaç duyarlar ve bir sonraki veri içe aktarmalarını iyileştirmeye yardımcı olabilecek temel bilgisayar jargon etiketlerini tanımlarlar. Pratik yapmak için genellikle birkaç veri listesi ve tablosuna sahip olan büyük Wikipedia sitelerinde bu iki veri kazıma tekniğini kullanmayı deneyin.

Çevrimdışı Verileri Güvenli Bir Şekilde Ayıklamak için ImageMagick ile Tesseract

USA Today’den Kenny Jacoby, Tesseract adlı açık kaynaklı bir OCR motorunun , giriş verilerinin kalitesi yeterince iyiyse, hassas belgeler ve büyük veri arşivleri için harika bir veri çıkarma çözümü sunduğunu söyledi. Dikkat çekici bir şekilde, en son sürümü 100’den fazla dili ve İbranice veya Arapça sağdan sola yazılan metinleri de tanır.

Tesseract, metin katmanı olmayan görüntüleri seçilebilir ve aranabilir PDF’lere dönüştürür ve Jacoby, özellikle büyük toplu “düz” belgeleri canlı, kopyalanabilir metne dönüştürmede güçlü olduğunu söyledi. Bunun genel olarak, muhabirlerin önce PDF belgelerini yüksek çözünürlüklü görüntülere ideal olarak, açık kaynaklı ImageMagick aracını kullanarak dönüştürmesi ve ardından kazınmış verileri elde etmek için bunları Tesseract’a beslemesi gerektiği anlamına geldiğini söyledi.

Jacoby, “OCR’si Pinpoint kadar iyi değil ama oldukça iyi,” dedi. “Ancak büyük bir avantaj, çevrimdışı olması her şeyi yerel olarak, terminalinizde yapabilirsiniz, bu nedenle hassas işler için iyidir. Toplu dönüştürmeler için gerçekten iyidir. 1.000 belgenin her biri için hepsini OCR yapabilirsiniz.”

“Görüntünün kalitesini veya kontrastı artırmanız gerekebilir ancak ImageMagick ile görüntünün kalitesini artırabilirsiniz” diye ekledi. Ayrıca Jacoby, Wall Street Journal araştırmacı muhabiri Chad Day’in Tesseract ve ImageMagick araçları hakkında Github’da bulunabilecek ayrıntılı bir kılavuz önerdi .

Tesseract çözümü bazı “orta” kodlama becerileri gerektirse de Jacoby, bunun komut satırı becerilerine sahip bir kişinin programı tek bir ziyarette kurabileceği ve muhabire iki kısa satır sağlayabileceği tek seferlik bir senaryo olabileceğini söyledi. Daha sonra gelecekteki her veri ayıklaması için ekleyebilecekleri. Jacoby, PDF formatlarında basılmış tabloları çıkarmak için OpenNews ve ProPublica’dan gazeteciler tarafından oluşturulan daha iyi bilinen bir açık kaynak aracı olan Tabula uygulamasını önerdi.

“Aslında veri tablolarını PDF’lerden kurtarıyor ve bunları elektronik tablolara döküyor” diye açıkladı. Tabula, muhabirlerin istedikleri verileri çıkarmak için bilgisayar ekranlarında bir masanın etrafına basitçe bir kutu çizmelerine ve ayrıca kenarlıksız olanlar da dahil olmak üzere tabloları otomatik olarak algılamasına olanak tanır.

Tabula “canlı” veya OCR’lı belgeler gerektirirken, aracın Tesseract tarafından oluşturulan metin dosyalarıyla iyi çalıştığını söyledi. “Ayrıca çevrimdışı, bu yüzden çok özel” dedi.

Ek kaynaklar

Web Denetçisi ile Gizli Verileri Çıkarma
Web Scraping Neden Demokrasi İçin Çok Önemlidir?
Araştırmalar için Veritabanı Oluşturmaya Yönelik İpuçları

Rowan-Philp-140x140 Rowan Philp , GIJN için bir muhabirdir. Eskiden Güney Afrika Sunday Times baş muhabiriydi . Bir dış muhabir olarak, dünya çapında iki düzineden fazla ülkeden haberler, siyaset, yolsuzluk ve çatışmalar hakkında haber yaptı.

Bu Çalışma Bir Lisans Altında Lisanslanmıştır Creative Commons Atıf-Türevi Olmayan 4.0 Uluslararası Lisansı

İçeriklerimizi bir Creative Commons Lisansı Altında Ücretsiz, Çevrim içi veya Basılı Olarak Yeniden Yayınlayın.

Şununla etiketlenen diğer hikayeleri okuyun:

Araç ve Teknik ARAŞTIRMACI GAZETECİLİK GIJN ARAÇ KUTUSU Veri Çekme Veri Çıkarmak Veri Kazıma

Bu Yazıyı Yeniden Yayınla

Bu Çalışma Bir Lisans Altında Lisanslanmıştır Creative Commons Atıf-Türevi Olmayan 4.0 Uluslararası Lisansı

Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

<h2>Kodlama Becerisi Gerektirmeyen &Uuml;cretsiz Veri &Ccedil;ekme Ara&ccedil;lar&#305;</h2> Yazan <a href="https://gijn.org/about/staff-member/rowan-philp/">Rowan Philp</a> for Global Investigative Journalism Network &bull; 5 Temmuz 2022 <a href="https://gijn.org/wp-content/uploads/2022/07/shutterstock_2158660431-1.jpg"><img class="alignnone size-full wp-image-543103" src="https://gijn.org/wp-content/uploads/2022/07/shutterstock_2158660431-1.jpg" alt="" width="771" height="514"></a>Ara&#351;t&#305;rmac&#305; gazeteciler i&ccedil;in en son ipu&ccedil;lar&#305;n&#305; ve ara&ccedil;lar&#305; ara&#351;t&#305;rd&#305;&#287;&#305;m&#305;z <a href="https://gijn.org/series/the-toolbox/">GIJN Ara&ccedil; Kutusu</a>'na tekrar ho&#351; geldiniz. Bu yaz&#305;da muhabirlerin belgelerden veri kaz&#305;mak i&ccedil;in kullanabilecekleri &uuml;&ccedil; &uuml;cretsiz arac&#305; ve nispeten kolay &ccedil;&ouml;z&uuml;m y&ouml;ntemleri ke&#351;fedece&#287;iz. Bu teknikler <a href="https://www.ire.org/training/conferences/ire-2022/">2022 Ara&#351;t&#305;rmac&#305; Muhabirler ve Edit&ouml;rler konferans&#305;nda (IRE22)</a> anlat&#305;ld&#305;.&nbsp; Gazeteciler b&uuml;y&uuml;k ilgi g&ouml;sterdi. Muhabirler ara&#351;t&#305;rmalar&#305; i&ccedil;in ihtiya&ccedil; duyduklar&#305; verileri nihayet elde ettiklerinde, genellikle ikinci bir sorunla kar&#351;&#305; kar&#351;&#305;ya kal&#305;rlar: bu verilerin nas&#305;l se&ccedil;ilece&#287;i ve &ccedil;&#305;kar&#305;laca&#287;&#305;, b&ouml;ylece e-tablolara aktar&#305;l&#305;p nas&#305;l kullan&#305;laca&#287;&#305;. Bir&ccedil;ok k&uuml;&ccedil;&uuml;k haber odas&#305; i&ccedil;in manuel giri&#351;, geli&#351;mi&#351; kodlama veya maliyetli ticari OCR (optik karakter tan&#305;ma) hizmetleri ger&ccedil;ek&ccedil;i veri kaz&#305;ma se&ccedil;ene&#287;i olmayabilir.&nbsp;<img class="size-full wp-image-539206 alignright" src="https://gijn.org/wp-content/uploads/2022/06/IRE22-logo.png" alt="IRE22 logosu" width="183" height="170">Dahas&#305;, IRE22'deki birka&ccedil; k&#305;demli g&ouml;zlemci gazeteci, taranm&#305;&#351; belgeler veya "d&uuml;z" PDF'ler gibi yap&#305;land&#305;r&#305;lmam&#305;&#351; veya "&ouml;l&uuml;" bi&ccedil;imlerde yay&#305;nlanan kamuya a&ccedil;&#305;k belgelerin miktar&#305;nda bir art&#305;&#351; g&ouml;rmediklerini, ayn&#305; zamanda baz&#305; devlet kurumlar&#305;n&#305;n kas&#305;tl&#305; olarak kulland&#305;klar&#305;n&#305; kaydetti. Bu formatlar habercililk s&uuml;recine y&uuml;k bindiriyor.Son bir meydan okumada, d&uuml;nya &ccedil;ap&#305;ndaki bir&ccedil;ok ajans, muhabir istenen veriler i&ccedil;in web sayfalar&#305;n&#305; kontrol ederler,&nbsp; bunu tek tek kutular&#305; tablolara kopyalay&#305;p yap&#305;&#351;t&#305;r&#305;rlar ve tam veri setinin sonuna ula&#351;mak i&ccedil;in &ccedil;ok say&#305;da sekmeyi veya sayfay&#305; manuel olarak t&#305;klamalar&#305; gerekir.<p class="hnews item post-542068 post type-post status-publish format-standard has-post-thumbnail hentry category-africa category-english category-resources category-tips-tools tag-data-mining tag-data-scraping tag-documental tag-freedom-of-information-2 tag-investigative-journalism tag-investigative-reporting tag-open-source-tools tag-pdf-extraction tag-spreadsheets tag-state-secrecy prominence-top-story series-the-toolbox featured-media featured-media-image">Bug&uuml;n ABD'de ara&#351;t&#305;rmac&#305; gazeteci olan&nbsp;<a href="https://twitter.com/kennyjacoby">Kenny Jacoby</a> , "Bir ton kamuya a&ccedil;&#305;k kay&#305;t talebinde bulunuyorum ve istedi&#287;im belge veya verileri istedi&#287;im formatta almam&#305;n art&#305;k son derece nadir oldu&#287;unu g&ouml;r&uuml;yorum" dedi .&nbsp;"Bazen size belgeyi veren ajans kas&#305;tl&#305; olarak hayat&#305;n&#305;z&#305; zorla&#351;t&#305;rmak istiyormu&#351; gibi g&ouml;r&uuml;n&uuml;yor metni bir PDF'den &ccedil;&#305;kar&#305;rlar veya g&ouml;ndermeden &ouml;nce tararlar veya veriler s&uuml;tunsuz ve yap&#305;land&#305;r&#305;lmam&#305;&#351; bir bi&ccedil;imdedir. Bu engeller bizi ger&ccedil;ekten yava&#351;latabilir, bu y&uuml;zden bunlarla ba&#351;a &ccedil;&#305;kmak i&ccedil;in ara&ccedil;lara sahip olmak &ouml;nemlidir.&rdquo;<h4>Google Pinpoint ve PDF'leri Fethetmek i&ccedil;in Yeni &Ouml;zellikleri</h4>2020'de GIJN, Google Journalist Studio'dan yeni bir AI destekli belge ayr&#305;&#351;t&#305;rma arac&#305;n&#305;n&nbsp;<a href="https://gijn.org/2020/10/26/tools-for-campaign-sources-disinfo-spying-ai-search-and-election-day-scenarios-from-gijnelectionwatchdog/">kullan&#305;ma sunuldu&#287;unu</a>&nbsp;ilk duyuranlardan biriydi ve &#351;imdi "&nbsp;<a href="https://journaliststudio.google.com/pinpoint/collections">Pinpoint</a>&nbsp;" olarak markaland&#305;.&nbsp;Yeni piyasaya s&uuml;r&uuml;len arac&#305;, &ccedil;ok say&#305;da belge ve resimde h&#305;zla arama yapabilen geli&#351;mi&#351; OCR'ye sahip "turbo &#351;arjl&#305; bir Ctrl-F" i&#351;levi olarak tan&#305;mlad&#305;k.&nbsp;IRE22'deki bir veri oturumunda Jacoby, Pinpoint'in o zamandan beri profesyonel gazeteciler i&ccedil;in kolay eri&#351;ime sahip &uuml;cretsiz, dijital bir ana araca d&ouml;n&uuml;&#351;t&uuml;&#287;&uuml;n&uuml; s&ouml;yledi, k&#305;smen geli&#351;tiricilerinin ara&#351;t&#305;rmac&#305; gazetecilerin girdileri sayesinde.Jacoby, Pinpoint'in veri &ouml;zelliklerinin art&#305;k &#351;unlar&#305; i&ccedil;erdi&#287;ini g&ouml;sterdi:<ul>
<li>"Fak&uuml;lte" gibi tek bir anahtar kelime ararsan&#305;z, bu kelimeyi yaln&#305;zca y&uuml;kledi&#287;iniz ara&#351;t&#305;rma dosyan&#305;zda bulmakla kalmaz, ayn&#305; zamanda "&ouml;&#287;retmen" veya "kamp&uuml;s" veya "profes&ouml;r" gibi ilgili kelimeleri de vurgular. Ayr&#305;ca aranan terim i&ccedil;in agresif varyasyonlar&#305; da bulur; Portekizce, &#304;spanyolca, Frans&#305;zca ve Leh&ccedil;e dahil yedi dili destekliyor ve istenmeyen terimleri eksi i&#351;aretiyle hari&ccedil; tutabilir.</li>
<li>Taranm&#305;&#351; veya PDF belgeleri demetleri - hatta elle yaz&#305;lm&#305;&#351; karalama sayfalar&#305; - y&uuml;kleyin ve bunlar&#305; h&#305;zla "canl&#305;", aranabilir, kopyalanabilir metin belgelerine d&ouml;n&uuml;&#351;t&uuml;rebilir.&nbsp;Yataydan farkl&#305; y&ouml;nlerde &ccedil;al&#305;&#351;an kelimeleri bile okur.</li>
</ul><ul>
<li>Ara&ccedil;, yaln&#305;zca g&ouml;r&uuml;nt&uuml;lerdeki tabelalar&#305; veya grafitileri tan&#305;y&#305;p metne d&ouml;n&uuml;&#351;t&uuml;rmekle kalmayacak, ayn&#305; zamanda g&ouml;r&uuml;nt&uuml;lerin arka plan&#305;nda plaketlerde veya duyuru panolar&#305;nda fark etti&#287;i uzun k&uuml;&ccedil;&uuml;k metin pasajlar&#305;n&#305; yeniden &uuml;retebilir.&nbsp;(Pinpoint demosu s&#305;ras&#305;nda, yo&#287;un, a&ccedil;&#305;l&#305; bir biyografik plaket &uuml;zerindeki k&uuml;&ccedil;&uuml;k yaz&#305;lar&#305; tek bir foto&#287;rafta okuyup i&#351;leyebildi&#287;inde gazeteci kat&#305;l&#305;mc&#305;lar&#305;ndan sesli bir nefes geldi. Bir NBC Telemundo muhabiri&nbsp;<a href="https://twitter.com/ValezkaGil">Valezka Gil</a>&nbsp;, "Aman Tanr&#305;m! Sen! az &ouml;nce hayat&#305;m&#305; de&#287;i&#351;tirdim &ndash; bana &ccedil;ok zaman kazand&#305;racak.&rdquo;)</li>
<li>Jacoby, sesli ve g&ouml;r&uuml;nt&uuml;l&uuml; de&#351;ifre &ouml;zelli&#287;inin art&#305;k o kadar geli&#351;mi&#351; oldu&#287;unu ve sesli r&ouml;portajlar&#305;n&#305;n aranabilir de&#351;ifrelerini olu&#351;turmak i&ccedil;in&nbsp;<a href="https://gijn.org/2022/01/27/how-secure-are-journalists-favorite-transcription-tools/">Trint veya Otter gibi</a> k&uuml;&ccedil;&uuml;k abonelik &uuml;cretleri olan &ouml;zel de&#351;ifre hizmetleri yerine &uuml;cretsiz Pinpoint arac&#305;n&#305; kulland&#305;&#287;&#305;n&#305; s&ouml;yl&uuml;yor. "Bu tek &ouml;zellik, o ara&ccedil;lara benziyor, ancak &uuml;cretsiz" dedi. &ldquo;Trint ve Otter'&#305;n yapmad&#305;&#287;&#305; bir &#351;ey, kimin konu&#351;tu&#287;unu tan&#305;mlamamas&#305; ve her ki&#351;iye bir isim atamamas&#305; &ouml;rne&#287;in&nbsp; 'Hoparl&ouml;r 2' gibi. Ancak konu&#351;madaki mant&#305;ksal k&#305;r&#305;lmalar&#305; ve seslerdeki b&uuml;k&uuml;lme noktalar&#305;n&#305; belirler. Metin transkriptinde bir noktaya t&#305;klayabilirsiniz ve o noktada oynatmaya ba&#351;layacakt&#305;r.&rdquo;</li>
</ul>Jacoby, Pinpoint'in &ouml;zelliklerine &uuml;cretsiz eri&#351;imin art&#305;k &ccedil;ok kolay oldu&#287;unu ve teknisyenlerinden b&uuml;y&uuml;k projeler i&ccedil;in ekstra depolama talep edilebilece&#287;ini s&ouml;yledi."Kullanmak i&ccedil;in onay alman&#305;z gerekiyor, ancak ben ve kar&#305;m&nbsp; gazeteci oldu&#287;umuz i&ccedil;in kaydoldu&#287;umuzda neredeyse an&#305;nda onayland&#305;k" dedi. "Bir i&#351; e-posta adresine ihtiyac&#305;n&#305;z olabilir, ancak i&ccedil;eri girmek zor de&#287;il ve oradaki ekip &ccedil;ok duyarl&#305;."Dezavantaj&#305;? Pinpoint tamamen &ccedil;evrim i&ccedil;i bir hizmet. "Bu, bir internet ba&#287;lant&#305;s&#305;na ihtiyac&#305;n&#305;z oldu&#287;u ve belgelerinizi bir yerde bir sunucuya y&uuml;kledi&#287;iniz anlam&#305;na gelir ve diyelim ki Google mahkeme celbi ald&#305;ysa belgelerinizin teslim edilmesi olas&#305;d&#305;r" diye uyard&#305;. &ldquo;Ayr&#305;ca, OCR belgesinin bir kopyas&#305;n&#305; indirmenize izin vermiyor Pinpoint'te ya&#351;&#305;yor, bu y&uuml;zden metni kopyalay&#305;p yap&#305;&#351;t&#305;rman&#305;z gerekiyor. Ama muhtemelen sekt&ouml;rdeki en iyi OCR'ye sahip."<img class="wp-image-541329 size-large" src="https://gijn.org/wp-content/uploads/2022/07/Pinpoint-Plaque-771x393.png" alt="" width="771" height="393">Kenny JacobyIRE22'deki gazeteciler, &uuml;cretsiz Google Pinpoint arac&#305;n&#305;n optik karakter tan&#305;ma (OCR) &ouml;zelli&#287;inin, bu foto&#287;raftaki mavi biyografik plaket &uuml;zerindeki yaz&#305; kadar k&uuml;&ccedil;&uuml;k metinleri okumak ve kopyalamak i&ccedil;in yeterince g&uuml;&ccedil;l&uuml; oldu&#287;unu &ouml;&#287;renince &#351;a&#351;&#305;rd&#305;lar.&nbsp;Resim: Kenny Jacoby<h4></h4><h4>Web Sitelerindeki Veriler i&ccedil;in ImportHTML/ XML Hack</h4>ProPublica'dan Craig Silverman'&#305;n&nbsp;<a href="https://gijn.org/2022/04/04/elections-guide-for-investigative-reporters-chapter-1-new-election-digging-tools/">k&#305;sa s&uuml;re &ouml;nce GIJN i&ccedil;in g&ouml;sterdi&#287;i gibi</a> : Herhangi bir web sitesinin arkas&#305;ndaki kaynak kodu, ara&#351;t&#305;rmac&#305; gazeteciler i&ccedil;in &ccedil;ok say&#305;da kazma arac&#305; sa&#287;lar ve kodlay&#305;c&#305; olmayanlar i&ccedil;in &uuml;rk&uuml;t&uuml;c&uuml; g&ouml;r&uuml;n&uuml;m&uuml;ne ra&#287;men "Control-F" veya "Command-" d&#305;&#351;&#305;nda hi&ccedil;bir beceri gerektirmez. F&rdquo;, gezinmek i&ccedil;in. Google E-Tablolar'da IRE22'de yap&#305;lan bir oturumda, serbest gazeteci <a href="https://twitter.com/SamanthaSunne">Samantha Sunne</a> , bu kodun web sitelerindeki uzun tablolar&#305; veya belirli veri &ouml;&#287;elerini kolayca almak ve saniyeler i&ccedil;inde t&uuml;m verilerini ihtiyac&#305;n&#305;z olan bi&ccedil;imde doldurmak i&ccedil;in nas&#305;l kullan&#305;labilece&#287;ini g&ouml;sterdi. Bir elektronik tabloda. Dosyan&#305;za y&uuml;zlerce kutuyu tek tek kopyalay&#305;p yap&#305;&#351;t&#305;rman&#305;za gerek yok. Teknik, Google E-Tablolar'a&nbsp; ilk, sol &uuml;st kutusunda ihtiyac&#305;n&#305;z olan bir kaynak kod &ouml;&#287;esini bir web sayfas&#305;ndan (&ouml;rne&#287;in, kar&#351;&#305;daki sayfada be&#287;endi&#287;iniz bir veri tablosu olu&#351;turan kod &ccedil;&#305;karmak i&ccedil;in talimat veren bir form&uuml;l yaz&#305;l&#305;r. Asl&#305;nda, herhangi bir sitede iyi bi&ccedil;imlendirilmi&#351; bir veri tablosu &ccedil;&#305;karmak i&ccedil;in ger&ccedil;ekten herhangi bir koda bakman&#305;z gerekmez. Sadece &#351;u ad&#305;mlar&#305; izleyin:<blockquote>Bir web sayfas&#305;ndan tek bir veri tablosunu i&ccedil;e aktarmak i&ccedil;in &ndash; ne kadar uzun olursa olsun &ndash; a&#351;a&#287;&#305;daki form&uuml;l&uuml; Google E-Tablolar'a yazman&#305;z yeterlidir: =IMPORTHTML(&ldquo;URL&rdquo;, &ldquo;tablo&rdquo;) Veriler bir liste olarak bi&ccedil;imlendirilmi&#351;se, &ldquo;liste&rdquo;yi deneyin. &rdquo; yerine &ldquo;tablo&rdquo; &ndash; ve &ouml;rne&#287;in bir sayfadaki ikinci listeyi istiyorsan&#305;z, virg&uuml;l ve bo&#351;luktan sonra 2 rakam&#305;n&#305; eklemeyi deneyin: =IMPORTHTML(&ldquo;URL&rdquo;, &ldquo;list&rdquo;, 2)</blockquote><a href="https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/">GIJN, US Federal Deposit Insurance Corp.'un web sitesinden 564 ba&#351;ar&#305;s&#305;z bankan&#305;n bulundu&#287;u</a> bir tabloyu i&ccedil;e aktarmak i&ccedil;in bu hack'i denedi&#287;inde t&uuml;m s&uuml;re&ccedil; FDIC URL'sini kopyalamaktan Google E-Tablolar'&#305; a&ccedil;maya ve t&uuml;m banka listesini m&uuml;kemmel bir &#351;ekilde s&uuml;tunlar halinde bi&ccedil;imlendirmeye kadar&nbsp; 15 saniyeden az s&uuml;rd&uuml;. Ancak, URL'den sonra bir virg&uuml;l ve parantez i&ccedil;indeki iki &ouml;&#287;enin etraf&#305;nda t&#305;rnak i&#351;aretleri dahil olmak &uuml;zere form&uuml;l i&ccedil;in gereken tam noktalama i&#351;aretlerini kullanmak &ouml;nemlidir. Dikkat &ccedil;ekici bir &#351;ekilde, canl&#305; web sitesi verilerinde yap&#305;lan g&uuml;ncellemeler de otomatik olarak Google E-Tablosunda g&ouml;r&uuml;necektir - bu nedenle, bu g&uuml;ncelleme i&#351;levini devre d&#305;&#351;&#305; b&#305;rakmad&#305;&#287;&#305;n&#305;z s&uuml;rece, ara&#351;t&#305;rman&#305;z s&#305;ras&#305;nda sayfay&#305; s&uuml;rekli kontrol etmeniz gerekmez.Yine de Sunne, muhabirlerin html &ouml;&#287;elerine en az&#305;ndan biraz a&#351;ina olmalar&#305;n&#305;n, bilgisayarlar&#305;n kar&#351;&#305;l&#305;kl&#305; sayfalarda g&ouml;rd&uuml;&#287;&uuml;m&uuml;z verileri nas&#305;l paketlediklerini anlamalar&#305;n&#305;n, hatal&#305; bi&ccedil;imlendirilmi&#351; bilgileri i&#351;lemeyi kolayla&#351;t&#305;rman&#305;n ve daha fazlas&#305;n&#305; kazman&#305;n &ouml;nemli oldu&#287;unu s&ouml;yledi. Daha geli&#351;mi&#351; form&uuml;llerle daha derine inin.Herhangi bir sayfay&#305; olu&#351;turan kodu bulmak i&ccedil;in sitedeki herhangi bir bo&#351; veya beyaz alana sa&#287; t&#305;klay&#305;n ve "sayfa kayna&#287;&#305;n&#305; g&ouml;r&uuml;nt&uuml;le" veya "sayfa kayna&#287;&#305;n&#305; g&ouml;ster" se&ccedil;ene&#287;ine t&#305;klay&#305;n. Genel olarak, hat&#305;rlanmas&#305; gereken &ouml;nemli nokta, insan odakl&#305; web sayfas&#305;nda g&ouml;rd&uuml;&#287;&uuml;n&uuml;z t&uuml;m kelimelerin bilgisayar kaynak kodu sayfas&#305;nda da g&ouml;r&uuml;nmesi gerekti&#287;ini s&ouml;yledi, b&ouml;ylece herhangi bir veri terimini bulmak i&ccedil;in basit&ccedil;e &ldquo;Ctrl-F&rdquo; yapabilirsiniz.Kodu, onu yakalamak i&ccedil;in hangi &ouml;&#287;e etiketlerinin kullan&#305;ld&#305;&#287;&#305;n&#305; g&ouml;r&uuml;n ve form&uuml;ldeki bu etiketlerle denemeler yap&#305;n. Sunne, "Yararl&#305; olsa da, ImportHTML form&uuml;l&uuml; yaln&#305;zca tablolar&#305; ve listeleri &ccedil;ekebilir ancak ba&#351;ka bir form&uuml;l, ImportXML, herhangi bir html &ouml;&#287;esini &ccedil;ekebilir," diye a&ccedil;&#305;klad&#305;. &ldquo;&Ccedil;ok benziyor&nbsp; e&#351;ittir i&#351;areti; form&uuml;l ad&#305;, URL ancak &ccedil;ok daha spesifik olabilirsiniz.&rdquo; Bunu nas&#305;l yapaca&#287;&#305;n&#305;z a&#351;a&#287;&#305;da a&ccedil;&#305;klanm&#305;&#351;t&#305;r:<blockquote>Bir web sayfas&#305;ndaki belirli veri &ouml;&#287;elerini i&ccedil;e aktarmak i&ccedil;in &ndash; tek tek tablo sat&#305;rlar&#305; veya yaln&#305;zca kal&#305;n metin veya ba&#351;l&#305;klar gibi &ndash; a&#351;a&#287;&#305;daki gibi bir form&uuml;l deneyin (veri ba&#351;l&#305;klar&#305; &ouml;rne&#287;i i&ccedil;in): =IMPORTXML(&ldquo;URL&rdquo;, &ldquo;//h2&rdquo;) veya bu (tablo sat&#305;rlar&#305; i&ccedil;in): =IMPORTXML(&ldquo;URL&rdquo;, &ldquo;//table/tr&rdquo;)</blockquote><a href="https://www.codecademy.com/article/glossary-html">Muhabirlerin html s&ouml;zl&uuml;klerinde</a> bulabilece&#287;i &ldquo;//h2&rdquo; (ba&#351;l&#305;k) ve &ldquo;/tr&rdquo; (tablo sat&#305;r&#305;) gibi yayg&#305;n olarak kullan&#305;lan bir&ccedil;ok html &ouml;&#287;esi vard&#305;r ancak Sunne gazetecilerin verileri &ccedil;evreleyen &ouml;&#287;eleri basit&ccedil;e not etmelerini &ouml;nerir. &#304;htiya&ccedil; duyarlar ve bir sonraki veri i&ccedil;e aktarmalar&#305;n&#305; iyile&#351;tirmeye yard&#305;mc&#305; olabilecek temel bilgisayar jargon etiketlerini tan&#305;mlarlar. Pratik yapmak i&ccedil;in genellikle birka&ccedil; veri listesi ve tablosuna sahip olan b&uuml;y&uuml;k Wikipedia sitelerinde <a href="https://www.youtube.com/watch?v=7B4tPczv-H8">bu iki veri kaz&#305;ma tekni&#287;ini kullanmay&#305; deneyin.</a><h4>&Ccedil;evrimd&#305;&#351;&#305; Verileri G&uuml;venli Bir &#350;ekilde Ay&#305;klamak i&ccedil;in ImageMagick ile Tesseract</h4>USA Today'den Kenny Jacoby,&nbsp;<a href="https://github.com/tesseract-ocr/tesseract">Tesseract</a> adl&#305; a&ccedil;&#305;k kaynakl&#305; bir OCR motorunun , giri&#351; verilerinin kalitesi yeterince iyiyse, hassas belgeler ve b&uuml;y&uuml;k veri ar&#351;ivleri i&ccedil;in harika bir veri &ccedil;&#305;karma &ccedil;&ouml;z&uuml;m&uuml; sundu&#287;unu s&ouml;yledi. Dikkat &ccedil;ekici bir &#351;ekilde, en son s&uuml;r&uuml;m&uuml; <a href="https://en.wikipedia.org/wiki/Tesseract_(software)">100'den fazla dili</a>&nbsp;ve &#304;branice veya Arap&ccedil;a sa&#287;dan sola yaz&#305;lan metinleri de tan&#305;r.Tesseract, metin katman&#305; olmayan g&ouml;r&uuml;nt&uuml;leri se&ccedil;ilebilir ve aranabilir PDF'lere d&ouml;n&uuml;&#351;t&uuml;r&uuml;r ve Jacoby, &ouml;zellikle b&uuml;y&uuml;k toplu "d&uuml;z" belgeleri canl&#305;, kopyalanabilir metne d&ouml;n&uuml;&#351;t&uuml;rmede g&uuml;&ccedil;l&uuml; oldu&#287;unu s&ouml;yledi. Bunun genel olarak, muhabirlerin &ouml;nce PDF belgelerini y&uuml;ksek &ccedil;&ouml;z&uuml;n&uuml;rl&uuml;kl&uuml; g&ouml;r&uuml;nt&uuml;lere ideal olarak, a&ccedil;&#305;k kaynakl&#305; <a href="https://imagemagick.org/index.php">ImageMagick arac&#305;n&#305;</a> kullanarak d&ouml;n&uuml;&#351;t&uuml;rmesi ve ard&#305;ndan kaz&#305;nm&#305;&#351; verileri elde etmek i&ccedil;in bunlar&#305; Tesseract'a beslemesi gerekti&#287;i anlam&#305;na geldi&#287;ini s&ouml;yledi.Jacoby, "OCR'si Pinpoint kadar iyi de&#287;il ama olduk&ccedil;a iyi," dedi. "Ancak b&uuml;y&uuml;k bir avantaj, &ccedil;evrimd&#305;&#351;&#305; olmas&#305; her &#351;eyi yerel olarak, terminalinizde yapabilirsiniz, bu nedenle hassas i&#351;ler i&ccedil;in iyidir. Toplu d&ouml;n&uuml;&#351;t&uuml;rmeler i&ccedil;in ger&ccedil;ekten iyidir. 1.000 belgenin her biri i&ccedil;in hepsini OCR yapabilirsiniz.&rdquo;&ldquo;G&ouml;r&uuml;nt&uuml;n&uuml;n kalitesini veya kontrast&#305; art&#305;rman&#305;z gerekebilir ancak ImageMagick ile g&ouml;r&uuml;nt&uuml;n&uuml;n kalitesini art&#305;rabilirsiniz&rdquo; diye ekledi. Ayr&#305;ca Jacoby, Wall Street Journal ara&#351;t&#305;rmac&#305; muhabiri Chad Day'in Tesseract ve ImageMagick ara&ccedil;lar&#305; hakk&#305;nda Github'da bulunabilecek ayr&#305;nt&#305;l&#305; bir k&#305;lavuz <a href="https://github.com/chadday/nicar_ocr">&ouml;nerdi</a>&nbsp;.Tesseract &ccedil;&ouml;z&uuml;m&uuml; baz&#305; "orta" kodlama becerileri gerektirse de Jacoby, bunun komut sat&#305;r&#305; becerilerine sahip bir ki&#351;inin program&#305; tek bir ziyarette kurabilece&#287;i ve muhabire iki k&#305;sa sat&#305;r sa&#287;layabilece&#287;i tek seferlik bir senaryo olabilece&#287;ini s&ouml;yledi. Daha sonra gelecekteki her veri ay&#305;klamas&#305; i&ccedil;in ekleyebilecekleri. Jacoby, PDF formatlar&#305;nda bas&#305;lm&#305;&#351; tablolar&#305; &ccedil;&#305;karmak i&ccedil;in OpenNews ve ProPublica'dan gazeteciler taraf&#305;ndan olu&#351;turulan daha iyi bilinen bir a&ccedil;&#305;k kaynak arac&#305; olan <a href="https://tabula.technology/">Tabula uygulamas&#305;n&#305; &ouml;nerdi.&nbsp;</a>&ldquo;Asl&#305;nda veri tablolar&#305;n&#305; PDF'lerden kurtar&#305;yor ve bunlar&#305; elektronik tablolara d&ouml;k&uuml;yor&rdquo; diye a&ccedil;&#305;klad&#305;. Tabula, muhabirlerin istedikleri verileri &ccedil;&#305;karmak i&ccedil;in bilgisayar ekranlar&#305;nda bir masan&#305;n etraf&#305;na basit&ccedil;e bir kutu &ccedil;izmelerine ve ayr&#305;ca kenarl&#305;ks&#305;z olanlar da dahil olmak &uuml;zere tablolar&#305; otomatik olarak alg&#305;lamas&#305;na olanak tan&#305;r.&nbsp;Tabula "canl&#305;" veya OCR'l&#305; belgeler gerektirirken, arac&#305;n Tesseract taraf&#305;ndan olu&#351;turulan metin dosyalar&#305;yla iyi &ccedil;al&#305;&#351;t&#305;&#287;&#305;n&#305; s&ouml;yledi.&nbsp;"Ayr&#305;ca &ccedil;evrimd&#305;&#351;&#305;, bu y&uuml;zden &ccedil;ok &ouml;zel" dedi.<h4>Ek kaynaklar</h4><a href="https://gijn.org/2021/07/28/digging-up-hidden-data-with-the-web-inspector/">Web Denet&ccedil;isi ile Gizli Verileri &Ccedil;&#305;karma</a> 
<a href="https://gijn.org/2020/12/17/why-web-scraping-is-vital-to-democracy/">Web Scraping Neden Demokrasi &#304;&ccedil;in &Ccedil;ok &Ouml;nemlidir?</a> 
<a href="https://gijn.org/2021/07/13/tips-for-building-a-database-for-investigations/">Ara&#351;t&#305;rmalar i&ccedil;in Veritaban&#305; Olu&#351;turmaya Y&ouml;nelik &#304;pu&ccedil;lar&#305;</a><hr><img class=" wp-image-309506 alignleft" src="https://gijn.org/wp-content/uploads/2021/02/Rowan-Philp-140x140-1.png" alt="Rowan-Philp-140x140" width="93" height="93"><a href="https://gijn.org/about/staff-member/rowan-philp/">Rowan Philp</a>&nbsp;, GIJN i&ccedil;in bir muhabirdir.&nbsp;Eskiden G&uuml;ney Afrika<a href="https://www.timeslive.co.za/sunday-times/">&nbsp;Sunday Times</a>&nbsp;ba&#351; muhabiriydi .&nbsp;Bir d&#305;&#351; muhabir olarak, d&uuml;nya &ccedil;ap&#305;nda iki d&uuml;zineden fazla &uuml;lkeden haberler, siyaset, yolsuzluk ve &ccedil;at&#305;&#351;malar hakk&#305;nda haber yapt&#305;.
	This <a target="_blank" href="https://gijn.org/tr/kaynak/kodlama-becerisi-gerektirmeyen-ucretsiz-veri-cekme-araclari/">article</a> first appeared on <a target="_blank" href="https://gijn.org">Global Investigative Journalism Network</a> and is republished here under a Creative Commons license.
	<img id="republication-tracker-tool-source" src="https://gijn.org/?republication-pixel=true&amp;post=657947&amp;ga=UA-21528033-17">

Sonrakini Oku

Haber Yazım Araçları ve İpuçları Metodoloji

Bir Araştırmayı Mahvedebilecek 10 Basit Veri Hatası

Yazan Rowan Philp • 28 Nisan 2023

GIJN, 2023 NICAR konferansında birkaç veri gazeteciliği uzmanıyla konuştu ve araştırmanızı mahvedebilecek 10 basit veri gazeteciliği hatasını listeledi.

Haber Yazım Araçları ve İpuçları

PDF’lerden Veri Çıkartmak için ChatGPT Kullanma Potansiyelinin Test Edilmesi!

Yazan Brandon Roberts • 28 Nisan 2023

PDF gibi metin belgelerini elektronik tablolara dönüştürmek sıkıcı ve pahalı bir iştir. Yapay zeka aracı ChatGPT’nin PDF’lerden ne kadar iyi veri çıkarabildiğini görmek için veri gazetecisi Brandon Roberts iki belge setini elektronik tablolara dönüştürmek için bir Python betiği yazdı.

Haber Yazım Araçları ve İpuçları

Favori Araçlarım: Gazeteci Rafael Soares Rio Polisinin İşlediği Cinayetleri Nasıl Araştırıyor?

Yazan Laura Dixon • 4 Aralık 2022

Brezilyalı gazeteci Rafael Soares, Rio de Janeiro’da polisin görevi kötüye kullanmasını araştırmak için en sevdiği habercilik yöntemlerini ve araçlarını paylaşıyor.

Haber Yazım Araçları ve İpuçları

Matematiksel Hatalardan Kaçınmanın 4 Yolu

Yazan Denise-Marie Ordway • 17 Ekim 2022

Pek çok insan ‘yüzde değişim’ ve ‘yüzde puanlık değişim’ kavramlarını karıştırır. Matematikle ilgili bu ipucu sayfası, veri gazeteciliği öncüsü Jennifer LaFleur’dan içgörüler içeriyor.

Erişilebilirlik Ayarları

Yazı boyutu

Renk Seçenekleri

Okuma araçları

Diğer

Kaynak

Başlıklar

Kodlama Becerisi Gerektirmeyen Ücretsiz Veri Çekme Araçları

Bu Yazıyı Oku

Google Pinpoint ve PDF’leri Fethetmek için Yeni Özellikleri

Web Sitelerindeki Veriler için ImportHTML/ XML Hack

Çevrimdışı Verileri Güvenli Bir Şekilde Ayıklamak için ImageMagick ile Tesseract

Ek kaynaklar

Şununla etiketlenen diğer hikayeleri okuyun:

Bu Yazıyı Yeniden Yayınla

Sonrakini Oku

Haber Yazım Araçları ve İpuçları Metodoloji

Bir Araştırmayı Mahvedebilecek 10 Basit Veri Hatası

Haber Yazım Araçları ve İpuçları

PDF’lerden Veri Çıkartmak için ChatGPT Kullanma Potansiyelinin Test Edilmesi!

Haber Yazım Araçları ve İpuçları

Favori Araçlarım: Gazeteci Rafael Soares Rio Polisinin İşlediği Cinayetleri Nasıl Araştırıyor?

Haber Yazım Araçları ve İpuçları

Matematiksel Hatalardan Kaçınmanın 4 Yolu

Kaynak

Başlıklar

Kodlama Becerisi Gerektirmeyen Ücretsiz Veri Çekme Araçları

Bu Yazıyı Oku

İlgili Kaynaklar

Tweet Ekran Görüntüsünün Gerçek mi Sahte mi Olduğunu Doğrulamak İçin Basit İpuçları

Çevresel Araştırmalar için Uzaktan Algılama ve Veri Araçları

Bir Sonraki Araştırmanız İçin İnternet Arşivi Wayback Makinesini Kullanmanın İpuçları!

Gazeteciler İçin Kripto Para Araştırma Rehberi

Paylaş

Google Pinpoint ve PDF’leri Fethetmek için Yeni Özellikleri

Web Sitelerindeki Veriler için ImportHTML/ XML Hack

Çevrimdışı Verileri Güvenli Bir Şekilde Ayıklamak için ImageMagick ile Tesseract

Ek kaynaklar

İlgili Kaynaklar

Tweet Ekran Görüntüsünün Gerçek mi Sahte mi Olduğunu Doğrulamak İçin Basit İpuçları

Çevresel Araştırmalar için Uzaktan Algılama ve Veri Araçları

Bir Sonraki Araştırmanız İçin İnternet Arşivi Wayback Makinesini Kullanmanın İpuçları!

Gazeteciler İçin Kripto Para Araştırma Rehberi

İlgili İçerikler

Bir Araştırmayı Mahvedebilecek 10 Basit Veri Hatası

PDF’lerden Veri Çıkartmak için ChatGPT Kullanma Potansiyelinin Test Edilmesi!

Favori Araçlarım: Gazeteci Rafael Soares Rio Polisinin İşlediği Cinayetleri Nasıl Araştırıyor?

Matematiksel Hatalardan Kaçınmanın 4 Yolu

Şununla etiketlenen diğer hikayeleri okuyun:

Bu Yazıyı Yeniden Yayınla

Sonrakini Oku

Haber Yazım Araçları ve İpuçları Metodoloji

Bir Araştırmayı Mahvedebilecek 10 Basit Veri Hatası

Haber Yazım Araçları ve İpuçları

PDF’lerden Veri Çıkartmak için ChatGPT Kullanma Potansiyelinin Test Edilmesi!

Haber Yazım Araçları ve İpuçları

Favori Araçlarım: Gazeteci Rafael Soares Rio Polisinin İşlediği Cinayetleri Nasıl Araştırıyor?

Haber Yazım Araçları ve İpuçları

Matematiksel Hatalardan Kaçınmanın 4 Yolu