Erişilebilirlik Ayarları

Yazı boyutu

Renk Seçenekleri

Tek renkli Sessiz renk Koyu

Okuma araçları

izolasyon Yönetici

Çoğu muhabir, araştırmalarıyla ilgili herhangi bir web sayfasındaki sağ tıklama menüsündeki “kopyala” ve farklı kaydet” işlevlerinin altındaki “öğeyi incele” seçeneğini asla fark etmez.

Ancak bu az kullanılan web inceleme aracının, bir sitenin kaynak kodundan çok sayıda gizli bilgiyi çıkarabileceği, grafiklerin arkasındaki ham verileri ortaya çıkarabileceği ve sözde kaydedilemeyecek görüntüleri ve videoları indirebileceği ortaya çıktı.

Bu aracın ve HTML temellerinin basit bir şekilde anlaşılması, muhabirlerin herhangi bir bilgisayar biliminde arka plana ihtiyaç duymadan herhangi bir web sayfasından veri çekmesine de yardımcı olabilir.

Araştırmacı Gazeteciler ve Editörler’in yıllık konferansı olan IRE21’de gazeteci ve eğitimci Samantha Sunne, kodlama deneyimi çok az olan veya hiç olmayan gazeteciler için iki basit araç kullanarak herhangi bir web sayfasından veri alma ve analiz etme konusunda ipuçları paylaştı: Web Denetçisi ve Google E-Tablolar.

Herhangi bir web sayfasından veri çıkarmak ve analiz etmek için bu araçları kullanmanın beş yolu:

1. Bağlantıları, fotoğrafları ve gömülü içeriği çıkarmak için bir web sitesinin kaynak kodunu “inceleyin”.

Her tarayıcı, Geliştirici Araçları veya Geliştirme sekmesinde Web Denetçisinin bir sürümünü sunar.

Sunne, “Tarayıcılar, web sayfasını oluşturan kod olan ‘kaynak kodunu’ okuyor ve bunu kullanıcıya gösteriyor,” diye açıklıyor.

Sunne’nin eğitim içeriklerini inceleyebilirsiniz ve farklı tarayıcılarda görünür yollarını ayrıntılarıyla anlayabilirsiniz. Örneğin Safari’de, incelemek istediğiniz sayfa alanına sağ tıklayıp “Öğeyi İncele”yi seçebilirsiniz. 

Bununla, web sayfasında gömülü olan herhangi bir köprüyü ve diğer materyallerin kaynağını bulabileceksiniz. Ayrıca, bir sayfadaki bir resmin veya öğenin işlevini veya içeriğini açıklamak için kullanılan alternatif metni ve gösterilen kişilerin adlarını, çekildiği konumu ve daha fazlasını içerebilecek resim açıklamalarını da okuyabilirsiniz.

Gömülü fotoğrafları (<img src=”url”>), bağlantıları (<a href=”url”>) ve diğer öğeleri tanımlayan kodu bulmak için bir HTML başvuru kılavuzuna başvurabilirsiniz .

2. Herhangi bir web sitesinden (hatta Instagram’dan) görüntüleri ve videoları kaydedin.

Sunne’e göre, “Alınması zor dosyalara ulaşmak, Web Denetçisini kullanmanın harika bir yoludur”.

Önemli avantajlardan biri, Instagram gibi web sitelerinden bile orijinal dosyaları almayı sağlamasıdır. Bu, aksi takdirde barındırdıkları fotoğrafları veya videoları kaydetmenizi engeller. 

Sadece üç kolay adım var bununla ilgili:

  • İndirmek istediğiniz fotoğrafa veya videoya sağ tıklayın ve “İncele”yi seçin. Videonun kaynak kodunu parantez içine alacak “<video>” etiketlerini arayan bir sayfa araması yapın (kontrol veya komut + F).

  • Web Denetçisi, kaynak kodunda “<video>” ifadesinin göründüğü tüm örnekleri otomatik olarak belirleyecektir. Ardından, “src=” ile başlayan kaynak bağlantıyı bulmak için vurgulanan bağlantıların üzerine gelin. Veya tüm resimleri/etiketleri gözden geçirin: Using the Web Inspector to download images





  • Son olarak, fotoğrafı veya videoyu ayrı bir tarayıcı sekmesinde açmak için kaynak bağlantıya tıklayın ve basit bir sağ tıklama ile indirin.

 

  • Yeni bir Google E-Tablosunda aşağıdaki formülü, çıkarılmasını istediğiniz öğeyle doldurun – bu durumda, “tablo”. Kazıdığınız sayfada sadece bir tablo varsa, ID 0 olacaktır; iki tane varsa, ikinci tablonun kimliği 1 olacaktır ve bu böyle devam eder.

       =İçe AktarHTML(“url”,“tablo”,”Kimlik”)

  • =ImportHTML formülünü girdiğinizde, Google E-Tablolar size formülün nasıl çalıştığına ve alabileceği veri türlerine ilişkin bir örnek ve açıklama sağlar.
Use Google Sheets to download data

 

 

  • Google E-Tablolar, e-tabloyu web sayfasından alınan verilerle otomatik olarak doldurur. Ardından verileri ihtiyaçlarınıza göre düzenleyebilir, filtreleyebilir ve görselleştirebilirsiniz.

Sunne, “Formül, ‘tablo’ HTML öğesini çekmek için kaynak kodu kullanıyor”. Programlamasız Kazıma eğitiminde daha fazla ayrıntıya giriyor .


4. Yalnızca belirli bir veri türünü ayıklayın

Bir tablonun veya sayfanın tüm verilerini indirmek araştırmanızda faydalı olabilir ancak bir sayfadaki tüm resimleri veya bir rapordaki kaynakların tüm bağlantılarını arıyorsanız ne olur?

Google E-Tablolar, =ImportXML(“url”,”xpath_query”) formülünü kullanarak bu tür kazımayı da gerçekleştirmenize olanak tanır  .

Sunne, “Bir XPATH, temelde bir sayfadaki bir miktar verinin adresi gibidir” diyor. Biçimlendirilmemiş olsa bile verileri web sayfasındaki düzgün bir tabloya almanıza olanak tanır.

Panelde Sunne, belirli bir ülke adını içeren tüm başlıkların silinmesi gibi yararlı XPATH örneklerine yer verdi.

Araştırma konunuzla ilgili ilginç içerikleri takip etmek istiyorsanız, bu formülü kullanarak herhangi bir haber sitesindeki URL’leri ve başlıkları da çıkarabilirsiniz:

=IMPORTXML(“url”,”//SINIF[içerir(”ülke”)]”)

=IMPORTXML(“ https://www.nytimes.com/section/world”,”//h2 “), sayfadaki tüm “h2” öğelerini Google E-Tablosuna çeker .

=IMPORTXML(“ https://www.nytimes.com/section/world”,”//h2[içerir(.,’Çin’) ]”) yalnızca “Çin” kelimesini içeren h2 öğelerini çeker .

Örneğin, The New York Times’ın dünya bölümünde “Çin” kelimesini içeren tüm manşetleri aşağıdakileri kullanarak taradık:

  • Aradığınız sınıfı (yani metin tipini) belirlemek için web sayfasını inceleyin (paragraf için (paragraf için “p”, başlık için “h1”, alt başlıklar için “h2”)…)
  • Aradığınız kelimeyi formüle girin (“ülke” yerini değiştirin)
  • Verilerin günde bir kez Google E-Tablolarınıza otomatik olarak yüklenmesini sağlayın!

5. Ücretsiz uygulamalar (koddan korkuyorsanız)

Tüm bunlar sizi biraz HTML öğrenmeye ikna etmediyse, yine de tarayıcı uzantılarını veya ücretsiz uygulamaları kullanmayı deneyebilirsiniz. Verilerin nasıl toplandığı ve biçimlendirildiği konusunda size daha az kontrol sağlarlar, ancak sizi kod satırları ve elektronik tablo formülleri yazma zahmetinden kurtarır.

Sunne’nin tavsiyeleri şunlar:

  • Parsehub : Etkileşimli içerik de dahil olmak üzere herhangi bir web sitesinden veri çekebilen (ve JavaScript veya AJAX kullanılarak kodlanmış sayfalardan veri ayıklayan) bir masaüstü uygulaması. Kullanıcı dostu arayüzü sayesinde kod
  • lama bilgisi gerektirmez ve verileri Excel ve JSON’a yüklemenin yanı sıra Google E-Tablolar ve Tableau analitik platformuna aktarmanıza olanak tanır .
  • Outwit :  Web kazıyıcılarına ek olarak, özel bir kazıyıcı oluşturma, kazımayı otomatikleştirme ve hatta sizin için verileri çıkarma hizmetleri sunar.
  • WebScraper : Kodla uğraşmak isteyenler için kolay bir tıkla WebScraper, web sitesinin yapısına ve çıkarmak istediğiniz veri noktalarına göre “site haritaları” oluşturabilir.

Ek kaynaklar


Smaranda Tolosano , GIJN için çevirileri ve ortaklıkları yönetir. Daha önce Fas’taki Thomson Reuters Vakfı için, hükümetin rejim muhaliflerini hedef almak için casus yazılım kullanmasını ve sosyal medyada feminist hareketlerin ortaya çıkışını ele almıştı.

Bu Çalışma Bir Lisans Altında Lisanslanmıştır Creative Commons Atıf-Türevi Olmayan 4.0 Uluslararası Lisansı

İçeriklerimizi bir Creative Commons Lisansı Altında Ücretsiz, Çevrim içi veya Basılı Olarak Yeniden Yayınlayın.

Bu Yazıyı Yeniden Yayınla

Bu Çalışma Bir Lisans Altında Lisanslanmıştır Creative Commons Atıf-Türevi Olmayan 4.0 Uluslararası Lisansı


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

Sonrakini Oku