Hikayeler

•

Başlıklar

PDF’lerden Veri Çıkartmak için ChatGPT Kullanma Potansiyelinin Test Edilmesi!

Yazan Brandon Roberts • 28 Nisan 2023

Bu Yazıyı Oku

PDF’ler gibi tonlarca metin belgesini elektronik tablolara dönüştürüyorum. Bu sıkıcı ve pahalı bir iş. Bu yüzden ne zaman yeni bir yapay zeka teknolojisi ortaya çıksa, bu teknolojinin pek çok insanın PDF’yi teslim etmek, hesap tablosu istemek ve bir tane geri almak için istediği şeyi yapıp yapamayacağını merak ediyorum. OpenAI’nin ChatGPT’sine birkaç programlama problemi attıktan ve uygulanabilir bir sonuç aldıktan sonra, sonunda oraya varıp varmadığımızı merak ettim.

OpenAI’nin GPT-3’ünün yeni moda olduğu zamanlarda Montrealli gazeteci Roberto Rocha’nın benzer bir test denediğini görmüştüm. Sonuçlar harektsizdi ancak OpenAI’nin en yeni modeli olan ChatGPT, tabloyu daha uygun hale getiren birkaç iyileştirmeye sahip: GPT-3’ten 10 kat daha büyük ve sonuç olarak genellikle daha tutarlı, talimatları açıkça takip etmek için eğitildi ve programlama dillerini anlıyor.

ChatGPT’nin PDF’lerden yapılandırılmış verileri ne kadar iyi çıkarabildiğini test etmek için, iki belge setini elektronik tablolara dönüştürmek için bir Python betiği yazdım (sonunda paylaşacağım!):

New York veri ihlali bildirim formlarından oluşan 7.000 sayfalık bir PDF. Beş farklı form, kötü OCR ve araya karışmış bazı serbest biçimli mektuplar vardı.
Polis iç soruşturmalarından 1.400 not. Bunlar tamamen yapılandırılmamıştı ve e-postalar ile belge taramalarını içeriyordu. Çok dağınık.

Genel stratejim şuydu:

Mümkün olan en yüksek kaliteli araçları kullanarak OCR’yi yeniden yapın. Bu çok önemliydi çünkü ChatGPT kötü OCR edilmiş metinlerle çalışmayı reddediyordu.
Verileri elimden geldiğince temizledim, fiziksel düzeni korudum ve çöp karakterleri ve şablon metinleri kaldırdım.
Belgeleri tek tek kayıtlara ayırın.
ChatGPT’den her kaydı JSON’a dönüştürmesini isteyin.

Her iki veri setini tanımak ve tüm bu ön işlemleri yapmak için yaklaşık bir hafta harcadım. Bir kez yapıldıktan sonra, ChatGPT’nin bir metin parçasını JSON’a dönüştürmesini sağlamak gerçekten çok kolay. Bir kaydı yapıştırabilir ve “bunun JSON temsilini döndür” diyebilirsiniz ve o da bunu yapacaktır. Ancak bunu birden fazla kayıt için yapmak kötü bir fikirdir çünkü ChatGPT metinden rastgele seçilen alan adlarını kullanarak kendi şemasını oluşturacaktır. Ayrıca değerleri ayrıştırmak için kendi yoluna karar verecektir. Örneğin adresler bazen bir dize, bazen de bir JSON nesnesi ya da bir dizi olarak ortaya çıkacak ve adresin bileşenleri bölünecektir.

İstem tasarımı, tutarlı sonuçlar elde etmede en önemli faktördür ve dil seçimleriniz büyük bir fark yaratır. Bir ipucu: ChatGPT’nin bir göreve atıfta bulunurken hangi ifadeyi kullandığını bulun ve bunu taklit edin. (Bilmiyorsanız, her zaman şunu sorabilirsiniz: “_______ adresini kullanarak _____ adresini nasıl kullanacağınızı açıklayın.”)

ChatGPT kodu anladığı için, istemimi belirli bir JSON şemasına uygun JSON istemek üzere tasarladım. Bu benim istemimdi:

Resim: Ekran Görüntüsü, OpenNews:Source

Her yanıttan bir JSON nesnesi çıkarmaya ve buna karşı bazı doğrulama kontrolleri yapmaya çalıştım. İki kontrol özellikle önemliydi: 1) JSON’un eksiksiz olduğundan, kesilmediğinden veya bozulmadığından emin olmak ve 2) anahtarların ve değerlerin şemayla eşleştiğinden emin olmak. Doğrulama kontrolü başarısız olursa tekrar deniyordum ve genellikle ikinci veya üçüncü denemede geçerli JSON geri alıyordum. Başarısız olmaya devam ederse, bunu not eder ve kaydı atlardım. Bazı kayıtlar ChatGPT’nin hoşuna gitmiyor.

Sonuçlar

Etkileyici bir şekilde, ChatGPT çoğunlukla kullanılabilir bir veri seti oluşturdu. İlk bakışta, mükemmel bir şekilde ayıklanmış bir veri setine sahip olduğumu bile düşündüm. Ancak sayfaları inceleyip değerleri karşılaştırdığımda hatalar fark etmeye başladım. Bazı isimler yanlış yazılmıştı. Bazıları tamamen eksikti. Bazı sayılar yanlıştı.

Hatalar, ince ve nispeten seyrek olsa da, çoğu veri gazetecisinin yapmak istediği temel analizleri yapmamı engellemeye yetti. Ortalamalar, histogramlar, minimumlar ve maksimumlar yoktu.

Ancak benim projelerim için hatalar tolere edilebilirdi. İhlal edilen veri tabanındaki büyük oyuncuları bulmak istiyordum, bu yüzden bazı isimlerin yanlış olması ya da bazı sayısal değerlerin bir sıfır eksik olması umurumda değildi. Polis verileri için temelde belirli olayları ve ilgili kişileri tanımlayacak bir özet arıyordum. Eğer bir şeyi gözden kaçırırsam, sorun olmazdı.

Genel olarak, bunlar ChatGPT’nin ortaya çıkardığı hata türleridir:

ChatGPT verileri halüsinasyona uğrattı, yani bir şeyler uydurdu. İnce ve tespit edilmesi zor şekillerde genelde bu oldu. Örneğin, “2222 Colony Road, Moorcroft “u (“r “ye dikkat edin) “2222 Colony Road, Mooncroft “a dönüştürdü. “Mooncroft” (“n” ile) kelimesi metnin hiçbir yerinde geçmiyor. ChatGPT koloni ve ay kelimeleri arasında bir bağlantı kuruyor gibi görünüyordu. Ne kadar tuhaf.
İnsanların isimlerine takıldı ve cinsiyetlerini tahmin etti. Bazı formlarda bir “selamlama” alanı vardı, bu da ChatGPT’nin uygun olmadığında selamlama (“Bayan”, “Bay”) eklemesine ve verildiğinde bile (“Dr” ve “Prof”) atlamasına neden oluyor gibi görünüyordu. Ayrıca, bir kayıtta birden fazla isim göründüğünde doğru ismi kullanamadı ve en son geleni tercih etti.
ChatGPT önceki istemleri hatırlayarak karışıklıklara neden oldu. Bazen, mevcut kaydın metninde tamamen geçerli bir isim görünmesine rağmen, daha önceki bir kayıttaki bir ismi veya ticari varlığı kullanmıştır. Örneğin, bir kayıtta en son 150 ve 30 sayfa önce görülen bir avukatın ve hukuk firmasının isimlerini kullandı. Bu sorun beni isimlerin ve kuruluşların mevcut kayıtta gerçekten var olduğundan emin olmaya zorladı.
Yazım hatası olduğunu düşündüğü kelimeler “düzeltildi”. Bu genellikle yardımcı oluyordu ancak bazen bir hataya yol açıyordu. Bu durum özellikle e-posta adreslerinde sorun yaratıyordu.
Hatalar veride rastgele dağılmış gibi görünüyordu. Bazı sütunlar diğerlerinden daha fazla hata içerirken, tüm sütunlarda %1 ile %6 arasında değişen hata oranları vardı. Hatalar satırlar arasında da dağılmıştı. Tüm bunlar bir araya geldiğinde, tamamen geçerli bir veri seti elde etmek için her satırı her kayıtla karşılaştırmam gerektiği anlamına geliyordu ki bu da en başta kaçınmaya çalıştığım işin ta kendisiydi.

Büyük dil modelleriyle ilgili sorunlar şimdiye kadar çok iyi belgelenmiştir. ChatGPT’deki büyük ilerlemelere rağmen, bunlardan bazıları deneylerimde ortaya çıktı. Bu sorunları görmezden gelip ChatGPT’den türetilen çalışmaları doğrudan okuyuculara sunma girişimleri kaçınılmaz olarak feci başarısızlıklara yol açacaktır.

ChatGPT bazen bir belgeyle çalışmayı reddediyor ve basmakalıp bir yanıt veriyor. Her ikisi de kamuya açık belgeler olmasına rağmen, hem polis notlarında hem de New York veri ihlali veri kümelerinde “hassas bilgiler” ile ilgili endişelerle yanıt verdi.

Görüntü: Ekran görüntüsü, OpenNews Kaynağı

ChatGPT Veri Gazeteciliğinde Devrim Yaratacak mı?

Ben öyle düşünmüyorum, üç nedenden dolayı:

Hayır, teknik nedenlerden dolayı: OpenAI’nin API’si aracılığıyla ChatGPT ile çalışmak acı verici derecede yavaş. Sadece veri ihlali PDF’sinden yaklaşık 2.500 kayıt çıkarmak yaklaşık üç hafta sürdü. Bu projeye ChatGPT yaygınlaşmadan önce başladığım ve hız sınırlaması getirilmeden önce iki hafta boyunca kullanabildiğim düşünüldüğünde bu daha da önemli. Ayrıca API güvenilir değil ve sık sık kesinti ve kesintiler yaşanıyor, ancak bu durum gelecekte düzelebilir.
Hayır, ekonomik nedenlerden dolayı: ChatGPT ile bir tür el emeğini diğeriyle takas ettiğimize ikna oldum. Programlama ve transkripsiyonu temizlik, doğruluk kontrolü ve doğrulama ile takas ediyoruz. Herhangi bir satır potansiyel olarak yanlış olabileceğinden, güven oluşturmak için her alan kontrol edilmelidir. Sonuçta, çok fazla iş tasarrufu yaptığımıza ikna olmadım.
Hayır, editoryal nedenlerden dolayı: Veri halüsinasyonu ve diğer karışıklıklarla ilgili sorunlar, bence bu yaklaşımı şirket içi veya gazetecilere yönelik kullanımlarla sınırlıyor. Bir hikaye oluşturucudan daha iyi bir ipucu oluşturucu. ChatGPT’yi gazetecilik iş akışının sonuna koymak, daha fazla hız ve miktarı daha az güvenilirlikle değiş tokuş etme riski taşıyor.

Bu sorunların toplamı, ChatGPT’nin çoğu kullanımını, özellikle geniş ölçekte, editoryal olarak kullanışsız hale getiriyor. Ama bence hala yeri var. Küçük bir PDF’i tabloya dönüştürmesi gereken, kaynakları yetersiz küçük haber odaları için bu uygulanabilir olabilir (Hey ChatGPT, bu metni bir dizi JSON nesnesine dönüştürebilir misin?).

Ayrıca bazı PDF’ler o kadar dağınık ve düzensizdir ki, ayıklama komut dosyası yazmak çok zaman alır. Bunun gibi sorunlar nedeniyle sayısız projem öldü. ChatGPT bu tür projelere hayat verme potansiyeli sunuyor.

ChatGPT , hataların ve eksik değerlerin tolere edilebilir olduğu kullanım durumlarında veya haftalarca gerçek bir temizlik ve analize girmeden önce verilerin durumuna bakmak istediğiniz spekülatif durumlarda bir keşif aracı veya potansiyel oluşturucu olarak da hizmet edebilir.

Kendiniz Deneyin!

ChatGPT eklentisi betiğimi GitHub’da kullanıma sundum. Belki sorunlu bir veri projeniz vardır ve bunu kendiniz denemek istersiniz. Ya da belki de olasılıkları ve sınırlamaları yüz yüze görmek istersiniz. İçten içe birilerinin nihayet FCC TV ve kablolu yayın siyasi reklam ifşa veri setini kıracağını ve ProPublica’nın Free The Files projesinden bu yana açık kalan bölümü kapatacağını umuyorum.

Her iki durumda da, bu teknoloji hakkında haber yapacağımızı ve bu teknolojiyi bir süre daha kullanacağımızı hissediyorum. Herhangi bir teknolojiyi tanımanın en iyi yolu onu kullanmaktır.

Bu makale ilk olarak OpenNews: Source‘da yayınlanmış ve burada Creative Commons lisansı altında yeniden yayınlanmıştır.

Ek kaynaklar

Gazetecilikte Yapay Zeka Hakkında Bilmeniz Gereken 10 Şey

Gazetecilerin Hikâye Anlatımı İçin Yapay Zeka ve Uydu Görüntülerini Kullanma Kılavuzu

Aldatmacanın Ötesinde: Araştırmacı Gazetecilikte Yapay Zekayı Etkili Bir Şekilde Kullanmak

Brandon Roberts açık kaynak konusunda uzmanlaşmış ve hesaplama tekniklerini gazetecilik projelerine getiren bağımsız bir veri gazetecisidir.

Bu Çalışma Bir Lisans Altında Lisanslanmıştır Creative Commons Atıf-Türevi Olmayan 4.0 Uluslararası Lisansı

İçeriklerimizi bir Creative Commons Lisansı Altında Ücretsiz, Çevrim içi veya Basılı Olarak Yeniden Yayınlayın.

Şununla etiketlenen diğer hikayeleri okuyun:

AÇIK KAYNAK AI ChatGPT GIJNTÜRKÇE GitHub VERİ GAZETECİLİĞİ Veri Kazıma Yapay Zeka

Bu Yazıyı Yeniden Yayınla

Bu Çalışma Bir Lisans Altında Lisanslanmıştır Creative Commons Atıf-Türevi Olmayan 4.0 Uluslararası Lisansı

Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

<h2>PDF&rsquo;lerden Veri &Ccedil;&#305;kartmak i&ccedil;in ChatGPT Kullanma Potansiyelinin Test Edilmesi!</h2> Yazan <a href="https://source.opennews.org/people/brandon-roberts/">Brandon Roberts</a> for Global Investigative Journalism Network &bull; 28 Nisan 2023 &nbsp;PDF'ler gibi tonlarca metin belgesini elektronik tablolara d&ouml;n&uuml;&#351;t&uuml;r&uuml;yorum. Bu s&#305;k&#305;c&#305; ve pahal&#305; bir i&#351;. Bu y&uuml;zden ne zaman yeni bir yapay zeka teknolojisi ortaya &ccedil;&#305;ksa, bu teknolojinin pek &ccedil;ok insan&#305;n PDF'yi teslim etmek, hesap tablosu istemek ve bir tane geri almak i&ccedil;in istedi&#287;i &#351;eyi yap&#305;p yapamayaca&#287;&#305;n&#305; merak ediyorum. OpenAI'nin ChatGPT'sine birka&ccedil; programlama problemi att&#305;ktan ve uygulanabilir bir sonu&ccedil; ald&#305;ktan sonra, sonunda oraya var&#305;p varmad&#305;&#287;&#305;m&#305;z&#305; merak ettim.OpenAI'nin GPT-3'&uuml;n&uuml;n yeni moda oldu&#287;u zamanlarda Montrealli gazeteci Roberto Rocha'n&#305;n <a href="https://robertorocha.info/getting-tabular-data-from-unstructured-text-with-gpt-3-an-ongoing-experiment/">benzer bir test denedi&#287;ini g&ouml;rm&uuml;&#351;t&uuml;m. </a>Sonu&ccedil;lar harektsizdi ancak OpenAI'nin en yeni modeli olan ChatGPT, tabloyu daha uygun hale getiren birka&ccedil; iyile&#351;tirmeye sahip: GPT-3'ten 10 kat daha b&uuml;y&uuml;k ve sonu&ccedil; olarak genellikle daha tutarl&#305;, <a href="https://openai.com/blog/instruction-following/">talimatlar&#305; a&ccedil;&#305;k&ccedil;a takip etmek i&ccedil;in e&#287;itildi</a> ve programlama dillerini anl&#305;yor.ChatGPT'nin PDF'lerden yap&#305;land&#305;r&#305;lm&#305;&#351; verileri ne kadar iyi &ccedil;&#305;karabildi&#287;ini test etmek i&ccedil;in, iki belge setini elektronik tablolara d&ouml;n&uuml;&#351;t&uuml;rmek i&ccedil;in bir Python beti&#287;i yazd&#305;m (sonunda payla&#351;aca&#287;&#305;m!):<ul>
<li>New York veri ihlali bildirim formlar&#305;ndan olu&#351;an 7.000 sayfal&#305;k bir PDF. Be&#351; farkl&#305; form, k&ouml;t&uuml; OCR ve araya kar&#305;&#351;m&#305;&#351; baz&#305; serbest bi&ccedil;imli mektuplar vard&#305;.</li>
<li>Polis i&ccedil; soru&#351;turmalar&#305;ndan 1.400 not. Bunlar tamamen yap&#305;land&#305;r&#305;lmam&#305;&#351;t&#305; ve e-postalar ile belge taramalar&#305;n&#305; i&ccedil;eriyordu. &Ccedil;ok da&#287;&#305;n&#305;k.</li>
</ul>Genel stratejim &#351;uydu:<ol>
<li>M&uuml;mk&uuml;n olan <a href="https://github.com/freedmand/textra">en y&uuml;ksek kaliteli ara&ccedil;lar&#305;</a> kullanarak OCR'yi yeniden yap&#305;n. Bu &ccedil;ok &ouml;nemliydi &ccedil;&uuml;nk&uuml; ChatGPT k&ouml;t&uuml; OCR edilmi&#351; metinlerle &ccedil;al&#305;&#351;may&#305; reddediyordu.</li>
<li>Verileri elimden geldi&#287;ince temizledim, fiziksel d&uuml;zeni korudum ve &ccedil;&ouml;p karakterleri ve &#351;ablon metinleri kald&#305;rd&#305;m.</li>
<li>Belgeleri tek tek kay&#305;tlara ay&#305;r&#305;n.</li>
<li>ChatGPT'den her kayd&#305; JSON'a d&ouml;n&uuml;&#351;t&uuml;rmesini isteyin.</li>
</ol>Her iki veri setini tan&#305;mak ve t&uuml;m bu &ouml;n i&#351;lemleri yapmak i&ccedil;in yakla&#351;&#305;k bir hafta harcad&#305;m. Bir kez yap&#305;ld&#305;ktan sonra, ChatGPT'nin bir metin par&ccedil;as&#305;n&#305; JSON'a d&ouml;n&uuml;&#351;t&uuml;rmesini sa&#287;lamak ger&ccedil;ekten &ccedil;ok kolay. Bir kayd&#305; yap&#305;&#351;t&#305;rabilir ve "bunun JSON temsilini d&ouml;nd&uuml;r" diyebilirsiniz ve o da bunu yapacakt&#305;r. Ancak bunu birden fazla kay&#305;t i&ccedil;in yapmak k&ouml;t&uuml; bir fikirdir &ccedil;&uuml;nk&uuml; ChatGPT metinden rastgele se&ccedil;ilen alan adlar&#305;n&#305; kullanarak kendi &#351;emas&#305;n&#305; olu&#351;turacakt&#305;r. Ayr&#305;ca de&#287;erleri ayr&#305;&#351;t&#305;rmak i&ccedil;in kendi yoluna karar verecektir. &Ouml;rne&#287;in adresler bazen bir dize, bazen de bir JSON nesnesi ya da bir dizi olarak ortaya &ccedil;&#305;kacak ve adresin bile&#351;enleri b&ouml;l&uuml;necektir.<a href="https://github.com/dair-ai/Prompt-Engineering-Guide/blob/main/guides/prompts-intro.md">&#304;stem tasar&#305;m&#305;</a>, tutarl&#305; sonu&ccedil;lar elde etmede en &ouml;nemli fakt&ouml;rd&uuml;r ve dil se&ccedil;imleriniz b&uuml;y&uuml;k bir fark yarat&#305;r. Bir ipucu: ChatGPT'nin bir g&ouml;reve at&#305;fta bulunurken hangi ifadeyi kulland&#305;&#287;&#305;n&#305; bulun ve bunu taklit edin. (Bilmiyorsan&#305;z, her zaman &#351;unu sorabilirsiniz: "_______ adresini kullanarak _____ adresini nas&#305;l kullanaca&#287;&#305;n&#305;z&#305; a&ccedil;&#305;klay&#305;n.")ChatGPT kodu anlad&#305;&#287;&#305; i&ccedil;in, istemimi belirli bir <a href="https://json-schema.org/">JSON &#351;emas&#305;na </a>uygun JSON istemek &uuml;zere tasarlad&#305;m. Bu benim istemimdi:<a href="https://gijn.org/wp-content/uploads/2023/03/Screenshot-2023-03-28-at-18.14.33.png"><img class="alignnone size-full wp-image-629902" src="https://gijn.org/wp-content/uploads/2023/03/Screenshot-2023-03-28-at-18.14.33-1170x622.png" alt="" width="771" height="410"></a>Resim: Ekran G&ouml;r&uuml;nt&uuml;s&uuml;, OpenNews:SourceHer yan&#305;ttan bir JSON nesnesi &ccedil;&#305;karmaya ve buna kar&#351;&#305; baz&#305; do&#287;rulama kontrolleri yapmaya &ccedil;al&#305;&#351;t&#305;m. &#304;ki kontrol &ouml;zellikle &ouml;nemliydi: 1) JSON'un eksiksiz oldu&#287;undan, kesilmedi&#287;inden veya bozulmad&#305;&#287;&#305;ndan emin olmak ve 2) anahtarlar&#305;n ve de&#287;erlerin &#351;emayla e&#351;le&#351;ti&#287;inden emin olmak. Do&#287;rulama kontrol&uuml; ba&#351;ar&#305;s&#305;z olursa tekrar deniyordum ve genellikle ikinci veya &uuml;&ccedil;&uuml;nc&uuml; denemede ge&ccedil;erli JSON geri al&#305;yordum. Ba&#351;ar&#305;s&#305;z olmaya devam ederse, bunu not eder ve kayd&#305; atlard&#305;m. Baz&#305; kay&#305;tlar ChatGPT'nin ho&#351;una gitmiyor.Sonu&ccedil;larEtkileyici bir &#351;ekilde, ChatGPT &ccedil;o&#287;unlukla kullan&#305;labilir bir veri seti olu&#351;turdu. &#304;lk bak&#305;&#351;ta, m&uuml;kemmel bir &#351;ekilde ay&#305;klanm&#305;&#351; bir veri setine sahip oldu&#287;umu bile d&uuml;&#351;&uuml;nd&uuml;m. Ancak sayfalar&#305; inceleyip de&#287;erleri kar&#351;&#305;la&#351;t&#305;rd&#305;&#287;&#305;mda hatalar fark etmeye ba&#351;lad&#305;m. Baz&#305; isimler yanl&#305;&#351; yaz&#305;lm&#305;&#351;t&#305;. Baz&#305;lar&#305; tamamen eksikti. Baz&#305; say&#305;lar yanl&#305;&#351;t&#305;.Hatalar, ince ve nispeten seyrek olsa da, &ccedil;o&#287;u veri gazetecisinin yapmak istedi&#287;i temel analizleri yapmam&#305; engellemeye yetti. Ortalamalar, histogramlar, minimumlar ve maksimumlar yoktu.Ancak benim projelerim i&ccedil;in hatalar tolere edilebilirdi. &#304;hlal edilen veri taban&#305;ndaki b&uuml;y&uuml;k oyuncular&#305; bulmak istiyordum, bu y&uuml;zden baz&#305; isimlerin yanl&#305;&#351; olmas&#305; ya da baz&#305; say&#305;sal de&#287;erlerin bir s&#305;f&#305;r eksik olmas&#305; umurumda de&#287;ildi. Polis verileri i&ccedil;in temelde belirli olaylar&#305; ve ilgili ki&#351;ileri tan&#305;mlayacak bir &ouml;zet ar&#305;yordum. E&#287;er bir &#351;eyi g&ouml;zden ka&ccedil;&#305;r&#305;rsam, sorun olmazd&#305;.Genel olarak, bunlar ChatGPT'nin ortaya &ccedil;&#305;kard&#305;&#287;&#305; hata t&uuml;rleridir:<ul>
<li>ChatGPT verileri <a href="https://en.wikipedia.org/wiki/Hallucination_(artificial_intelligence)">hal&uuml;sinasyona</a> u&#287;ratt&#305;, yani bir &#351;eyler uydurdu. &#304;nce ve tespit edilmesi zor &#351;ekillerde genelde bu oldu. &Ouml;rne&#287;in, "2222 Colony Road, Moorcroft "u ("r "ye dikkat edin) "2222 Colony Road, Mooncroft "a d&ouml;n&uuml;&#351;t&uuml;rd&uuml;. "Mooncroft" ("n" ile) kelimesi metnin hi&ccedil;bir yerinde ge&ccedil;miyor. ChatGPT koloni ve ay kelimeleri aras&#305;nda bir ba&#287;lant&#305; kuruyor gibi g&ouml;r&uuml;n&uuml;yordu. Ne kadar tuhaf.</li>
<li>&#304;nsanlar&#305;n isimlerine tak&#305;ld&#305; ve cinsiyetlerini tahmin etti. Baz&#305; formlarda bir "selamlama" alan&#305; vard&#305;, bu da ChatGPT'nin uygun olmad&#305;&#287;&#305;nda selamlama ("Bayan", "Bay") eklemesine ve verildi&#287;inde bile ("Dr" ve "Prof") atlamas&#305;na neden oluyor gibi g&ouml;r&uuml;n&uuml;yordu. Ayr&#305;ca, bir kay&#305;tta birden fazla isim g&ouml;r&uuml;nd&uuml;&#287;&uuml;nde do&#287;ru ismi kullanamad&#305; ve en son geleni tercih etti.</li>
<li>ChatGPT &ouml;nceki istemleri hat&#305;rlayarak kar&#305;&#351;&#305;kl&#305;klara neden oldu. Bazen, mevcut kayd&#305;n metninde tamamen ge&ccedil;erli bir isim g&ouml;r&uuml;nmesine ra&#287;men, daha &ouml;nceki bir kay&#305;ttaki bir ismi veya ticari varl&#305;&#287;&#305; kullanm&#305;&#351;t&#305;r. &Ouml;rne&#287;in, bir kay&#305;tta en son 150 ve 30 sayfa &ouml;nce g&ouml;r&uuml;len bir avukat&#305;n ve hukuk firmas&#305;n&#305;n isimlerini kulland&#305;. Bu sorun beni isimlerin ve kurulu&#351;lar&#305;n mevcut kay&#305;tta ger&ccedil;ekten var oldu&#287;undan emin olmaya zorlad&#305;.</li>
<li>Yaz&#305;m hatas&#305; oldu&#287;unu d&uuml;&#351;&uuml;nd&uuml;&#287;&uuml; kelimeler "d&uuml;zeltildi". Bu genellikle yard&#305;mc&#305; oluyordu ancak bazen bir hataya yol a&ccedil;&#305;yordu. Bu durum &ouml;zellikle e-posta adreslerinde sorun yarat&#305;yordu.</li>
<li>Hatalar veride rastgele da&#287;&#305;lm&#305;&#351; gibi g&ouml;r&uuml;n&uuml;yordu. Baz&#305; s&uuml;tunlar di&#287;erlerinden daha fazla hata i&ccedil;erirken, t&uuml;m s&uuml;tunlarda %1 ile %6 aras&#305;nda de&#287;i&#351;en hata oranlar&#305; vard&#305;. Hatalar sat&#305;rlar aras&#305;nda da da&#287;&#305;lm&#305;&#351;t&#305;. T&uuml;m bunlar bir araya geldi&#287;inde, tamamen ge&ccedil;erli bir veri seti elde etmek i&ccedil;in her sat&#305;r&#305; her kay&#305;tla kar&#351;&#305;la&#351;t&#305;rmam gerekti&#287;i anlam&#305;na geliyordu ki bu da en ba&#351;ta ka&ccedil;&#305;nmaya &ccedil;al&#305;&#351;t&#305;&#287;&#305;m i&#351;in ta kendisiydi.</li>
</ul>B&uuml;y&uuml;k dil modelleriyle ilgili sorunlar &#351;imdiye kadar<a href="https://interaktiv.br.de/ai-generated-fact-boxes/"> &ccedil;ok iyi belgelenmi&#351;tir.&nbsp; </a>ChatGPT'deki b&uuml;y&uuml;k ilerlemelere ra&#287;men, bunlardan baz&#305;lar&#305; deneylerimde ortaya &ccedil;&#305;kt&#305;. Bu sorunlar&#305; g&ouml;rmezden gelip ChatGPT'den t&uuml;retilen &ccedil;al&#305;&#351;malar&#305; do&#287;rudan okuyuculara sunma giri&#351;imleri ka&ccedil;&#305;n&#305;lmaz olarak <a href="https://gizmodo.com/cnet-ai-chatgpt-news-robot-1849996151">feci ba&#351;ar&#305;s&#305;zl&#305;klara yol a&ccedil;acakt&#305;r.</a>ChatGPT bazen bir belgeyle &ccedil;al&#305;&#351;may&#305; reddediyor ve basmakal&#305;p bir yan&#305;t veriyor. Her ikisi de kamuya a&ccedil;&#305;k belgeler olmas&#305;na ra&#287;men, hem polis notlar&#305;nda hem de New York veri ihlali veri k&uuml;melerinde "hassas bilgiler" ile ilgili endi&#351;elerle yan&#305;t verdi.<a href="https://gijn.org/wp-content/uploads/2023/03/Screenshot-2023-03-28-at-18.16.57.png"><img class="alignnone size-full wp-image-629903" src="https://gijn.org/wp-content/uploads/2023/03/Screenshot-2023-03-28-at-18.16.57-1170x289.png" alt="" width="771" height="190"></a>G&ouml;r&uuml;nt&uuml;: Ekran g&ouml;r&uuml;nt&uuml;s&uuml;, OpenNews Kayna&#287;&#305;<h4>ChatGPT Veri Gazetecili&#287;inde Devrim Yaratacak m&#305;?</h4>Ben &ouml;yle d&uuml;&#351;&uuml;nm&uuml;yorum, &uuml;&ccedil; nedenden dolay&#305;:<ol>
<li>Hay&#305;r, teknik nedenlerden dolay&#305;: OpenAI'nin API'si arac&#305;l&#305;&#287;&#305;yla ChatGPT ile &ccedil;al&#305;&#351;mak ac&#305; verici derecede yava&#351;. Sadece veri ihlali PDF'sinden yakla&#351;&#305;k 2.500 kay&#305;t &ccedil;&#305;karmak yakla&#351;&#305;k &uuml;&ccedil; hafta s&uuml;rd&uuml;. Bu projeye ChatGPT yayg&#305;nla&#351;madan &ouml;nce ba&#351;lad&#305;&#287;&#305;m ve h&#305;z s&#305;n&#305;rlamas&#305; getirilmeden &ouml;nce iki hafta boyunca kullanabildi&#287;im d&uuml;&#351;&uuml;n&uuml;ld&uuml;&#287;&uuml;nde bu daha da &ouml;nemli. Ayr&#305;ca API g&uuml;venilir de&#287;il ve s&#305;k s&#305;k kesinti ve kesintiler ya&#351;an&#305;yor, ancak bu durum <a href="https://openai.com/blog/chatgpt-plus/">gelecekte d&uuml;zelebilir.</a></li>
<li>Hay&#305;r, ekonomik nedenlerden dolay&#305;: ChatGPT ile bir t&uuml;r el eme&#287;ini di&#287;eriyle takas etti&#287;imize ikna oldum. Programlama ve transkripsiyonu temizlik, do&#287;ruluk kontrol&uuml; ve do&#287;rulama ile takas ediyoruz. Herhangi bir sat&#305;r potansiyel olarak yanl&#305;&#351; olabilece&#287;inden, g&uuml;ven olu&#351;turmak i&ccedil;in her alan kontrol edilmelidir. Sonu&ccedil;ta, &ccedil;ok fazla i&#351; tasarrufu yapt&#305;&#287;&#305;m&#305;za ikna olmad&#305;m.</li>
<li>Hay&#305;r, editoryal nedenlerden dolay&#305;: Veri hal&uuml;sinasyonu ve di&#287;er kar&#305;&#351;&#305;kl&#305;klarla ilgili sorunlar, bence bu yakla&#351;&#305;m&#305; &#351;irket i&ccedil;i veya gazetecilere y&ouml;nelik kullan&#305;mlarla s&#305;n&#305;rl&#305;yor. Bir hikaye olu&#351;turucudan daha iyi bir ipucu olu&#351;turucu. ChatGPT'yi gazetecilik i&#351; ak&#305;&#351;&#305;n&#305;n sonuna koymak, daha fazla h&#305;z ve miktar&#305; daha az g&uuml;venilirlikle de&#287;i&#351; toku&#351; etme riski ta&#351;&#305;yor.</li>
</ol>&nbsp;Bu sorunlar&#305;n toplam&#305;, ChatGPT'nin &ccedil;o&#287;u kullan&#305;m&#305;n&#305;, &ouml;zellikle geni&#351; &ouml;l&ccedil;ekte, editoryal olarak kullan&#305;&#351;s&#305;z hale getiriyor. Ama bence hala yeri var. K&uuml;&ccedil;&uuml;k bir PDF'i tabloya d&ouml;n&uuml;&#351;t&uuml;rmesi gereken, kaynaklar&#305; yetersiz k&uuml;&ccedil;&uuml;k haber odalar&#305; i&ccedil;in bu uygulanabilir olabilir (Hey ChatGPT, bu metni bir dizi JSON nesnesine d&ouml;n&uuml;&#351;t&uuml;rebilir misin?).Ayr&#305;ca baz&#305; PDF'ler o kadar da&#287;&#305;n&#305;k ve d&uuml;zensizdir ki, ay&#305;klama komut dosyas&#305; yazmak &ccedil;ok zaman al&#305;r. Bunun gibi sorunlar nedeniyle say&#305;s&#305;z projem &ouml;ld&uuml;. ChatGPT bu t&uuml;r projelere hayat verme potansiyeli sunuyor.ChatGPT , hatalar&#305;n ve eksik de&#287;erlerin tolere edilebilir oldu&#287;u kullan&#305;m durumlar&#305;nda veya haftalarca ger&ccedil;ek bir temizlik ve analize girmeden &ouml;nce verilerin durumuna bakmak istedi&#287;iniz spek&uuml;latif durumlarda bir ke&#351;if arac&#305; veya potansiyel olu&#351;turucu olarak da hizmet edebilir.<h4>Kendiniz Deneyin!&nbsp;</h4>ChatGPT eklentisi beti&#287;imi <a href="https://github.com/brandonrobertz/chatgpt-document-extraction">GitHub'da kullan&#305;ma sundum.</a> Belki sorunlu bir veri projeniz vard&#305;r ve bunu kendiniz denemek istersiniz. Ya da belki de olas&#305;l&#305;klar&#305; ve s&#305;n&#305;rlamalar&#305; y&uuml;z y&uuml;ze g&ouml;rmek istersiniz. &#304;&ccedil;ten i&ccedil;e birilerinin nihayet <a href="https://publicfiles.fcc.gov/">FCC TV ve kablolu yay&#305;n siyasi reklam if&#351;a veri setini k&#305;raca&#287;&#305;n&#305; </a>ve ProPublica'n&#305;n <a href="https://projects.propublica.org/free-the-files/">Free The Files </a>projesinden bu yana <a href="https://wandb.ai/deepform/political-ad-extraction/benchmark">a&ccedil;&#305;k kalan </a>b&ouml;l&uuml;m&uuml; kapataca&#287;&#305;n&#305; umuyorum.Her iki durumda da, bu teknoloji hakk&#305;nda haber yapaca&#287;&#305;m&#305;z&#305; ve bu teknolojiyi bir s&uuml;re daha kullanaca&#287;&#305;m&#305;z&#305; hissediyorum. Herhangi bir teknolojiyi tan&#305;man&#305;n en iyi yolu onu kullanmakt&#305;r.https://www.youtube.com/watch?v=wsSqRv-y1r4Bu makale ilk olarak<a href="https://source.opennews.org/"> OpenNews: Source</a>'da <a href="https://source.opennews.org/articles/testing-pdf-data-extraction-chatgpt/">yay&#305;nlanm&#305;&#351;</a> ve burada Creative Commons lisans&#305; alt&#305;nda yeniden yay&#305;nlanm&#305;&#351;t&#305;r.<h4>Ek kaynaklar</h4><a href="https://gijn.org/2022/10/03/gazetecilikte-yapay-zeka-hakkinda-bilmeniz-gereken-10-sey/">Gazetecilikte Yapay Zeka Hakk&#305;nda Bilmeniz Gereken 10 &#350;ey</a><a href="https://gijn.org/2022/03/31/gazetecilerin-haberde-yapay-zeka-ve-uydu-goruntulerini-kullanma-kilavuzu/">Gazetecilerin Hik&acirc;ye Anlat&#305;m&#305; &#304;&ccedil;in Yapay Zeka ve Uydu G&ouml;r&uuml;nt&uuml;lerini Kullanma K&#305;lavuzu</a><a href="https://gijn.org/2019/09/09/beyond-the-hype-using-ai-effectively-in-investigative-journalism/">Aldatmacan&#305;n &Ouml;tesinde: Ara&#351;t&#305;rmac&#305; Gazetecilikte Yapay Zekay&#305; Etkili Bir &#350;ekilde Kullanmak</a><hr><img class="alignleft" src="https://gijn.org/wp-content/uploads/2023/03/Screenshot-2023-03-28-at-18.10.53-140x140.png"><a href="https://source.opennews.org/people/brandon-roberts/">Brandon Roberts</a> a&ccedil;&#305;k kaynak konusunda uzmanla&#351;m&#305;&#351; ve hesaplama tekniklerini gazetecilik projelerine getiren ba&#287;&#305;ms&#305;z bir veri gazetecisidir.
	This <a target="_blank" href="https://gijn.org/tr/hikayeler/pdflerden-veri-cikartmak-icin-chatgpt-kullanma-potansiyelinin-test-edilmesi/">article</a> first appeared on <a target="_blank" href="https://gijn.org">Global Investigative Journalism Network</a> and is republished here under a Creative Commons license.
	<img id="republication-tracker-tool-source" src="https://gijn.org/?republication-pixel=true&amp;post=657947&amp;ga=UA-21528033-17">

Sonrakini Oku

Haber Yazım Araçları ve İpuçları

GIJN’in 2025’in En İyi Araştırmacı Gazetecilik Araçları

Yazan Rowan Philp • 15 Aralık 2025

Kleptokrasinin ve bağımsız medyaya yönelik saldırıların arttığı bir yılda, araştırmacı gazeteciler kötü aktörleri hesap vermeye zorlamak için yeni veritabanları ve yenilikçi araçları kullandı.

Hands weaving and building technology. Image: Hanna Barakat & Archival Images of AI + AIxDESIGN / Better Images of AI / Used under a CC 4.0 license

Araştırma Haber Yazım Araçları ve İpuçları

Haber Merkezleri Haberleri Geliştirmek ve Güven Oluşturmak için Yapay Zeka Sohbet Robotlarını Nasıl Kullanıyor?

Yazan Rowan Philip • 1 Eylül 2025

Video Haber Yazım Araçları ve İpuçları

Araştırmacı Gazeteciler için Yapay Zeka Araçları ve Öneriler!

Yazan GIJN Türkçe • 21 Aralık 2024

17 Aralık 2024 salı günü Küresel Araştırmacı Gazetecilik Ağı (GIJN), “Araştırmacı Gazetecilikte Etkin Yapay Zekâ Kullanımı” konulu webinar düzenlendi. Oturumda yapay zekânın araştırmacı gazetecilikte rolüne, kullanılan yapay zekâ araçlarına, yapay zekâdan etkin şekilde yararlanan haber merkezlerine, yapay zekâ etik yaklaşımlara ve haber mezkerlerinin bu teknolojiyle ilişkisine yer verilldi.

GIJC23 Haber Yazım Araçları ve İpuçları Veri Gazeteciliği

Araştırmacı Gazetecilere Metin Analizinde Yol Gösterecek İpuçları

Yazan Patrick Egwu • 22 Aralık 2023

Araştırmacı gazeteciler genellikle büyük belgeleri veya metin halindeki verileri gözden geçirme ve birleştirme zorluğuyla karşı karşıya kalırlar. Bu çok yorucu ve yoğun emek gerektiren bir iştir.

Erişilebilirlik Ayarları

Yazı boyutu

Renk Seçenekleri

Okuma araçları

Diğer

Hikayeler

Başlıklar

PDF’lerden Veri Çıkartmak için ChatGPT Kullanma Potansiyelinin Test Edilmesi!

Bu Yazıyı Oku

ChatGPT Veri Gazeteciliğinde Devrim Yaratacak mı?

Kendiniz Deneyin!

Ek kaynaklar

Şununla etiketlenen diğer hikayeleri okuyun:

Bu Yazıyı Yeniden Yayınla

Sonrakini Oku

Haber Yazım Araçları ve İpuçları

GIJN’in 2025’in En İyi Araştırmacı Gazetecilik Araçları

Araştırma Haber Yazım Araçları ve İpuçları

Haber Merkezleri Haberleri Geliştirmek ve Güven Oluşturmak için Yapay Zeka Sohbet Robotlarını Nasıl Kullanıyor?

Video Haber Yazım Araçları ve İpuçları

Araştırmacı Gazeteciler için Yapay Zeka Araçları ve Öneriler!

GIJC23 Haber Yazım Araçları ve İpuçları Veri Gazeteciliği

Araştırmacı Gazetecilere Metin Analizinde Yol Gösterecek İpuçları

Hikayeler

Başlıklar

PDF’lerden Veri Çıkartmak için ChatGPT Kullanma Potansiyelinin Test Edilmesi!

Bu Yazıyı Oku

İlgili Kaynaklar

Araştırmacı Gazeteciler için Yapay Zeka Araçları ve Öneriler!

Giriş-Hükümetlerin İklim Değişikliği Taahhütlerinden Sorumlu Tutulmasına Yönelik Araştırma Rehberi

Çevresel Araştırmalar için Uzaktan Algılama ve Veri Araçları

Akıllı Telefondaki Görüntüleri Doğrulamanın Dört Hızlı Yolu

Paylaş

ChatGPT Veri Gazeteciliğinde Devrim Yaratacak mı?

Kendiniz Deneyin!

Ek kaynaklar

İlgili Kaynaklar

Araştırmacı Gazeteciler için Yapay Zeka Araçları ve Öneriler!

Giriş-Hükümetlerin İklim Değişikliği Taahhütlerinden Sorumlu Tutulmasına Yönelik Araştırma Rehberi

Çevresel Araştırmalar için Uzaktan Algılama ve Veri Araçları

Akıllı Telefondaki Görüntüleri Doğrulamanın Dört Hızlı Yolu

İlgili İçerikler

GIJN’in 2025’in En İyi Araştırmacı Gazetecilik Araçları

Haber Merkezleri Haberleri Geliştirmek ve Güven Oluşturmak için Yapay Zeka Sohbet Robotlarını Nasıl Kullanıyor?

Araştırmacı Gazeteciler için Yapay Zeka Araçları ve Öneriler!

Araştırmacı Gazetecilere Metin Analizinde Yol Gösterecek İpuçları

Şununla etiketlenen diğer hikayeleri okuyun:

Bu Yazıyı Yeniden Yayınla

Sonrakini Oku

Haber Yazım Araçları ve İpuçları

GIJN’in 2025’in En İyi Araştırmacı Gazetecilik Araçları

Araştırma Haber Yazım Araçları ve İpuçları

Haber Merkezleri Haberleri Geliştirmek ve Güven Oluşturmak için Yapay Zeka Sohbet Robotlarını Nasıl Kullanıyor?

Video Haber Yazım Araçları ve İpuçları

Araştırmacı Gazeteciler için Yapay Zeka Araçları ve Öneriler!

GIJC23 Haber Yazım Araçları ve İpuçları Veri Gazeteciliği

Araştırmacı Gazetecilere Metin Analizinde Yol Gösterecek İpuçları