На конференції NICAR 2024 року експерти з даних обговорювали визначальне питання: коли і як ШІ доречно використовувати в редакції.

Історії

Теми

Нові інструменти на базі ШІ та великих мовних моделей для журналістів: що треба знати

Read this article in

Часто кажуть, що генеративні інструменти ШІ для журналістів — це «отруйна чаша». Відповіді великих мовних моделей (ВММ або LLM — від англ. Large language model) часто упереджені або ненадійні, а використання генераторів зображень викликає численні питання щодо етики й авторського права. Крім того, такі інструменти недосконало зображують пальці та руки людини. Чат-боти на базі штучного інтелекту поводяться досить дивно: згідно з останніми дослідженнями, пошукові запити, у яких обіцяють гроші або погрожують «фізичною» розправою, здатні переконати робота видати кращий результат.

Проте експерти з журналістики даних стверджують: розумне та обережне використання безкоштовних або недорогих інструментів штучного інтелекту може неабияк допомогти на початковому етапі розслідувальних проєктів, підвищити ефективність роботи з даними, підготувати інформаційну довідку на задану тему, допомогти опанувати програмування, заощадити кошти чи оформити інформаційний запит. Зокрема, на думку експертів, надійні інструменти на базі штучного інтелекту, які створюють програмний код і формули для електронних таблиць, уже дозволяють журналістам присвячувати більше часу власне журналістиці, а не програмуванню й вирішенню технічних питань.

Протягом кількох сесій, присвячених інструментам штучного інтелекту на конференції з журналістики даних NICAR 2024, експерти з даних обговорювали визначальне питання: «Навіщо журналістам використовувати ШІ?»

Протягом тижня, поки тривав саміт, у Bloomberg вийшло дослідження, у якому двоє учасників NICAR проілюстрували деякі проблеми з великими мовними моделями. Зокрема, вони показали, що ChatGPT, оцінюючи однакові резюме, ставив нижчу оцінку, якщо ім’я вказувало на приналежність кандидата до національної меншини.

Джон Кіган, дата-журналіст Markup, підкреслив: журналісти й редактори повинні підходити до штучного інтелекту системно — це дозволить підвищити ефективність роботи й водночас уникнути численних пасток, пов’язаних із точністю, упередженістю та етикою. Такий системний підхід передбачає кілька базових кроків.

  • По-перше, вам варто розібратися, як саме великі мовні моделі навчаються та працюють. Для початку, прочитайте статтю Financial Times, яку Кіган називає «найкращим наочним поясненням принципу роботи великих мовних моделей».
  • Прийміть і доведіть до відома працівників політику використання штучного інтелекту в редакції. GIJN та інші провідні журналістські організації підписали Паризьку хартію про ШІ та журналістику, у якій визначили набір найкращих практик для редакцій, що займаються розслідуваннями. Редакторам, які ще не визначилися щодо правил, Кіган пропонує ознайомитися з політикою Guardian, згідно з якою штучний інтелект можна застосовувати «лише за умови, що це служить створенню й розповсюдженню оригінальних журналістських матеріалів»; він також радить досить прозору й детальну політику журналу Wired.
  • Щоб не заплутатися в численних новинках з галузі штучного інтелекту, які з’являються мало не щотижня, варто дослухатися до думки технічних експертів. Кіган радить читати блог Саймона Віллісона, котрий публікує статті-роз’яснення, практичні вказівки та застереження, і «знайти людину, яка триматиме вас у курсі останніх розробок, бо вони з’являються дуже швидко». Журналісти також можуть стежити за блогом What’s New на Journalist’s Toolbox AI, де публікують інформацію про найсвіжіші інструменти й ресурси ШІ, що є актуальними для журналістики.
  • Майте на увазі, що інструменти генеративного штучного інтелекту іноді можуть залишати без роботи реальних людей. «Якщо у вас є можливість оплатити роботу ілюстратора, але натомість ви приймаєте рішення просто згенерувати картинку у Midjourney, то хтось залишається без роботи, — попереджує Кіган. — І пам’ятайте: автори численних творів мистецтва, на яких навчали такі програми, нічого за це не отримали».
  • Застосовуйте інструменти штучного інтелекту на початку розслідування, а не на етапі публікації, і перевіряйте всі результати їхньої роботи.

«Ці інструменти не замінять журналістику, але вони дадуть вам можливість ставити перед собою амбітніші завдання й утілювати проєкти швидше, — пояснює Кіган. — Утім, етичні недопрацювання деяких із цих моделей просто вражають. Це дуже дивні інструменти: буває, вони видають прекрасний результат, а вже наступної миті — якусь дурницю або просто вигадку».

Під час окремої сесії на тему «Інструменти, підказки та прийоми на базі штучного інтелекту для розширення можливостей журналістики даних» четверо експертів обговорили плюси та мінуси цієї технології для журналістів і поділилися коротким переліком інструментів, які вважають гідними рекомендації.

Серед доповідачів були: Дарла Камерон, головна редакторка візуальної журналістики Texas Tribune; Джефф Гаргартен, дата-журналіст Minneapolis Star Tribune; Джун Кім, журналістка MIT Technology Review, і викладач журналістики даних Майк Рейлі, засновник Journalist’s Toolbox.AI.

Journalist’s Toolbox.AI. Зображення: слайд-шоу, надане NICAR

«Я в захваті від того, як штучний інтелект допомагає масштабувати роботу та розв’язувати досить значні проблеми, з якими ми стикаємося в журналістиці даних, — говорить Камерон. — Ми постійно чуємо заклики технологічних компаній — мовляв, користуйтеся новим ШІ-інструментом, і ваша робота вийде на новий рівень. Але про потреби журналістів найкраще говорити самим журналістам. Нам варто визначитися, у чому ці потреби полягають, а не просто приймати на віру слова розробників».

Доповідачі NICAR дійшли згоди щодо ряду випадків, коли журналістам слід уникати використання ШІ:

  • створення зображень або отримання раніше опублікованих ілюстрацій;
  • інструменти, які передбачають завантаження конфіденційної та особистої інформації джерел;
  • використання будь-яких формулювань із уже опублікованих матеріалів;
  • матеріали, що паразитують на роботі, захищеній авторським правом;
  • завдання, з якими здатні добре впоратися вже наявні інструменти для журналістів, наприклад, використання інструментів штучного інтелекту для створення діаграм, якщо ви вже користуєтеся Flourish або Datawrapper;
  • будь-яке використання ШІ без вказівки на його використання в матеріалі.

За словами Рейлі, один зі способів знизити ймовірність упередженого результату — вимагати різноманітності та авторитетних джерел у запитах до чат-ботів ШІ.

«Якщо просто попросити генератор зображень створити зображення в’язнів, то зазвичай в’язні будуть не білошкірі; якщо великій мовній моделі дати завдання написати історію про кохання, то вийде історія про гетеросексуалів, — попереджає він. — У запитах до штучного інтелекту треба бути максимально конкретними, вимагати різноманітності й точності. Не скупіться на деталі у поясненнях».

Доповідачі також наводили численні приклади того, як чат-боти на базі великих мовних моделей і нішеві інструменти ШІ допомогли їхнім розслідуванням — особливо в питаннях роботи з кодом і отримання інформації з розрізнених джерел.

«Можу сказати, що за 10 років у журналістиці даних я витратив щонайменше 60% часу на усунення несправностей і спроби розібратися в інструментах для написання коду та аналізу даних; деякі з цих завдань запропоновані інструменти здатні виконати за лічені секунди, — говорить Гаргартен. — Я можу більше зосередитися на журналістській справі й приділяти менше уваги технічним деталям».

Ось деякі з інструментів ШІ, які рекомендували учасники дискусії.

Rolli Information Tracer і Rolliapp

Інструменти Rolli, створені журналістами для журналістів, застосовують технологію штучного інтелекту для вирішення ключових журналістських завдань, зберігаючи дані проєкту в безпеці.

Новий інструмент Rolli Information Tracer, створений у співпраці з лабораторією LEAP Innovation Lab Міжнародного центру журналістів, за допомогою алгоритмів відстежує кампанії дезінформації в соціальних мережах. Автори сайту описують свій підхід до виявлення скоординованих дій у такий спосіб: «Ми розробляємо набір технічних сигналів для виявлення неавтентичної поведінки, що стоїть за онлайн-кампаніями. Для відстеження поширення дезінформації ми співпрацюємо з дослідницькими установами та гуманітарними організаціями з усього світу».

«Я в щирому захваті від Rolli, — каже Рейлі. — Information Tracer відстежує усіх розповсюджувачів дезінформації, що дуже важливо зараз, у рік великих виборів. Завдяки певним технічним рішенням, він видає аналітику аж до рівня конкретного облікового запису — ви зможете побачити, з якої країни користувач і чи є він ботом. Це дуже круто».

Він додає: «Оберіть безкоштовний річний план «Press pass»». Якщо потрібно буде ввести код, введіть «JOURNOAI»».

Рейлі розповів про ще один інструмент Rolli — Rolliapp, що надає доступ до корисної бази даних, допомагаючи журналістам знайти експертні джерела в стислий термін.

Інструмент ШІ Rolliapp. Зображення: слайд-шоу, надане NICAR

GPT Excel

«Цей інструмент призначений для створення формул в Excel, — пояснює Гаргартен. — Завдяки йому я миттю отримав чи не найскладніші формули, якими будь-коли користувався; якби я спробував написати їх сам, на це пішла б не одна година. Мені подобається, що інструмент досить простий і не вимагає детальних запитів. Він також має налаштування для Airtable і Google Sheets». Гаргартен додає: «Це дозволяє уникнути значної частини неприємної роботи з пошуку помилок у формулах. Якби її доводилося робити самотужки, це сповільнювало б процес розслідування».

GitHub CoPilot

«Це інструмент штучного інтелекту, який змінив моє життя найбільше, — продовжує Гаргартен. — Правильно сформулюйте запит — і він згенерує для вас будь-який програмний код. Я користувався ним для створення скрейпера на Python: просто вписував URL-адресу, за якою хотів здійснити скрейпінг, додавав зразок HTML-структури сторінки — і одразу отримував майже ідеальний скрейпер, що практично не вимагав редагування. Інструмент також допомагає вирішувати складні проблеми з Mapbox».

Гаргартен додає: «Інструмент спирається на весь GitHub, і поки жодне з моїх завдань не поставило його в глухий кут».

Кіган погоджується: «GitHub CoPilot — це один із чудових інструментів, якими журналісти можуть починати користуватися вже сьогодні. Це зручний вбудований інструмент: просто відкриваєте маленьке віконце, вводите запит — і отримуєте код».

На думку доповідачів, застосування цього інструменту також допомагає журналістам навчитися програмувати. Пробна версія GitHub CoPilot безкоштовна, а платні тарифи коштують від 10 доларів США на місяць.

ШІ-інструмент GitHub CoPilot. Зображення: слайд-шоу, надане NICAR

ChatGPT або Claude — чи будь-яка інша велика мовна модель, що краще підходить для введення інформації

«Щоразу, коли ми зі студентами дата-журналістики вивчаємо великі мовні моделі, я пропоную їм скористатися трьома й порівняти їхні результати, щоб зрозуміти яка з ВММ ліпша для даного завдання», — пояснює Рейлі.

«Правильно формулювати запити до ChatGPT — це ціле мистецтво. Поза сумнівом, це багатопрофільний інструмент; одні завдання він виконує краще, інші — гірше, — говорить Гаргартен. — Загалом можна сказати, що він здатен виконати мало не будь-яке завдання, пов’язане з мовою. Я користуюся ним для створення ідеальних запитів на отримання публічної інформації — у належному форматі, з правильними посиланнями на законодавство, з усім, що треба. Часом він навіть одразу підписує їх моїм іменем і додає мої контактні дані. Тоді аж лячно стає».

Perplexity 

Цей новий чат приємно здивував досвідчених журналістів-розслідувачів на NICAR 2024 як чудовий інструмент для отримання інформаційних довідок щодо складних або незнайомих тем. Він не є прямим джерелом перевірених даних, але надає стислі й переважно надійні відповіді на складні запитання розслідувачів, а також складає списки авторитетних джерел і пропонує корисні питання для подальшої роботи. Як зазначають перші користувачі, на відміну від деяких інших інструментів ШІ, цей інструмент допомагає копати глибше — він веде вас туди, куди вам треба, а не туди, куди йому хочеться.

«Perplexity дає відповіді на складні питання, супроводжуючи їх цитатами й змістовними подальшими питаннями, — говорить Джеремі Каплан, директор з викладання та навчання Вищої школи журналістики Крейга Ньюмарка CUNY. — Інформація гарно викладена й проілюстрована конкретними прикладами. Це дуже корисний інструмент для швидкого занурення в тему».

Каплан додає: «Мені найбільше подобається, що інструмент пропонує низку запитань, які допоможуть продовжити пошуки. Ви поступово все глибше розумієте тему, й на кожному етапі можете перевірити отриману інформацію».

Llamafile — «локальний ШІ» для вашого ноутбука

Одна з основних проблем із комерційними чат-ботами на базі великих мовних моделей — непевність у безпеці вихідних даних, які потрібно передати хмарному сервісу; ще одна проблема — відсутність особистого контролю.

Розробники проєкту Mozilla Innovation Project пропонують справжнє технологічне диво: рішення з відкритим кодом, що реалізує повністю офлайнову версію великої мовної моделі, яка працює на одному комп’ютері, можливо навіть з USB-накопичувача, під вашим безпосереднім контролем.

Як пише оглядач Саймон Віллісон у власному блозі, Llamafile, по суті, є «вашою локальною копією ChatGPT».

«Це єдиний бінарний файл, який можна завантажити і користуватися ним скільки завгодно на (майже) будь-якому комп’ютері, — пише він. — Вам не потрібне підключення до мережі. Запишіть цей файл на USB-накопичувач і тримайте в шухляді на випадок апокаліпсису. Ви більше ніколи не залишитесь без мовної моделі».

Кіган каже: «Цей інструмент збудовано з використанням праці інших людей, але він дає можливість отримати незалежну велику мовну модель з інтерфейсом чату, запустивши робочий файл у себе на комп’ютері. Для цього взагалі не потрібне підключення до Інтернету».

Кіган зізнається, що спершу не вірив, що флешки розміром 4 Гб достатньо для реалізації мовної моделі. Як виявилося, інструмент працює добре — серед іншого, завдяки складним процесам на кшталт векторизації: «Можете користуватися ним заради більшої інформаційної безпеки».

Commons Project (лише для США) — приклад інструменту ШІ, створеного журналістами

Хоча новий інструмент Commons Project доступний для використання тільки у США, він показує, як дата-журналісти з різних країн можуть користуватися інтерфейсами ШІ-чатів для створення власних інструментів аналізу даних з великих урядових веб-сайтів. У цьому випадку журналісти створили інструмент штучного інтелекту для пошуку за величезним архівом коментарів американців щодо урядових постанов. Інструмент з’явився в результаті співпраці Вищої школи журналістики Колумбійського університету та Стенфордської інженерної школи.

«Це інструмент на базі GPT, який допомагає журналістам аналізувати публічні коментарі щодо федеральних нормативно-правових актів, опублікованих на regulations.gov, — пояснює Кім. — Якщо ви журналіст, то вам цікаво, що люди говорять про нові нормативно-правові акти. Дані є, але непросто щось знайти серед 200 000 коментарів. Цей інструмент допоможе вам відповісти на запитання на зразок: «Які організації найактивніше коментують нові правила щодо викидів, прийняті EPA?»

Кім — а саме вона займається підтримкою цього інструменту — розповідає, що попереднього досвіду розробки в неї не було. За її словами, процес побудови системи показав їй як сильні сторони, так і несподівані обмеження помічників, збудованих на великих мовних моделях, а також необхідність безпосереднього спілкування з людьми, які розробляють комерційні інструменти ШІ.

Інструмент ШІ Commons Project. Зображення: слайд-шоу, надане NICAR

«Поговоріть з розробниками: «Як ви це зробили? Які виникали проблеми?», — радить Кім. —Лише створивши власний інструмент, ми зрозуміли, у чому саме великі інструменти ШІ недосконалі».

Камерон додає: «А загалом, щоб користуватися такими інструментами з повною впевненістю, що вони не видадуть нам матеріал, захищений авторським правом, нам, журналістам, найімовірніше, треба буде створювати власні рішення на базі ШІ».


Rowan Philp, senior reporter, GIJNРован Філп — Рован Філп – старший репортер GIJN. Раніше працював у південноафриканській газеті Sunday Times, де в якості іноземного кореспондента він висвітлював новини, політику, корупцію та конфлікти у більш ніж двох десятках країн.

Republish our articles for free, online or in print, under a Creative Commons license.

Republish this article


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

Читати далі

Журналістика даних Поради та інструменти

10 типових помилок у журналістиці даних

На конференції NICAR репортер GIJN розпитав спікерів та учасників про прогалини в журналістиці даних, теми, що часто залишаються в тіні, і навички, яких бракує редакціям.

конфіденційність, приватність, безпека журналіста

Поради та інструменти

Інструментарій GIJN: спробуйте нові безкоштовні інструменти для онлайн-розслідувань

Передові й безплатні онлайн-інструменти для перевірки фактів і зображеннь, захисту від шкідливого програмного забезпечення, та підготовки інформаційних довідок на задану тему, якими ділилися з учасниками конференції NICAR 2024 року.

Поради Путівник Ресурс Розділ

Найновіші інструменти для розслідувань в Telegram

Журналістка-розслідувачка й дослідниця дезінформації Джейн Литвиненко пропонує досконало опанувати навички пошуку та аналізу даних у Telegram, використовуючи постійно оновлюваний список інструментів і пошукових систем.

Поради Ресурс

Поради з використання сервісу Wayback Machine від Internet Archive у вашому наступному розслідуванні

Інтернет-архів — це безцінне джерело для журналістів, некомерційна бібліотека, найбільш відома завдяки Wayback Machine. Стартувавши 25 років тому, тепер вона архівує більшу частину публічної мережі інтернет зі швидкістю понад 1 мільярд архівних URL-адрес на день.