Новые ИИ-инструменты, которые заслуживают вашего внимания. Изображение: Shutterstock
Новые инструменты на основе ИИ и больших языковых моделей для журналистов: Что нужно знать
ЧИТАЙТЕ ЭТУ СТАТЬЮ НА ДРУГИХ ЯЗЫКАХ
Инструменты генеративного ИИ часто считают «отравленной чашей» для журналистов: ответы больших языковых моделей (БЯМ или LLM — от англ. Large language model) могут быть необъективны или ненадёжны, а генераторы изображений вызывают серьёзные проблемы с этикой и авторскими правами – не считая печально известного неумения изображать человеческие пальцы и руки. Чат-боты с искусственным интеллектом вообще порой ведут себя странно, ведь, согласно последним исследованиям, если роботам посулить денежные поощрения или пригрозить «физической» расправой, то можно убедить их выдать результаты получше.
Тем не менее эксперты в области журналистики данных утверждают, что разумное и осторожное использование бесплатных или недорогих инструментов на основе искусственного интеллекта также может существенно помочь на начальном этапе расследовательских проектов и повысить эффективность работы с данными, изучения темы, обучения программированию, сэкономить средства и облегчить написание инфозапросов. В частности, надёжные инструменты ИИ, создающие программный код и формулы для электронных таблиц, уже позволяют дата-журналистам выделять больше времени на журналистику и меньше – на решение технических вопросов и программирование.
В ходе нескольких сессий об инструментах искусственного интеллекта на конференции по журналистике данных NICAR 2024 эксперты по данным задались более широким вопросом: «Зачем журналистам использовать ИИ?».
Почти одновременно с саммитом агентство Bloomberg опубликовало исследование двух участников конференции NICAR, которое показало проблемы с большими языковыми моделями: ChatGPT присваивал более низкие рейтинги одинаковым резюме, если имена соискателей были типичными для этнических меньшинств.
Джон Киган, дата-журналист-расследователь The Markup, говорит, что репортёрам и редакторам нужна систематичность в подходе к ИИ, чтобы воспользоваться его эффективностью, но при этом избежать проблем с точностью, предвзятостью и неэтичностью, и для этого нужно предпринять несколько основных шагов.
- Во-первых, разберитесь, как учатся и работают большие языковые модели. Начните с прочтения этой статьи Financial Times, которая, по словам Кигана, «нагляднее всего объясняет работу больших языковых моделей».
- Примите в редакции политику использования ИИ. GIJN вместе с другими ведущими новостными организациями присоединилась к Парижской хартии по искусственному интеллекту и журналистике, чтобы сформулировать ряд передовых практик для расследовательских редакций. Редакторам, которые ещё не определились с собственными правилами, Киган посоветовал ознакомиться с политикой Guardian, которая определяет, что ИИ будет использоваться «только там, где он способствует созданию и распространению оригинальной журналистики», или же с прозрачной и подробной политикой, предложенной журналом Wired.
- Чтобы не запутаться в многочисленных новых инструментах ИИ, выходящих каждую неделю, регулярно читайте технических экспертов. Джон рекомендует следить за блогом Саймона Уиллисона, который публикует советы и пояснения по теме, «и найти источник, который в курсе новых разработок, потому что они появляются очень быстро». Репортёры также могут следить за блогом What’s New на сайте Journalist’s Toolbox AI, где приводят обновлённые данные об инструментах и ресурсах ИИ, имеющих отношение к журналистике.
- Помните, что инструменты генеративного ИИ могут отнять работу у реальных людей, которых вы могли бы нанять. «Если у вас есть возможность поручить работу иллюстратору, а вы решили просто зайти в Midjourney и создать несколько картинок, вы лишаете кого-то работы», – предупреждает Киган. «И помните: авторы множества произведений искусства, на которых обучали такие программы, ничего за это не получили».
- Используйте инструменты ИИ на начальном этапе расследования, а не на этапе публикации, и проверяйте всё, что они генерируют.
«Эти инструменты не заменяют журналистику, но действительно могут ускорить вашу работу и увеличить масштаб проектов», – объясняет Киган. «Но некоторые из этих моделей демонстрируют шокирующие проблемы с этикой. Это очень странные инструменты – в один момент они потрясающие, а в другой – придумывают что-то до нелепости глупое или просто фантазируют».
На отдельной сессии «Инструменты, советы и приёмы на основе искусственного интеллекта, для расширения возможностей журналистики данных» четыре эксперта обсудили плюсы и минусы таких технологий для журналистов и представили короткий список инструментов, которые они могут рекомендовать.
Среди спикеров были Дарла Камерон, управляющая редакторка по визуальной журналистике в Texas Tribune; Джефф Харгартен, дата-журналист в Minneapolis Star Tribune; Джун Ким, журналистка-исследовательница в MIT Technology Review, и преподаватель журналистики данных Майк Рейли, основатель Journalist’s Toolbox.AI.
«Я с нетерпением жду, когда ИИ поможет нам масштабировать и решить некоторые серьёзные проблемы, связанные с дата-журналистикой», – говорит Кэмерон. Но мы постоянно слышим от технологических компаний: «Используйте вот такой-то инструмент ИИ; он поможет журналистам работать лучше». Кому как не нам, журналистам, решать, что лучше удовлетворит наши потребности. Давайте сначала определим их, а не будем слепо доверять поставщикам услуг, которые диктуют нам, что нам нужно».
Докладчики NICAR сошлись во мнении о том, каких вариантов использования ИИ следует избегать журналистам:
- Создание изображений или получение ранее опубликованных иллюстраций.
- Инструменты, предполагающие загрузку конфиденциальной и персонально идентифицирующей исходной информации.
- Любые выдержки из уже опубликованных материалов.
- Материалы на основе защищённых авторским правом работ.
- Задачи, с которыми уже хорошо справляются существующие журналистские инструменты – например, построение графиков с помощью искусственного интеллекта, если у вас уже есть Flourish или Datawrapper.
- Любое использование ИИ без упоминания об этом в материале.
По словам Рейли, один из способов снизить риск получения необъективных результатов – требовать ссылки на разнообразные и авторитетные источники в запросах к чат-ботам. «Попросите генератор изображений сгенерировать изображение заключённых, и он, как правило, покажет небелых людей; попросите большую языковую модель написать историю любви, и она напишет историю гетеросексуальной любви», – предупредил он. «Нужно спрашивать очень конкретно и в запросах требовать разнообразия и точности. Всё нужно разжёвывать».
Докладчики также привели множество примеров того, как чат-боты LLM и нишевые инструменты искусственного интеллекта помогли в их расследованиях – особенно в работе с программным кодом и поиске разрозненных источников данных.
«За 10 лет работы в области журналистики данных я бы сказал, что около 60% моего времени уходило на устранение неполадок и попытки найти программные решения для анализа данных, а некоторые из этих инструментов могут сделать такое за считанные секунды», – говорит Харгартен. «Я могу больше сосредоточиться на журналистском ремесле и меньше – на технической стороне».
Вот некоторые из ИИ-инструментов, которые рекомендовали участники дискуссии.
Rolli Information Tracer и Rolliapp
Инструменты Rolli, созданные журналистами для журналистов, используют технологию искусственного интеллекта для решения ключевых репортажных задач, обеспечивая при этом безопасность данных.
Новый сайт Rolli Information Tracer, созданный в сотрудничестве с лабораторией инноваций LEAP Международного центра журналистики, использует алгоритмы для отслеживания дезинформационных кампаний в социальных сетях. Сайт так описывает свой подход к выявлению координации: «Мы разрабатываем комплекс технических сигналов для выявления неаутентичного поведения в онлайн-кампаниях. Мы сотрудничаем с исследовательскими институтами и гуманитарными организациями, чтобы отслеживать дезинформационные нарративы по всему миру».
«Я в восторге от Rolli», – говорит Рейли. «Information Tracer отслеживает все виды распространителей дезинформации, что очень важно сейчас, в год выборов. Кроме того, добавляется технология, которая позволит проводить анализ вплоть до уровня учётной записи, где вы сможете увидеть, бот ли это и из какой страны он родом. Очень круто».
Он добавил: «Подпишитесь на бесплатный тарифный план «press pass» на год. Если сайт попросит ввести код, введите «JOURNOAI»».
Рейли говорит, что родственный инструмент, Rolliapp, предоставляет полезную базу данных для поиска экспертов и помогает репортёрам связаться с источниками в сжатые сроки.
GPT Excel
«Этот инструмент помогает писать формулы Excel», – объясняет Харгартен. «Он выдаёт самые сложные формулы, которые я видел, и на написание которых у меня ушли бы часы, если бы я попытался сделать это сам. Мне нравится, что работать с ним просто и не требуется большого количества запросов». В инструменте есть настройки для Airtable и Google Sheets». Он добавил: «Так можно обойти множество крайне нудных процедур по устранению неполадок, которые в противном случае замедлили бы масштабное расследование».
GitHub CoPilot
«Это инструмент искусственного интеллекта, который больше всего изменил мою жизнь», – продолжает Харгартен. «Можно попросить его выдать любой нужный программный код. Я использовал его для написания скрейперов на Python: просто ввёл URL-адрес, с которого я хочу всё собрать, и образец HTML-структуры страницы, – и он создаёт практически безупречный скрейпер, почти не требуя редактирования. Он также может устранять сложные проблемы с Mapbox».
Джефф добавил: «За ним стоит весь GitHub, и до сих пор инструмент справлялся с любой поставленной задачей».
Киган согласился: «GitHub Copilot – один из замечательных инструментов, который пригодится журналистам уже сегодня. Это отличный инструмент, который можно использовать по мере необходимости: открыли небольшое окно, ввели задачу, и он просто выдаёт вам код».
По словам докладчиков, использование этого инструмента также помогает журналистам освоить навыки программирования. Пробные версии GitHub Copilot бесплатны, затем стоимость составит 10 долларов США в месяц.
ChatGPT или Claude – или другая большая языковая модель, которая покажет себя лучше в конкретных задачах
«Когда я использую большую языковую модель со своими студентами дата-журналистики, я прошу их использовать три модели и сравнить их между собой, чтобы понять, какая из них лучше для данной задачи», – объясняет Рейли.
«Написание запросов для ChatGPT – своего рода искусство. Это действительно очень разнообразный инструмент, идеальный для одних задач, но ужасный в других», – говорит Харгартен. «В конечном итоге он может делать практически всё, что связано с языком. Я использую его для создания идеальных запросов на доступ к публичным документам в правильном формате, со ссылками на нормы закона и всё такое. Иногда он даже подписывается за меня и указывает мои контактные данные. Вот это уже напрягает».
Perplexity
Этот новый чат-интерфейс произвёл впечатление на опытных журналистов-расследователей во время NICAR 2024: отличный инструмент для ознакомления со сложными или незнакомыми темами. Он не предоставляет проверенные данные напрямую, а даёт краткие и в основном достоверные ответы на сложные вопросы, связанные с расследованиями, а также подбирает списки авторитетных источников и полезные предложения по последующим вопросам. В отличие от некоторых других инструментов искусственного интеллекта, по мнению пользователей, он стремится направить вас туда, куда вам нужно, а не туда, куда он хочет вас привести.
«Perplexity даёт возможность разобраться в сложных вопросах, со ссылками на источники и соответствующими уточнениями», – говорит Джереми Каплан, директор по преподаванию и обучению в Высшей школе журналистики Крейга Ньюмарка при CUNY. «Модель прекрасно оформлена – в ней приводятся очень конкретные примеры, и это очень полезный инструмент для того, чтобы быстро войти в курс дела».
Каплан добавил: «Что мне действительно нравится, так это то, что инструмент предлагает серию уточняющих вопросов. Вы постепенно получаете всё более глубокое понимание предмета, сохраняя при этом возможность проверки сведений на каждом этапе».
Llamafile – «локальный искусственный интеллект» для вашего ноутбука
Одна из основных проблем, связанных с коммерческими чат-ботами LLM, – это неуверенность в безопасности исходных данных при использовании этих облачных сервисов, а другая – отсутствие возможности личного контроля.
Настоящее технологическое чудо: Mozilla Innovation Project разработали решение с открытым исходным кодом, которое позволяет хранить LLM – что удивительно – полностью офлайн, на одном компьютере или USB-накопителе, под вашим непосредственным контролем.
В своём блоге эксперт по инструментам Саймон Уиллисон отметил, что Llamafile – это, по сути, «ваша собственная локальная копия ChatGPT».
«Это один двоичный файл, который вы можете загрузить и затем использовать вечно на (почти) любом компьютере», – написал он. «Вам не нужно подключение к сети. Запишите этот файл на USB-накопитель и спрячьте его в ящик стола как страховку от будущего апокалипсиса. Вы больше никогда не останетесь без языковой модели».
Киган сказал: «Этот инструмент создан на основе чужих наработок, но он позволяет вам иметь на компьютере один исполняемый файл, который представляет собой автономную языковую модель с чат-интерфейсом. Он не требует подключения к интернету».
Киган признался, что поначалу ему было трудно поверить, что на 4-гигабайтной флешке может храниться вычислительная мощность масштаба LLM, но это возможно благодаря сложным процессам векторизации, и что модель работает хорошо. «Используйте её, чтобы не переживать, кто обрабатывает вашу информацию».
Commons Project (только для США) – пример ИИ-инструмента, созданного журналистами
Несмотря на то, что действие нового инструмента Commons Project ограничено США, он показывает, как журналисты в большинстве стран могут использовать чат-интерфейсы ИИ для создания собственных инструментов анализа данных на крупных государственных порталах. В данном случае журналисты создали ИИ-инструмент для работы с обширным архивом государственных данных из США про общественное мнение относительно проектов нормативных актов. Он был создан Высшей школой журналистики Колумбийского университета совместно с Инженерной школой Стэнфорда.
«Это инструмент на основе GPT, который помогает журналистам анализировать комментарии общественности к федеральным нормативным актам, размещённым на сайте regulations.gov», – объясняет Ким. «Журналисту полезно знать, что люди говорят о новых решениях. Данные есть, но просеять 200 000 комментариев сложно. А этот инструмент поможет вам ответить на вопросы вроде «Какие организации больше всего комментируют новое постановление EPA о выбросах?».
Ким, которая занимается поддержкой этого инструмента, рассказала, что у неё раньше не было опыта разработки таких инструментов. По её словам, процесс создания системы выявил как возможности, так и удивительные ограничения помощников-языковых моделей, а также показал необходимость напрямую общаться с людьми, разрабатывающими коммерческие инструменты ИИ.
«Поговорите с разработчиками: «Как вы это сделали? Были ли проблемы?», – советует она. «До того, как мы создали свой собственный инструмент, мы не понимали, в чём именно заключаются недостатки крупных инструментов ИИ».
Кэмерон добавила: «В конечном итоге, чтобы журналисты чувствовали себя надёжно и уверенно с этими инструментами, не боясь нарушений авторского права, нам, журналистам, скорее всего, придётся создавать свои собственные пространства ИИ».
Этот перевод выполнен профессиональным переводчиком A.Talker и отредактирован редакторами GIJN.
Рован Филп – старший репортёр GIJN. Ранее работал в южноафриканской газете Sunday Times, где в качестве иностранного корреспондента он освещал новости, политику, коррупцию и конфликты в более чем двух десятках стран.