Введение

Проверка фактов — важнейшая задача для проверки точности и достоверности информации, особенно в эпоху социальных сетей и фейковых новостей. Однако проверка фактов также является сложной задачей, требующей сложных рассуждений и внешних знаний. Как мы можем использовать возможности обработки естественного языка (НЛП) и искусственного интеллекта (ИИ), чтобы автоматизировать проверку фактов и сделать ее более эффективной и масштабируемой?

FactLLaMA — это модель, разработанная исследователями факультета электротехники и электроники Гонконгского политехнического университета, Коулун, Гонконг. Модель была разработана с целью оптимизации языковых моделей, следующих за инструкциями, с использованием внешних знаний для автоматической проверки фактов. Мотивом разработки FactLLaMA было устранение ограничений существующих языковых моделей с следованием инструкциям (IFLM) для проверки фактов. IFLM — это модели, которые могут следовать инструкциям на естественном языке для выполнения различных задач, таких как ответы на вопросы, составление сводок или проверка фактов. Однако IFLM часто не хватает внешних знаний и при принятии решений полагаются на поверхностную эвристику. Например, IFLM может проверить факт, просто сопоставив ключевые слова или фразы в инструкции и входном тексте, не понимая значения или контекста информации.

Что такое FactLLaMA?

FactLLaMA — это модель, которая использует внешние знания для оптимизации языковых моделей, следующих инструкциям, для автоматической проверки фактов. Модель предназначена для повышения точности проверки фактов за счет включения внешних знаний в прогнозы языковой модели.

Основные характеристики FactLLaMA

FactLLaMA имеет несколько ключевых особенностей, которые делают ее новой и эффективной моделью автоматической проверки фактов. Некоторые из этих особенностей:

  • Следование инструкциям: FactLLaMA может следовать инструкциям на естественном языке для выполнения задач по проверке фактов. Это делает его более гибким и удобным для пользователя, чем модели, требующие фиксированных или предопределенных форматов или шаблонов для ввода или вывода.
  • Внешние знания: FactLLaMA может использовать внешние знания из фактических утверждений, извлеченных из надежных источников. Это делает его более информативным и надежным, чем модели, основанные только на поверхностной эвристике или внутренних знаниях.
  • Адаптивное внимание: FactLLaMA может адаптивно реагировать на различные типы внешних знаний на основе инструкций и входного текста. Это делает его более внимательным и избирательным, чем модели, использующие равномерные или фиксированные механизмы внимания.
  • Вердикт и объяснение: FactLLaMA может выводить вердикт (например, «Верно» или «Ложно») и объяснение (например, «Согласно Википедии…») для каждой задачи проверки фактов. Это делает его более информативным и прозрачным, чем модели, которые выводят только вердикт или только объяснение.

Возможности/пример использования FactLLaMA

FactLLaMA имеет множество возможностей и вариантов использования для автоматической проверки фактов. Некоторые из них:

  • Проверка фактов в социальных сетях: FactLLaMA может проверять факты из публикаций в социальных сетях, таких как твиты, публикации в Facebook или подписи в Instagram. Например, при наличии инструкции типа «Проверьте, написал ли Илон Маск в Твиттере, что он пожертвует 6 миллиардов долларов на борьбу с голодом во всем мире» и входного текста типа «Илон Маск написал в Твиттере 2 ноября 2023 года: «Если ВПП сможет описать в этой ветке Твиттера, как именно 6 миллиардов долларов решат проблему голода в мире, я продам акции Tesla прямо сейчас и сделаю это». FactLLaMA может выдать вердикт типа «Ложь» и объяснение типа «По словам Сноупса, Илон Маск не писал в Твиттере, что пожертвует 6 миллиардов долларов». покончить с голодом в мире, а скорее бросил вызов Всемирной продовольственной программе (ВПП), чтобы доказать, как 6 миллиардов долларов могут решить проблему голода в мире».
  • Проверка фактов в новостных статьях: FactLLaMA может проверять факты из новостных статей, такие как заголовки, резюме или цитаты. Например, при наличии такой инструкции, как «Проверьте, верен ли заголовок «Китай запускает первый в мире квантовый спутник»» и входного текста типа «Китай запускает первый в мире квантовый спутник», FactLLaMA может вывести вердикт типа «Верно» и объяснение типа «Верно» «По данным BBC News, в августе 2016 года Китай запустил первый в мире квантовый спутник, целью которого является установление защищенной от взлома связи между космосом и землей».
  • Проверка фактов на веб-страницах. FactLLaMA может проверять факты с веб-страниц, например статей в Википедии, обзоров продуктов или личных блогов. Например, при наличии инструкции типа «Проверьте, является ли статья в Википедии «Список самых кассовых фильмов» точной» и входного текста типа «Ниже приведен список самых кассовых фильмов всех времен, ранжированных по мировым кассовым сборам». валовой доход с поправкой на инфляцию по состоянию на 2023 год», FactLLaMA может выдать вердикт типа «Ложь» и объяснение типа «По данным Box Office Mojo, списка самых кассовых фильмов всех времен, составленного по мировым кассовым сборам с поправкой на валовой доход» по инфляции по состоянию на 2023 год отличается от статьи в Википедии. Например, статья в Википедии называет «Аватар» (2009) самым кассовым фильмом с 3,3 миллиарда долларов, а «Box Office Mojo» называет «Унесенные ветром» (1939) самым кассовым фильмом с 3,8 миллиарда долларов».

Включая внешние знания в свои прогнозы, FactLLaMA может помочь выявить ложную или вводящую в заблуждение информацию более точно, чем традиционные методы проверки фактов.

Как работает FactLLaMA?

FactLLaMA — это модель, которая включает внешние знания в языковые модели, соответствующие инструкциям, чтобы делать более точные прогнозы о том, является ли данное утверждение истинным или ложным. Архитектура модели включает в себя такие компоненты, как кодировщик инструкций, кодировщик знаний и декодер.

Как показано на рисунке выше, методология настройки инструкций FactLLaMA с внешними свидетельствами для автоматической проверки фактов состоит из двух ключевых компонентов: генерация образцов утверждений «инструкции-доказательства» и настройка инструкций генеративной предварительно обученной языковой модели с использованием этих образцы. Выборки входных данных «инструкция-доказательство» генерируются путем объединения инструкции, доказательства и входного утверждения в единую последовательность. Доказательства собираются с использованием API Google для получения соответствующей информации из авторитетных источников. Задача фактической классификации преобразуется в задачу последовательного преобразования, подходящую для моделей генеративного преобразователя, путем оформления ее как генерации текста для автоматической проверки фактов. Затем предварительно обученная модель LLaMA подвергается настройке с использованием алгоритма LORA, целью которого является оптимизация параметров модели для минимизации функции потерь, которая измеряет разницу между прогнозируемыми результатами проверки фактов и истинностью набора обучающих данных.

Оценка производительности модели FactLLaMA

Чтобы оценить производительность FactLLaMA, исследователи провели эксперименты на двух широко используемых наборах данных для проверки фактов: RAWFC и LIAR. Результаты показывают, что этот подход обеспечивает самые современные характеристики в задачах проверки фактов. Методы сравнивались на основе точности, полноты и показателя F1, которые обычно используются для оценки эффективности задач классификации.

Как показано в таблице выше для набора данных RAWFC, можно заметить, что традиционные методы машинного обучения достигают умеренных результатов, в то время как более продвинутые модели превосходят их. Интересно, что LLaMA без настройки работает относительно плохо по сравнению с другими методами. Однако при использовании настройки инструкций производительность значительно улучшается, особенно при использовании внешних знаний. LLaMA, настроенный на обучение и внешние знания, достигает наивысшего балла F1, превосходя все другие методы и демонстрируя эффективность использования внешних данных.

Аналогичные закономерности можно наблюдать при оценке набора данных LIAR, как показано в таблице выше. Опять же, LLaMA без настройки работает плохо, но настройка по инструкции приводит к существенным улучшениям. Включение внешних знаний в процесс настройки инструкций еще больше повышает производительность: LLaMA достигает наивысшего балла F1.

Как получить доступ к этой модели и использовать ее?

FactLLaMA — это модель, к которой можно получить доступ и использовать ее через репозиторий GitHub. Репозиторий содержит официальный код этой статьи. Необработанные наборы данных, используемые в проекте, можно загрузить из репозитория CofCED GitHub. Чтобы использовать модель, пользователи могут следовать инструкциям, представленным в репозитории, для установки необходимых пакетов и запуска кода.

Если вам интересно узнать больше о модели Platypus, все соответствующие ссылки представлены в разделе «Источник» в конце этой статьи.

Ограничения

FactLLaMA — это новая и эффективная модель автоматической проверки фактов, но она также имеет некоторые ограничения и проблемы, которые необходимо решить в будущей работе. Некоторые из них:

  • Качество данных. FactLLaMA опирается на внешние знания, основанные на фактических утверждениях, полученных из надежных источников, однако эти источники не всегда могут быть точными и актуальными. Таким образом, FactLLaMA может унаследовать эти ошибки или неточности из своих внешних источников знаний и выдавать неправильные или противоречивые результаты.
  • Охват данных: FactLLaMA использует крупномасштабный набор данных (CofCED), который охватывает различные темы и области, но может не охватывать все возможные факты или сценарии, которые могут возникнуть в реальных задачах проверки фактов. Таким образом, FactLLaMA может не хватать внешних знаний или соответствующих фактических утверждений для некоторых задач проверки фактов и давать расплывчатые или общие результаты.
  • Разнообразие данных: FactLLaMA использует один тип внешних знаний (фактические утверждения) для задач проверки фактов, но могут существовать и другие типы внешних знаний, которые могут быть полезны или информативны для проверки фактов. Таким образом, FactLLaMA может извлечь выгоду из включения нескольких типов внешних знаний для задач проверки фактов и получения более разнообразных и богатых результатов.
  • Обобщение модели: FactLLaMA оценивается на двух эталонных наборах данных (RAWFC и LIAR) для задач проверки фактов, но может плохо обобщаться на другие наборы данных или домены, которые имеют разные форматы и стили.

Заключение

FactLLaMA — мощный инструмент для повышения точности автоматической проверки фактов. Включая внешние знания в языковые модели, соответствующие инструкциям, FactLLaMA предлагает уникальный подход к выявлению ложной или вводящей в заблуждение информации в Интернете. Благодаря постоянному развитию и исследованиям FactLLaMA может стать еще более ценным инструментом для продвижения правды и точности онлайн-контента.

Источник
исследовательской статьи — https://arxiv.org/abs/2309.00240
исследовательский документ — https://arxiv.org/ftp/arxiv/papers/2309/2309.00240.pdf< br /> подробности проекта — https://thcheung.github.io/factllama/
репозиторий GitHub — https://github.com/thcheung/FactLLaMA
Необработанный набор данных — https: //github.com/Nicozwy/CofCED

Первоначально опубликовано на https://socialviews81.blogspot.com.