Бесплатные модели для резюмирования текста: шансы есть, но… (часть 1)

Продолжаю свои короткие исследования интересных технологий и инструментов. Одна из таких технологий – резюмирование текстов. В этом посте я попытался оценить возможности некоторых open source моделей для выполнения этой задачи. Все мои исследования выполняются с позиций любопытного и активного пользователя, стремящегося применить современные достижения ИТ в своей повседневной практике. Они касаются прежде всего баз данных и нейронных сетей. См., например, это исследование или это.

Резюмирование текста
Оглавление

Цель
Выбор моделей для оценки
Тексты для резюмирования
Программное обеспечение для экспериментов
Результаты резюмирования стихотворения А.А. Блока
Результаты резюмирования описания приложения Текстоматика
Обсуждение и заключение

Цель

Цель этого исследования я сформулировал таким образом. Необходимо дать сравнительную оценку возможностям бесплатных open source моделей для суммаризации или резюмирования текстов. При анализе результатов обращать внимание не на формальные метрики (такие как BLEU, METEOR и другие), а на пользовательские субъективные оценки. Как итог, понять – могут ли эти модели хоть как-то конкурировать с LLM класса GPT4, GigaChat или YandexGPT.

Выбор моделей для оценки

Платформа Hugging Face на 02.04.2024 г. содержит 579,618 (!) моделей машинного обучения для решения множества задач. Из них для решения NLP-задачи суммаризации или резюмирования текстов заявлено 1623 модели. А для решения этой задачи, ориентированной на русскоязычные тексты, имеется всего 27 моделей. Не густо, но будем работать с тем, что есть.

Если отсортировать список отобранных моделей по соответствию текущим тенденциям (количеству положительных оценок за последний месяц) и взять первые пять моделей, то получим следующий список:

МодельПоследнее изменениеСкачиваний (последний месяц)Лайки
IlyaGusev/mbart_ru_sum_gazeta17.03.20236.680 (пока писал пост)50
cointegrated/rut5-base-absum17.03.20235.860 (пока писал пост)17
csebuetnlp/mT5_multilingual_XLSum13.08.20228.340 (пока писал пост)226
utrobinmv/t5_summary_en_ru_zh_base_204821.02.20241.730 (пока писал пост)8
IlyaGusev/rubert_telegram_headlines13.07.2022504 (пока писал пост)15

Как видно модели достаточно свежие и находят своих пользователей. Эти модели и будем сравнивать и анализировать.

Тексты для резюмирования
  • Стихотворение А.А. Блока “О подвигах, о доблести, о славе…” (117 токенов). Выбор этого текста основывается на предположении, что обучающие наборы для всех моделей точно не были подготовлены на базе стихов русской классики. Следовательно, все модели с точки зрения их обучения находятся в одинаковых условиях.
  • Общее описание Приложения Текстоматика (996 токенов). Текст представляет собой описание программного продукта, содержит несколько тематических разделов со специфическими техническими терминами прикладного домена. Полезно понять, как модели справятся с потенциально непростым резюме.
Программное обеспечение для экспериментов

Для проведения экспериментов использовался модуль на Python, разработанный мной. Состоит из:

  • Управляющей части: задание параметров, чтение текстов для резюмирования, последовательный запуск соответствующих компонентов каждой модели.
  • Функциональной части: коды на Hugging Face предоставлены разработчиками; использовались с небольшими доработками.

Исходный текст модуля могу послать по запросу в комментариях к этому посту.

Результаты резюмирования стихотворения А.А. Блока

Результаты резюмирования текста стихотворения А.А. Блока обсуждаемыми моделями см. ниже в этом разделе поста. Условие для длины текста резюме: от 40 до 70 токенов.

Я прошу оценить, если не трудно, каждое резюме. Нужно поставить баллы и нажать на кнопку Отправить.

Результаты резюмирования описания приложения Текстоматика

А здесь см. результаты резюмирования текста описания приложения Текстоматика. Условие для длины текста резюме: от 150 до 200 токенов.

Также прошу оценить каждое резюме. Нужно поставить баллы и опять нажать на кнопку Отправить.

Обсуждение и заключение

По А.А. Блоку:

  • Все модели выдали резюме с количеством слов меньшим, чем заданная минимальная величина. Не могу точно сказать с чем это связано, возможно с особенностями подсчета токенов.
  • Первые четыре модели вроде передают пафос стихотворения.
  • Модели mT5_multilingual_XLSum путает роды, а t5_summary_en_ru_zh_base_2048 – времена.
  • Забавно выглядит резюме от модели rubert_telegram_headlines. Хотя суть стихотворения передается верно.
  • Мои оценки моделей: mbart_ru_sum_gazeta – 3, rut5_base_absum – 2, mT5_multilingual_XLSum – 3, t5_summary_en_ru_zh_base_2048 – 2, rubert_telegram_headlines – 1.

По описанию Текстоматики:

  • Лучшим резюме выглядит текст от модели mbart_ru_sum_gazeta.
  • В первых трех резюме общий дефект – невнятно формулируется вторая половина. А начало более-менее приемлемое.
  • Резюме от t5_summary_en_ru_zh_base_2048 похоже на простой набор терминов из заданной предметной области. Не передает сути документа.
  • Также неожиданно выглядит резюме от модели rubert_telegram_headlines. Но даже суть текста не отражена.
  • Мои оценки моделей: mbart_ru_sum_gazeta – 3, rut5_base_absum – 3, mT5_multilingual_XLSum – 2, t5_summary_en_ru_zh_base_2048 – 2, rubert_telegram_headlines – 1.

Общee:

Результаты первых трех моделей из списка с большой натяжкой можно признать удовлетворительными. Две последние модели не справились с заданием. Очевидно, что все модели требуют переобучения на датасетах того домена, где их предполагается применять. Собственно, это было ожидаемо и здесь просто подтверждено. Тем не менее, было интересно узнать, насколько они не совсем хороши.

Мы также можем предположить, что LLM класса GPT4, GigaChat или YandexGPT будут выглядеть много лучше. Покажем это в следующей части нашего исследования.


Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *