Резюмирование текстов • Исследования и разработки В.К. Иванова

Продолжаю свои короткие исследования интересных технологий и инструментов. Одна из таких технологий – резюмирование текстов. В этом посте я попытался оценить возможности некоторых open source моделей для выполнения этой задачи. Все мои исследования выполняются с позиций любопытного и активного пользователя, стремящегося применить современные достижения ИТ в своей повседневной практике. Они касаются прежде всего баз данных и нейронных сетей. См., например, это исследование или это.

Цель
Выбор моделей для оценки
Тексты для резюмирования
Программное обеспечение для экспериментов
Результаты резюмирования стихотворения А.А. Блока
Результаты резюмирования описания приложения Текстоматика
Обсуждение и заключение

Цель

Цель этого исследования я сформулировал таким образом. Необходимо дать сравнительную оценку возможностям бесплатных open source моделей для суммаризации или резюмирования текстов. При анализе результатов обращать внимание не на формальные метрики (такие как BLEU, METEOR и другие), а на пользовательские субъективные оценки. Как итог, понять – могут ли эти модели хоть как-то конкурировать с LLM класса GPT4, GigaChat или YandexGPT.

Выбор моделей для оценки

Платформа Hugging Face на 02.04.2024 г. содержит 579,618 (!) моделей машинного обучения для решения множества задач. Из них для решения NLP-задачи суммаризации или резюмирования текстов заявлено 1623 модели. А для решения этой задачи, ориентированной на русскоязычные тексты, имеется всего 27 моделей. Не густо, но будем работать с тем, что есть.

Если отсортировать список отобранных моделей по соответствию текущим тенденциям (количеству положительных оценок за последний месяц) и взять первые пять моделей, то получим следующий список:

Модель	Последнее изменение	Скачиваний (последний месяц)	Лайки
IlyaGusev/mbart_ru_sum_gazeta	17.03.2023	6.680 (пока писал пост)	50
cointegrated/rut5-base-absum	17.03.2023	5.860 (пока писал пост)	17
csebuetnlp/mT5_multilingual_XLSum	13.08.2022	8.340 (пока писал пост)	226
utrobinmv/t5_summary_en_ru_zh_base_2048	21.02.2024	1.730 (пока писал пост)	8
IlyaGusev/rubert_telegram_headlines	13.07.2022	504 (пока писал пост)	15

Как видно модели достаточно свежие и находят своих пользователей. Эти модели и будем сравнивать и анализировать.

Тексты для резюмирования

Стихотворение А.А. Блока “О подвигах, о доблести, о славе…” (117 токенов). Выбор этого текста основывается на предположении, что обучающие наборы для всех моделей точно не были подготовлены на базе стихов русской классики. Следовательно, все модели с точки зрения их обучения находятся в одинаковых условиях.
Общее описание Приложения Текстоматика (996 токенов). Текст представляет собой описание программного продукта, содержит несколько тематических разделов со специфическими техническими терминами прикладного домена. Полезно понять, как модели справятся с потенциально непростым резюме.

Программное обеспечение для экспериментов

Для проведения экспериментов использовался модуль на Python, разработанный мной. Состоит из:

Управляющей части: задание параметров, чтение текстов для резюмирования, последовательный запуск соответствующих компонентов каждой модели.
Функциональной части: коды на Hugging Face предоставлены разработчиками; использовались с небольшими доработками.

Исходный текст модуля могу послать по запросу в комментариях к этому посту.

Результаты резюмирования стихотворения А.А. Блока

Результаты резюмирования текста стихотворения А.А. Блока обсуждаемыми моделями см. ниже в этом разделе поста. Условие для длины текста резюме: от 40 до 70 токенов.

Я прошу оценить, если не трудно, каждое резюме. Нужно поставить баллы и нажать на кнопку Отправить.

Посмотреть и оценить резюме

Результаты резюмирования описания приложения Текстоматика

А здесь см. результаты резюмирования текста описания приложения Текстоматика. Условие для длины текста резюме: от 150 до 200 токенов.

Также прошу оценить каждое резюме. Нужно поставить баллы и опять нажать на кнопку Отправить.

Посмотреть и оценить резюме

Обсуждение и заключение

По А.А. Блоку:

Все модели выдали резюме с количеством слов меньшим, чем заданная минимальная величина. Не могу точно сказать с чем это связано, возможно с особенностями подсчета токенов.
Первые четыре модели вроде передают пафос стихотворения.
Модели mT5_multilingual_XLSum путает роды, а t5_summary_en_ru_zh_base_2048 – времена.
Забавно выглядит резюме от модели rubert_telegram_headlines. Хотя суть стихотворения передается верно.
Мои оценки моделей: mbart_ru_sum_gazeta – 3, rut5_base_absum – 2, mT5_multilingual_XLSum – 3, t5_summary_en_ru_zh_base_2048 – 2, rubert_telegram_headlines – 1.

По описанию Текстоматики:

Лучшим резюме выглядит текст от модели mbart_ru_sum_gazeta.
В первых трех резюме общий дефект – невнятно формулируется вторая половина. А начало более-менее приемлемое.
Резюме от t5_summary_en_ru_zh_base_2048 похоже на простой набор терминов из заданной предметной области. Не передает сути документа.
Также неожиданно выглядит резюме от модели rubert_telegram_headlines. Но даже суть текста не отражена.
Мои оценки моделей: mbart_ru_sum_gazeta – 3, rut5_base_absum – 3, mT5_multilingual_XLSum – 2, t5_summary_en_ru_zh_base_2048 – 2, rubert_telegram_headlines – 1.

Общee:

Результаты первых трех моделей из списка с большой натяжкой можно признать удовлетворительными. Две последние модели не справились с заданием. Очевидно, что все модели требуют переобучения на датасетах того домена, где их предполагается применять. Собственно, это было ожидаемо и здесь просто подтверждено. Тем не менее, было интересно узнать, насколько они не совсем хороши.

Мы также можем предположить, что LLM класса GPT4, GigaChat или YandexGPT будут выглядеть много лучше. Покажем это в следующей части нашего исследования.

См. часть 2

Ответить

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Бесплатные модели для резюмирования текста: шансы есть, но… (часть 1)

Оглавление

Цель

Выбор моделей для оценки

Тексты для резюмирования

Программное обеспечение для экспериментов

Результаты резюмирования стихотворения А.А. Блока

Результаты резюмирования описания приложения Текстоматика

Обсуждение и заключение

ОтветитьОтменить ответ

Политика конфиденциальности

1. Определение терминов

2. Общие положения

3. Предмет политики конфиденциальности

4. Цели сбора персональной информации пользователя

5. Способы и сроки обработки персональной информации

6. Обязательства сторон

7. Ответственность сторон

8. Разрешение споров

9. Дополнительные условия

10. Приложение

Оглавление

Цель

Выбор моделей для оценки

Тексты для резюмирования

Программное обеспечение для экспериментов

Результаты резюмирования стихотворения А.А. Блока

Результаты резюмирования описания приложения Текстоматика

Обсуждение и заключение

ОтветитьОтменить ответ

Похожие записи