Falcon 180B: крупная открытая языковая модель

Языковая модель Falcon 180B представлена Институтом Технологических Инноваций из ОАЭ. Эта большая открытая языковая модель, как утверждается, , потеснила модель Llama 2 с первого места в рейтинге предобученных open-access языковых моделей от HuggingFace.

Языковая модель Falcon 180B

Кроме того, декларируется, что Falcon 180B превосходит GPT-3.5 на бенчмарке MMLU, уступая GPT-4 и успешно конкурируя с проприетарной PaLM 2-Large от Google. Демо модели можно тестировать на HuggingFace, там же доступен и код модели. Falcon 180B доступен как для исследовательских, так и для коммерческих целей. Чтобы попробовать Falcon 180B, можно запустить демо-версию его варианта на ИИ-платформе Hugging Face. Понадобится много оперативной памяти (от 320 до 5120 Гб в зависимости от версии). Также необходимо подписать лицензионное соглашение с TII. По отзывам отсюда есть проблемы, в том числе с русским языком.

Разработчики говорят о возможных проблемах при использовании демо-версии . По их словам модель может выдавать фактически неверную информацию, галлюцинирующие факты и действия. Поскольку она не подвергалась какой-либо продвинутой настройке/выравниванию, она может выдавать проблемные (читай неверные) выходные данные. Также демо-версия ограничена трафиком примерно 1000 слов за сеанс.

Параметры модели Falcon-180B:

  • 180 млрд параметров. Напоминаем, что предыдущая самая мощная открытая модель была LLaMa-2 70B.
  • Контекст 2048 токенов
  • Тренировали 2,5 месяца на 4096 GPU на Amazon SageMaker.
  • Обучали на 3,5 триллионах токенов (против 2 триллиона у LLaMa 2), то есть Falcon прочитала почти в 2 раза больше текстов.

Датасет для обучения Falcon 180B в основном состоит из веб-данных из набора данных RefinedWeb (~85%). Также использовались отобранные данные: диалоги, технические статьи и код, что делает его универсальной моделью для задач NLP (~3%).

Однако сравнивать Falcon 180B с GPT-4 эксперты не решаются. GPT-4 на данный момент является безоговорочным лидером рынка в области LLM, хотя Google уже представил Gemini, который должен конкурировать с GPT-4.

Другие факты и события, связанные с ИИ, см. здесь.


Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *