Эта статья представила новую модель искусственного интеллекта под названием "Llama 2 Long". Эта модель, разработанная на основе открытой версии Llama 2, была улучшена путем дополнительного предварительного обучения на более длинных текстовых данных с повышенной дискретизацией. Это означает, что Llama 2 Long обучалась на текстах с более длинными последовательностями символов и на более разнообразных наборах данных.
Согласно исследователям, эти улучшения позволили новой модели Llama 2 Long превзойти некоторых ведущих конкурентов в области искусственного интеллекта, когда речь идет о генерации ответов на длинные пользовательские запросы. Среди таких конкурентов упоминаются OpenAI GPT-3.5 Turbo с контекстным окном в 16 000 символов и Claude 2 с контекстным окном в 100 000 символов.
Процесс создания Llama 2 Long включал в себя использование оригинальной архитектуры Llama 2 и добавление большего объема длинных текстовых данных. С помощью методов обучения с подкреплением на основе обратной связи от человека (RLHF) и синтетических данных, созданных самой моделью Llama 2, исследователи совместно улучшили производительность Llama 2 Long в таких областях, как программирование, математика, понимание языка, рассуждения на основе здравого смысла и ответы на вопросы пользователя.
Графики результатов демонстрируют впечатляющее превосходство Llama 2 Long над предыдущей версией Llama 2 и конкурентами. Эти достижения вызвали восторг и интерес в сообществе исследователей и разработчиков искусственного интеллекта с открытым исходным кодом. Это также подчеркивает важность подхода Meta к разработке искусственного интеллекта с открытым исходным кодом, который, как показывают результаты, может успешно конкурировать с закрытыми коммерческими моделями искусственного интеллекта.