Свежие новости
Актуальное за неделю
07 апр 15:56Технологии
Китайский стартап DeepSeek разрабатывает революционный подход к обучению ИИ
Стартап DeepSeek из Китая, известный благодаря своей интеллектуальной модели ИИ R1, представил новый метод, который может улучшить работу искусственного интеллекта. В сотрудничестве с учеными университета Цинхуа компания опубликовала исследование, детализирующее инновационный подход к обучению, основанный на позитивном подкреплении результатов. Об этом сообщает издание SCMP.
Новая методика направлена на то, чтобы повысить соответствие моделей ИИ человеческим предпочтениям, используя механизм вознаграждения для получения более точных и понятных ответов. Хотя обучение с подкреплением уже показало свою ценность в узкоспециализированных задачах, его эффективность снижалась при более широком применении. DeepSeek предложил решение, объединив генеративное моделирование вознаграждения (GRM) с самокритичной настройкой на основе принципов.
Согласно проведенному исследованию, новый метод превосходит текущие способы улучшения рассуждающих способностей больших языковых моделей (LLM). Тестирование продемонстрировало, что модели, обученные с использованием GRM, достигают наилучших результатов при обработке общих запросов, при этом требуя меньших вычислительных ресурсов. Новые разработки получили название DeepSeek-GRM, что расшифровывается как универсальное моделирование вознаграждения.
Компания также сообщила о намерении сделать свои модели с открытым исходным кодом.
Источник: www.gazeta.ru
Источник изображения: pxhere.com
Новая методика направлена на то, чтобы повысить соответствие моделей ИИ человеческим предпочтениям, используя механизм вознаграждения для получения более точных и понятных ответов. Хотя обучение с подкреплением уже показало свою ценность в узкоспециализированных задачах, его эффективность снижалась при более широком применении. DeepSeek предложил решение, объединив генеративное моделирование вознаграждения (GRM) с самокритичной настройкой на основе принципов.
Согласно проведенному исследованию, новый метод превосходит текущие способы улучшения рассуждающих способностей больших языковых моделей (LLM). Тестирование продемонстрировало, что модели, обученные с использованием GRM, достигают наилучших результатов при обработке общих запросов, при этом требуя меньших вычислительных ресурсов. Новые разработки получили название DeepSeek-GRM, что расшифровывается как универсальное моделирование вознаграждения.
Компания также сообщила о намерении сделать свои модели с открытым исходным кодом.
Автор: Павлова Ольга
Читайте также
Добавить комментарий
Актуальное за месяц