Свежие новости
				
				
					Актуальное за неделю
				
				
		26.09, 19:19
	
		07 апр 15:56Технологии
	
	Китайский стартап DeepSeek разрабатывает революционный подход к обучению ИИ
Стартап DeepSeek из Китая, известный благодаря своей интеллектуальной модели ИИ R1, представил новый метод, который может улучшить работу искусственного интеллекта. В сотрудничестве с учеными университета Цинхуа компания опубликовала исследование, детализирующее инновационный подход к обучению, основанный на позитивном подкреплении результатов. Об этом сообщает издание SCMP.
 
 
 
 
Новая методика направлена на то, чтобы повысить соответствие моделей ИИ человеческим предпочтениям, используя механизм вознаграждения для получения более точных и понятных ответов. Хотя обучение с подкреплением уже показало свою ценность в узкоспециализированных задачах, его эффективность снижалась при более широком применении. DeepSeek предложил решение, объединив генеративное моделирование вознаграждения (GRM) с самокритичной настройкой на основе принципов.
Согласно проведенному исследованию, новый метод превосходит текущие способы улучшения рассуждающих способностей больших языковых моделей (LLM). Тестирование продемонстрировало, что модели, обученные с использованием GRM, достигают наилучших результатов при обработке общих запросов, при этом требуя меньших вычислительных ресурсов. Новые разработки получили название DeepSeek-GRM, что расшифровывается как универсальное моделирование вознаграждения.
Компания также сообщила о намерении сделать свои модели с открытым исходным кодом.
        
        Источник: www.gazeta.ru 
        
        Источник изображения: pxhere.com	
 
Новая методика направлена на то, чтобы повысить соответствие моделей ИИ человеческим предпочтениям, используя механизм вознаграждения для получения более точных и понятных ответов. Хотя обучение с подкреплением уже показало свою ценность в узкоспециализированных задачах, его эффективность снижалась при более широком применении. DeepSeek предложил решение, объединив генеративное моделирование вознаграждения (GRM) с самокритичной настройкой на основе принципов.
Согласно проведенному исследованию, новый метод превосходит текущие способы улучшения рассуждающих способностей больших языковых моделей (LLM). Тестирование продемонстрировало, что модели, обученные с использованием GRM, достигают наилучших результатов при обработке общих запросов, при этом требуя меньших вычислительных ресурсов. Новые разработки получили название DeepSeek-GRM, что расшифровывается как универсальное моделирование вознаграждения.
Компания также сообщила о намерении сделать свои модели с открытым исходным кодом.
Автор: Павлова Ольга
Читайте также
   
   
  
					Актуальное за месяц
				
				
		25.09, 13:17
	
		




