Российские ученые создали самый эффективный алгоритм для обучения и адаптации ИИ

Ученые из лаборатории исследований искусственного интеллекта (ИИ) Tinkoff Research создали самый эффективный среди мировых аналогов алгоритм для обучения и адаптации искусственного интеллекта.

Новый метод, названный ReBRAC (Revisited Behavior Regularized Actor Critic — пересмотренный актор-критик с контролируемым поведением), обучает ИИ в четыре раза быстрее и на 40% качественнее мировых аналогов в области обучения с подкреплением (Reinforcement Learning, RL), адаптируя его к новым условиям на ходу.

Разработка российских ученых в области повышения эффективности алгоритмов обучения ИИ может способствовать преодолению технологического и цифрового разрыва в мире между разными странами — более эффективные алгоритмы требуют меньше вычислительных ресурсов. Страны с ограниченными вычислительными мощностями смогут создавать и развивать передовые технологии, адаптировать ИИ под конкретные прикладные задачи, существенно экономя на дорогостоящих экспериментах с ИИ.

Результаты исследования были признаны мировым научным сообществом и представлены на главной научной конференции в области ИИ в мире — международной конференции по машинному обучению и нейровычислениям NeurIPS (The Conference and Workshop on Neural Information Processing Systems).


 © www.tinkoff.ru

Визуализация качества альтернативных подходов и алгоритма ReBRAC. По горизонтальной оси — качество алгоритма относительно «эксперта» (служит эталоном для обучения ИИ-агентов), где 100 — это уровень эксперта. По вертикальной оси — процент испытаний, в которых удалось превзойти выбранную отсечку качества. Чем выше линия, тем лучше. Метод, предложенный Tinkoff Research, стал первым превзошедшим эксперта более чем в половине испытаний

Суть открытия

Ученые из Tinkoff Research идентифицировали четыре компонента, которые были представлены в алгоритмах последних лет, но считались второстепенными и не подвергались детальному анализу:

  • Глубина нейронных сетей. Увеличение глубины сети помогает ей лучше понимать сложные закономерности в данных
  • Регуляризация актора и критика. В ИИ-агентах есть два компонента: «актор», который предпринимает действия, и «критик», который оценивает эти действия. Ученые использовали совместную регуляризацию обоих компонентов, чтобы актор избегал нежелательных действий, а критик более эффективно оценивал их. Ранее не было понятно, как сочетать оба подхода с наибольшей эффективностью
  • Увеличение эффективного горизонта планирования — позволяет модели балансировать между краткосрочными и долгосрочными аспектами задачи и улучшает ее способность принимать решения
  • Использование нормализации слоев (LayerNorm) — стабилизирует процесс обучения нейронных сетей

Ученые из Tinkoff Research интегрировали эти компоненты в алгоритм-предшественникBRAC (Behavior Regularized Actor Critic —актор-критикс контролируемым поведением) 2019 года и провели исследование, поочередно варьируя каждый из них. Оказалось, что правильная совокупность этих компонентов дает даже этому старому подходу самую высокую производительность среди лучших аналогов на сегодняшний день. Модифицированный алгоритм получил название ReBRAC.

Тестирование на робототехнических симуляторах показало, что алгоритм обучает ИИ в четыре раза быстрее и на 40% качественнее всех существующих в офлайн-бенчмарках. Ранее лидерство принадлежало алгоритмуSAC-RND, также созданному учеными из Tinkoff Research.


 © www.tinkoff.ru

Визуализация вариантов тестирования алгоритма: поиск цели в лабиринте (Ant), скорость бега (Halfcheetah, Hopper, Walker2d), задачи для робокистей — правильно держать ручку (Pen), открыть дверь, забить гвоздь, переместить объект

ReBRAC также эффективнее всего решает проблему дообучения искусственного интеллекта, который обычно медленно адаптируется к новым условиям. Например, робот, который был изначально обучен передвигаться по траве, упадет, если переместится на лед. ReBRAC же позволяет ИИ лучше учиться на ходу и адаптироваться.

Признание открытия мировым научным сообществом

В 2023 году рецензенты международной конференции по машинному обучению и нейровычислениям NeurIPS (The Conference and Workshop on Neural Information Processing Systems), на которой было представлено открытие ученых из Tinkoff Research, получили на рассмотрение свыше 13 тысяч статей от ученых со всего мира, из которых 3,5 тысячи были отобраны для представления на конференции. Селективность — всего 26%. Среди них сразу четыре научные статьи Tinkoff Research. Помимо алгоритма ReBRAC ученые представили две открытые библиотеки в области офлайн-обучения с подкреплением (Offline RL, ORL), благодаря которым специалистам по ИИ больше не требуется самостоятельно воспроизводить результаты наиболее весомых научных работ. Статьи уже цитируются ведущими исследовательскими лабораториями со всего мира — в их числе Стэнфордский университет, Калифорнийский университет в Беркли и научно-исследовательская лаборатория Google DeepMind.

Межтекстовые Отзывы
Посмотреть все комментарии
guest

В Новосибирске запустили суперкомпьютер для решения научных задач

 © static.mk.ru Институт математики СО РАН в Новосибирске запустил новый суперкомпьютер, способный проводить более 54 трлн операций в секунду. Он позволит моделировать объёмные...

Отечественный самолет SJ-100 совершил первый полет

На воздушном судне импортозаместили около 40 систем и агрегатов. Полет продолжался 54 минуты. По мнению авиаэкспертов, двигатель самолета...

Новый цифровой продукт «КАМАЗА»

«КАМАЗ» запустил новый сервис для корпоративных автопарков Топливо+, который позволяет предприятиям оперативно решить вопрос организации заправок автомобилей на АЗС...

Сколько платят за воображаемый полет к Луне?

В Институте медико-биологических проблем в Москве стартовал международный проект SIRIUS-23, в ходе которого шестеро участников, двое мужчин и...

Копии архивных документов МосгорБТИ теперь можно получить в электронном виде

 © www.mos.ru Московское городское бюро технической инвентаризации (МосгорБТИ) начало оказывать услугу по предоставлению копий архивной документации в электронном формате. Электронные услуги...

Илон Маск задумал подключать мобильные телефоны прямо к сети Starlink

Заявку на тестирование уже отправили в Федеральную комиссию по связи США, эксперимент начнется 10 декабря. Эксперты полагают, что...

ОДК и АСКОН: российское ПО для разработки перспективных двигателей

Объединенная двигателестроительная корпорация (входит в Госкорпорацию Ростех) и компания АСКОН начали тестирование и доработку российского инженерного программного обеспечения.  © www.uecrus.com Создаваемые отечественные...

Amazon Web Services больше не отобразится в поиске

Аналогичные меры Роскомнадзор принял и в отношении других десяти компаний: Hetzner Online GmbH; Network Solutions, LLC; WPEngine, Inc.;...

«Антифрод» оборачивается штрафами для операторов связи

В редакцию Business FM обратился представитель одного из небольших операторов связи Москвы. Он рассказал, что на его компанию...

Опытный Ил-96-400М совершил первый полет

Дальнемагистральный самолет изготовлен на ПАО «Ил» из российских комплектующих. Это модернизированная версия советского Ил-96-300. Максимальная дальность полета превышает...

Антивирусу Dr. Web приостановили сертификат

Федеральная служба по техническому и экспортному контролю приостановила его на 90 дней. В пресс-службе компании-разработчика отметили, что служба...

Экономист из Гарвардского университета получила Нобелевку за исследование о женщинах на рынке труда

Клаудия Голдин описала, как в Америке за 200 лет изменились гендерные различия в доходах и уровне занятости. Исследование...

Российский инструмент совместной работы sBoard выпустил большое обновление

 © static.tildacdn.com Российский инструмент для совместной работы sBoard, созданный выпускниками естественно-научных факультетов МГУ, про который мы писали в сентябре, объявил о большом...

ДКС масштабировала мобильный ЦОД за один день и без прекращения работы

 © www.comnews.ru Действующему дата-центру ScalableMDC TelecomOutdoor NGm, компании ДКС (Тверь) увеличили мощность вдвое. Монтаж модуля расширения занял всего один...

В Telegram не утихает дискуссия вокруг сторис для каналов

Ранее их могли постить только частные пользователи мессенджера. Business FM поговорила с владельцами каналов: зачем им сторис и...

«Аэропорты Регионов» перешли на отечественную информационную платформу

 © mashnews.ru Аэропорты в Екатеринбурге, Самаре, Нижнем Новгороде, Саратове, Ростове-на-Дону, Новом Уренгое, Петропавловске-Камчатском, Благовещенске, Оренбурге и Тобольске начали использовать российскую платформу...

Илья Сачков написал статью об ИИ из заключения

В ней он предупреждает об опасностях, которые таит в себе искусственный интеллект, причем эти опасности отнюдь не компенсируются...

Белоярская АЭС: переход на импортозамещенную операционную систему

Пользователи Белоярской АЭС практически полностью перешли на отечественную импортозамещенную операционную систему.  © www.rosenergoatom.ru За три года специалисты атомной станции и Консист-ОС перевели...

Если LTE перестанут считать перспективной технологией, расходы операторов вырастут в десять раз

LTE, она же 4G, уже многие годы входит в число перспективных технологий, являясь на самом деле практически единственной...

В Иннополисе открыт крупнейший в ПФО Центр обработки и хранения данных

 © strana-rosatom.ru 3 июня в татарском Иннополисе запустили первую очередь центра обработки данных (ЦОД") «Иннополис», рассчитанный на 1 тысячу серверных стоек...