Российские ученые создали самый эффективный алгоритм для обучения и адаптации ИИ

Ученые из лаборатории исследований искусственного интеллекта (ИИ) Tinkoff Research создали самый эффективный среди мировых аналогов алгоритм для обучения и адаптации искусственного интеллекта.

Новый метод, названный ReBRAC (Revisited Behavior Regularized Actor Critic — пересмотренный актор-критик с контролируемым поведением), обучает ИИ в четыре раза быстрее и на 40% качественнее мировых аналогов в области обучения с подкреплением (Reinforcement Learning, RL), адаптируя его к новым условиям на ходу.

Разработка российских ученых в области повышения эффективности алгоритмов обучения ИИ может способствовать преодолению технологического и цифрового разрыва в мире между разными странами — более эффективные алгоритмы требуют меньше вычислительных ресурсов. Страны с ограниченными вычислительными мощностями смогут создавать и развивать передовые технологии, адаптировать ИИ под конкретные прикладные задачи, существенно экономя на дорогостоящих экспериментах с ИИ.

Результаты исследования были признаны мировым научным сообществом и представлены на главной научной конференции в области ИИ в мире — международной конференции по машинному обучению и нейровычислениям NeurIPS (The Conference and Workshop on Neural Information Processing Systems).

Визуализация качества альтернативных подходов и алгоритма ReBRAC. По горизонтальной оси — качество алгоритма относительно «эксперта» (служит эталоном для обучения ИИ-агентов), где 100 — это уровень эксперта. По вертикальной оси — процент испытаний, в которых удалось превзойти выбранную отсечку качества. Чем выше линия, тем лучше. Метод, предложенный Tinkoff Research, стал первым превзошедшим эксперта более чем в половине испытаний

Суть открытия

Ученые из Tinkoff Research идентифицировали четыре компонента, которые были представлены в алгоритмах последних лет, но считались второстепенными и не подвергались детальному анализу:

Глубина нейронных сетей. Увеличение глубины сети помогает ей лучше понимать сложные закономерности в данных
Регуляризация актора и критика. В ИИ-агентах есть два компонента: «актор», который предпринимает действия, и «критик», который оценивает эти действия. Ученые использовали совместную регуляризацию обоих компонентов, чтобы актор избегал нежелательных действий, а критик более эффективно оценивал их. Ранее не было понятно, как сочетать оба подхода с наибольшей эффективностью
Увеличение эффективного горизонта планирования — позволяет модели балансировать между краткосрочными и долгосрочными аспектами задачи и улучшает ее способность принимать решения
Использование нормализации слоев (LayerNorm) — стабилизирует процесс обучения нейронных сетей

Ученые из Tinkoff Research интегрировали эти компоненты в алгоритм-предшественникBRAC (Behavior Regularized Actor Critic —актор-критикс контролируемым поведением) 2019 года и провели исследование, поочередно варьируя каждый из них. Оказалось, что правильная совокупность этих компонентов дает даже этому старому подходу самую высокую производительность среди лучших аналогов на сегодняшний день. Модифицированный алгоритм получил название ReBRAC.

Тестирование на робототехнических симуляторах показало, что алгоритм обучает ИИ в четыре раза быстрее и на 40% качественнее всех существующих в офлайн-бенчмарках. Ранее лидерство принадлежало алгоритмуSAC-RND, также созданному учеными из Tinkoff Research.

© www.tinkoff.ru

Визуализация вариантов тестирования алгоритма: поиск цели в лабиринте (Ant), скорость бега (Halfcheetah, Hopper, Walker2d), задачи для робокистей — правильно держать ручку (Pen), открыть дверь, забить гвоздь, переместить объект

ReBRAC также эффективнее всего решает проблему дообучения искусственного интеллекта, который обычно медленно адаптируется к новым условиям. Например, робот, который был изначально обучен передвигаться по траве, упадет, если переместится на лед. ReBRAC же позволяет ИИ лучше учиться на ходу и адаптироваться.

Признание открытия мировым научным сообществом

В 2023 году рецензенты международной конференции по машинному обучению и нейровычислениям NeurIPS (The Conference and Workshop on Neural Information Processing Systems), на которой было представлено открытие ученых из Tinkoff Research, получили на рассмотрение свыше 13 тысяч статей от ученых со всего мира, из которых 3,5 тысячи были отобраны для представления на конференции. Селективность — всего 26%. Среди них сразу четыре научные статьи Tinkoff Research. Помимо алгоритма ReBRAC ученые представили две открытые библиотеки в области офлайн-обучения с подкреплением (Offline RL, ORL), благодаря которым специалистам по ИИ больше не требуется самостоятельно воспроизводить результаты наиболее весомых научных работ. Статьи уже цитируются ведущими исследовательскими лабораториями со всего мира — в их числе Стэнфордский университет, Калифорнийский университет в Беркли и научно-исследовательская лаборатория Google DeepMind.

Межтекстовые Отзывы

Посмотреть все комментарии

Обязательный RuStore: магазин приложений будет предустанавливаться на гаджеты в России

RuStore должен установить именно производитель, а не дистрибьютор. Насколько реально выполнить такое требование? Фото: АГН «Москва» Магазин приложений...

На пути к полномy импортозамещениию оборудования ТСПУ

технические средства противодействия угрозам © avatars.mds.yandex.net Директор Центра специальных проектов Главного радиочастотного центра при Роскомнадзоре Сергей Темный рассказал «РГ» о том,...

Компания «Туполев» запатентовала гиперзвуковой самолет с комбинированным двигателем

Среди преимуществ такого лайнера — экологичность, меньший вес и увеличение дальности полета, отмечают авиаэксперты Фото: Эрик Романенко/ТАСС В...

Индийский луноход впал в спячку, и его не могут разбудить

Сам луноход и посадочный модуль были переведены в спящий режим в начале сентября, отработав запланированный лунный день —...

Владельцы iPhone 15: беспроводная зарядка в BMW «убивает» NFC-чип

Причины поломки пока неизвестны. По данным пользователей, сначала появляется сообщение об ошибке в приложении Apple Wallet, затем устройство...

Илья Сачков написал статью об ИИ из заключения

В ней он предупреждает об опасностях, которые таит в себе искусственный интеллект, причем эти опасности отнюдь не компенсируются...

«Аэропорты Регионов» перешли на отечественную информационную платформу

© mashnews.ru Аэропорты в Екатеринбурге, Самаре, Нижнем Новгороде, Саратове, Ростове-на-Дону, Новом Уренгое, Петропавловске-Камчатском, Благовещенске, Оренбурге и Тобольске начали использовать российскую платформу...

Станция «Луна-25» потерпела крушение

В связи с отклонением фактических параметров импульса от расчетных, аппарат перешел на нерасчетную орбиту и прекратил свое существование...

Госкомиссия по радиочастотам может разрешить использовать антидрон-решения

Пользоваться этим, помимо госкомпаний, смогут и частные структуры, и даже сами граждане. Какие есть риски? Фото: Максим Киселев/ТАСС...

«Базальт СПО» выпустила обновления ОС «Альт Сервер» и «Альт Рабочая станция»

«Базальт СПО» выпустила обновления операционных систем «Альт Сервер» 10.2 и «Альт Рабочая станция» 10.2 на платформе p10. Эти программные...

Первая отечественной базовая станция сотовой связи GSM/LTE прошла испытания

Microsoft полностью закрыла установку Windows 10 и 11 в России

Стало известно о том, что компания Microsoft полностью запретила операционные системы Windows 10 и 11 в России, а...

Разработан первый российский программируемый чип для квантовых вычислений

Компания Маска Neuralink перейдет к тестированию своих чипов на людях

В теории с помощью этих устройств парализованные люди смогут управлять внешними устройствами с помощью силы мысли. Ранее испытания...

Дмитрий Харитонов, Т1: «Мы стали гораздо менее зависимыми от западных технологий»

По мнению эксперта, скоро на смену традиционным вычислениям придет новая архитектура IT Фото: пресс-служба Исполняющий обязанности генерального директора...

В Оренбурге начал работу новый центр управления процессами добычи «Газпром нефти»

«Газпром нефть» запустила Центр управления производством, который круглосуточно сопровождает процессы бурения и добычи в Оренбургской области. © www.gazprom-neft.ru Он стал частью системы...

ДКС масштабировала мобильный ЦОД за один день и без прекращения работы

Росэнергоатом ввел в промышленную эксплуатацию информационную систему поддержки эксплуатации АЭС

Концерн «Росэнергоатом» (входит в крупнейший дивизион Госкорпорации «Росатом» —”Электроэнергетический") ввел в промышленную эксплуатацию Информационную систему поддержки эксплуатации АЭС на пяти станциях —...

Регионам открыли бесплатный доступ к медицинским ИИ-сервисам Москвы

Искусственный интеллект проанализирует любое исследование всего за 15 минут и графически промаркирует выявленные патологии. Точность ИИ на данный момент — 95%. Теперь врачи...

Белоярские атомщики перешли на Astra

Передача данных на верхний уровень системы (в диспетчерский центр Саранских тепловых сетей) осуществляется по Ethernet и GSM-каналу.

Доступны операции по трехмерному твердотельному и поверхностному моделированию, работают сборочные операции, также можем оформлять чертежи и спецификации".

Пн	Вт	Ср	Чт	Пт	Сб	Вс
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Читайте также: