Нажмите ENTER, чтобы посмотреть результаты поиска, или нажмите ESC для отмены.

Новый алгоритм позволит роботам учиться на своих ошибках

Исследовательская компания OpenAI из Сан-Франциско выпустила алгоритм с открытым исходным кодом под названием Hindsight Experience Replay (HER), который позволяет искусственному интеллекту рассматривать каждую неудачу в его действиях по достижению поставленной цели не как неуспешную попытку, а как шаг к успеху.

Быть способным учиться на ошибках — это важнейшая способность, которую люди используют все время. Во-первых, из неудачной попытки мы узнаем, что не нужно делать для достижения нашей первоначальной цели. Во-вторых, мы также собираем информацию о том, как именно мы терпим неудачу и позже можем применить это знание к похожей цели. Все это делает нас гораздо более эффективными в обобщении новых знаний, чем роботы.

Ученые воспроизвели в своем алгоритме подход, которому люди следуют интуитивно: несмотря на то, что вам не удалось достичь определенной цели, вы, по крайней мере, достигли другой. Так почему бы просто не притвориться, что вы и хотели достичь именно этой цели, а не той, которую ставили изначально?

С помощью нового алгоритма и роботы смогут использовать похожие методы проб и ошибок для изучения новых задач. ИИ пробует разные способы сделать что-то и получает вознаграждение всякий раз, когда попытка помогает ему приблизиться к цели. Основываясь на поощрении, робот пытается делать больше таких же вещей и в итоге добивается результата.

По словам разработчиков, применение алгоритма помогает значительно повысить эффективность и скорость обучения ИИ.

Рекомендуем