Видання зазначає, що система тренується дія за дією та «спостерігає» за нагородами, які вона отримує після цього. Наприклад, у шахах - це поставити мат, а у Pac Man - проковтнути жовту крапку. Потім вона змінює методи гри, щоб якомога ефективніше отримати винагороду, тобто покращує свої навички, пише ІА АСС з посиланням на Укрінформ.
Цей вид навчання шляхом спостереження підходить для будь-якого штучного інтелекту, що стикається зі складними проблемами. Крім абстрактних ігор у реальному світі їх теж достатньо.
Томас Хуберт, один зі співавторів статті у Nature, повідомив, що дослідники розвивають систему навчання, щоб вона могла стиснути розмір відео. Серед інших планів застосування — самокеровані машини та дизайн білків, що стане наступним кроком після технології складання білків (яку нещодавно освоїла дочірня програма AlphaFold). Метою може бути розробка фармацевтичного препарату на основі білка, який має діяти на вірус або рецептор на поверхні клітини.
Компанія DeepMind здобула славу завдяки AlphaGo — системі навчання, яка перемогла у грі Го після тренувань на мільйонах ігор рівня майстра. У 2018 році компанія випустила AlphaZero, яка навчилася перемагати у грі в шахи та Го без тренування на майстер-іграх та порад. Перевага MuZero серед інших систем у тому, що їй навіть немає потреби показувати правила, щоб вона перемогла у грі.
Читайте ще: MeowTalk: створили додаток для перекладу з котячої «мови» на людську
Наші новини є у Facebook
Якщо ви помітили помилку на цій сторінці, виділіть її і натисніть Ctrl + Enter
Дякую, я вже з вами