Обсуждение статьи "Нейросети — это просто (Часть 67): Использование прошлого опыта для решения новых задач"

MetaQuotes 2023.12.08 10:49

Опубликована статья Нейросети — это просто (Часть 67): Использование прошлого опыта для решения новых задач:

В данной статье мы продолжим разговор о методах сбора данных в обучающую выборку. Очевидно, что в процессе обучения необходимо постоянное взаимодействие с окружающей средой. Но ситуации бывают разные.

Обучение с подкреплением построено на максимизации вознаграждения, получаемого от окружающей среды в процессе взаимодействия с ней. Очевидно, что в процессе обучения необходимо постоянное взаимодействие с окружающей средой. Но ситуации бывают разные. И при решении некоторых задач могут встречаться различные ограничения на подобное взаимодействие с окружающей средой. В таких ситуациях нам на помощь приходят алгоритмы офлайн обучения с подкреплением. Они позволяют обучать модели на ограниченном архиве траекторий, собранном при предварительном взаимодействии с окружающей средой в период её доступности.

Конечно, офлайн обучение с подкреплением не лишено недостатков. В частности, проблема изучения окружающей среды становится ещё более остро ввиду ограниченности обучающей выборки, которая попросту не в состоянии вместить всю многогранность окружающей среды. Особенно остро это проявляется в сложных стохастических средах. С одним из вариантов решения данной проблемы (метод ExORL) мы познакомились в предыдущей статье.

Однако, порой ограничения на взаимодействия с окружающей средой могут быть довольно критичны. Процесс исследования окружающей среды может сопровождаться положительными и отрицательными вознаграждениями. Отрицательные вознаграждения могут быть крайне нежелательны и сопровождаться к финансовыми убытками или какими-либо другими нежелательными потерями, на которые вы не можете пойти. Но задачи довольно резко "рождаются на пустом месте". Чаще всего мы оптимизируем существующий процесс. И в наш "век информационных технологий" практически всегда можно найти опыт взаимодействия с исследуемой окружающей средой в процессе решения задач, подобных поставленной перед нами. Возможно использование данных реального взаимодействия с окружающей средой, которые могут в той или иной степени покрывать требуемое пространство действий и состояний. Об экспериментах с использованием подобного опыта для решения новых задач при управлении реальными роботами рассказывается в статье "Real World Offline Reinforcement Learning with Realistic Data Source". В своей работе авторы статьи предлагают новый фреймворк обучения моделей Real-ORL.

Автор: Dmitriy Gizlyk

JimReaper 2023.12.09 15:56 #1

THIS IS GENIUS WORK Dmitriy! I Love this! 🥰🥰🥰

Alexey Volchanskiy 2023.12.23 08:32 #2

Если владеете темой, напишите статью про использование Google Colab + Tensor Flow. Могу дать реальную задачу по трейдингу и рассчитаю входные данные.

Dmitriy Gizlyk 2023.12.23 17:24 #3

Alexey Volchanskiy #:
Если владеете темой, напишите статью про использование Google Colab + Tensor Flow. Могу дать реальную задачу по трейдингу и рассчитаю входные данные.

Не знаю насколько это в тематике данного сайта?

Anil Varma 2024.04.21 12:40 #4

Привет @Дмитрий Гизлык

Прежде всего, снимаю шляпу перед вашими усилиями по созданию этой замечательной серии статей по AI и ML.

Я просмотрел все статьи с 1 по 30 подряд за один день. Большинство предоставленных вами файлов работали без проблем.

Однако я перешел к статье 67 и попытался запустить 'ResearchRealORL'. Я получаю следующие ошибки.

2024.04.21 17:59:59.935 Tester  "NNME\Part67\RealORL\ResearchRealORL.ex5" 64 bit
2024.04.21 18:00:00.133 Experts optimization frame expert ResearchRealORL (EURUSD,H1) processing started
2024.04.21 18:00:00.156 Tester  Experts\NNME\Part67\RealORL\ResearchRealORL.ex5 on EURUSD,H1 from 2023.01.01 00:00 to 2023.07.31 00:00
2024.04.21 18:00:00.157 Tester  EURUSD: history data begins from 2002.09.03 00:00
2024.04.21 18:00:00.157 Tester  EURUSD: history data begins from 2002.09.03 00:00
2024.04.21 18:00:00.157 Tester  complete optimization started
2024.04.21 18:00:00.168 Core 1  agent process started on 127.0.0.1:3000
2024.04.21 18:00:00.178 Core 2  agent process started on 127.0.0.1:3001
2024.04.21 18:00:00.188 Core 3  agent process started on 127.0.0.1:3002
2024.04.21 18:00:00.200 Core 4  agent process started on 127.0.0.1:3003
2024.04.21 18:00:00.213 Core 5  agent process started on 127.0.0.1:3004
2024.04.21 18:00:00.225 Core 6  agent process started on 127.0.0.1:3005
2024.04.21 18:00:00.237 Core 7  agent process started on 127.0.0.1:3006
2024.04.21 18:00:00.271 Core 8  agent process started on 127.0.0.1:3007
2024.04.21 18:00:00.886 Core 4  connecting to 127.0.0.1:3003
2024.04.21 18:00:00.897 Core 4  connected
2024.04.21 18:00:00.911 Core 4  authorized (agent build 4260)
2024.04.21 18:00:00.928 Core 4  common synchronization completed
2024.04.21 18:00:01.062 Core 2  connecting to 127.0.0.1:3001
2024.04.21 18:00:01.070 Core 2  connected
2024.04.21 18:00:01.081 Core 2  authorized (agent build 4260)
2024.04.21 18:00:01.096 Core 2  common synchronization completed
2024.04.21 18:00:01.110 Core 1  connecting to 127.0.0.1:3000
2024.04.21 18:00:01.118 Core 1  connected
2024.04.21 18:00:01.131 Core 1  authorized (agent build 4260)
2024.04.21 18:00:01.131 Core 4  pass 0 tested with error "OnInit returned non-zero code 1" in 0:00:00.152
2024.04.21 18:00:01.131 Core 4  pass 1 tested with error "OnInit returned non-zero code 1" in 0:00:00.006
2024.04.21 18:00:01.146 Core 1  common synchronization completed
2024.04.21 18:00:01.146 Core 4  pass 6 tested with error "OnInit returned non-zero code 1" in 0:00:00.004
2024.04.21 18:00:01.146 Core 4  pass 7 tested with error "OnInit returned non-zero code 1" in 0:00:00.003
2024.04.21 18:00:01.162 Core 4  pass 8 tested with error "OnInit returned non-zero code 1" in 0:00:00.004
...

2024.04.21 18:00:01.454 Statistics      optimization done in 0 minutes 01 seconds
2024.04.21 18:00:01.454 Statistics      shortest pass 0:00:00.000, longest pass 0:00:00.000, average pass 0:00:00.000
2024.04.21 18:00:01.454 Statistics      local 20 tasks (100%), remote 0 tasks (0%), cloud 0 tasks (0%)
2024.04.21 18:00:01.454 Core 1  connection closed
2024.04.21 18:00:01.455 Core 2  connection closed