Обсуждение статьи "Нейросети — это просто (Часть 67): Использование прошлого опыта для решения новых задач"

 

Опубликована статья Нейросети — это просто (Часть 67): Использование прошлого опыта для решения новых задач:

В данной статье мы продолжим разговор о методах сбора данных в обучающую выборку. Очевидно, что в процессе обучения необходимо постоянное взаимодействие с окружающей средой. Но ситуации бывают разные.

Обучение с подкреплением построено на максимизации вознаграждения, получаемого от окружающей среды в процессе взаимодействия с ней. Очевидно, что в процессе обучения необходимо постоянное взаимодействие с окружающей средой. Но ситуации бывают разные. И при решении некоторых задач могут встречаться различные ограничения на подобное взаимодействие с окружающей средой. В таких ситуациях нам на помощь приходят алгоритмы офлайн обучения с подкреплением. Они позволяют обучать модели на ограниченном архиве траекторий, собранном при предварительном взаимодействии с окружающей средой в период её доступности.

Конечно, офлайн обучение с подкреплением не лишено недостатков. В частности, проблема изучения окружающей среды становится ещё более остро ввиду ограниченности обучающей выборки, которая попросту не в состоянии вместить всю многогранность окружающей среды. Особенно остро это проявляется в сложных стохастических средах. С одним из вариантов решения данной проблемы (метод ExORL) мы познакомились в предыдущей статье.

Однако, порой ограничения на взаимодействия с окружающей средой могут быть довольно критичны. Процесс исследования окружающей среды может сопровождаться положительными и отрицательными вознаграждениями. Отрицательные вознаграждения могут быть крайне нежелательны и сопровождаться к финансовыми убытками или какими-либо другими нежелательными потерями, на которые вы не можете пойти. Но задачи довольно резко "рождаются на пустом месте". Чаще всего мы оптимизируем существующий процесс. И в наш "век информационных технологий" практически всегда можно найти опыт взаимодействия с исследуемой окружающей средой в процессе решения задач, подобных поставленной перед нами. Возможно использование данных реального взаимодействия с окружающей средой, которые могут в той или иной степени покрывать требуемое пространство действий и состояний. Об экспериментах с использованием подобного опыта для решения новых задач при управлении реальными роботами рассказывается в статье "Real World Offline Reinforcement Learning with Realistic Data Source". В своей работе авторы статьи предлагают новый фреймворк обучения моделей Real-ORL.

Автор: Dmitriy Gizlyk

 
THIS IS GENIUS WORK Dmitriy! I Love this! 🥰🥰🥰
 
Если владеете темой, напишите статью про использование Google Colab + Tensor Flow. Могу дать реальную задачу по трейдингу и рассчитаю входные данные.   
 
Alexey Volchanskiy #:
Если владеете темой, напишите статью про использование Google Colab + Tensor Flow. Могу дать реальную задачу по трейдингу и рассчитаю входные данные.   

Не знаю насколько это в тематике данного сайта?

 

Привет @Дмитрий Гизлык

Прежде всего, снимаю шляпу перед вашими усилиями по созданию этой замечательной серии статей по AI и ML.

Я просмотрел все статьи с 1 по 30 подряд за один день. Большинство предоставленных вами файлов работали без проблем.

Однако я перешел к статье 67 и попытался запустить 'ResearchRealORL'. Я получаю следующие ошибки.

2024.04.21 17:59:59.935 Tester  "NNME\Part67\RealORL\ResearchRealORL.ex5" 64 bit
2024.04.21 18:00:00.133 Experts optimization frame expert ResearchRealORL (EURUSD,H1) processing started
2024.04.21 18:00:00.156 Tester  Experts\NNME\Part67\RealORL\ResearchRealORL.ex5 on EURUSD,H1 from 2023.01.01 00:00 to 2023.07.31 00:00
2024.04.21 18:00:00.157 Tester  EURUSD: history data begins from 2002.09.03 00:00
2024.04.21 18:00:00.157 Tester  EURUSD: history data begins from 2002.09.03 00:00
2024.04.21 18:00:00.157 Tester  complete optimization started
2024.04.21 18:00:00.168 Core 1  agent process started on 127.0.0.1:3000
2024.04.21 18:00:00.178 Core 2  agent process started on 127.0.0.1:3001
2024.04.21 18:00:00.188 Core 3  agent process started on 127.0.0.1:3002
2024.04.21 18:00:00.200 Core 4  agent process started on 127.0.0.1:3003
2024.04.21 18:00:00.213 Core 5  agent process started on 127.0.0.1:3004
2024.04.21 18:00:00.225 Core 6  agent process started on 127.0.0.1:3005
2024.04.21 18:00:00.237 Core 7  agent process started on 127.0.0.1:3006
2024.04.21 18:00:00.271 Core 8  agent process started on 127.0.0.1:3007
2024.04.21 18:00:00.886 Core 4  connecting to 127.0.0.1:3003
2024.04.21 18:00:00.897 Core 4  connected
2024.04.21 18:00:00.911 Core 4  authorized (agent build 4260)
2024.04.21 18:00:00.928 Core 4  common synchronization completed
2024.04.21 18:00:01.062 Core 2  connecting to 127.0.0.1:3001
2024.04.21 18:00:01.070 Core 2  connected
2024.04.21 18:00:01.081 Core 2  authorized (agent build 4260)
2024.04.21 18:00:01.096 Core 2  common synchronization completed
2024.04.21 18:00:01.110 Core 1  connecting to 127.0.0.1:3000
2024.04.21 18:00:01.118 Core 1  connected
2024.04.21 18:00:01.131 Core 1  authorized (agent build 4260)
2024.04.21 18:00:01.131 Core 4  pass 0 tested with error "OnInit returned non-zero code 1" in 0:00:00.152
2024.04.21 18:00:01.131 Core 4  pass 1 tested with error "OnInit returned non-zero code 1" in 0:00:00.006
2024.04.21 18:00:01.146 Core 1  common synchronization completed
2024.04.21 18:00:01.146 Core 4  pass 6 tested with error "OnInit returned non-zero code 1" in 0:00:00.004
2024.04.21 18:00:01.146 Core 4  pass 7 tested with error "OnInit returned non-zero code 1" in 0:00:00.003
2024.04.21 18:00:01.162 Core 4  pass 8 tested with error "OnInit returned non-zero code 1" in 0:00:00.004
...

2024.04.21 18:00:01.454 Statistics      optimization done in 0 minutes 01 seconds
2024.04.21 18:00:01.454 Statistics      shortest pass 0:00:00.000, longest pass 0:00:00.000, average pass 0:00:00.000
2024.04.21 18:00:01.454 Statistics      local 20 tasks (100%), remote 0 tasks (0%), cloud 0 tasks (0%)
2024.04.21 18:00:01.454 Core 1  connection closed
2024.04.21 18:00:01.455 Core 2  connection closed

Не могли бы вы помочь, где я ошибаюсь?

С уважением, большое спасибо за все ваши усилия по обучению нас ML на MQL5.

 
阿尼尔·瓦尔玛 #

你好@Дмитрий吉兹利克

首先,向您为创建这个关于 AI 和 ML 的精彩系列文章所做的努力致敬。

我在一天内连续浏览了从 1 到 30 的所有文章。您提供的大多数文件都可以正常工作。

但是,我转到了第 67 条并尝试运行“ResearchRealORL”。我收到以下错误。

你能帮我解决我错的地方吗?

衷心感谢您在MQL5中教我们ML的所有努力。

我也发现了这个错误,可能是在初始化的样本文件读取错误,我研究这个错误很久了
Причина обращения: