Discussão do artigo "Redes neurais de maneira fácil (Parte 35): Módulo de curiosidade intrínseca"

 

Novo artigo Redes neurais de maneira fácil (Parte 35): Módulo de curiosidade intrínseca foi publicado:

Continuamos a explorar algoritmos de aprendizado por reforço. Todos os algoritmos que analisamos até agora exigiam a criação de uma política de recompensa de tal forma que o agente pudesse avaliar cada uma de suas ações em cada transição de um estado do sistema para outro. No entanto, essa abordagem é bastante artificial. Na prática, existe um intervalo de tempo entre a ação e a recompensa. Neste artigo, proponho que você se familiarize com um algoritmo de aprendizado de modelo capaz de lidar com diferentes atrasos temporais entre a ação e a recompensa.

Para treinar o Expert Advisor, todos os modelos foram criados usando a ferramenta NetCreator.. Vale ressaltar que, para o Expert Advisor funcionar no testador de estratégias, os arquivos do modelo devem estar localizados no diretório comum do terminal "Terminal\Common\Files", já que cada agente trabalha em seu próprio ambiente isolado (sandbox), e a troca de dados só é possível através da pasta comum dos terminais.

O treinamento no testador de estratégias leva um pouco mais de tempo em comparação com a abordagem de treinamento virtual utilizada anteriormente. Por esse motivo, reduzi o período de treinamento do modelo para 10 meses. Os demais parâmetros de teste permaneceram inalterados. Como de costume, utilizei EURUSD no período H1. Os parâmetros do indicador foram usados por padrão.

Para ser sincero, eu esperava que o processo de aprendizado começasse com a perda do depósito. No entanto, durante a primeira corrida, o modelo apresentou um resultado próximo a "0". E na segunda corrida, houve lucro. O modelo realizou 330 negociações com eficácia superior a 98% nas operações lucrativas.

Resultado do teste de modelo Resultado do teste de modelo

Autor: Dmitriy Gizlyk