Dmitriy Gizlyk / Perfil
- Informações
10+ anos
experiência
|
0
produtos
|
0
versão demo
|
134
trabalhos
|
0
sinais
|
0
assinantes
|
![Redes neurais de maneira fácil (Parte 61): O problema do otimismo no aprendizado por reforço off-line](https://c.mql5.com/2/59/NN_easy_61_Logo__V4_.png)
Durante o aprendizado off-line, otimizamos a política do Agente com base nos dados da amostra de treinamento. A estratégia resultante confere ao Agente confiança em suas ações. Mas, essa confiança nem sempre é justificada, já que pode acarretar maiores riscos durante a utilização prática do modelo. Hoje vamos examinar um dos métodos para reduzir esses riscos.
![Redes neurais de maneira fácil (Parte 60): transformador de decisões on-line (ODT)](https://c.mql5.com/2/59/Online_Decision_Transformer_logo_up.png)
As últimas 2 partes foram dedicadas ao método transformador de decisões (DT), que modela sequências de ações no contexto de um modelo autorregressivo de recompensas desejadas. Neste artigo, vamos considerar outro algoritmo de otimização deste método.
![Redes neurais de maneira fácil (Parte 59): dicotomia do controle (DoC)](https://c.mql5.com/2/58/logo__1.png)
No artigo anterior, nos familiarizamos com o transformador de decisões. Porém, o complexo ambiente estocástico do mercado de moedas não permitiu revelar totalmente o potencial do método apresentado. Hoje, quero apresentar a vocês um algoritmo focado em melhorar o desempenho dos algoritmos em ambientes estocásticos.
![Redes neurais de maneira fácil (Parte 58): transformador de decisões (Decision Transformer — DT)](https://c.mql5.com/2/58/decision-transformer-avatar.png)
Continuamos a explorar os métodos de aprendizado por reforço. Neste artigo, proponho apresentar um algoritmo ligeiramente diferente que considera a política do agente sob a perspectiva de construir uma sequência de ações.
![Yao Wei Lai Yao Wei Lai](https://c.mql5.com/avatar/avatar_na2_micro.png)
![Redes neurais de maneira fácil (Parte 57): Stochastic Marginal Actor-Critic (SMAC)](https://c.mql5.com/2/58/stochastic_marginal_actor_critic_avatar.png)
Apresentamos um algoritmo relativamente novo, o Stochastic Marginal Actor-Critic (SMAC), que permite a construção de políticas de variáveis latentes no contexto da maximização da entropia.
![Redes neurais de maneira fácil (Parte 56): Utilização da norma nuclear para estimular a pesquisa](https://c.mql5.com/2/57/nuclear_norm_utilization_avatar.png)
A pesquisa do ambiente em tarefas de aprendizado por reforço é um problema atual. Anteriormente, já examinamos algumas abordagens. E hoje, eu proponho que nos familiarizemos com mais um método, baseado na maximização da norma nuclear. Ele permite que os agentes destaquem estados do ambiente com alto grau de novidade e diversidade.
![Redes neurais de maneira fácil (Parte 55): Controle interno contrastivo (CIC)](https://c.mql5.com/2/57/cic-055-avatar.png)
O aprendizado contrastivo é um método de aprendizado de representação sem supervisão. Seu objetivo é ensinar o modelo a identificar semelhanças e diferenças nos conjuntos de dados. Neste artigo, discutiremos o uso de abordagens de aprendizado contrastivo para explorar diferentes habilidades do Ator.
![Redes neurais de maneira fácil (Parte 54): usando o codificador aleatório para exploração eficiente (RE3)](https://c.mql5.com/2/57/random_encoder_for_efficient_exploration_054_avatar.png)
A cada vez que consideramos métodos de aprendizado por reforço, nos deparamos com a questão da exploração eficiente do ambiente. A solução deste problema frequentemente leva à complexificação do algoritmo e ao treinamento de modelos adicionais. Neste artigo, vamos considerar uma abordagem alternativa para resolver esse problema.
![Redes neurais de maneira fácil (Parte 53): decomposição de recompensa](https://c.mql5.com/2/57/decomposition_of_remuneration_053_avatar.png)
Já falamos várias vezes sobre a importância de escolher corretamente a função de recompensa que usamos para incentivar o comportamento desejável do Agente, adicionando recompensas ou penalidades por ações específicas. Mas a questão de como o Agente interpreta nossos sinais permanece em aberto. Neste artigo, discutiremos a decomposição da recompensa em termos de transmissão de sinais individuais ao Agente a ser treinado.
![Redes neurais de maneira fácil (Parte 52): exploração com otimização e correção de distribuição](https://c.mql5.com/2/57/optimistic-actor-critic-avatar.png)
À medida que a política do Ator se afasta cada vez mais dos exemplos armazenados no buffer de reprodução de experiências, a eficácia do treinamento do modelo, baseado nesse buffer, diminui. Neste artigo, examinamos um algoritmo que aumenta a eficácia do uso de amostras em algoritmos de aprendizado por reforço.
![Redes neurais de maneira fácil (Parte 51): ator-crítico comportamental (BAC)](https://c.mql5.com/2/57/behavior_driven_actor_critic_avatar.png)
Nos últimos dois artigos, discutimos o algoritmo Soft Actor-Critic, que incorpora regularização de entropia na função de recompensa. Essa abordagem permite equilibrar a exploração do ambiente e a exploração do modelo, mas é aplicável apenas a modelos estocásticos. Neste artigo, exploraremos uma abordagem alternativa que é aplicável tanto a modelos estocásticos quanto determinísticos.
![Redes neurais de maneira fácil (Parte 50): Soft Actor-Critic (otimização do modelo)](https://c.mql5.com/2/57/NN_50_Soft_Actor-Critic_Avatar.png)
No artigo anterior, implementamos o algoritmo Soft Actor-Critic, mas não conseguimos treinar um modelo lucrativo. Neste artigo, vamos realizar a otimização do modelo previamente criado para obter os resultados desejados a nível de seu funcionamento.
![Redes neurais de maneira fácil (Parte 49): Soft Actor-Critic (SAC)](https://c.mql5.com/2/56/Neural_Networks_are_Easy_Part_49_avatar.png)
Continuamos nossa exploração dos algoritmos de aprendizado por reforço na resolução de problemas em espaços de ação contínua. Neste artigo, apresento o algoritmo Soft Actor-Critic (SAC). A principal vantagem do SAC está em sua capacidade de encontrar políticas ótimas que não apenas maximizam a recompensa esperada, mas também têm a máxima entropia (diversidade) de ações.
![JimReaper JimReaper](https://c.mql5.com/avatar/2023/9/650d3819-17e6.jpg)
![Shah Yahya Shah Yahya](https://c.mql5.com/avatar/2023/5/646ca470-5368.jpg)
![Redes neurais de maneira fácil (Parte 48): métodos para reduzir a superestimação dos valores da função Q](https://c.mql5.com/2/56/NN_part_48_avatar.png)
No artigo anterior, nós exploramos o método DDPG, projetado para treinar modelos em espaços de ação contínua. No entanto, como outros métodos de aprendizado Q, ele está sujeito ao problema da sobreavaliação dos valores da função Q. Esse problema geralmente leva eventualmente ao treinamento de um agente com uma estratégia não otimizada. Neste artigo, examinaremos algumas abordagens para superar o problema mencionado.
![Redes neurais de maneira fácil (Parte 47): Espaço contínuo de ações](https://c.mql5.com/2/55/Neural_Networks_Part_47_avatar.png)
Neste artigo, estamos ampliando o escopo das tarefas do nosso agente. No processo de treinamento, incluiremos alguns aspectos de gerenciamento de dinheiro e risco, que são partes integrantes de qualquer estratégia de negociação.
![Tanaka Black Tanaka Black](https://c.mql5.com/avatar/2021/2/601F61A4-E18C.jpg)
![Redes neurais de maneira fácil (Parte 46): Aprendizado por reforço condicionado a metas (GCRL)](https://c.mql5.com/2/55/Neural_Networks_Part_46_avatar.png)
Convido você a conhecer mais uma abordagem no campo do aprendizado por reforço. É chamada de aprendizado por reforço condicionado a metas, conhecida pela sigla GCRL (Goal-conditioned reinforcement learning). Nessa abordagem, o agente é treinado para alcançar diferentes metas em cenários específicos.
![Redes neurais de maneira fácil (Parte 45): Ensinando habilidades para investigar estados](https://c.mql5.com/2/55/Neural_Networks_Part_45_avatar.png)
Aprender habilidades úteis sem uma função de recompensa explícita é um dos principais desafios do aprendizado por reforço hierárquico. Anteriormente, já nos familiarizamos com dois algoritmos para resolver esse problema. Mas a questão da completa exploração do ambiente ainda está em aberto. Neste artigo, é apresentada uma abordagem diferente para o treinamento de habilidades, cujo uso depende diretamente do estado atual do sistema.
![Redes neurais de maneira fácil (Parte 44): Explorando habilidades de forma dinâmica](https://c.mql5.com/2/55/Neural_Networks_are_Just_a_Part_Avatar.png)
No artigo anterior, apresentamos o método DIAYN, que oferece um algoritmo para aprender uma variedade de habilidades. O uso das habilidades adquiridas pode ser usado para diversas tarefas. Mas essas habilidades podem ser bastante imprevisíveis, o que pode dificultar seu uso. Neste artigo, veremos um algoritmo para ensinar habilidades previsíveis.
![Redes neurais de maneira fácil (Parte 43): Dominando habilidades sem função de recompensa](https://c.mql5.com/2/54/NN_Simple_Part_43_avatar.png)
O problema com o aprendizado por reforço é a necessidade de definir uma função de recompensa, que pode ser complexa ou difícil de formular, porém abordagens baseadas no tipo de ação e na exploração do ambiente que permitem que as habilidades sejam aprendidas sem uma função de recompensa explícita estão sendo exploradas para resolver esse problema.
![Redes neurais de maneira fácil (Parte 42): Procrastinação do modelo, causas e métodos de resolução](https://c.mql5.com/2/54/NN_Simple_Part_42_procrastination_avatar.png)
A procrastinação de modelos no contexto do aprendizado por reforço pode ser causada por vários motivos, e a solução desse problema requer medidas apropriadas. Este artigo discute algumas das possíveis causas da procrastinação do modelo e métodos para superá-las.