Discussão do artigo "Redes neurais de maneira fácil (Parte 64): Método de clonagem de comportamento ponderada conservadora (CWBC)"
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Novo artigo Redes neurais de maneira fácil (Parte 64): Método de clonagem de comportamento ponderada conservadora (CWBC) foi publicado:
Pelo resultado dos testes realizados em artigos anteriores, concluímos que a qualidade da estratégia treinada depende muito da amostra de treinamento utilizada. Neste artigo, apresento a vocês um método simples e eficaz para selecionar trajetórias com o objetivo de treinar modelos.
Os autores propõem um novo regulador conservador para métodos de clonagem comportamental que dependem de RTG, que explicitamente incentiva a política a permanecer próxima à distribuição original dos dados. A ideia é garantir a previsão de ações próximas à distribuição original mesmo quando grandes valores de RTG são especificados fora da distribuição de amostra de treinamento. Isso é alcançado adicionando ruído positivo ao RTG para trajetórias com alta recompensa real e punindo com distâncias L2 entre a ação prevista e a real da amostra de treinamento. Para garantir a geração de grandes valores de RTG fora da distribuição, geramos ruído de maneira que o valor ajustado de RTG não seja inferior à recompensa mais alta na amostra de treinamento.
A regulação conservadora é aplicada às trajetórias cujos retornos excedem o percentil q de recompensas na amostra de treinamento. Isso garante que, quando RTG é especificado fora da distribuição de treinamento, a política se comporta de maneira semelhante às trajetórias de alta recompensa, e não a uma trajetória aleatória. Adicionamos ruído e deslocamos o RTG a cada etapa de tempo.
Os experimentos realizados pelos autores do método mostram que o uso do percentil 95 geralmente funciona bem em diferentes ambientes e conjuntos de dados.
Os autores notam que o regulador conservador proposto difere de outros componentes conservadores para métodos de RL off-line, que são baseados na avaliação de custos de estados e transições. Enquanto os últimos geralmente tentam regular a avaliação da função de custo para prevenir o erro de extrapolação, o método proposto distorce as recompensas alvo para criar condições fora da distribuição e é regulado pela previsão de ações.
No processo de treinamento, consegui obter um modelo que gera lucro no segmento histórico da amostra de treinamento.
Durante o período de treinamento, o modelo realizou 141 transações. Cerca de 40% foram fechadas com lucro. A transação mais lucrativa foi mais de 4 vezes maior que a maior perda. E a transação lucrativa média foi quase 2 vezes maior que a perda média. Além disso, a transação lucrativa média foi 13% maior que a maior perda. Tudo isso resultou em um fator de lucro de 1.11. Resultados semelhantes foram observados também nos novos dados.
Autor: Dmitriy Gizlyk