Aprendizado de máquina no trading: teoria, prática, negociação e não só

mytarmailS 2022.11.02 14:54 #28111

Maxim Dmitrievsky #:

Isso foi discutido aqui há mais de um ano, quando eu estava escrevendo algoritmos de RL.

Ainda não quero voltar atrás, e nem eu.

Não estou na posição de rótulos, mas na posição de, por exemplo, algumas políticas muito complexas e multidetalhadas do comportamento do agente.

Maxim Dmitrievsky 2022.11.02 15:33 #28112

mytarmailS #:

Não estou falando da posição dos rótulos, mas da posição de, por exemplo, algumas políticas muito complexas de várias etapas do comportamento do agente

Você está confuso com a RL tabular, em que as direções das transições de um estado para outro são otimizadas em tabelas, que são políticas. Essas tabelas foram posteriormente substituídas por redes neurais. Isso ocorre quando há muitos estados do agente, por exemplo, em jogos. Você tem apenas 2-3 estados de compra/venda, etc. Em seguida, você otimiza as transições para esses estados por meio de uma função de recompensa, por exemplo, por meio da amostragem de negociações com alguma condição de lucratividade, e as políticas são otimizadas por meio de NS. Uma política é a relação entre o ambiente e o estado para o qual você deseja fazer a transição. Por exemplo, a relação dos valores do indicador com a direção das negociações.

Não faz sentido fazer uma passagem múltipla de 100500 transições pela tabela quando o NS já aproximou tudo e mostrou o erro de suas ações. Isso é necessário se você precisar pular primeiro, depois atirar, recarregar, coletar o saque, correr para o outro lado, etc. Isso significa realizar muitas ações, e você tem apenas 2 ou 3. Embora o chefe seja o chefe :)

Esqueci de acrescentar que lá o agente também afeta o ambiente, altera-o e o ambiente no agente. É por isso que você precisa aprender milhares de repetições para passar por todas as combinações. Em nosso caso, não é assim, o ambiente não muda, portanto, podemos fazer isso em uma única vez. Em um cenário como esse, o aprendizado por reforço perde totalmente o significado de aprendizado por reforço. Você pode encontrar o caminho mais curto para a meta em uma única passagem.

Um sub-workshop para preencher Ichimoku5 Aprendizado de máquina e

peregrinus_vik 2022.11.03 05:13 #28113

O esquema de solução é simples: é feito o pré-processamento do conjunto de dados. Sua análise padrão é feita. Do restante, cada entrada é considerada uma variável-alvo, e a saída em cada ML é considerada uma ficção. A previsão de cada entrada é avaliada, e as "previsíveis" ruins são descartadas. Bem, as entradas que passam pelo filtro são incluídas no modelo de trabalho pela previsão de saída no ML. Eu descartaria os chips que não afetam a previsão dessa forma.

Como e onde melhor Da teoria à prática. Sistema sem ajuste -

mytarmailS 2022.11.03 08:15 #28114

Maxim Dmitrievsky #:
Isso ocorre quando há muitos estados de agente, por exemplo, em jogos. Você tem apenas 2-3 estados de compra/venda etc.

Não, é tão primitivo, caso contrário não haveria essa direção.

O estado não é uma compra/venda, a compra/venda é uma ação, e o estado é, grosso modo, o número do cluster do ambiente atual, e cada cluster de estado tem sua própria ação...

Mas aação não precisaser primitiva, como comprar/vender, ela pode ser o raciocínio do agente sobre o futuro, por exemplo....

Por exemplo, se eu comprar agora a [i] e, no candle de negociação [i+1], o preço cairá, mas não abaixo de um determinado preço, esperarei pelo próximo candle [i+2], mas, se o preço cair ainda mais, reverterei, caso contrário, continuarei comprando [i...20].

Esses são raciocínios não triviais sobre o futuro e levam à descoberta da poziya consciente....

Mas há uma infinidade dessas combinações de opções de raciocínio, de modo que não precisamos passar por todas elas, treinamos uma função Q, ou seja, o agente leva para o raciocínio somente as opções que têm um bom valor Q ,

O neurônio ou matriz Q é treinado previamente...

É assim que eu vejo...

Por que quando a Índice de Qualidade de Demonstrando a abordagem de

mytarmailS 2022.11.03 08:16 #28115

peregrinus_vik #:
O esquema de solução é simples.

)))) sim, claro...

Tenho medo daqueles que dizem "é simples".

Valeriy Yastremskiy 2022.11.03 08:20 #28116

mytarmailS #:

Não, é tão primitivo, caso contrário, não teria essa direção...

O estado não é um by\sel, by\sel é uma ação, e o estado é, grosso modo, o número do cluster do ambiente atual, e cada cluster de estado tem sua própria ação...

Mas aação não precisaser primitiva como um byte, pode ser o pensamento de um agente sobre o futuro, por exemplo....

Por exemplo, se eu comprar a [i] agora e, no candle de negociação [i+1], o preço cairá, mas não abaixo de um determinado preço, esperarei pelo próximo candle [i+2], mas se o preço cair ainda mais, reverterei, caso contrário, manterei a compra [i...20].

Esses são raciocínios não triviais sobre o futuro e levam à descoberta da posição realizada....

Mas há uma infinidade dessas combinações de opções de raciocínio, de modo que não precisamos passar por todas elas, treinamos a função Q, ou seja, o agente usa para raciocínio somente as opções que têm um bom valor Q ,

O neurônio ou matriz Q é treinado previamente...

É assim que eu vejo...

Concordo, comprar, vender e não negociar não é um estado. Há um grande número de estados. ))))))

mytarmailS 2022.11.03 08:37 #28117

Valeriy Yastremskiy #:

Concordo que comprar, vender e não negociar não são estados. Há um grande número de estados. )))))

Não há muitos estados (se for um cluster).

Há um grande número de opções para raciocinar sobre ações futuras.

Mas o raciocínio é necessário para encontrar as ações mais corretas em cada estado e, além disso, elas devem ser revisadas a cada candle.

Uma pergunta sobre como Apoio ao hedging MT5 Por que é melhor

Maxim Dmitrievsky 2022.11.03 08:53 #28118

mytarmailS #:

Não, é tão primitivo, caso contrário, não teria essa direção...

O estado não é um by\sel, by\sel é uma ação, e o estado é, grosso modo, o número do cluster do ambiente atual, e cada cluster de estado tem sua própria ação...

Mas aação não precisaser primitiva como um byte, pode ser o pensamento de um agente sobre o futuro, por exemplo....

Por exemplo, se eu comprar a [i] agora e, no candle de negociação [i+1], o preço cairá, mas não abaixo de um determinado preço, esperarei pelo próximo candle [i+2], mas se o preço cair ainda mais, reverterei, caso contrário, manterei a compra [i...20].

Esses são raciocínios não triviais sobre o futuro e levam à descoberta da posição realizada....

Mas há uma infinidade dessas combinações de opções de raciocínio, de modo que não precisamos passar por todas elas, treinamos a função Q, ou seja, o agente usa para raciocínio somente as opções que têm um bom valor Q ,

O neurônio ou matriz Q é treinado previamente...

É assim que eu vejo...

Quando você começa a ver as coisas corretamente, o fator surpresa desaparece.

Você está descrevendo a política de um agente, uma abordagem multifacetada. Eu escrevi tudo sobre isso. Estou escrevendo em linguagem de nerd para fazer sentido e me esqueci.

Exatamente, é tão primitivo.

Há uma aqui que estava espumando pela boca sobre agentes antes de ser banida).

Trabalho ocioso Criando um robô comercial Analógico TimeTradeServer para MT4

Maxim Dmitrievsky 2022.11.03 09:04 #28119

Valeriy Yastremskiy #:

Concordo que comprar, vender e não negociar não são estados. Há uma série de estados. ))))

Estados de agente ou estados de ação. Sugiro que você passe alguns meses lendo livros para entender o que escreveu e chegue às mesmas conclusões: sem a reação do ambiente às ações do agente, não há nada a ser otimizado, isso é feito de uma só vez.

Há estados do ambiente, estados do agente, matrizes de transições (políticas) do agente de um estado para outro, levando em conta as mudanças no ambiente. Seu ambiente é estático, ele não muda devido às ações do agente. Ou seja, você só precisa definir a matriz das ações do agente em um ambiente estático, ou seja, os alvos. A marcação dos alvos é feita em uma única passagem.

[Arquivo!] Qualquer pergunta de Qualquer pergunta de novato, Trabalho ocioso

mytarmailS 2022.11.03 10:38 #28120

Maxim Dmitrievsky #:
Estados ou ações do agente. Sugiro que você passe alguns meses lendo livros para entender o que escreveu e chegue às mesmas conclusões: sem a reação do ambiente às ações do agente, não há nada a ser otimizado, isso é feito de uma só vez.

Há estados do ambiente, estados do agente, matrizes de transições (políticas) do agente de um estado para outro, levando em conta as mudanças no ambiente. Seu ambiente é estático, ele não muda devido às ações do agente. Ou seja, você só precisa definir a matriz das ações do agente em um ambiente estático, ou seja, os alvos. A marcação dos alvos é feita em uma única passagem.

Se eu quiser penalizar o agente por negociações não lucrativas...

A meta é "negociar o que você quiser, mas sem perder negociações, e estar no mercado".

Como você descreve isso com marcações?

Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2812