Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3157

 
Maxim Dmitrievsky #:
Não

Os pacotes são bons, mas primeiro você precisa entender, em princípio, o que precisa fazer.


resposta do chat sobre os métodos kozuli


Há vários métodos que são usados para inferência causal. Alguns dos métodos mais comuns incluem:

  1. Experimentos controlados aleatórios: Esse é um método usado para identificar relações causais em ambientes complexos. Envolve controle total sobre o mecanismo de atribuição e a atribuição éaleatória1.
  2. Dados observacionais: esse método é usado quando os experimentos não são possíveis ou práticos. Envolve a análise de dados coletados de fontes naturais, como pesquisas ouregistros administrativos1.
  3. Variáveis instrumentais: esse método é usado para identificar relações causais quando há problemas de endogeneidade ou falta dedados1.
  4. Correspondência de propensão: esse método é usado para comparar grupos com características semelhantes para remover o impacto daconfusão1.
  5. Estimador de diferença na diferença: esse método é usado para analisar mudanças ao longo do tempo e entregrupos1.

Esses são apenas alguns dos muitos métodos usados para inferência causal. Cada método tem suas próprias vantagens e desvantagens, e a escolha do método depende da situação específica e dos dados disponíveis.


fale-nos sobre o ponto 1

Os experimentos controlados aleatórios, também conhecidos como ensaios controlados aleatórios (RCTs), são um método poderoso para descobrir relações causais. Em um RCT, os participantes são divididos aleatoriamente em dois ou mais grupos. Um grupo recebe uma intervenção (como um medicamento) e o outro grupo recebe um placebo ou tratamento padrão. Em seguida, os pesquisadores comparam os resultados entre os grupos para determinar se há diferença nos resultados.

A principal vantagem do RCT é que a designação aleatória de participantes a grupos ajuda a eliminar vieses e confusão. Isso significa que quaisquer diferenças nos resultados entre os grupos podem ser atribuídas à exposição e não a outros fatores.

Entretanto, os RCTs nem sempre são possíveis ou práticos. Por exemplo, eles podem ser caros, exigir uma grande quantidade de tempo e recursos ou ser eticamente inaceitáveis. Nesses casos, os pesquisadores podem usar outros métodos de inferência causal.


======================================

Você está fazendo isso? Pelo que parece, é uma phyche selecta boruta .


 
Maxim Dmitrievsky #:

Você pode conferir por si mesmo. Eu desenvolvi um tema um pouco kozul para que você não fique entediado.

Claramente, você tem um conceito reinterpretado e sobrecarregado (no sentido de programação) de um tritment. Originalmente, é algo muito mais simples e inequívoco. Essa noção ampliada não poderia levar ao aprendizado excessivo? No sentido de que mais flexibilidade sempre pode levar a isso.

 
Aleksey Nikolayev #:

Claramente, você tem uma noção reinterpretada e sobrecarregada (no sentido de programação) de um tritment. Inicialmente, é algo muito mais simples e sem ambiguidade. Essa noção ampliada não poderia levar ao aprendizado excessivo? No sentido de que mais flexibilidade sempre pode levar a isso.

Não sei, eu como McDonald's :) Provavelmente. Eu estava apenas examinando o material oferecido, de todos os ângulos.
 
mytarmailS #:

Os pacotes são bons, mas primeiro você precisa saber o que está fazendo.


resposta do chat sobre os métodos kozuli


Há vários métodos que são usados para inferência causal. Alguns dos métodos mais comuns incluem:

  1. Experimentos controlados aleatórios: Esse é um método usado para identificar relações causais em ambientes complexos. Envolve controle total sobre o mecanismo de atribuição e a atribuição éaleatória1.
  2. Dados observacionais: esse método é usado quando os experimentos não são possíveis ou práticos. Envolve a análise de dados coletados de fontes naturais, como pesquisas ouregistros administrativos1.
  3. Variáveis instrumentais: esse método é usado para identificar relações causais quando há problemas de endogeneidade ou falta dedados1.
  4. Correspondência de propensão: esse método é usado para comparar grupos com características semelhantes para remover o impacto daconfusão1.
  5. Estimador de diferença na diferença: esse método é usado para analisar mudanças ao longo do tempo e entregrupos1.

Esses são apenas alguns dos muitos métodos usados para inferência causal. Cada método tem suas próprias vantagens e desvantagens, e a escolha do método depende da situação específica e dos dados disponíveis.


Fale-me sobre o ponto 1

Os experimentos controlados aleatórios, também conhecidos como estudos controlados aleatórios (RCTs), são um método poderoso para identificar relações de causa e efeito. Em um RCT, os participantes são divididos aleatoriamente em dois ou mais grupos. Um grupo recebe uma intervenção (como um medicamento) e o outro grupo recebe um placebo ou tratamento padrão. Em seguida, os pesquisadores comparam os resultados entre os grupos para determinar se há diferença nos resultados.

A principal vantagem dos ECRs é que a designação aleatória dos participantes aos grupos ajuda a eliminar o viés e a confusão. Isso significa que quaisquer diferenças nos resultados entre os grupos podem ser atribuídas à exposição e não a outros fatores.

Entretanto, os RCTs nem sempre são possíveis ou práticos. Por exemplo, eles podem ser caros, exigir uma grande quantidade de tempo e recursos ou ser eticamente inaceitáveis. Nesses casos, os pesquisadores podem usar outros métodos de inferência causal.


======================================

Você está fazendo isso? Pelo que parece, é uma phyche selecta boruta .


Bem, sobre a pergunta dos meta-lerners e o aprendizado ortogonal, está tudo no livro. E ajuste cruzado.
 
Maxim Dmitrievsky #:
Bem, com relação aos metaaprendizes, pergunte sobre o aprendizado ortogonal, afinal, ele está no livro

O meta-aprendizado é uma abordagem do aprendizado de máquina que permite que os algoritmos se adaptem rapidamente a novas tarefas com base na experiência anterior.No contexto da in ferência causal,o meta-aprendizado pode ser usado para reutilizar modelos preditivos parainferência causal1.

Todos os modelos preditivos, como regressão linear, árvores de decisão impulsionadas, redes neurais ou processos gaussianos, podem ser adaptados para a inferência causal usando as abordagens descritas neste capítulo. Assim ,o sucesso da meta-aprendizagem depende da qualidade dos modelos preditivos usados e de sua adaptação àtarefade inferênciacausal1.

Essa é uma área de pesquisa relativamente nova e em desenvolvimento ativo, e há muitas abordagens diferentes para a meta-aprendizagem no contexto da inferência causal.

========================

A aprendizagem ortogonal é uma abordagem da aprendizagem automática usada para aprimorar a inferência causal. Um exemplo de aprendizado ortogonal é o aprendizado de máquina duplo, proposto por Chernozhukov et al. 1. Esse método usa um estimador de dois estágios que primeiro ortogonaliza o efeito de fatores de confusão de alta dimensão usando algoritmos sofisticados de aprendizado de máquina, incluindoLasso2.

O aprendizado ortogonaltambém é usado em outros métodos de inferência causal, como o Orthogonal RandomForest1. Esse algoritmo combina o aprendizado de máquina duplo com florestas aleatórias generalizadas para estimar estatisticamente modelos de momentos condicionais usando florestas aleatórias.

Em geral, o aprendizado ortogonal melhora a precisão e a robustez da inferência causal, removendo a influência de fatores de confusão e reduzindo a sensibilidade a erros na estimativa de parâmetros.

 
Aleksey Nikolayev #:

Claramente, você tem uma noção reinterpretada e sobrecarregada (no sentido de programação) de um tritment. Inicialmente, é algo muito mais simples e sem ambiguidade. Essa noção ampliada não poderia levar ao aprendizado excessivo? No sentido de que mais flexibilidade sempre pode levar a isso.

Maxim escreveu acima - ela não funciona em OOS, o que é um sinal importante de treinamento excessivo do modelo.

Em seu significado, como eu o entendo, um modelo é obtido, cujos resultados são tentados para serem refinados a fim de reduzir o erro.

Mas a fonte de erro no OOS são os próprios dados, quando os mesmos valores do preditor predizem classes diferentes em situações diferentes. Essa falha nos preditores não pode ser corrigida por nenhum exercício matemático, não é possível consertar lixo, mas com lixo é possível obter um erro de treinamento muito pequeno porque o algoritmo encontrará dados "convenientes" e mostrará um bom resultado. Porém, com novos dados, o resultado é deplorável, porque ele tem seu próprio lixo.

Ao mesmo tempo, o problema de usar o cajual é visto da seguinte forma.

Suponha que tenhamos preditores, 50% dos quais preveem uma das classes e os outros 50% preveem aleatoriamente qualquer classe.

Ajustamos o modelo e obtemos o erro de classificação.

Agora a pergunta é: esse erro de classificação é consistente com o particionamento dos valores dos preditores ou não? Se puder ser melhorado, então é cajual, e se não puder, então de forma alguma NÃO é cajual, pois temos um ajuste excessivo do modelo.

 
Maxim Dmitrievsky #:
Sim. Você pode retirar a variável tritment da lista e criar um aprimorador sem ela. Não consigo fazer isso com ela. E para obter uma estimativa imparcial, você faz o ajuste cruzado.
.

Eu estava exatamente da mesma forma nessas definições, portanto, não se preocupe :)

Não é uma questão de terminologia, é uma questão do que é e de como aplicá-la...

O aprendizado de máquina duplo é uma técnica usada para avaliar relações causais em dados

1) O que estimar?

2) Bem, eu estimei e depois?

 
mytarmailS #:

Não se trata de uma questão de terminologia, mas sim do que ela é e como é aplicada.

O aprendizado de máquina duplo é uma técnica usada para avaliar as relações de causa e efeito nos dados

1) Avaliar o quê?

2) Bem, você estimou e depois o quê?

Em seguida, você pode transformar os alvos e obter os pesos, que eu já escrevi. Eles serão imparciais. A maior parte do kozuli trata de estimativas imparciais.


 
É como a história do elefante e dos sábios. O livro tem tudo o que é necessário, eles precisam contar nos dedos para recontar no fórum e perceber que se trata de um elefante.
 
Aleksey Nikolayev #:

No artigo, na página 10, há uma implementação na forma de pseudocódigo. Na penúltima página, no apêndice, há referências à implementação em R e aos dados usados no artigo.

O pseudocódigo refere-se a fórmulas :)

Quanto ao código R, obrigado, não o vi. Entendo que há um código de função, mas o código em si, como a leitura de um arquivo, é comentado?

# --- Read in data --- 

# > arson = read.csv("arson.csv")
# > i = with(arson, day <= 731)
# > arson1 = arson[i,]
# > arson2 = arson[!i,]
# > arson2[,"day"] = arson2[,"day"] - 731

Ainda não descobri como fazer isso funcionar. Você conseguiu fazer com que funcionasse?

Aleksey Nikolayev #:

Como, em termos gerais, você implementa árvores de decisão no mql5? Por meio de matrizes ou modelos?

Eu não implementei a construção de árvores em MQL5 antes - Forester tem mais experiência nisso.

No entanto, acho que eu usaria vetores e matrizes além de matrizes - o código é mais rápido com eles. Além disso, pelo que entendi, como ele exige uma enumeração completa, será possível usar o OpenCL.

Mas não sei o que são "modelos" nesse contexto :(

Como há código no R, é razoável entender no início se tudo faz sentido ou não.

A amostra do artigo usa um pequeno número de preditores, eu tenho uma ordem de magnitude maior e, obviamente, eles são menos informativos individualmente.

Em geral, estou interessado em usá-lo não apenas para comparar duas amostras, mas para detectar anomalias nos dados - acho que esse é o caminho a seguir.

A ideia é que temos grupos de folhas, mesmo que sejam semelhantes, e se observarmos um comportamento anômalo de um preditor, simplesmente desativamos todas as folhas que o utilizam, enquanto verificamos a correlação com as folhas do grupo. Idealmente, se detectado a tempo, isso permitirá que o modelo continue a ser executado, embora com menos confiança.