Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2478

 
Maxim Dmitrievsky #:
Na minha opinião, há aqui mais uma padronização do que um efeito de equilíbrio. Mais a amostragem a partir de distribuições ajuda do sobretreinamento

Será que acertei, quanto mais amostras, mais perto da padronização?

 
iwelimorn #:

Será que acertei, quanto mais amostras, mais perto os sinais estão de serem padronizados?

É difícil dizer qual é o tamanho ideal da amostra, provavelmente depende do número de componentes das misturas gaussianas. Amostragem muito grande, com conjunto de dados ruidosos, leva à geração de amostras muito semelhantes, ou seja, a probabilidade de ocorrência de amostras frequentemente repetidas aumenta, porque os gaussianos são usados para estimativa de densidade e geração. Portanto, é mais provável que não do que sim.
Li algures que o GMM não funciona bem com grandes conjuntos de dados.
 
Maxim Dmitrievsky #:
É difícil dizer qual é o tamanho ideal da amostra, provavelmente depende do número de componentes da mistura Gaussiana. Amostra muito grande, com dados ruidosos, leva à geração de amostras muito semelhantes, ou seja, a probabilidade de ocorrência de amostras frequentemente repetidas aumenta, porque os gaussianos são usados para estimativa de densidade e geração. Portanto, é mais provável que não do que sim.

Obrigado. Eu provavelmente não fiz a pergunta corretamente, eu quis dizer é possível que mais amostras geradas dariam uma amostra mais padronizada.

 
iwelimorn #:

Obrigado. Eu provavelmente não fiz a pergunta corretamente, eu quis dizer é possível que mais amostras geradas dariam uma amostra mais padronizada.

Sim, claro.
 
iwelimorn #:

Obrigado. Eu provavelmente não fiz a pergunta corretamente, eu quis dizer é possível que mais amostras geradas dariam uma amostra mais padronizada.

O importante é ter o mínimo possível de inconsistências ao gerar a amostra, caso contrário, o treinamento será inútil. Imagine que num caso com o mesmo valor de vector de entrada o alvo tem valor 1, e no caso seguinte com um vector de entrada idêntico o alvo tem valor 0. O que deve fazer então o algoritmo? Como reagir? Portanto, aumentar as amostras de treinamento só é relevante se não levar a um aumento da contradição. É uma questão filosófica. Por exemplo, eu cubro 3 meses do mercado em M5 em 100 amostras de treinamento. Como um exemplo...
 
E a propósito, há uma senhora nas nossas fileiras, pelo que sei. Esse é um caso muito raro, pode-se dizer uma excepção à regra... :-)
 
Mihail Marchukajtes #:
É importante ter o mínimo de contradições possível, caso contrário, o treino será inútil . Imagine que num caso com o mesmo valor do vector de entrada o alvo tem o valor 1, e no caso seguinte com um vector de entrada idêntico o alvo tem o valor 0. Então o que deve fazer o algoritmo? Como reagir? Portanto, aumentar as amostras de treinamento só é relevante se não levar a um aumento da contradição. É uma questão filosófica. Por exemplo, eu cubro 3 meses do mercado em M5 em 100 amostras de treinamento. Como um exemplo...

você ao menos entendeu o que você escreveu?

 

Mihail Marchukajtes #:
É importante ter o mínimo possível de contradições ao formar a amostra, caso contrário, o treino será inútil. Imagine que num caso com o mesmo valor do vector de entrada o alvo tem o valor 1, e no caso seguinte com um vector de entrada idêntico o alvo tem o valor 0. Então o que deve fazer o algoritmo? Como reagir? Portanto, aumentar as amostras de treinamento só é relevante se não levar a um aumento da contradição. É uma questão filosófica. Por exemplo, eu cubro 3 meses do mercado em M5 em 100 amostras de treinamento. Como um exemplo...

Concordo com você, se um e o mesmo exemplo descreve vários estados, então quando classificarmos por qualquer algoritmo disponível, teremos probabilidade próxima de 1/n onde n é o número de estados.

Mas não há exemplos absolutamente semelhantes, eles são semelhantes em certo grau. A questão é como detectar esta "similaridade".


100 exemplos em três meses no M5... Eu me pergunto... Você seleciona amostras da amostra original de acordo com as regras , que você então usa no comércio?

 
iwelimorn #:

Concordo com você, se o mesmo exemplo descrever vários estados, teremos uma probabilidade próxima de 1/n onde n é o número de estados ao classificar por qualquer algoritmo disponível.

Mas não há exemplos absolutamente semelhantes, eles são semelhantes em certo grau. A questão é como detectar esta "similaridade".


100 exemplos em três meses no M5... Eu me pergunto... Você seleciona amostras da amostra original de acordo com as regras , que você então usa no comércio?

Se o mesmo conjunto de variáveis independentes na amostra de treinamento corresponde a apenas uma variável dependente, então é uma série determinística.

Não há nada a classificar lá - o erro de previsão é 0.

Sim, já é uma agonia.

 
Dmytryi Nazarchuk #:

Se o mesmo conjunto de variáveis independentes na amostra de treinamento corresponde a apenas uma variável dependente, trata-se de uma série determinística.

Não há nada a classificar lá - o erro de previsão é 0.

Sim, isto é uma agonia.

Obrigado, talvez não seja agonia, mas a minha falta de conhecimentos fundamentais.

Também é verdade se vários conjuntos de variáveis independentes correspondem à mesma variável?