Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3312

 
Ivan Butko #:

Você pode me dizer o que não é lixo? Nunca vi ninguém falando sobre dados de entrada limpos. Mas ouço falar de lixo no fórum o tempo todo.

O que são? Se estiver falando de lixo, então não teve lixo, caso contrário, não há nada com que compará-lo

É um movimento direcional, um vetor.

Mas tirá-lo do lixo é um desafio.

Por exemplo, eu tentaria carregar meu indicador em neurônios como preditores e tentaria identificar os sinais de lixo e de coletor de lixo.

 
СанСаныч Фоменко #:

Deixe-me esclarecer meu ponto de vista.

Qualquer algoritmo de MO tenta reduzir o erro. A redução do erro é mais eficaz no lixo, porque os valores "convenientes" para a redução do erro são muito mais comuns no lixo. Como resultado, é certo que a "importância" dos preditores para lixo será maior do que para NÃO lixo. É por isso que existe o pré-processamento, que é muito mais trabalhoso do que o ajuste real do modelo.

Neste exemplo artificial que estamos considerando (não são dados de mercado),
a ficha do eixo U não é lixo e é muito boa para definir classes. A ficha do eixo X é ruim porque as duas classes estão misturadas de maneira uniforme.

A árvore dividirá facilmente os dados em 1 e 2 exemplos da figura por apenas 1 divisão através de Y=0,5 com pureza absoluta de classes, ou seja, probabilidade de classe =100%. Ao testar a divisão no eixo X, a pureza será de cerca de 50%, e o algoritmo selecionará a divisão mais limpa, sobre Y. Ou seja, sua afirmação de que uma divisão ruim sobre X será selecionada está incorreta nesses exemplos.

O terceiro exemplo é mais complicado. A folha com U<0,2 será selecionada pelo algoritmo, uma vez que a pureza da classe = 100%, a folha U>0,8 também será selecionada.
A folha de 0,2 a 0,8 tem uma pureza de cerca de 50%, ou seja, é tão ruim quanto qualquer divisão do eixo X.
Outras divisões não fazem sentido, pois você não usará folhas com uma probabilidade de classe de 50%.
Se você fizer algo estúpido e dividir essa parte ruim em 1 exemplo em uma folha, então as divisões em Y e X serão usadas. Bem, se tivermos 1 exemplo em uma folha, então sua pureza, é claro, será de 100%. Mas essas não são folhas representativas. Somente os iniciantes farão isso.

As 3 primeiras folhas são suficientes, ou você pode parar de dividir as folhas em pelo menos 1-5-10% do número total de exemplos na folha. E nesse exemplo, use folhas com pureza, por exemplo, >90%, e essas serão as duas primeiras folhas: U<0,2 e U>0,8. O restante das folhas terá 50% +-10% devido à mistura desigual.


 
Renat Akhtyamov #:

... Eu tentaria carregar meu indicador para os neurônios como preditores e tentaria identificar os sinais de lixo e catadores

E o que o impede de tentar?

 
Andrey Dik #:

Ninguém sabe o que é lixo e o que não é, são hipóteses.

Se soubéssemos exatamente o que é o quê, não haveria um tópico de 3 mil páginas)).

A pessoa simplesmente supõe que ir além de tais e tais limites é "lixo", e esses limites também são hipotéticos. É por isso que a expressão "lixo dentro - lixo fora" nada mais é do que uma bela frase: o que é lixo para um pesquisador não é lixo para outro pesquisador. É como as ondas de Eliot.

Não há necessidade de assinar para todos.

Muito provavelmente você não sabe quais exemplos são "lixo" e quais não são. Para você, esse é um conceito hipotético. Se soubesse o que é o quê, não estaria sentado neste tópico e escrevendo generalizações profundas para todos.

Quando você aprenderá o básico sobre o MoD? É uma pergunta retórica.

 
Vladimir Perervenko #:

Você não precisa assinar para todos.

Provavelmente você não sabe quais exemplos são "lixo" e quais não são. Para você, esse é um conceito hipotético. Se você soubesse o que é o quê, não estaria sentado neste tópico e escrevendo generalizações profundas para todos.

Quando você aprenderá o básico sobre o MoD? É uma pergunta retórica.


Sua postagem não mostra que você sabe o que é lixo e o que não é.
Além disso, o engraçado é que, se você sabe o que não é lixo, então não há necessidade de MO.

Esse é o propósito e o objetivo do IO - separar as moscas das costeletas.

Se você sabe, o que está fazendo aqui?

 

Na física, os sinais que afetam o sinal de que precisamos são geralmente considerados lixo. Qualquer sinal, qualquer ação causada por algo, é chamado de lixo porque não é necessário e não fornece uma avaliação correta do sinal de que o pesquisador precisa. E assim, bem, na natureza não há lixo))))))))))

Aqui, ao procurar padrões de preço, ineficiência ou qualquer outra coisa, o sinal para avaliação é o impacto de alguns eventos reais ou sua totalidade sobre o preço. E todas as outras influências serão lixo.

Não estou afirmando a veracidade do julgamento do curso))))

 
Valeriy Yastremskiy #:

Na física, os sinais que afetam o sinal de que precisamos são geralmente considerados lixo. Qualquer sinal, qualquer ação causada por algo, é chamado de lixo porque não é necessário e não fornece uma avaliação correta do sinal de que o pesquisador precisa. E assim, bem, na natureza não há lixo))))))

Aqui, ao procurar padrões de preço, ineficiência ou qualquer outra coisa, o sinal para avaliação é o impacto de alguns eventos reais ou sua totalidade sobre o preço. Mas todas as outras influências serão lixo.

Não estou afirmando a veracidade do julgamento do curso))))

Se mergulharmos na teoria do DSP, será assim:

um sinal útil sem lixo é inicialmente conhecido (por exemplo, uma linha de tendência ou alguma curva)

então, no próximo tick, o sinal útil é subtraído da massa total de sinais, e os sinais que não são necessários, ou seja, o lixo, são identificados.

 
O lixo de características é avaliado em relação a características-alvo específicas e vice-versa. Se não houver relação de causa e efeito, o conjunto de dados é lixo em sua totalidade ou em um de seus componentes. E muitas vezes não se trata de recursos, mas de marcação incorreta.

Porque até mesmo o lixo pode ser particionado de forma que seja útil. Por exemplo, classificar por tipo ou tamanho.
 
Ivan Butko #:

Você pode me dizer o que não é lixo? Nunca vi ninguém falando sobre dados de entrada limpos. Mas ouço falar de lixo no fórum o tempo todo.

O que são? Se estiver falando de lixo, então não teve lixo, caso contrário, não há nada com que compará-lo

NÃO é um indicador que está relacionado a/influenciado por um professor. Aqui está um pacote de proxy repleto de algoritmos para separar lixo de NÃO lixo. A propósito, está longe de ser o único no R.

Por exemplo, o mashka para o incremento de preço do professor é um lixo, assim como qualquer algoritmo de suavização.

proxy: Distance and Similarity Measures
proxy: Distance and Similarity Measures
  • cran.r-project.org
Provides an extensible framework for the efficient calculation of auto- and cross-proximities, along with implementations of the most popular ones.
 
mytarmailS #:
O pré-processamento é sobre normalização, não sobre lixo.
Os detritos são a seleção de recursos e, em parte, a engenharia de recursos

Sanych, pare de dar lixo para pessoas imaturas.

Se você se refere à seleção de recursos como parte dos modelos, discordo totalmente, pois a seleção de recursos como parte dos modelos classifica qualquer lixo.