Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 1237

 
Dmitry:

Há dois anos atrás escrevi aqui Maximka que NS é um brinquedo como uma bomba nuclear. Que se qualquer outro modelo der resultados pelo menos satisfatórios, não é recomendado o uso de NS - eles encontram algo que não existe e você não pode fazer nada sobre isso.

Por árvores é uma coisa boa, mas é melhor usar andaimes.

Eu planeio experimentar com o xgboost via R, tudo o que eu preciso parece estar lá. E parece ser muito rápido e usa a memória de uma forma óptima.
Tratará de 100.000 amostras com, por exemplo, 100 preditores?
 
elibrarius:
Eu planeio experimentar o xgboost através do R, acho que tem tudo o que preciso. E parece ser muito rápido e usa a memória de uma forma óptima.
Tratará de 100.000 amostras com, por exemplo, 100 preditores?

) Não sei - isso é para o Fa, acho eu.

Tenho jogado com modelos simples - tenho jogado com binários.

 
elibrarius:
Eu planeio experimentar o xgboost através do R, acho que tudo o que preciso está lá. E parece ser muito rápido e usa a memória de uma forma óptima.
Pode lidar com 100.000 amostras com, por exemplo, 100 preditores?

muito rápido

vou testá-lo nos meus dados assim que aprender a guardar matrizes em mql num ficheiro normal (isso é uma chatice))

eu não tenho diferença na qualidade entre mqlp e logs... quase nenhuma diferença entre nada e nada dos modelos normais, mas eu gostaria de tentar me impulsionar, talvez seja realmente 40 vezes melhor... mas na verdade pode ser um pouco melhor.

em relação ao livro acima - quando vejo muitas palavras e interjeições desnecessárias no texto, percebo imediatamente que o autor está louco e o fecho))

 
Maxim Dmitrievsky:

muito rápido

vou testá-lo nos meus dados assim que aprender a guardar matrizes em mql num ficheiro normal (isso é uma chatice))

eu não tenho diferença na qualidade entre mqlp e logs... quase nenhuma diferença entre nada e nada dos modelos normais, mas eu gostaria de tentar me impulsionar, talvez seja realmente 40 vezes melhor... mas na verdade pode ser um pouco melhor.

Quanto ao livro - quando vejo que o texto está cheio de palavras e interjeições supérfluas demais, percebo imediatamente que o autor está louco e o fecho ))

O NS por causa do BackProp quando há muito ruído não consegue encontrar dados importantes (e temos todas as barras distantes são quase barulhentas, é essencialmente importante se elas vieram de cima ou de baixo).

Com as florestas, eu ainda não entendi como eles lidam com o ruído (além do fato de que é um voto de muitas árvores diferentes).


A única árvore pode suprimir o ruído? (lembro-me do que li há um ano atrás que pode memorizar completamente a amostra juntamente com o ruído)

 
elibrarius:
NS não consegue encontrar dados importantes com muito ruído (e todas as barras longas são quase ruidosas, ou seja, não importa se elas vêm de cima ou de baixo).

Com as florestas, eu ainda não entendi como elas lidam com o ruído (além do fato de ser um voto de muitas árvores diferentes).


A única árvore pode suprimir o ruído? (Pelo que li há um ano, lembro-me que pode memorizar completamente a amostra juntamente com o ruído)

da mesma forma que os conjuntos de redes neurais são construídos em ensacamento e você recebe a mesma coisa que uma floresta.

você tem que entender que uma floresta é apenas um caso especial de ensacamento, em vez de árvores você pode enfiar lá o que quiser, quaisquer modelos fracos. Uma única árvore é um modelo elementar que não consegue suprimir nada.

a floresta "mais ou menos" não se retrai por causa da amostragem aleatória, mas na verdade se retrai muito fácil e despretensiosamente

Ambos precisam ser regularizados via Decadência (degrau), parada antecipada, ou via parâmetro r da floresta, ou pré-processamento, mas todas essas melhorias estão normalmente dentro de 5-10%. Com dados ruins, ambos os modelos terão um desempenho igualmente ruim.

sobre o impulso (extremo, não GBM) eles dizem que não é muito re-treinamento, você deve olhar para ele, eu não posso dizer nada

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

 
Vizard_:

O meu estimado Inocente. Eu não tenho medo dessa palavra, Mestre, obrigado por esses momentos de alegria!
A vida brilhou com novas cores (azul, vermelho, cinza, verde))))
Se puder responder a algumas perguntas. Porque te referes tão assiduamente a Vorontsov como Voronov
e porque nos estás a falar das condições do mercado sem MO, e porque estás a tentar dar-nos algum tipo de alvo da treta.
E o principal - onde está o plano de tendência?)))

Eu escrevi sobre Vorontsov e meu desespero com sua zombaria, mas meus posts foram apagados, não seja como os nazistas da Gramática, meu alvo não é um cinza (plano) e as cores (tendência) diferem com uma precisão de 90%, azul e vermelho para a clareza, eu não uso direção, eu tomo o indicador verde como um valor absoluto.

 
Maxim Dmitrievsky:

Vou testá-lo nos meus dados assim que aprender a salvar matrizes em mql de uma forma normal em um arquivo (isso é uma chatice))

criar uma matriz de estruturas, escrever uma matriz em cada estrutura e redefini-la de uma vez usandoFileWriteArray()

Документация по MQL5: Файловые операции / FileWriteArray
Документация по MQL5: Файловые операции / FileWriteArray
  • www.mql5.com
//|                                          Demo_FileWriteArray.mq5 | //|                        Copyright 2013, MetaQuotes Software Corp. | //|                                              https://www.mql5.com | //| Структура для хранения данных о ценах                            |...
 
elibrarius:
Não é grande, ele explicou em números pequenos por 10: 8:2 vs 6:4. Mas nós temos muitos dados.


Quantas amostras podem ser consideradas representativas da BP? Eu normalmente não uso menos de 10000, classe pequena deve ter pelo menos 1000

Para as árvores, há um gráfico maravilhoso do erro, dependendo do número de árvores.

Assim, para sentinelas, o número de árvores acima de 100 não reduz o erro.

O gráfico é parecido com este:



Você pode pegar diferentes tamanhos de arquivo e obter a resposta à sua pergunta.

Mas isto não é tudo.

Para rf há outro parâmetro "Tamanho da amostra". Com ele você pode nivelar a diferença na classe. De qualquer forma, este parâmetro influencia muito no tamanho do erro.

Por exemplo.

Para Tamanho da amostra = 1000, 500 com um tamanho de ficheiro de 7500 linhas parece deprimente. Mas é à primeira vista e não necessariamente deprimente. Suponha que a classe "0" é longa e a classe "1" é "fora do mercado" . O erro para "fora do mercado" é superior a 0,5, o que significa que a compra está sendo feita do zero. Se trocarmos de lugar, isso significaria que "fora do mercado" é livre, mas o erro "longo" é muito pequeno.



E o mesmo arquivo com tamanho de amostra = 1000, 1000 parece muito decente.

 
Igor Makanu:

criar uma matriz de estruturas e escrever uma matriz para cada estrutura, se necessário, e redefini-la de uma vez usando FileWriteArray()

Eu não sei o número de colunas de antemão... e não estão escritas em arquivos as arrays de estruturas com arrays dinâmicos dentro? ) Isto é uma confusão...

só preciso de guardar um array de 2-d, cuja contagem de colunas é desconhecida antecipadamente

 
Maxim Dmitrievsky:

da mesma forma que os conjuntos de redes neurais são construídos em ensacamento e você recebe a mesma coisa que uma floresta.

você tem que entender que uma floresta é apenas um caso especial de gamão, ao invés de árvores você pode colocar qualquer coisa, qualquer modelo fraco. Uma única árvore é um modelo elementar que não consegue suprimir nada.

a floresta "mais ou menos" não se retrai por causa da amostragem aleatória, mas na verdade se retrai muito fácil e despretensiosamente

Ambos precisam ser regularizados via Decaimento (degrau), parada antecipada, ou via parâmetro r da floresta, ou pré-processamento, mas todas essas melhorias estão normalmente dentro de 5-10%. Com dados ruins, ambos os modelos terão um desempenho igualmente ruim.

sobre o impulso (extremo, não GBM) eles dizem que não é muito re-treinamento, você deve olhar para ele, eu não posso dizer nada

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

Tudo é praticamente o mesmo: rf, xgboost, SVM, GLM, nnet.

Em alguns locais um modelo é melhor que outro, em outros pior - todas as unidades de por cento.

A impressão é que o erro do modelo é, na realidade, o erro do par de variáveis preditor-alvo. Há um certo limite além do qual você não pode passar por nenhum truque, mas pode facilmente destruí-lo, você pode perder um par promissor.