Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 364

 
Vladimir Perervenko:

Olha aqui.

Ao avaliar a importância dos preditores, é importante lembrar que se trata de uma quantidade complexa, não determinada apenas por critérios de informação. e


Para a minha maneira de pensar, a importância do preditor determinada tanto por meios integrados no algoritmo básico como por meios separados, não resolve o problema, porque esta importância é na verdade a frequência de utilização do preditor para a classificação. Se os preditores incluem os anéis de Saturno, as borras de café , o algoritmo usará esses preditores também.


Tenho escrito muitas vezes neste tópico e em outros tópicos que os preditores devem "relacionar-se" com a variável alvo.

Vou dar-te um exemplo de novo.

A variável alvo é homem/mulher

Preditor: vestuário.

Para países com costumes rígidos, se o preditor consiste em calças e saias, divide-se em dois subconjuntos não sobrepostos, cada um dos quais identifica de forma única a variável alvo, ou seja, o erro de classificação é zero.

Se começarmos a incluir roupas unisexo, ou estilo escocês no preditor, há uma sobreposição, que determinará o erro de classificação. Não há maneira de se livrar deste erro em princípio.


Não são apenas os meus pensamentos, mas neste fio eu dei links para publicações com pensamentos semelhantes.

 
SanSanych Fomenko:


Para mim, a importância dos preditores, determinada por meio do algoritmo básico ou por meios separados, não resolve o problema, porque essa importância é, na verdade, a frequência de utilização de um preditor na classificação. Se os preditores incluem os anéis de Saturno, as borras de café , o algoritmo usará esses preditores também.


Tenho escrito muitas vezes neste tópico e em outros tópicos que os preditores devem "relacionar-se" com a variável alvo.

Vou dar-lhe novamente um exemplo.

A variável alvo é homem/mulher

Preditor: vestuário.

Para países com costumes rígidos, se o preditor consiste em calças e saias, divide-se em dois subconjuntos não sobrepostos, cada um dos quais identifica de forma única a variável alvo, ou seja, o erro de classificação é zero.

Se começarmos a incluir roupas unisexo, ou estilo escocês no preditor, há uma sobreposição, que determinará o erro de classificação. Não há maneira de se livrar deste erro em princípio.


Estes não são apenas os meus pensamentos, mas neste fio eu tenho fornecido links para publicações com pensamentos semelhantes.

A verdade é uma, há um milhão de caminhos para ela.

Cada um tem direito ao seu próprio caminho. O principal é que isso não deve levar a um beco sem saída.

Boa sorte.

 
Maxim Dmitrievsky:


Mas eu acredito que é possível fazer um bom dispositivo de auto-otimização que não funcionará perfeitamente para sempre, mas que ocasionalmente dará

Mas claramente não vai estar nos indicadores padrão e numa produção em ziguezague :) Parece-me até uma brincadeira de criança, apenas como um exemplo.

Espero que sim, mas estou longe das ilusões, que eu tinha há 3 anos, de que isso pode ser feito configurando uma dúzia de parâmetros, classificadores populares de bibliotecas. Acabou por ser muito pouco trivial e lento, especialmente à noite, depois do trabalho(((

ZZ é um mau alvo, eu concordo completamente.

 
Vladimir Perervenko:

Ao avaliar a importância dos preditores, é importante lembrar...

... a importância dos preditores pode ser determinada pelo seu peso na primeira camada

elibrarius:

o algoritmo de cálculo da importância nesta função

Eu faço em duas etapas, primeiro lido com características PCA linearmente correlacionadas, por exemplo, e depois construo um modelo rico não linear, por exemplo, floresta ou XGB, atravesso as características (PCA comprimido) e travo aqueles sem os quais o medidor diminui menos
 

Instalado Open R, instalados todos os pacotes, o VS 2017 ainda fica pendurado quando se cria um projeto R

Os projetos Python funcionam bem

Tomava R Studio e R 3.4, deixando apenas Open R, e funciona ) Aparentemente, são conflituosas.

E não faz sentido no R Studio, é a mesma coisa.


 
Faria sentido construir uma correlação das variáveis de entrada com o alvo antes do treinamento? E remover os mais incorpóreos, para acelerar o cálculo e aumentar o grau de aprendizagem?
 
elibrarius:
Faz sentido construir uma correlação das variáveis de entrada com o alvo antes do treinamento? E remover os mais incorpóreos, para acelerar o cálculo e aumentar o grau de aprendizagem?
Na verdade, você deve remover as entradas correlatas :) Se você tem entradas correlacionadas com o alvo, então é um graal e você não precisa de NS)))
 
Há uma peça interessante de software na internet. Você mentalmente confunde um personagem ou personalidade popular e o computador, ao fazer perguntas específicas, pode prever seu pensamento com alta probabilidade. É assim que uma rede neural é suposto funcionar. O interrogatório certo. É aí que reside o mistério.
 
elibrarius:
Faz sentido construir uma correlação das variáveis de entrada com o alvo antes do treinamento? E remover os mais incorpóreos, para acelerar o cálculo e aumentar o grau de aprendizagem?

Não é a correlação das variáveis com o alvo que deve ser verificada (deve ser), mas a falta de correlação entre as variáveis - não deve haver correlação (multicolinearidade).
 
Dmitry:

Não devemos verificar a correlação das variáveis com o alvo (deve haver uma), mas não devemos verificar a correlação entre as variáveis - não deve haver nenhuma (multicolinearidade).

Já fiz a remoção dos inputs correlacionados, só estou me perguntando de que outra forma melhorar os inputs.

Portanto, concordo com você que deve haver correlação com o alvo, por isso quero remover adicionalmente as entradas mais incorretamente relacionadas com o alvo, por exemplo com Kcorr<0,5 ou 0,3. Isto deve acelerar o processo de aprendizagem sem afectar demasiado a qualidade. Mas há uma suposição de que terei que remover todos os inputs ))))

Nos inputs utilizados (retirados aleatoriamente dos indicadores tecnológicos), até agora não encontrei nenhuma correlação com o alvo, erro de aprendizagem = 0,44, ou seja, quase uma moeda. Bem, o equilíbrio está a baixar.