Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 1203
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Obrigado. Randomizar com os mesmos valores que o preditor na amostra, certo?
Em geral a abordagem é clara, obrigado, eu preciso pensar em como implementá-la e experimentá-la.
Infelizmente, não consigo dominá-lo, por isso vou ouvir uma recontagem dos teus lábios na ocasião.
Não, para aleatorizar de todo, ou seja, limpar completamente os valores preditores e enfiar lá dentro o ruído branco
e depois enfie os valores originais de volta quando for verificar o próximo.
grosso modo, enfiar o ruído branco no lugar de cada preditor, um de cada vez. Isso provavelmente é mais fácil de entender.
Uma condição importante: os preditores não devem se correlacionar, caso contrário você vai ficar algaraviada com erros... Para isso eu primeiro transformei através do PCA, mas é possível fazer uma matriz de correlação e remover todas as fortemente correlacionadas. Há outro mecanismo, mas é complicado.Não, aleatorizar de todo pela canhota, ou seja, limpar completamente os valores do preditor e enfiar lá dentro o ruído branco
depois empurre os valores originais para trás quando for verificar o próximoSe apenas ruído, então vamos quebrar a divisão, por exemplo, há uma divisão com a regra "mais de 100", mas vamos adicionar uma divisão aleatória de 0 a 99, então a divisão adicional não estará mais ativa. É provavelmente importante ver como a divisão adicional funcionará se uma das regras da lista desistir...
Uma condição importante: os preditores não devem se correlacionar, senão você vai ficar algaraviada com os erros... Para isto eu transformei pela primeira vez através do PCA, mas é possível fazer uma matriz de correlação e remover todas as fortemente correlacionadas. Há outro mecanismo, mas é complicado.Que tipo de correlação é aceitável? Afinal, os bons preditores devem se correlacionar com o alvo, o que significa que se correlacionarão um com o outro até certo ponto...
Se for apenas ruído, então vamos quebrar a divisão, por exemplo, há uma divisão com regra "mais de 100" e vamos colocar uma divisão aleatória de 0 a 99, então a divisão adicional não estará mais ativa, e é provavelmente importante ver como a divisão adicional vai funcionar quando uma das regras da folha cair...
por isso o erro vai cair muito e tudo vai ficar bem, a importância é baixa. Não entre em modelos, como você sabe como as árvores são divididas, e cada uma delas é diferente com um número diferente de características. Parecem sempre a média do hospital.
Que tipo de correlação é aceitável? Afinal, os bons preditores devem se correlacionar com o alvo, o que significa que eles se correlacionarão entre si até certo ponto...
isto é heresia para a regressão linear com um preditor, em modelos não lineares nada deve se correlacionar com o alvo, especialmente se for uma classificação
Não sei qual deles é aceitável, é difícil... ou experimental. É mais fácil usar o PCA neste sentido, é claro.Então o erro vai cair drasticamente e tudo vai ficar bem, as importações são baixas. Não entre em modelos, como você sabe como as árvores são divididas, e cada uma delas é diferente com um número diferente de características. Você sempre olha para a média do hospital.
Então você pode simplesmente anular o valor ou substituí-lo por qualquer outro valor - o mesmo aleatório, mas não me parece lógico... De qualquer forma, se eu conseguir implementá-lo, vou tentar duas variantes.
isto é heresia para a regressão linear, em modelos não lineares nada deve se correlacionar com o alvo
Qual é o argumento de que se há uma correlação com o alvo, então o prognosticador é mau?
Então você poderia simplesmente anular o valor ou substituí-lo por qualquer outro valor - o mesmo aleatório, mas não me parece lógico... De qualquer forma, se eu conseguir implementá-lo, vou tentar duas opções.
Bem, que argumento pode haver para que, se houver uma correlação com o alvo, então o preditor seja mau?
Não me interessa como o fazes, o principal é reorganizar as fichas, parece-me, é mais uma bagatela.
Não estou falando de um, mas quando há muitos deles e as importações são aproximadamente as mesmas, porque a correlação entre eles é forte. Acontece que, removendo uma característica forte durante o rearranjo, o erro do modelo não cairá, porque haverá características semelhantes com a mesma importância, e nenhuma das características fortes será reconhecida. É por isso que você deve randomizar todas as características correlatas ao mesmo tempo (o que é mais difícil de implementar) ou tomar cuidado para não correlacionar fortemente nada
Faz como quiseres, o principal é o princípio do rearranjo do chip, acho que é mais provável que seja uma bagatela.
Não estou falando de um, mas quando há muitos e a importância é aproximadamente a mesma, porque a correlação é forte. Assim, a remoção de uma característica forte no rearranjo não fará diminuir o erro do modelo, pois haverá características semelhantes com a mesma importância e nenhuma das características fortes será reconhecida.
É assim que o modelo deve construir preditores para construir árvores simétricas - sem treino é improvável, como me parece, por isso não faz sentido quando se cria um modelo.
Então, que correlação é aceitável?Ainda depende do modelo conseguir que os preditores construam árvores simétricas - porque sem reaprender é improvável, parece-me, porque não faz sentido quando se cria o modelo.
funciona bem em caso de floresta, em caso de catbust você tem que ler, eu não consigo lembrar como funciona. Talvez ele próprio tenha uma boa importação, devido à estrutura do próprio modelo
Eu não sei o que é aceitável, estabelecer um limite e ver. +- pouco vai mudar no modelo. O impulso não funciona da mesma forma que a RF, talvez haja uma clara importância desde o início.
ou se você tem certeza de que as características são heterogêneas e não se correlacionam, então esqueça de tentar este passo.
tudo isso são coisas importantes, especialmente se você tem muitas características e precisa cortar o ruído do modelo, mas não tanto que você tem que se preocupar com cada % de correlação, eu acho. na faixa de -0,5; 0,5 é provavelmente normal.
Eu mesmo farei tal variante mais tarde e verifique-a.
funciona bem no caso da floresta, no caso do catbust você tem que ler, eu não consigo lembrar como funciona. Talvez tenha boas importações por si só, devido à estrutura do modelo em si.
Não sei o que é aceitável, estabelecer um limite e ver. +- pouco vai mudar no modelo. O impulso não funciona como a RF, pode haver uma clara importância desde o início.
ou se você tem certeza de que as características são heterogêneas e não se correlacionam, então esqueça de tentar este passo.
tudo isso são coisas importantes, especialmente se você tem muitas características e precisa cortar o ruído do modelo, mas não tanto que você tem que se preocupar com cada % de correlação, eu acho. na faixa de -0,5; 0,5 é provavelmente normal.
Eu mesmo farei tal variante mais tarde e darei uma olhada.
Estou a ver, vou ter de experimentar. Eu só quero ver folhas para correlação e talvez para modelos de catbust. Eu sei com certeza que o emparelhamento de modelos é possível - a pesquisa simples já o mostrou, mas eu devo fazer tudo razoavelmente, e a correlação detectada irá reduzir o número de iterações para o emparelhamento de modelos.