Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3311

 
Aleksey Vyazmikin #:

Quem já experimentou o método"Compactness Profile"?

O objetivo do método é eliminar exemplos inconsistentes da amostra, o que deve melhorar a aprendizagem e reduzir o tamanho do modelo se forem usados os métodos de aprendizagem K nearest neighbor.

Não consegui encontrar uma implementação em python.....

Seu mesmo link fala sobre a vinculação do "perfil" à validação cruzada, para a qual talvez seja mais fácil encontrar pacotes.
 
Aleksey Vyazmikin #:

Quem já experimentou o método"Compactness Profile"?

O objetivo do método é eliminar exemplos inconsistentes da amostra, o que deve melhorar a aprendizagem e reduzir o tamanho do modelo se forem usados os métodos de aprendizagem K nearest neighbor.

Não consegui encontrar uma implementação em python.....

O trabalho é experimental. Aqui está uma citação de http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf

O trabalho foi realizado no âmbito dos projetos RFBR 05-01-00877, 05-07-90410 e do programa OMN RAS

É improvável que cada experimento tenha sido criado em um pacote.

Sim, e o experimento é artificial. O ruído foi adicionado ao conjunto de dados claramente separado por classes. E a separação clara é feita apenas por um recurso - o eixo Y. Se removermos o ruído (todos os dados de 0,2 a 0,8), descobriremos que deixamos exemplos apenas com a distância para outra classe não inferior a 0,6. Estou falando da terceira opção mais difícil da imagem:


Vá para a vida real e adicione seus 5.000 preditores que serão ruído a essa única ficha de trabalho. No agrupamento, você calcula a distância total entre os pontos nesse espaço dimensional de 5001. 0,6 de trabalho nunca será encontrado nesse caos.

Acho que qualquer classificador fará isso melhor, a mesma árvore encontrará esse único recurso e dividirá por ele, primeiro por 0,5 e depois chegará a divisões de 0,2 e 0,8, seguidas de folhas com 100% de pureza.

 
Aleksey Vyazmikin #:

Quem já experimentou o método"Compactness Profile"?

O objetivo do método é eliminar exemplos inconsistentes da amostra, o que deve melhorar a aprendizagem e reduzir o tamanho do modelo se forem usados os métodos de aprendizagem K nearest neighbor.

Não consegui encontrar uma implementação em python....

Um dos artigos de Vladimir Perervenko descreveu esse método, e havia um exemplo com código, é claro
 
Forester #:

O trabalho é experimental. Aqui está uma citação de http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf

É improvável que cada experimento tenha sido criado como um pacote.

Ah, e o experimento é artificial. O ruído foi adicionado ao conjunto de dados claramente separado por classes. E a separação clara é apenas para um recurso - o eixo Y. Se removermos o ruído (todos os dados de 0,2 a 0,8), descobriremos que deixamos exemplos apenas com a distância para outra classe não inferior a 0,6. Refiro-me à terceira variante mais complicada da imagem:


Vá para a vida real e adicione seus 5.000 preditores que serão ruído a essa única ficha de trabalho. No agrupamento, você calcula a distância total entre os pontos nesse espaço dimensional de 5001. 0,6 de trabalho nunca será encontrado nesse caos.

Acho que qualquer classificador fará isso melhor, a mesma árvore encontrará esse único recurso e dividirá por ele, primeiro por 0,5 e depois chegará a divisões de 0,2 e 0,8, seguidas de folhas com 100% de pureza.

Isso nunca acontecerá. Qualquer MO não o encontrará. O lixo deve ser eliminado ANTES do treinamento do modelo. "Garbage in - rubbish out" é a lei da estatística.

 
СанСаныч Фоменко #:

Nunca encontrará. Qualquer IO não o encontrará. Você precisa se livrar do lixo ANTES de treinar o modelo. "Lixo entra, lixo sai" é a lei da estatística.

Estou falando de um exemplo artificial específico no qual foram realizados experimentos. Não se trata de lixo dentro e lixo fora. É fácil eliminar o que está espalhado nesse exemplo.

 
Isso é exatamente o que os otimizadores não conseguem entender. Que é por meio da simplificação que a estabilidade pode ser melhorada, e não por meio da busca de um máximo global.
O exemplo mais simples é o SVM, com uma determinada distância entre os vetores de suporte. O eixo cruzado é ainda mais flexível. E aí você verá, e então poderá entrar no matstat para obter uma meia folha.
Se você não conseguir entrar no kozul desde o início, poderá pensar nesse nível para começar.

Offtopic: você já jogou Starfield? Besdazd sabe como criar uma atmosfera. É imersivo.
 
Forester #:

Estou falando sobre o exemplo artificial específico no qual os experimentos foram realizados. Não se trata de lixo dentro e lixo fora. O que é conhecido nesse exemplo é fácil de ser cortado.

Para esclarecer meu ponto de vista.

Qualquer algoritmo de MO tenta reduzir o erro. A redução de erros é mais eficaz no lixo, porque é muito mais provável que ele tenha valores "convenientes" para a redução de erros. Como resultado, é certo que a "importância" dos preditores para lixo será maior do que para NÃO lixo. É por isso que existe o pré-processamento, que é muito mais trabalhoso do que o ajuste do modelo em si.

 
СанСаныч Фоменко #:

Deixe-me esclarecer meu ponto de vista.

Qualquer algoritmo de MO tenta reduzir o erro. A redução do erro é mais eficaz no lixo, porque os valores "convenientes" para a redução do erro são muito mais comuns no lixo. Como resultado, é certo que a "importância" dos preditores para o lixo será maior do que para o NÃO lixo. É por isso que existe o pré-processamento, que é muito mais trabalhoso do que o ajuste do modelo em si.

Diga-me, por favor, o que não é lixo? Nunca vi ninguém falando sobre dados de entrada puros. Mas ouço falar de lixo no fórum o tempo todo.

Quais são eles? Se você está falando de lixo, então não teve lixo, caso contrário, não há nada com que compará-lo

 
СанСаныч Фоменко #:

Deixe-me esclarecer meu ponto de vista.

Qualquer algoritmo de MO tenta reduzir o erro. A redução do erro é mais eficaz no lixo, porque os valores "convenientes" para a redução do erro são muito mais comuns no lixo. Como resultado, é certo que a "importância" dos preditores para o lixo será maior do que para o NÃO lixo. É por isso que existe o pré-processamento, que é muito mais trabalhoso do que o ajuste real do modelo.

O pré-processamento é sobre normalização, não sobre lixo.
Os detritos são a seleção de recursos e, em parte, a engenharia de recursos.

Sanych, pare de alimentar com lixo a entrada de pessoas que são imaturas.
 
Ivan Butko #:

Você pode me dizer o que não é lixo? Nunca vi ninguém falando sobre dados de entrada limpos. Mas ouço falar de lixo no fórum o tempo todo.

O que são? Se estiver falando de lixo, então não teve lixo, caso contrário, não há nada com que compará-lo

Ninguém sabe o que é lixo e o que não é, esses são conceitos hipotéticos.

Se soubessem exatamente o que é o quê, não haveria um tópico de 3 mil páginas)))

A pessoa simplesmente supõe que ultrapassar tais e tais limites é "lixo", e esses limites também são hipotéticos. É por isso que a expressão "lixo dentro - lixo fora" não passa de uma bela frase: o que é lixo para um pesquisador não é lixo para outro pesquisador. É como as ondas de Eliot.