Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2111

 
Aleksey Vyazmikin:

Não, seria um ajuste justo, não um modelo com significado!

Eu discordo. Ao quantificar, você reduz a quantidade de informação. O número máximo de quantização deixará a quantidade máxima de informação.

Mas leva mais tempo para quantificar até 65535 do que até 255.

 
elibrarius:

Você sabe como?

Sim, estou a trabalhar nisso - foi feito originalmente para árvores genéticas.

É necessário avaliar a distribuição da informação pela amostra e a sua relação com o alvo. Vejo como o erro é reduzido numa determinada secção de quantização e que percentagem de amostras contém - o equilíbrio dessas métricas permite seleccionar as melhores partições.

 
elibrarius:

Eu discordo. Ao quantificar, você reduz a quantidade de informação. O número máximo de quantização deixará a quantidade máxima de informação.

Mas leva mais tempo para quantificar até 65535 do que até 255.

Você deve estar errado em discordar - não há muita informação lá fora e ela precisa ser separada do barulho. Nós (eu) precisamos de dependências estáveis, não aquelas que se repetem a cada 5 anos e, portanto, não há estatísticas suficientes para estimar sua propensão a um determinado alvo, usando exemplos insuficientes leva simplesmente à adequação.

 
Aleksey Vyazmikin:

Sim, estou a trabalhar nisto - foi feito originalmente para árvores genéticas.

É necessário avaliar a distribuição da informação pela amostra e a sua relação com o alvo. Vejo como o erro é reduzido numa determinada secção de quantização e que percentagem de amostras contém - o equilíbrio destas métricas permite seleccionar as melhores partições.

Como se estima o erro de quantificação. Você só pode obtê-lo executando o treinamento e por todas as colunas de uma vez e não por cada coluna quantificada no momento.

 
elibrarius:
Aleksey Vyazmikin:

Como você estima o erro de quantificação. Ele só pode ser obtido executando o treinamento em todas as colunas de uma só vez, e não em cada coluna atualmente quantificada.

Eu estimo a mudança no equilíbrio do alvo em relação a toda a amostra. Isto é especialmente relevante se houver mais de dois alvos.

 
Aleksey Vyazmikin:

Eu estimo a mudança no saldo das metas em relação a toda a amostra. Isto é especialmente verdade se houver mais de dois alvos.

Em qualquer caso, a próxima divisão irá dividir-se através do ponto de quantificação em 2 partes.

Você pode mover o limite de um quantum de forma bastante aproximada - 5-10-20% do seu tamanho - quantificando grandes 255 pedaços. Ao aplicar 65535 quanta você terá um passo de 0,5% do seu quantum. E a árvore vai escolher a melhor.

Mas é pouco provável. Normalmente só atinge o meio ou os aposentos. Com 65535 quanta você vai encontrar o meio com mais precisão, e com 255 é 256 vezes mais áspero.

 
elibrarius:

Em qualquer caso, a próxima divisão irá dividir-se através do ponto de quantificação em 2 partes.

Você pode mover o limite de um quantum de forma bastante aproximada - 5-10-20% do seu tamanho - quantificando grandes 255 pedaços. Ao aplicar 65535 quanta você terá um passo de 0,5% do seu quantum. E a árvore vai escolher a melhor.

Mas é pouco provável. Normalmente só atinge o meio ou os aposentos. Com 65535 quanta o meio será encontrado com mais precisão, e com 255 é 256 vezes mais áspero.

Exatamente, haverá uma divisão, mas a divisão não será 50%, mas desigual - dependendo da correspondência com a(s) divisão(ões) superior(es), mas a lógica sugere que as chances serão diferentes se você olhar onde o segmento está saturado com unidades ou onde há um número igual delas (em relação ao saldo de toda a amostra). O objetivo é obter pelo menos 1% das amostras nas folhas e ao mesmo tempo cerca de 65% dos rótulos da mesma classe.

 
Aleksey Vyazmikin:

Exatamente, haverá uma divisão, mas a divisão não será 50%, mas desigual - dependendo da correspondência com a(s) divisão(ões) superior(es), mas a lógica sugere que as chances serão diferentes se você pesquisar onde o segmento está saturado com unidades ou onde há um número par delas (em relação ao saldo de toda a amostra). O objetivo é obter pelo menos 1% da amostra nas folhas e, ao mesmo tempo, cerca de 65% dos rótulos da mesma classe.

Acho que esta é uma tarefa bastante difícil.

E se tal recurso puder ser encontrado, é a única maneira de trabalhar, mesmo sem MO.

Infelizmente, não temos tais características.

 
Maxim Dmitrievsky:

Não preciso dele para o exame, mas pode vir a ser útil.

Os resultados são estranhos - na amostra de teste e treino Recall 0,6-0,8 e no exame sem conversão 0,009 e com conversão 0,65 - algo está errado aqui :(

Tenho a sensação de que o CatBoost aprendeu o algoritmo de conversão :)

E há uma oportunidade para marcar linhas antigas e novas? Então é possível remover cordas transformadas da amostra transformada e ver se se trata de um problema de interpretação ou não de treinamento qualitativo, tudo da mesma forma.

 
elibrarius:

Eu acho que isto é um desafio e tanto.

E se tal recurso puder ser encontrado, é a única maneira de trabalhar, mesmo sem o MoD.

Infelizmente, nós não temos tais características.

Por y é a divisão em grade, e por X é o desvio percentual da soma da meta de cada classe em toda a amostra. O filtro é de 5%. Podemos ver que classes diferentes dominam seções diferentes e às vezes há uma mudança de espelho onde a melhoria é devida a uma determinada classe (o histograma vai para a posição menos) e às vezes não. Tudo isso deve ser usado em treinamento, mas métodos de treinamento padrão conhecidos por mim não levam isso muito em conta. É possível que o sobretreinamento com genética (mais precisamente na eliminação) seja mais eficaz - isso deve ser feito.