Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3178

 
Forester #:
Não seria suficiente apenas misturar a coluna com a coluna de destino?
Tail e outros parâmetros da série permanecerão os mesmos. Acho que isso é uma vantagem.

Também não é ruim. Provavelmente é melhor tentar os dois métodos. Se houver muitos outliers nas características (caudas pesadas), os resultados poderão ser diferentes, o que poderá fornecer informações adicionais.

 
Aleksey Vyazmikin #:

O problema com os sectários é o medo de ter seus princípios religiosos testados.

Sempre há muitos padrões - é uma questão de escolher o correto.

Pelo menos eu tentei.

 
Aleksey Vyazmikin #:

Você pode explicar melhor - não entendi.

Uma tarefa sem sentido conhecida pode ser obtida simplesmente misturando rótulos aleatoriamente (ou gerando-os aleatoriamente com probabilidades iguais à frequência das classes).

A ideia ainda é a mesma - obter uma grande amostra dos resultados de um grande número de problemas intencionalmente sem sentido para comparar com o resultado do problema real. Se o resultado real não estiver na cauda dessa amostra, o método é bastante ruim.

 
Maxim Dmitrievsky #:

Pelo menos eu tentei.

Você entende para que no CatBoost existe a possibilidade de usar diferentes métodos de quantificação de indicadores de preditores?

Você acha que os programadores simplesmente deixaram essa possibilidade para aqueles que não têm memória operacional suficiente?

Ou os desenvolvedores percebem que o resultado do treinamento depende diretamente dessas tabelas?

E, no final, pegue você mesmo, reorganize as configurações da tabela e observe a variabilidade do resultado.

Então você pensará por que isso acontece e talvez comece a me entender melhor.


E quaisquer declarações no estilo de um pregador/profeta/juridico não são informativas. Eu as interpreto como um desejo de exibir minha pessoa.

 
Aleksey Nikolayev #:

Você pode obter uma tarefa sem sentido simplesmente embaralhando os rótulos aleatoriamente (ou gerando-os aleatoriamente com probabilidades iguais à frequência das classes).

A ideia é a mesma: obter uma grande amostra dos resultados de um grande número de tarefas obviamente sem sentido para comparar com o resultado da tarefa real. Se o resultado real não estiver na cauda dessa amostra, o método é bastante ruim.

Talvez seja melhor "misturar" para preservar a proporção de zeros e uns.

 
Aleksey Vyazmikin #:

Você entende por que o CatBoost tem a opção de usar métodos diferentes para quantificar as pontuações do preditor?

Você acha que os programadores simplesmente deixaram essa possibilidade para aqueles que não têm memória operacional suficiente?

Ou os desenvolvedores percebem que o resultado do treinamento depende diretamente dessas tabelas?

E, no final, pegue você mesmo, reorganize as configurações da tabela e observe a variabilidade do resultado.

Então você pensará sobre por que isso acontece e talvez comece a me entender melhor.


E quaisquer declarações no estilo de um pregador/profeta/juridico não são informativas. Elas são interpretadas por mim como um desejo de exibir sua pessoa.

Sugiro que pergunte aos desenvolvedores em seu carrinho, pois não sei o que eles fazem
 
Maxim Dmitrievsky #:
Sugere-se perguntar aos desenvolvedores em seu carrinho

Não faça isso. Caso eles respondam incorretamente)

 
Aleksey Nikolayev #:

Não faça isso. Caso eles respondam errado)

😁😁
 
Maxim Dmitrievsky #:
Sugere-se perguntar aos desenvolvedores em seu carrinho, pois não sei o que eles estão fazendo

Pergunte a eles, pois você não entende.

Além disso, alguns boosters fazem a quantificação do preditor após cada divisão, quantificando o restante.

Bem, não sou o único que usa isso, os participantes também mencionam algumas vezes o trabalho nesse sentido.

De qualquer forma, não vou mais forçá-lo.

 
Aleksey Vyazmikin #:

Pergunte se não estiver entendendo.

Além disso, alguns boosters quantificam o preditor após cada divisão, quantificando o restante.

Bem, não sou só eu que uso isso, os participantes de concursos também mencionam algumas vezes o trabalho nesse sentido.

De qualquer forma, não vou forçá-lo a continuar.

E por que eu deveria perguntar, se a conversão de frotas para ints é necessária principalmente para a aceleração de dados muito grandes?

O bônus pode ser uma pequena calibração do modelo para melhor ou pior, conforme a sorte.

eles simplesmente lhe darão a mesma resposta, então você provavelmente tem medo de perguntar porque isso desvalorizará todos os seus anos de trabalho árduo :)

é vasculhar a roupa íntima do algoritmo.