Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3283
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Esse é o núcleo do cálculo linha por linha da matriz.
O PearsonCorrM é 40 a 50 vezes mais rápido do que o algoritmo linha a linha de Algibov. Provavelmente, nem mesmo uma ferramenta caseira rápida conseguirá superar essa diferença de velocidade.
Gostaria de saber se uma matriz é computada e a mesma matriz é computada pelo algoritmo rápido Algibov PearsonCorrM. Quem seria mais rápido?
O PearsonCorrM é 40 a 50 vezes mais rápido do que o algoritmo linha por linha de Algibov, provavelmente nem mesmo um algoritmo caseiro rápido superará essa diferença de velocidade.
Aqui está o dobro da defasagem do algoritmo caseiro do PearsonCorrM.
Comparei a velocidade do treinamento do CatBoost em python e por meio da linha de comando:
- 20% mais rápido desde a inicialização até o salvamento dos modelos, incluindo a leitura das amostras
- 12% mais rápido o próprio processo de aprendizado
Testado no mesmo modelo - o resultado do treinamento é idêntico.
É claro que a linha de comando é mais rápida.
- 20% mais rápido desde a inicialização até o salvamento dos modelos, incluindo a leitura de amostras
- 12% mais rápido o próprio processo de aprendizado
Testado no mesmo modelo - o resultado do treinamento é idêntico.
É claro que a linha de comando é mais rápida.
Você ainda usa a linha de comando para executar EXEs?
Você pode executá-los por meio do WinExec e até mesmo otimizá-los no testador.
Não experimentei o Catboost, mas acho que você pode fazer alguma coisa.
Outro possível problema é que, se o arquivo de modelo for enorme, pode levar muito tempo para ser gravado, ou seja, o arquivo já existe, mas não foi gravado até o fim. Pode ser necessário pausar o arquivo ou verificar se o arquivo não está fechado para leitura pelo processo de gravação....O mais difícil é determinar o momento em que o treinamento termina. Eu faço isso verificando a aparência do arquivo de modelo na pasta agent_dir+"\model.bin" uma vez por segundo. Não sei onde o Catboost coloca o arquivo de modelo, talvez eu tenha que procurá-lo em outro lugar.
Você ainda usa a linha de comando para executar EXEs?
Você pode executá-los por meio do WinExec e até mesmo otimizá-los no testador.
Eu executo arquivos bat - até o momento, é a opção mais conveniente para as tarefas atuais.
Até o momento, há apenas uma tarefa para o lançamento automático do treinamento após a obtenção de uma amostra: a pesquisa de reconhecimento. Planejo criar um arquivo bat automático para isso mais tarde.
Não experimentei o Catboost, mas acho que podemos pensar em algo.
O mais difícil é determinar o momento do fim do treinamento. Eu faço isso verificando a aparência do arquivo de modelo na pasta agent_dir+"\model.bin" uma vez por segundo. Não sei onde o Catboost coloca o arquivo de modelo, talvez eu tenha que procurá-lo em outro lugar.
Outro possível problema, se o arquivo de modelo for enorme, pode levar muito tempo para ser gravado, ou seja, o arquivo já existe, mas não foi gravado até o final. Talvez seja necessário pausar o arquivo ou verificar se ele não está fechado para leitura pelo processo de gravação....Sua solução é interessante - vou dar uma olhada, talvez eu a use para aplicação.
Mas acho que há uma possibilidade de obter uma resposta final do programa executável - eu queria usar essa abordagem.
Opção com arquivos - se você executar um bootnik, então novamente - você pode simplesmente criar um novo arquivo no final da tarefa.
Talvez a taxa de sucesso relativa das variantes -1 e 0 esteja no tamanho da amostra do trem e deva ser reduzida? Em geral, parece que o Recall reage a isso.
Em sua opinião, os resultados de tais combinações devem ser comparáveis entre si em nosso caso? Ou os dados estão irremediavelmente desatualizados?
Dividi a amostra do trem em três partes, treinei três conjuntos para a variante -1 e a variante 0, e também treinei apenas o trem original como três amostras.
Foi isso que obtive.
Fiz essa generalização PR=(Precisão-0,5)*Recall
Parece que o treinamento ocorre às custas da segunda e da terceira partes da amostra do trem - agora que as combinei e executei o treinamento, vamos ver o que acontece.
Ainda assim, parece que esse pode não ser um método ruim para estimar a aleatoriedade do treinamento. Idealmente, o treinamento deve ser relativamente bem-sucedido em cada segmento, caso contrário, não há garantia de que o modelo simplesmente deixará de funcionar amanhã.
Parece que o treinamento está ocorrendo às custas da segunda e terceira partes do trem de amostra - agora eu as combinei e executei o treinamento - veremos o que acontece.
Ainda assim, parece que esse pode não ser um método ruim para avaliar a aleatoriedade do treinamento. O ideal é que o treinamento seja relativamente bem-sucedido em cada segmento, caso contrário, não há garantia de que o modelo simplesmente deixará de funcionar amanhã.
E aqui estão os resultados - as duas últimas colunas
De fato, os resultados melhoraram. Podemos supor que, quanto maior a amostra, melhor será o resultado do treinamento.
Devemos tentar treinar na 1ª e 2ª partes da amostra de treinamento e, se os resultados não forem muito piores do que na 2ª e 3ª partes, o fator de frescor da amostra poderá ser considerado menos significativo do que o volume.
Já escrevi muitas vezes sobre o "poder preditivo dos preditores", que é calculado como a distância entre dois vetores.
Encontrei uma lista de ferramentas para calcular a distância:
Isso além da ferramenta padrão, que tem seu próprio conjunto de distâncias
E aqui está o resultado - as duas últimas colunas
De fato, os resultados melhoraram. Podemos supor que, quanto maior a amostra, melhor será o resultado do treinamento.
É necessário tentar treinar em 1 e 2 partes da amostra de treinamento e, se os resultados não forem muito piores do que em 2 e 3 partes, então o fator de frescor da amostra pode ser considerado menos significativo do que o volume.
Já escrevi muitas vezes sobre o "poder preditivo dos preditores", que é calculado como a distância entre dois vetores.
Encontrei uma lista de ferramentas para calcular a distância:
Isso além da ferramenta padrão, que tem seu próprio conjunto de distâncias
Você pode me mostrar um exemplo de como usá-la?