Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Preparei uma amostragem de 11 colunas + 1 coluna de saída. Pergunta: ao iniciar o Preditor, que número de colunas deve ser especificado. Somente a quantidade de dados (11) ou junto com a saída (12) ????
Ou seja, se na planilha inicial (arquivo csv) o número de colunas N > 46, e o número de linhas M, então o custo do tempo de cálculo é proporcional a: 2 * (N - 2) + M - 2
Se o número de colunas na planilha N < 13, o tempo gasto nos cálculos é proporcional a 2 * (N - 2)2 + M - 2
Isto é, se o número de colunas na planilha for N = 12 (10 entradas), então o tempo de computação no mesmo computador será o mesmo que para N = 1025 (1023 entradas). Porque para o número de entradas inferior a 11, as transformações do núcleo MSUA são ativadas.
OK, já resolvemos o cronograma. Mas aqui está outra coisa que tenho notado. Se você otimizar um e o mesmo arquivo, obtém resultados completamente diferentes. Como completamente.... Eles diferem, é claro, às vezes até mesmo muito. O que isso tem a ver, Yuri? Pensei que durante a otimização, neste caso, deveríamos chegar ao mesmo resultado. Mas aqui acontece que o resultado é diferente.... :-( O que isso tem a ver?
Tem a ver com aleatoriedade. A amostra geral é dividida em duas subamostras, uma amostra de treinamento e uma amostra de controle usando o jPrediction. jPrediction faz 100 tentativas de dividir a amostra geral em duas partes.
A cada tentativa, um modelo é construído sobre a subamostra de treinamento. Na amostra de controle, o modelo é verificado "para verificar se é viscoso". Os resultados obtidos no controle (generalizabilidade) são exibidos. Mas os resultados da capacidade de treinamento não são necessários no inferno, porque eles são um encaixe e, portanto, não são exibidos em nenhum lugar.
Se os melhores resultados de generalização são muito diferentes na mesma amostra com tiragens diferentes, significa que a amostra não é representativa - muito lixo sobre os insumos. Ou seja, os palpiteiros têm pouco significado.
Se a amostra for representativa, o mesmo melhor modelo pode ser construído mais de uma vez em 100 corridas, ou seja, não depende tanto de quais exemplos são incluídos na amostra de treinamento e quais na amostra de controle.
Ao prever as séries cronológicas NS, uma partição da amostra usando um PRNG não tem utilidade prática - um completo disparate, não mostrando nada.
Somente divisórias artificiais com uma amostra de controle no final da série temporal