Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 37
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Não seria melhor integrar-se no R?
E mais pessoas serão capazes de trabalhar e as pontes mt5 com R parecem estar disponíveis
Eu nunca tentei isso, mas tecnicamente você também poderia tratar a variável alvo como um preditor, incluindo-a no modelo pca. Então, nos novos dados o seu valor será desconhecido, de acordo com isso o pca pode preencher estes valores em falta.
Tentei prever os componentes da cabeça e não consegui nada interessante...
Você poderia tentar também, há um pacote muito bom e bem documentado para ele "Rssa".
Não, está tudo bem. Como os preditores utilizados para cada um dos componentes principais são conhecidos, podemos rastrear com segurança os preditores que não são utilizados nos componentes principais.
Como assim, não são usados? O PCA é uma transformação linear. As dimensões que podem ser eliminadas são aquelas que podem ser obtidas por uma combinação linear das outras. Isso significa que qualquer preditor pode ser obtido por uma combinação linear dos componentes principais. Se você tomar um intervalo de 95%, há uma boa chance de perder um bom preditor estupidamente por causa da escala, um intervalo inferior a 100% só é usado na compressão de dados com perda, caso contrário, apenas os componentes que são nulos são sempre cortados.
Raios, eu suspeitava que não era por acaso que estes espectáculos de "NA" eram lançados na data, mas li o manual, diz claramente PCA com uma rede neural, mas depois ainda não está claro como é que este tipo do site conseguiu esta bela imagem com uma boa separação por classes
As fotos têm um ponto diferente aí... O artigo em si não é sobre classificação, mas sim sobre agrupamento. Você tem dados, você precisa dividi-los em grupos de alguma forma. Nem sabes quantos grupos tens - dois, três, dez... O autor utiliza um gráfico dos dois primeiros componentes do PCA onde o importante é o quão próximos estão os pontos de um grupo um do outro. As cores já são uma análise comparativa, e são atribuídas a partir de variáveis-alvo já conhecidas, que não são calculadas, mas simplesmente retiradas da tabela. Se os grupos de pontos forem distribuídos corretamente por cores, então tudo está bem, o método parece funcionar e podemos experimentá-lo com outros dados. Mas há realmente zero previsões no artigo, apenas agrupamento e comparação com a classificação conhecida.
Você pode desenhar um gráfico semelhante no artigo do meu post anterior. O resultado será um gráfico como este: http://i0.wp.com/www.win-vector.com/dfiles/YAwarePCA_files/figure-html/scaledplotest-1.png Não há aqui um bom clustering, dados de entrada diferentes. Mas se você usar a íris de tabela como dados de entrada, você receberá algo semelhante aos gráficos do artigo que você deu.
O PCA foi originalmente concebido para reduzir a dimensionalidade da série original. É tudo. Utilizá-lo para selecionar os preditores é ilusório.
Não seria melhor integrar-se no R?
E mais pessoas serão capazes de trabalhar e as pontes mt5 com R parecem estar disponíveis
A julgar pelo facto do Dr.Trader já se ter despenhado ao tentar portar a velha libVMR para R e não ter memória suficiente para uma grande máquina nuclear e desempenho total para uma pequena (reduziu o número de ciclos em 100 vezes), duvido que houvesse pessoas dispostas a cometer os mesmos erros.
Então, é melhor não começar ainda a falar em portar para R para tais tarefas - este chato não vai puxá-lo.
A julgar pelo facto de o Dr.Trader já se ter despenhado ao tentar portar a velha libVMR para R e não ter memória suficiente para uma grande máquina nuclear, bem como desempenho total para uma pequena (o número de ciclos foi reduzido em 100 vezes), é pouco provável que haja pessoas dispostas a pisar no mesmo ancinho?
Por isso, é melhor não dizer uma palavra sobre o retrato em R como esta - este clunker é muito lento.
Eu queria criar um pacote para "R" .
"R" consiste em 70% dos pacotes escritos em outras línguas (C++, C, fortran, java...) então a velocidade de processamento não deve sofrer, ou estou a perder alguma coisa?
o famoso pacote "h2o" está todo escrito em java
Eu queria criar um pacote para "R".
"R" consiste em cerca de 70% das embalagens escritas em línguas "estrangeiras" (C++,C,fortran,java...) pelo que a velocidade de processamento não deve sofrer, ou estou a perder alguma coisa?
o famoso pacote "h2o" está todo escrito em java
Mais especificamente no ficheiro do relatório:
/**
* A qualidade da modelagem fora da amostra:
*
* TruePositives: 182
* TrueNegative: 181
* FalsePositives: 1
* FalseNegative: 1
* Total de padrões dentro fora da amostra com estatísticas: 365
* Total de erros dentro fora da amostra: 2
* Sensibilidade de generalização abiliy: 99.4535519125683%
* Especificidade da capacidade de generalização: 99,45054945054946%
* Capacidade de generalização: 98,90410136311776%
* Indicador da Reshetov: 8,852456238401455
*/
Desculpa, não acredito, é demasiado gráfico. Pode repetir a experiência, por favor? Anexei outro arquivo, ali os dados são para um período de tempo diferente. O treinamento modelo deve ser em train.csv, teste em test_notarget.csv. Estou interessado nos resultados previstos para o arquivo test_notarget.csv. O arquivo para teste não contém a variável alvo, para ser justo. Mas há mais um arquivo com senha com resultados para test test.csv, eu darei senha para comparação em troca dos resultados previstos.
Como assim, não são usados? O PCA é uma transformação linear. Dimensões removíveis -- aquelas que podem ser obtidas por uma combinação linear das outras. Isto significa que qualquer preditor pode ser obtido por uma combinação linear dos componentes principais. se você tomar um intervalo de 95%, há uma boa chance de perder um bom preditor estupidamente por causa da escala, um intervalo inferior a 100% só é usado na compressão de dados com perda, caso contrário, apenas os componentes que são zero são sempre cortados.