Pesquisa em pacotes matriciais - página 8

 
Alexey Volchanskiy:
Uma pergunta relacionada a todos os participantes da discussão. Você trabalha com dados de carrapatos? Há muito que me afastei da análise de barras, trabalhando exclusivamente nos métodos DSP
Eu utilizo lances de barra M1 com ascs, bem como Level2.
 
zaskok3:
Eu utilizo lances de barra M1 com pedidos, assim como o Nível 2.
L2 está no MT5?
 
Vladimir Perervenko:

O artigo a que você se refere é sobre regressão. Estamos tratando de classificação. Essas são duas grandes diferenças...

Eu ainda não entendi sua pergunta.

Boa sorte.

Aqui, não importa que regressão ou classificação. Mesmo assim. É apenas um artigo especificamente sobre a regressão.

Apenas para esclarecer: Você tem exemplos de treinamento com que passo são dados, uma barra (ou seja, entradas de cada linha da matriz de dados) ou n barras, para que haja um intervalo de tempo entre as linhas?

Não estou apenas sendo tolo, e certamente não quero desacreditar seu trabalho (seus artigos me ajudam).

Deixe-me explicar meu ponto de vista com um exemplo prático, sem tirar citações de estudos estatísticos:

em uma árvore de decisão você terá, digamos, m nós terminais. Cada nó conterá casos similares em vetores de entrada - um subespaço de valores de entrada. Portanto, se você tiver exemplos consecutivos de mudança de barras usando entradas que olham para trás algumas barras (no pior caso, também centenas de barras), haverá uma autocorrelação brilhante entre os pontos próximos, mas ao mesmo tempo, uma vez que prevemos o futuro algumas barras à frente (no pior caso, também centenas de barras), as saídas próximas também serão as mesmas. Por exemplo, a coluna de saídas será formada pelas seqüências 0 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1 1 1 1 1 1. Assim, dezenas de saídas idênticas cairão em nossos nós terminais, referindo-se a entradas adjacentes - semelhantes -. Poder-se-ia dizer que haverá uma redundância de exemplos idênticos, agrupados por pontos de tempo, o que irá distorcer a distribuição das respostas da maneira mais enfática. É por isso que existe uma recomendação popular de não ocupar mais de uma posição no mercado, pois o efeito de dependência das entradas e saídas adjacentes também ocorre quando se treina um EA no terminal.

Neste caso, haverá uma dura reciclagem, ou melhor, a formação de estatísticas de observações não-dependentes. Ou seja, a coisa mais desagradável que pode ser obtida ao analisar séries temporais é a dependência de vetores de dados vizinhos. Se os vetores de dados estiverem distantes no tempo, tudo bem. Neste caso, o aprendizado da máquina se resume a encontrar padrões invariantes em relação ao tempo.

E então, referindo-se à matriz de erros que você dá como um exemplo no artigo:

OOB confusion matrix:
          Reference
Prediction   -1    1 class.error
        -1 1066  280      0.2080
        1   254 1043      0.1958
Test set
Error rate: 19.97%

Confusion matrix:
          Reference
Prediction  -1   1 class.error
        -1 541 145      0.2114
        1  119 517      0.1871

Só posso dizer que é fantástico. ) A experiência foi conduzida por engano. Nunca é possível obter uma matriz de erros tão acentuada em uma amostra com exemplos independentes e, ao mesmo tempo, separar estritamente o conjunto de dados do teste do conjunto de dados de treinamento por tempo (look-ahead bias).

E o fato de que a matriz de erros no conjunto de teste também é fantástica sugere que uma amostra foi retirada misturada com a amostra de treinamento por tempo, na qual exemplos semelhantes também são "amontoados". Ou seja, este resultado particular não diz nada sobre a capacidade do modelo construído de prever o mercado.

Você pode tentar pegar um pouco mais de dados e testá-los usando a lógica tail(all_data, 1/3) e ver como o número de observações nas células da matriz está alinhado. Você pode até mesmo aplicar o critério do qui-quadrado para ver se a adivinhação se tornou quase aleatória.

Tudo o que eu queria lhes transmitir, eu tentei fazer. Nota, com boas intenções)

Boa sorte! Alexey

 
Alexey Volchanskiy:
L2 está no MT5?
MT4. O código fonte tem flutuado no fórum.
 
zaskok3:
MT4. O código fonte foi divulgado no fórum...

Amigos e colegas, tenho uma pergunta a fazer.

Como você pode formular um algoritmo baseado em dados comerciais publicados?

 
Alexey Volchanskiy:

Amigos e colegas, tenho uma pergunta a fazer.

Como você pode formular um algoritmo baseado em dados comerciais publicados?

Eu sei que escrevi errado - formular, a partir da palavra fórmula)
 
Alexey Volchanskiy:

Como você pode formular um algoritmo baseado em dados comerciais publicados?

Se você quiser reengenharia do TS com base no estado, então use o aprendizado da máquina:

Pegue um monte de valores indicadores sobre a entrada, a saída do estado. Adaptação por modelos matemáticos.

Eu não lidei com tais disparates.

 
Alexey Volchanskiy:
Como nota lateral, tenho uma pergunta para todos os participantes da discussão. Você trabalha com dados de carrapatos? Afastei-me da análise de bares há muito tempo e trabalho exclusivamente com métodos DSP

O uso do DSP é altamente questionável.

Para dados de carrapatos, as idéias de cointegração são mais adequadas.

 
Alexey Burnakov:
Aqui, não importa que regressão ou classificação. Mesmo assim. Este é apenas um artigo especificamente sobre a regressão.

Apenas para esclarecer: Você tem exemplos de treinamento com que passo são dados, uma barra (ou seja, entradas de cada linha de matriz de dados) ou n barras, para que haja um intervalo de tempo entre as linhas?

Não estou apenas sendo tolo, e certamente não quero desacreditar seu trabalho (seus artigos me ajudam).

Deixe-me explicar meu ponto de vista com um exemplo prático, sem tirar citações de estudos estatísticos:

em uma árvore de decisão você terá, digamos, m nós terminais. Cada nó conterá casos similares em vetores de entrada - um subespaço de valores de entrada. Portanto, se você tiver exemplos consecutivos de mudanças de barras usando entradas que olham para trás algumas barras (no pior caso, também centenas de barras), haverá uma autocorrelação brilhante entre os pontos próximos, mas como estamos prevendo o futuro várias barras à frente (no pior caso, também centenas de barras), as saídas próximas serão as mesmas. Por exemplo, a coluna de saídas será formada pelas seqüências 0 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1 1 1 1 1 1. Assim, dezenas de saídas idênticas cairão em nossos nós terminais, referindo-se a entradas adjacentes - semelhantes -. Poder-se-ia dizer que haverá uma redundância de exemplos idênticos, agrupados por pontos de tempo, o que irá distorcer a distribuição das respostas da maneira mais enfática. É por isso que existe uma recomendação popular de não ocupar mais de uma posição no mercado, pois o efeito de dependência das entradas e saídas adjacentes também ocorre quando se treina um EA no terminal.

Neste caso, haverá uma dura reciclagem, ou melhor, a formação de estatísticas de observações não-dependentes. Ou seja, a coisa mais desagradável que pode ser obtida ao analisar séries temporais é a dependência de vetores de dados vizinhos. Se os vetores de dados estiverem distantes no tempo, tudo bem. Neste caso, o aprendizado da máquina se resume a encontrar padrões invariantes em relação ao tempo.

E então, referindo-se à matriz de erros que você dá como exemplo no artigo:

Só posso dizer que é fantástico. ) A experiência foi conduzida por engano. Nunca é possível obter uma matriz de erros tão acentuada em uma amostra com exemplos independentes e, ao mesmo tempo, separar estritamente o conjunto de dados do teste do conjunto de dados de treinamento por tempo (look-ahead bias).

E o fato de que a matriz de erros no conjunto de teste também é fantástica sugere que uma amostra foi retirada misturada com a amostra de treinamento por tempo, na qual exemplos semelhantes também são "amontoados". Em outras palavras, este resultado particular não diz nada sobre a capacidade do modelo construído de prever o mercado.

Você pode tentar pegar um pouco mais de dados e testá-los usando a lógica tail(all_data, 1/3) e ver como o número de observações nas células da matriz está alinhado. Você poderia até aplicar o critério do qui-quadrado para ver se a adivinhação se tornou quase aleatória.

Tudo o que eu queria lhes transmitir, eu tentei fazer. Nota, com boas intenções)

Boa sorte! Alexey

Desculpe a intromissão, mas parece ser uma discussão pública.

Seu posto me parece ser uma mistura de vários problemas relacionados, mas diferentes.

1. O que você ensina o modelo? Tendências? Nível de desagregação? Um desvio de algo? Parece ser muito simples selecionar o professor do modelo, mas na prática isso causa certas dificuldades. De qualquer forma, devemos preparar o professor (o vetor segundo o qual o modelo é treinado) muito especificamente para nossa idéia comercial, por exemplo, "Tendências comerciais".

2. Sobre o que você ensina? Em seu posto você menciona a presença de dependência entre barras adjacentes. Sim, existem modelos de madeira (CORELearn) que levam em conta as dependências entre barras adjacentes, mas o problema que você levanta é muito mais amplo e desagradável e tem pouco a ver com o modelo que você usa. É a reciclagem de modelos. A meu ver, há conjuntos de dados que SEMPRE produzem modelos sobre-treinados. E nenhuma quantidade de técnicas para eliminar o sobretreinamento ajuda aqui.

Há conjuntos de dados de entrada (conjuntos de preditores) entre os quais há preditores que podem ser usados para construir modelos que NÃO são excessivamente treinados. Mas os demais preditores geram tanto ruído que esses preditores de ruído não podem ser rastreados pelos pacotes de seleção de preditores existentes.

Portanto, uma seleção manual de preditores com base no critério "parece ser relevante para nosso professor, a variável alvo" é obrigatória.

PS.

É engraçado dizer, mas quando se trata de tendências comerciais quaisquer preditores obtidos por suavização, em particular a MA, são extremamente barulhentos e os modelos são sempre super-treinados. E quando treinado em amostras OOV, você pode obter um erro de 5% também!

 
Alexey Burnakov:
Aqui, não importa que regressão ou classificação. Mesmo assim. É apenas um artigo especificamente sobre a regressão.

Apenas para esclarecer: Você tem exemplos de treinamento, com que passo são dados, uma barra (ou seja, as entradas de cada linha dos dados da matriz) ou n barras, de modo que houve um intervalo de tempo entre as linhas?

O conjunto de dados inicial é uma matriz ou quadro de dados contendo entradas e alvo. Quando divididos (estratificados) em conjuntos de treinamento e testes, os exemplos são embaralhados aleatoriamente, mas a distribuição das aulas nos conjuntos é mantida como no conjunto original. Portanto, não é possível dizer em que campo os exemplos são tomados. Obviamente, você está confundindo vetor com transformação de matriz, onde você pode falar de desfasamento temporal.

Não estou apenas sendo tolo e certamente não quero desacreditar seu trabalho (seus artigos me ajudam).

Sim, estou longe de pensar dessa maneira. Mas eu realmente não consigo entender a pergunta.

Deixe-me explicar meu pensamento com um exemplo prático, sem tirar citações de estudos estatísticos:

em uma árvore de decisão você terá, digamos, m nós terminais. Cada nó conterá casos similares em vetores de entrada - um subespaço de valores de entrada. Portanto, se você tiver exemplos consecutivos de mudança de barras usando entradas que olham para trás algumas barras (no pior caso, também centenas de barras), haverá uma autocorrelação brilhante entre os pontos adjacentes, mas ao mesmo tempo, uma vez que prevemos o futuro algumas barras à frente (no pior caso, também centenas de barras), as saídas adjacentes também serão as mesmas. Por exemplo, a coluna de saídas será formada pelas seqüências 0 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1 1 1 1 1 1. Assim, dezenas de saídas idênticas cairão em nossos nós terminais, referindo-se a entradas adjacentes - semelhantes -. Poder-se-ia dizer que haverá uma redundância de exemplos idênticos, agrupados por pontos de tempo, o que irá distorcer a distribuição das respostas da maneira mais enfática. É por isso que existe uma recomendação popular de não manter mais de uma posição no mercado, pois o efeito de dependência das entradas e saídas vizinhas também está presente no treinamento de um EA no terminal.

Neste caso, haverá uma dura reciclagem, ou melhor, a formação de estatísticas de observações não-dependentes. Ou seja, a coisa mais desagradável que pode ser obtida ao analisar séries temporais é a dependência de vetores de dados vizinhos. Se os vetores de dados estiverem distantes no tempo, tudo bem. Neste caso, o aprendizado da máquina se resume a encontrar padrões invariantes em relação ao tempo.

E então, referindo-se à matriz de erros que você dá como exemplo no artigo:

Só posso dizer que é fantástico. ) A experiência foi conduzida por engano. Nunca é possível obter uma matriz de erros tão acentuada em uma amostra com exemplos independentes e, ao mesmo tempo, separar estritamente o conjunto de dados do teste do conjunto de dados de treinamento por tempo (look-ahead bias).

E o fato de que a matriz de erros no conjunto de teste também é fantástica sugere que uma amostra foi retirada misturada com a amostra de treinamento por tempo, na qual exemplos semelhantes também são "amontoados". Ou seja, este resultado particular não diz nada sobre a capacidade do modelo construído de prever o mercado.

Você pode tentar pegar um pouco mais de dados e testá-los usando a lógica tail(all_data, 1/3) e ver como o número de observações nas células da matriz está alinhado. Você pode até mesmo aplicar o critério do qui-quadrado para ver se a adivinhação se tornou quase aleatória.

Assim, você dará um exemplo para explicá-lo em seus dedos... Ou você acha que eu ainda não fiz tais testes?

Tudo o que eu queria lhes transmitir, eu tentei fazer. Aviso, com boas intenções )

Eu realmente quero entender o que você está tentando transmitir. Usando um exemplo, acho que seria mais claro.

Quando eles dizem que você fez uma experiênciacom um erro, você tem que dizer-lhes o que é e dar-lhes a solução certa. Você tem o pacote, exemplos, descreva como você acha que o cálculo deve ser realizado.

Sem ofensa.

Boa sorte.