Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2208
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
aquele link que eu dei no wiki sobre o semi. Eu entendo que as marcas são as bordas das secções estáveis.
ZZ não vai, porque a marcação simplesmente continua sem diferenças nas seções, e a aprendizagem continua da mesma maneira, e se ao marcar ZZ é como muitos exemplos com características diferentes e o resultado da aprendizagem não pode ser bom.
Os rótulos são alvos conhecidos{classes}. O resto dos dados está sem eles, apenas sob a forma de características.
Estas etiquetas devem ter algum tipo de significado. Por exemplo, etiquetas de que são gatos ou crocodilos.
no nosso caso, não temos ideia de onde estão os gatos. Quero dizer, não conhecemos nenhum padrão ou como eles diferem, o que torna ainda mais difícil.
para que possamos reforçar as marcações iniciais, passar através das variantes
são apenas os alvos/classes conhecidos. O resto dos dados sem eles
É como definir a direção correta da busca)).
Estas etiquetas devem ter algum tipo de significado. Por exemplo, etiquetas que dizem que são gatos ou crocodilos.
No nosso caso, não temos ideia de onde estão os gatos. Ou seja, não conhecemos nenhum padrão e como eles diferem, o que torna a tarefa ainda mais difícil.
para que possamos reforçar as marcações iniciais, passar através das variantes.
O brutal é sempre melhor do que incompleto. A questão sobre a partição não totalmente correta sempre esteve presente. E a maldição da dimensionalidade só se resolve se a direção da busca estiver correta. É uma questão de encontrar/determinar a área certa para procurar por variantes.
Tentei ampliar a idéia de aceitação de pequenas amostras para GMM. Treinei 6 meses, testei 5 anos. Dividi tags em n partes de tamanho fixo. Para cada parte criei meu próprio modelo de GMM, gerei 1000 amostras de cada, empilhei e treinei o catbust. Eu seleccionei as características e fiquei assim:
Segunda versão, mesmas tags, com a mesma partição, mas com pré-mistura:
X = X.sample(frac=1.0)
Em ambos os casos, foi usado um alvo fixo. Posso reproduzir esta experiência, se quiser. Não sou bom a interpretar tais fenómenos, talvez haja uma explicação.
Tentei ampliar a idéia de aceitação de pequenas amostras para GMM. Treinei 6 meses, testei 5 anos. Dividi tags em n partes de tamanho fixo. Para cada parte criei meu próprio modelo de GMM, gerei 1000 amostras de cada, empilhei e treinei o catbust. Eu seleccionei as características e fiquei assim:
Segunda versão, mesmas tags, com a mesma partição, mas com pré-mistura:
Em ambos os casos, foi usado um alvo fixo. Posso reproduzir esta experiência, se quiser. Eu não sou forte na interpretação de tais fenômenos, talvez haja uma explicação.
Desculpem rapazes, há uma pergunta.
Qual é o número de rácios de ponderação nas suas grelhas e em quantos ofícios estão a ser treinados?
Quero entender a relação entre essas quantidades e especular sobre a dependência do excesso de treinamento nessa relação. Obrigado.
Isto é uma mistura antes do gmm ou antes do impulso? Você precisa verificar o saldo da classe para o trem/teste. Talvez zeros tenham ido para o treino e uns para testar. Você também poderia tentar agrupar separadamente, comprando e vendendo marcas.
A mistura é feita antes de criar o GMM.
Antes disso, deixo cair etiquetas por condição:
isto traz sempre o equilíbrio da classe a 1/1 com ligeiras variações:
Neste caso, 115 etiquetas foram misturadas, e divididas em 4 partes. Depois disso, 4 GMMs foram criados com base neles. A partir de cada 1000 etiquetas foram semipreenchidas e foram combinadas num único dataframe. Na próxima etapa será dividida em teste e tripla pista.
O equilíbrio das classes de amostras era um pouco diferente do ideal. Mas as amostras do comboio e do teste tinham aproximadamente a mesma proporção
Abaixo estão os resultados da simulação com a mesma amostra de 115 tags divididos em 4 partes, mas sem misturar. O balanço das aulas é naturalmente um pouco melhor, mas eu não acho que isso afeta os resultados significativamente.
Isso pode parecer bobagem, mas eu acho que há algum tipo de correlação de tempo na série que os modelos GMM encontram em diferentes partes da série. Ela desaparece se você quebrar a ordem baralhando a fila.
Não pensei em agrupamentos separados, vou tentar hoje à noite.
A agitação é feita antes de criar o GMM.
Antes disso, deixar cair as etiquetas por condição:
isto traz sempre o equilíbrio da classe a 1/1 com ligeiras variações:
Neste caso, 115 tags foram embaralhadas, e divididas em 4 partes. Depois disso, 4 GMMs foram criados com base neles. De cada 1000 etiquetas foram semipreenchidas e foram combinadas num único dataframe. Na próxima etapa será dividida em teste e tripla pista.
O equilíbrio das classes de amostras era um pouco diferente do ideal. Mas as amostras do comboio e do teste tinham aproximadamente a mesma proporção
Abaixo estão os resultados da simulação com a mesma amostra de 115 tags divididos em 4 partes, mas sem misturar. O balanço das aulas é naturalmente um pouco melhor, mas eu não acho que isso afeta os resultados significativamente.
Isso pode parecer bobagem, mas eu acho que há algum tipo de correlação de tempo na série que os modelos GMM encontram em diferentes partes da série. Ela desaparece se você quebrar a ordem baralhando a fila.
Não pensei em agrupamentos separados, vou tentar hoje à noite.
Vou ter de o desenhar, não está muito claro... Bem, é um facto que as distribuições são diferentes em ambos os casos. Além disso, você já retirou a serialização. O mais provável é que as distribuições se tornem muito pouco informativas, e novos pontos após a amostragem começam a ficar em um lugar pouco claro. Ou seja, a informação da série perde-se, sim, pois as citações não são independentes.
Ou faça em algum exemplo simples (e não citações) e compare então.
Vou ter de desenhar, não está muito claro... Bem, é um facto que as distribuições são diferentes em ambos os casos. Além disso, você já removeu a série. O mais provável é que as distribuições se tornem muito pouco informativas, e novos pontos após a amostragem começam a ficar em um lugar pouco claro. Ou seja, a informação da série perde-se, sim, pois as citações não são independentes.
Ou faça em algum exemplo simples (e não citações) e compare então.
Maxim, olá. Há muito tempo que não vinha aqui... Eu tentei lidar com isso e tenho muitas perguntas)))) Presumo que o MARKUP seja uma propagação? Markup é uma simples comparação do valor atual com o atual + um número aleatório, dependendo do sinal > ou < você coloca um markup 1 ou 0. certo? Para um teste, você configura markup=0,0? (se a bandeja MARKUP=0,00001 eu acho)) certo?
Maxim, olá, há muito tempo que não vinha aqui... Estou tentando entender, e tenho muitas perguntas)))) Presumo que o MARKUP seja uma propagação? Markup é uma simples comparação do valor atual com o atual + um número aleatório, dependendo do sinal > ou < você coloca um markup 1 ou 0. certo? Para um teste, você coloca markup=0,0? (para bandeja, eu acho que MARKUP=0,00001) certo?
Hi. Sim, é verdade. A mesma marcação é usada no testador. Sobre os artigos, provavelmente é melhor perguntar nos artigos. Para ter num só lugar.
Eu analiso o feedback e vejo o que pode ser melhorado