Etiqueta de mercado ou boas maneiras em um campo minado - página 82

 
Neutron >> :

É aqui que eu mesmo não tenho um entendimento completo.

De acordo com a declaração(Alexander Ezhov, Sergey Shumsky"Neurocomputing"), há um comprimento ideal, no qual o erro de generalização Popt=w^2/d é minimizado, onde d é a dimensionalidade da entrada NS, w é o número de todos os parâmetros sintonizáveis de NS. Portanto, deste ponto de vista, o NS está supertreinado se P<Popt o NS "se lembra" da amostra de treinamento. A variante P>Popt também não é boa, pois com um comprimento maior, há maior probabilidade de inversão da tendência de mercado, o que equivale a diminuir as correlações entre amostras.

Por outro lado, a NS pode ser "arrastada" no número excessivo de épocas de treinamento e, como consequência, o erro de generalização começará a crescer novamente, ou não será arrastada... Em geral, precisamos realizar experiências numéricas com um conjunto de estatísticas, o que em si mesmo é muito recorrente! Mas, isso tem que ser feito. Isso facilitará muito as coisas, para provar a equação acima para o comprimento ideal do vetor de treinamento. gpwr, você quer mexer?

Se você olhar para seus gráficos


então surgem várias questões. Pelo que entendi, a linha vermelha em círculos é o erro de aprendizagem médio de vários experimentos estatísticos com diferentes pesos iniciais aleatórios. A linha azul em círculos é o erro de previsão médio sobre os dados não treinados. Certo? As linhas finas mostram o alcance da dispersão. Agora as perguntas

1. A linha azul fina inferior corresponde à linha vermelha fina inferior? Em outras palavras, a precisão da previsão fora da amostra melhora para experimentos estatísticos com o menor erro de aprendizagem?

Como a propagação do erro de aprendizagem não se reduz a zero, então a aprendizagem não atinge um mínimo global.

Estou agora muito preocupado com esta pergunta: devo procurar um algoritmo de aprendizado que atinja o mínimo global na esperança de que as previsões sobre as amostras não treinadas sejam mais precisas? Estou administrando minha grade e vendo como suas previsões são inconsistentes, dependendo de onde eu paro de treiná-la. Mesmo que eu defina o mesmo número de épocas 1000, as previsões são diferentes em corridas diferentes nas mesmas amostras de treinamento. Metade das previsões são de preços que subirão, a outra metade descerá. Eu não estou satisfeito com isso. Se você treinar muito tempo, a rede se aproxima de um mínimo global e suas previsões são as mesmas em corridas diferentes.

Sobre o número ideal de amostras, vou pensar sobre isso. Não é fácil. Você tem que conhecer as estatísticas do mercado e a rapidez com que sua distribuição muda. O aumento do número de amostras levará a uma situação em que a rede estava tentando detectar uma vaca e no processo foi mudada de uma vaca para uma tartaruga. Eventualmente, a rede concluirá que se trata de uma tartaruga com cascos. Se você reduzir o número de amostras, digamos que a rede foi dada apenas para sentir os chifres de uma vaca, então haverá muitas variantes: vaca, alce, cabra, veado, etc.

 
gpwr писал(а) >>

O aumento do número de amostras fará com que a rede utilize seus tentáculos para identificar uma vaca e, no processo, transforme a vaca em uma tartaruga. Como resultado, a rede conclui que se trata de uma tartaruga de chifres com cascos. Se para reduzir o número de amostras, digamos que a rede foi dada apenas para sentir os chifres de uma vaca, então haveria muitas variantes: vaca, alce, cabra, veado, etc.

+5 Eu concordo plenamente.

Você, entretanto, folheia Jejov e Shumsky. Talvez você tenha algumas idéias a respeito das provas.

A linha azul em círculos é o erro de previsão médio sobre os dados brutos. Correto?

Correto.

1. A linha azul fina inferior corresponde à linha vermelha fina inferior? Em outras palavras, a precisão da previsão fora da amostra melhora para experimentos estatísticos com o menor erro de aprendizagem?

Devido à intensidade de recursos, ainda não fiz uma experiência completa. Mas, concordo que é necessário e vou me obrigar a fazê-lo.

P.S. gpwr, conheci um link na rede para o trabalho de dois americanos que há 5 anos atrás poderiam provar a existência e realizar algoritmo ORO modificado para NS não lineares de bilayer com UM neurônio de saída. Assim, com o tipo especial de função de ativação (e seu tipo específico não afeta a potência de computação da rede), a velocidade de aprendizado pelo novo algoritmo excede o ORO clássico em mais de duas ordens de magnitude! Você já viu algo parecido?

 
Neutron >> :

+5 Eu concordo plenamente.

No entanto, você deve folhear Jejov e Shumsky. Talvez você tenha algumas idéias sobre as provas.

Certo.

Devido à intensidade de recursos, ainda não fiz uma experiência completa. Mas concordo, que é necessário e me forçarei a conduzi-lo.

P.S. gpwr, conheci uma referência na rede para o trabalho de dois americanos que há 5 anos atrás poderiam provar a existência e realizar algoritmo ORO modificado para NS bilayer não lineares com UM neurônio de saída. Assim, com o tipo especial de função de ativação (e seu tipo específico não afeta a potência de computação da rede), a velocidade de aprendizado pelo novo algoritmo excede o ORO clássico em mais de duas ordens de magnitude! Você nunca encontrou nada parecido com isto?

Eu vi várias variantes de RFO:

QuickProp - 1988, derivado de segunda ordem adicionado para acelerar a convergência

RProp - Back-Propagation Resiliente - 1993, Riedmiller, Alemanha, o objetivo do algoritmo é substituir o gradiente por seu sinal

iRProp - RProp melhorado - 2000, Igel, alemão, mesmo RProp, mas a rede dá um passo atrás se o erro de aprendizagem da época anterior for aumentado

SARPropagation - Simulated Annealing back-Propagation - 1998, Treadgold, australiana, para convergência global, acrescentou tamanho de passo aleatório sob certas condições quando o erro da época anterior aumentou

JRProp - Jacobi RProp, 2005, Anastasiadis, grego da Inglaterra, mesmo iRProp, mas método ligeiramente diferente de retorno quando o erro é aumentado

GRProp, GJRProp - Global RProp/JRProp - 2005, Anastasiadis, a cada época é escolhido o menor passo de peso e substituído por uma fórmula estranha

Eu tentei todas elas. RProp, iRProp, JRProp funcionam de forma quase idêntica. Os métodos globais SARProp e GRProp não funcionam. Você pode encontrar facilmente artigos sobre estes algoritmos.

Dê uma olhada aqui em russo

http://masters.donntu.edu.ua/2005/kita/tkachenko/library/article01/index.htm

www.iis.nsk.su/preprints/pdf/063.pdf

 

Obrigado. Vou dar uma olhada.

Esses dois americanos criaram seu algoritmo rápido apenas para NS de saída única, ou seja, estamos falando de algo altamente especializado.

 

Consegui um 2001i Pro.

Você pode comentar brevemente sobre os gráficos de alocação que publiquei ontem?

 

Bem, é claro.

Eles estão corretos. O primeiro e terceiro números não têm interesse devido às pequenas estatísticas sobre o último e o pequeno H sobre o primeiro. No entanto, a segunda figura é representativa:

Para a distribuição Kagi (fig. à esquerda), podemos notar a ausência de comprimentos de ombros menores que a etapa de divisão H(paralocus, você é naturalmente um grande original em termos de representações incomuns de dnans, por exemplo, medir a etapa de divisão em spreads ao invés de pontos...) e a diminuição exponencial na freqüência de aparecimento do comprimento dos ombros com um aumento em seu comprimento. Para uma série de transações, podemos notar uma distribuição quase em forma de banda da freqüência de ocorrência de comprimentos em preposições +/-H e a mesma decadência exponencial na transição para comprimentos maiores que H. Isto pode ser visto na Fig. à direita. Penso que tal representação de dados de entrada para NS (normalizados ainda em Н), é quase ideal, já que não requer procedimentos "astutos" de normalização e centralização (MO é identicamente igual a zero). Entretanto, a questão sobre a otimização da representação da Cagi-representação permanece em aberto. Aqui o problema deve ser resolvido de forma abrangente, e o segundo bloco importante no link é o MM. Para a TC sem reinvestimento, o Kagi-particionamento é de fato ideal.

 
Obrigado. MM ainda é terra incógnita para mim. Várias vezes tentei reinvestir o dinheiro acumulado com um lote e tive uma perda significativa. No início deste tópico você escreveu sobre a MM em relação à alavancagem. Mas a alavancagem é ajustável pelo comerciante? Na minha opinião, alavancagem = 100 e ponto final. Você só pode escolher pares para reduzir os riscos. Eu prefiro AUDUSD - Eu também o recebi de seu posto. Bem, ainda não chegou o momento (para mim). Agora vou trabalhar na camada dupla. Estarei codificando hoje e lhe mostrarei o que tenho amanhã.
 
A alavancagem é proporcional ao valor do lote em relação à quantidade de capital. Portanto, ao aumentar ou diminuir o tamanho do lote sendo negociado, você está essencialmente mudando o tamanho da alavancagem. Para análise, é mais fácil usar alavancagem do que o tamanho do lote, porque é sem dimensão. Foi por isso que o usei em minhas fórmulas.
 

Em essência, um testador MT é uma caixa preta com vários inputs (MAs, estocásticos e outros indicadores TA), com um número contável de parâmetros ajustáveis (períodos de MAs, amplitudes ótimas, etc.) e um algoritmo "complicado" para misturar tudo dentro. Na saída, temos uma ordem de venda/compra ou de parada de comércio. Há um procedimento de otimização que permite escolher os melhores parâmetros na condição do máximo lucro do TS sobre os dados históricos. Isso lhe lembra alguma coisa? Exatamente, se considerarmos que os indicadores TA junto com o algoritmo astuto (não linear) de seu processamento, a essência é uma função não linear de ativação de pseudônimos multicamadas, então todos nós aqui estamos fazendo a mesma coisa há muitos anos - construindo e educando nosso NS! Só que este fato não é óbvio, o que causa tantos problemas no trabalho com o testador de estratégia (ajuste, instabilidade do ótimo encontrado, etc.). Muitas pessoas respeitáveis no fórum são frequentemente céticas em relação à NS, enquanto fazem a mesma coisa em todo o seu tempo livre e parece não haver mais nada! Pense sobre isso.

Se este for realmente o caso, então obviamente precisamos passar para a linguagem dos termos AI. Muito se tornará óbvio pelo que nos tem atormentado por tantos anos. Por exemplo, colocar um testador na história simplesmente não é suficientemente longo (medido em eventos TC, ou seja, transações, não o número de barras) ou, similarmente, um número excessivo de parâmetros sintonizáveis. Rentabilidade insuficiente - são utilizados indicadores com uma transformação linear de preço (não são exploradas correlações não lineares entre eventos de mercado), etc. Outro ponto importante - está provado na teoria de NS que o poder computacional da rede não depende de um tipo particular de não-linearidade. Segue-se que há pouco sentido no enchimento de indicadores e algoritmos inteligentes e não triviais de processamento de séries de preços em TS, não pode afetar significativamente as propriedades predicativas do TS. Mas é muito importante minimizar o erro de generalização (em termos de TC), e para isso basta escolher o comprimento ideal dos dados históricos e o número de indicadores!

Em resumo, todos nós faremos a mesma coisa, e não importa se estamos polindo nosso testador de estratégia ou escrevendo nossa própria rede. O importante é que entendamos exatamente o que estamos fazendo e por quê.

P.S. Eu corri um pouco solitário perseptron em sintéticos.

Vê-se bem que no processo de treinamento o neurônio rola com confiança até o mínimo global (fig. à esquerda em vermelho), isto é indicado pela dispersão decrescente a zero (linhas finas), caracterizando o processo de aprendizado para experimentos com diferentes valores dos pesos de inicialização. Por outro lado, o erro de generalização (o inverso da capacidade de previsão) começa a crescer novamente em algum ponto do processo de aprendizagem, indicando que o neurônio perde sua capacidade de generalizar o conhecimento. A figura à direita mostra os mesmos dados, mas no eixo da colisão. O ótimo aprendizado é bem indicado.

 

Quando eu estava "polindo o provador" tive uma sensação semelhante, mas não se concretizou... -:)

Mas agora parece simples, mas surgiram mais idéias de trabalho. Algo que eu formulei ontem:

Оптимальным каги-разбиением тикового ВР с порогом Н, следует считать такое разбиение, при котором имеется минимальное количество следующих друг за другом одноцветных плеч ряда транзакций. При этом средняя длина плеча равна величине средней взятки.


Ou seja, o que você escreveu, na verdade, é o que você escreveu - tomar é igual a parar! Há aqui um ponto sutil:

Se a distribuição das séries de transações recebidas é tal que mais de 50% dos ombros sucessivos têm cor diferente, então por que NS em tudo?(apenas não me chute, eu só perguntei... -:))


P.S. Corrigido o erro datilográfico