Como você praticamente avalia a contribuição de uma contribuição "específica" para o NS? - página 2

 
nikelodeon:

Qual é a surpresa?


Bem, antes de mais nada, descobri imediatamente um erro persistente).

Em segundo lugar, pensei que ao remover os insumos, eu diminuiria a informatividade dos mesmos para que a eficácia do NS como um todo fosse reduzida. Alguns insumos vão se deteriorar muito, outros um pouco. E talvez eu encontre tais insumos, que não afetam em nada, e os remova para simplificar a rede. É claro que encontrei insumos "vazios", encontrei insumos sem os quais o NS é incompetente, mas também encontrei insumos, ao remover os quais aumentei o resultado do NS como um todo. Isto é uma surpresa para mim, ou o treinamento é ruim, ou os insumos são muito contraditórios e simplesmente prejudiciais.

Em resumo, comida para pensar por alguns dias.

 
Figar0:


Bem, antes de tudo eu descobri imediatamente um erro antigo)

Em segundo lugar, pensei que ao remover os insumos, eu diminuiria a informatividade dos mesmos para que a eficácia do NS como um todo fosse reduzida. Alguns insumos vão se deteriorar muito, outros um pouco. E talvez eu encontre tais insumos, que não afetam em nada, e os remova para simplificar a rede. É claro que encontrei insumos "vazios", encontrei insumos sem os quais o NS é incompetente, mas também encontrei insumos, ao remover os quais aumentei o resultado do NS como um todo. Isto é uma surpresa para mim, ou o treinamento é ruim, ou os insumos são muito contraditórios e simplesmente prejudiciais.

Por isso, tive que pensar por vários dias.


pode acontecer que no próximo treinamento (em uma amostra diferente) eles serão necessários...
 
Figar0:

Não é bem sexta-feira, mas ...

Há um NS, qualquer NS, há uma entrada A={A1, A2, .... A20}. Treine o NS e obtenha um resultado satisfatório. Como praticamente avaliamos a contribuição de cada elemento de entrada A1, A2, ... A20 a este resultado?

As opções fora do topo da minha cabeça são:

1) De alguma forma, somar e calcular todos os pesos com os quais o elemento passa através da rede. Não estou muito claro como fazê-lo, teria que mergulhar na operação da rede e calcular de alguma forma alguns coeficientes, etc.

2) Tente "zerar" de alguma forma, ou por exemplo, reverter um elemento do vetor de entrada e ver como ele afeta o resultado final. Até o momento, me acomodei a isso.

Mas antes de perceber esta segunda variante, decidi pedir meu conselho. Quem poderia estar pensando sobre este assunto há mais tempo do que eu? Talvez alguém possa aconselhar um artigo de livro?

Um método comum e eficaz é analisar os pesos NS após o treinamento. Os pesos são inicializados para que seus valores não sejam significativamente diferentes de zero, por exemplo, média 0, desvio padrão 0,1. Após o treinamento, os pesos relativos a insumos insignificantes serão modulos próximos de zero, enquanto os pesos relativos a insumos significativos serão muito diferentes de zero. Testado - funciona com dados sintéticos.
 
LeoV:

O grau de influência de cada entrada é praticamente impossível de avaliar . Há todo tipo de fórmulas matemáticas, e software especializado pode calcular automaticamente o grau de influência. Mas todos estes cálculos são apenas um valor aproximado, que realmente não diz muito, porque pode ter uma grande margem de erro.


Sim, estou geralmente ciente disso, seria mais lógico analisar os insumos na mesma estatística, mas está associado a grandes custos de mão-de-obra para transferir para lá, em princípio, um sistema de trabalho. Também entendo toda a ambigüidade de interpretar tais experiências. Mas há um benefício e isso é certo.

 
Vizard:

Pode acontecer que no próximo treinamento (em uma amostra diferente) eles sejam necessários...
Acho que sim, mas existe um NS, ele é treinado, funciona, portanto pode prescindir dos insumos descartados e faz sentido descartá-los para simplificar a rede, melhorar sua capacidade de generalizar e melhorar a qualidade do aprendizado a um custo menor.
 
Figar0:
Este é provavelmente o caso, mas existe um NS, ele é treinado, funciona, portanto pode prescindir dos insumos descartados e faz sentido descartá-los para simplificar a rede, melhorar sua generalidade e melhorar a qualidade do aprendizado a um custo menor.
+100500. Eu concordo. Para que servem as entradas redundantes se o desempenho da rede não se degradar sem elas? Precisamos nos livrar deles, com certeza.
 
alexeymosc:
Um método comum e eficaz é analisar os pesos NS após o treinamento. Os pesos são inicializados para que seus valores não sejam significativamente diferentes de zero, por exemplo, média 0, desvio padrão 0,1. Após o treinamento, os pesos relativos a insumos insignificantes serão modulos próximos de zero, enquanto os pesos relativos a insumos significativos serão muito diferentes de zero. Testado - funciona com dados sintéticos.


Bem, esta é basicamente a primeira coisa que me veio à mente, mas não consegui pensar como implementar tal análise em meu sistema de uma maneira mais fácil. É por isso que eu segui o método inverso.

 
Note o que Leonid escreveu, e ele tem toda a razão. Encontrar a influência das entradas na saída da rede é uma tarefa impossível. Sim, é possível peneirar as desnecessárias, concordo, mas é praticamente impossível determinar a influência desta ou daquela entrada sobre a saída.

Agora imagine a situação. Você encontrou 2 entradas que não permitem que a saída líquida avance. Você adiciona uma terceira entrada que melhora muito o funcionamento da rede. O que você conclui? Que esta entrada tem um alto impacto sobre a produção líquida. Na verdade, a terceira entrada produzirá alguma perturbação de curto prazo apenas uma ou duas vezes durante todo o período de negociação. Mas é este distúrbio que será decisivo. Embora o próprio fato de perturbação seja insignificante. O mesmo que se você remover uma das duas primeiras entradas, você não obterá um resultado satisfatório. A outra é direcionar o trabalho na seguinte direção.

Quando você treina uma rede, você procura por mínimos locais da função. Para ser mais exato, buscamos o mínimo global de um erro, mas passamos do mínimo local para o global.

Frequentemente encontro uma situação em que um mínimo local de uma função mostra resultados ideais no futuro.

A tarefa é simples: selecionar tais insumos para a rede (não teremos que mudá-los mais tarde) que permitiriam à rede ter mínimos locais durante o treinamento, o que os ganhará no futuro.

Digamos, durante o treinamento você tem em média cerca de 10-20 mínimos locais, e pelo menos um deles está correto. Mas é melhor escolher o maior número possível de mínimos locais lucrativos......

Como você gosta deste problema????? Isto é mais como a realidade....
 
nikelodeon:
Note o que Leonid escreveu, e ele tem toda a razão. Encontrar a influência das entradas na saída da rede é uma tarefa impossível. Sim, é possível peneirar as desnecessárias, concordo, mas é praticamente impossível determinar a influência desta ou daquela entrada sobre a saída.

Agora imagine a situação. Você encontrou 2 entradas que não deixam a saída líquida escoar. Você adiciona uma terceira entrada que melhora muito o funcionamento da rede. O que você conclui? Que esta entrada tem um alto impacto sobre a produção líquida. Na verdade, a terceira entrada produzirá alguma perturbação de curto prazo apenas uma ou duas vezes durante todo o período de negociação. Mas é este distúrbio que será decisivo. Embora o próprio fato de perturbação seja insignificante. Além de remover uma das duas primeiras entradas, não lhe dará um resultado satisfatório. A outra coisa é dirigir o trabalho nesta direção.

Isto também é verdade. Há também a situação inversa: teoricamente, é possível que haja dois inputs com alta informatividade e um com baixa informatividade. Logicamente, você gostaria de remover a terceira, mas se o fizer, um quadro-interrelação complexa (três entradas - saídas) será destruído, e as duas entradas restantes não serão mais tão informativas. E para revelar estas complexas inter-relações é necessário aplicar tais aparelhos matemáticos espaciais, e tecnicamente é emitido, que wow-oho (bem, pelo menos para mim). Tudo é complicado, não pense que é fácil. NS está em 80% de busca empírica.
 
nikelodeon:

Agora imagine a situação. Você encontrou 2 entradas que não permitem que a rede avance. Você adiciona uma terceira entrada que o ajuda muito. Que conclusão você tira? Que esta entrada tem um alto impacto sobre a produção líquida. Na verdade, a terceira entrada produzirá alguma perturbação de curto prazo apenas uma ou duas vezes durante todo o período de negociação. Mas é este distúrbio que será decisivo. Embora o próprio fato de perturbação seja insignificante. Além de remover uma das duas primeiras entradas, não lhe dará um resultado satisfatório. A outra coisa é dirigir o trabalho nesta direção.

É evidente que as entradas estão interligadas e a interpretação dos resultados de tais experiências é o aspecto mais importante. Excluo as entradas não apenas uma a uma, mas também diferentes combinações delas de 1 a 5 (acho que vou estender este intervalo para metade de todas as entradas), análogo à sua adição de mais uma entrada e olho para as mudanças em resposta à NS, tanto na fase de treinamento quanto na fase de avanço.

nikelodeon:

Quando você treina uma rede, você procura por mínimos locais da função. Para ser mais exato, buscamos o mínimo global de um erro, mas passamos do mínimo local para o global.

Não é raro ou até mesmo frequente encontrar tais casos quando um mínimo local de uma função mostra resultados ideais no futuro.

A tarefa é simples: encontrar tais insumos para a rede (não teremos que mudá-los mais tarde) que permitiriam à rede, durante o treinamento, ter mínimos locais que obterão resultados futuros.

Digamos, durante o treinamento você tem em média cerca de 10-20 mínimos locais, e pelo menos um deles está correto. Mas é melhor escolher o maior número possível de mínimos locais lucrativos......

Como você gosta deste problema????? Isto é mais como a realidade....

As realidades são diferentes para todos) Em particular, não estou procurando o erro mínimo, estou procurando o lucro máximo, o drawdown mínimo, a satisfação do PF, etc. Em outras palavras, eu tenho máximos locais, mas isso não muda sua essência. Meu problema é pouco ou mal resolvido, mas por muito tempo ...