La etiqueta del mercado o los buenos modales en un campo de minas - página 25

 
registred писал(а) >>

Señores, ¿pueden decirme cómo se las arreglan para volar en bajas locales poco profundas y pesos iniciales curvos? Entiendo que al principio no tienen ningún efecto en el entrenamiento, pero después empiezan a afectar mucho a los resultados.

He establecido como norma volver a entrenar la red en cada paso. Obviamente, en esta configuración, la red puede estar ocasionalmente "fuera de lugar", pero en el siguiente paso, está justo donde tiene que estar. Mi idea se basa en que la probabilidad de que la red aprenda lo "incorrecto" es notablemente inferior a 1, y en general, en una muestra grande de reentrenamiento, la contribución de los "niños locos" es mínima.

paralocus escribió >>.

Estoy un poco confundido acerca de cómo reducir el multiplicador de la contribución de otro epoch.... Tengo pesos de la capa de salida muy pequeños al final del entrenamiento, y grandes pesos de la capa oculta al contrario.

Alerta: W2 [0] = -0,0414 W2 [1] = 0,0188 W2 [2] = -0,0539

Alerta: W1[1,0]=-27,0731 W1[1,1]=-30,2069 W1[1,2]=37,6292 W1[1,3]=30,4359 W1[1,4]=-22,7556 W1[1,5]=-37,5899

Aquí tendrás que pensar por ti mismo. Sólo predeciré los signos de las subidas de precios previstas (+/-1). Tiene que ver con la especificidad de la negociación (ver La Ecuación Básica de la Negociación unos posts más arriba), y el hecho de que intentar predecir la amplitud y el signo simultáneamente lo hace catastróficamente difícil (el número de arquitectura de CT y de épocas de entrenamiento es cada vez mayor). Aquí no bastaría con la potencia de un PC doméstico, ¡incluso si no reordenamos la Red a cada paso! Por lo tanto, tradicionalmente, al predecir los valores absolutos de la PA, se controla el error de aprendizaje en cada época hasta que sea menor que algunos. Este proceso puede no converger: la Red se encuentra en un bucle infinito y se necesitan mecanismos para sacarla de su estado comatoso. Cuando experimenté con esto, controlé la tasa de reducción del error de aprendizaje y, cuando se cumplía la condición, rediseñaba todos los pesos, es decir, prácticamente empezaba a aprender de nuevo. En ese momento tuve que averiguar el número aproximado de épocas necesarias para el aprendizaje y el peso de cada época (coeficiente antes de la corrección de cada peso) disminuido por la ley 1-j/N. Donde j va en valores de 1 a N. Después de abandonar la amplitud de predicción, la red comenzó a aprender rápida y eficazmente, por lo que fue posible introducir un número fijo de épocas de entrenamiento sin controlar el error de aprendizaje.

Además, al pasar de predicción a predicción, para reducir el número de épocas, mantuve los pesos de la Red sin aleatorizarlos. A veces tenía un efecto de "pegado" de algunos pesos que se manifestaba en su aumento infinito o tendencia a cero. Lo he afrontado de esta manera: al hacer una nueva previsión he influido en todos los pesos con el operador th(). Funcionó con eficacia.

 
Neutron >> :
... Un número fijo de épocas de entrenamiento sin controlar el error de aprendizaje.

>> El problema se ha resuelto.

 

a Neutrón

Estoy en el proceso de reescribir todas mis dos capas en una forma más compacta. Quiero reducirlo todo a operaciones matriciales de dos o tres funciones. En cuanto lo termine lo publicaré.

Al mismo tiempo, voy a "cortar" la predicción de la amplitud. De hecho, el cartel es más que suficiente.

 
Neutron >> :

Aquí es donde tienes que pensar por ti mismo.

¿Te refieres a pensar en cómo pasar de calcular el error de amplitud a calcular el error de signo?

¿Quieres decir aquí?

d_2_out = test - out;                                             // Ошибка на выходе сетки
 

No. Estaba hablando en términos generales. Obviamente, seguirás tu propio camino...

 

Hay un par de preguntas que, para evitar una agitación innecesaria aquí, me gustaría hacer por línea privada.

Sé que no eres un aficionado...

¿Puedo?

 
¡Pide tú!
 
Neutron >> :
¡Pide tú!

>> ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::.)

 
Contesta.
 
Neutron >> :

He establecido como norma volver a entrenar la red en cada paso. Obviamente, en esta configuración, la red puede estar a veces "en el lugar equivocado", pero en el siguiente paso ya está en el lugar correcto. La idea se basa en el hecho de que la probabilidad de que la red se entrene "mal" es mucho menor que 1, por lo que en general, en una muestra grande de reentrenamiento la contribución de los "niños locos" es mínima.

No sé muy bien a qué se refiere con lo de "reciclar a cada paso".