Uso de redes neuronales en el comercio. - página 4

 
StatBars >> :

Creo que de tu post se deduce que la normalización depende más de los datos que de la tarea a realizar.

En cuanto a la segunda parte: ¿considera la MA incremental y las series incrementales?

Y en general, ¿quieres decir que la red entrenada debe ser insensible a los datos de entrada (a cada entrada individual), o que basta con cambiar los datos de entrada para que la red siga haciendo predicciones?

Sí, la dependencia de la distribución de datos afecta a la velocidad y la calidad del aprendizaje. Es decir, la normalización afecta esencialmente a la velocidad y a la calidad, respectivamente. Sobre la segunda parte, no, por supuesto, no se pueden meter datos completamente diferentes en una red neuronal entrenada sobre los mismos datos, pero igual, describiendo la distribución con suficiente precisión. La distribución, el tipo de datos debe ser siempre el mismo. Pero si entrenas una red con un tipo de datos que describen exactamente el proceso, y obtienes resultados muy diferentes utilizando otros datos en la nueva red entrenada que describen el proceso con la misma exactitud, significa que probablemente has planteado la pregunta equivocada a la red neuronal. En primer lugar, los datos deben describir completamente el proceso y, en segundo lugar, debe reducirse un error de generalización tal que sea adecuado en términos de requerir que la red generalice cualitativamente. Todo esto ocurre literalmente a nivel intuitivo. Es inútil recoger un tipo de datos si el proceso está completamente descrito, pero es costoso hacer la pregunta correcta a la red.

 

Unas palabras sobre el preprocesamiento.

Muestra de la fuente: La salida se correlaciona con la entrada (la correlación más significativa). corr=0,64.

En el gráfico: Coordenada X - datos de entrada. Y - Salida requerida

Eliminar la relación lineal. No se necesita una red para encontrar la dependencia lineal, y además empeorará los resultados de la red neuronal.

Este es el aspecto de los datos relacionados con la decoración.

En el primer gráfico también se puede ver que la densidad de puntos de datos se concentra en el centro y es escasa en los bordes.

Así, los puntos concentrados en el centro serán el principal estímulo para el entrenamiento de la red, o más bien sus valores de error superarán los valores de error de los datos de los bordes. La red encontrará primero la expectativa de muestreo, que está justo en el centro, y luego se distribuirá alrededor de ella observando la condición de error mínimo.

Por lo tanto, la función de distribución de frecuencias se iguala, nivela la importancia del error y la red tiene un incentivo definido para lograr el menor error en el centro de la distribución, así como en los bordes de la distribución de datos.

Con la función sigmoidal, los datos de entrada y salida se distribuyen casi uniformemente.

Este es el aspecto de los datos transformados. Es con estos datos que la red aprende.

Así, la nube de datos se distribuye uniformemente. Pero vale la pena decir que hay algunos matices que no permiten llamar a ese preprocesamiento óptimo para la red.

También cabe destacar que todas las conversiones son reversibles y no introducen imprecisiones.

Todos los métodos (en principio) han sido discutidos en este hilo.

 
StatBars писал(а) >>

La función de distribución de datos después de la conversión con una función sigmoidal, los datos de entrada y los datos de salida se distribuyen casi uniformemente.

StatBars, ¿este procedimiento está automatizado o hay que hacerlo manualmente, para ajustar los coeficientes de la función sigmoidea?

 
Neutron писал(а) >>

StatBars, ¿este procedimiento está automatizado o hay que hacerlo manualmente: ajustar los coeficientes de la función sigmoidea?

Hay que ajustar los coeficientes, hasta ahora... Pero pienso automatizar... La idea es que si la función de aproximación se selecciona correctamente, será un rectángulo.

He automatizado la alineación sólo con la función de distribución de áreas, pero hay tantos momentos "resbaladizos" que he tenido que renunciar a ella...

 

Sí, a mí me pasa lo mismo.

Necesito preguntar a Prival cómo obtener la distribución deseada (rectangular) a partir de una distribución arbitraria en forma analítica.

Y, ¿por qué se utiliza la sigmoidea como FA y no la tangente hiperbólica? Las ventajas son evidentes...

 
Neutron писал(а) >>

Y, ¿por qué utiliza la sigmoidea como FA en lugar de la tangente hiperbólica? Las ventajas son evidentes...

Y las ventajas podrían ser más detalladas.

 
Sí, una neurona activada por una función simétrica aprende el doble de rápido. Además, durante el proceso de aprendizaje, algunos de los pesos toman valores cercanos a cero, lo que los desactiva, es decir, el número efectivo de sinapsis "de trabajo" en una neurona con FA sigmoidal es siempre menor que en una hiperbólica. Esto no es bueno, porque todavía hay que arrastrar sinapsis "muertas" de un lado a otro.
 
Neutron писал(а) >>
Sí, una neurona activada por una función simétrica aprende el doble de rápido. Además, en el proceso de aprendizaje, algunos de los pesos toman valores cercanos a cero, es decir, el número efectivo de sinapsis "de trabajo" de la neurona con FA sigmoidal es siempre menor que el de la hiperbólica. Esto no es bueno, porque todavía hay que arrastrar sinapsis "muertas" de un lado a otro.

Una fácil conversión permite obtener un valor de -1 a 1 en sigmoide también. No hay nada complicado en ello.

 

Sí, ¿quién puede discutirlo?

Es que es una cuestión de "pantalones puestos, pantalones quitados".

 
Neutron писал(а) >>

Sí, a mí me pasa lo mismo.

Necesito preguntar a Prival cómo obtener la distribución deseada (rectangular) a partir de una distribución arbitraria en forma analítica.

Y, ¿por qué se utiliza la sigmoidea como FA y no la tangente hiperbólica? Las ventajas están en la superficie, después de todo...

Yo sólo uso la tangente hiperbólica.