La etiqueta del mercado o los buenos modales en un campo de minas - página 82

 
Neutron >> :

Aquí es donde yo mismo no tengo una comprensión completa.

De acuerdo con la declaración(Alexander Ezhov, Sergey Shumsky"Neurocomputing"), hay una longitud óptima, en la que el error de generalización Popt=w^2/d se minimiza, donde d es la dimensionalidad de la entrada NS, w es el número de todos los parámetros sintonizables de NS. Así que, desde este punto de vista, el NS está sobreentrenado si P<Popt el NS "recuerda" la muestra de entrenamiento. La variante P>Popt tampoco es buena, porque a mayor duración, hay más probabilidad de que se produzca un cambio de tendencia en el mercado, lo que equivale a una disminución de las correlaciones entre las muestras.

Por otro lado, NS puede ser "arrastrado" al número excesivo de épocas de entrenamiento y como consecuencia, el error de generalización comenzará a crecer de nuevo, o no será arrastrado... En general, es necesario realizar experimentos numéricos con un conjunto de estadísticas, ¡lo que en sí mismo es muy respetable! Pero, hay que hacerlo. Esto facilitará mucho las cosas, para probar la ecuación anterior para la longitud óptima del vector de entrenamiento. gpwr, ¿quieres juguetear?

Si miras tus gráficos


entonces surgen varias preguntas. Según tengo entendido, la línea roja en círculos es el error de aprendizaje medio de varios experimentos estadísticos con diferentes pesos iniciales aleatorios. La línea azul en círculos es el error medio de predicción en los datos no entrenados. ¿Verdad? Las líneas finas muestran el rango de dispersión. Ahora las preguntas

1. ¿Corresponde la línea azul fina inferior a la línea roja fina inferior? En otras palabras, ¿mejora la precisión de la predicción fuera de la muestra para los experimentos estadísticos con el menor error de aprendizaje?

2. Como la dispersión del error de aprendizaje no se reduce a cero, el aprendizaje no alcanza un mínimo global.

Ahora me preocupa mucho esta cuestión: ¿debo buscar un algoritmo de aprendizaje que alcance el mínimo global con la esperanza de que las predicciones sobre las muestras no entrenadas sean más precisas? Estoy ejecutando mi parrilla y viendo lo inconsistentes que son sus predicciones dependiendo de dónde deje de entrenarla. Incluso si establezco el mismo número de épocas 1000, las predicciones son diferentes en diferentes ejecuciones sobre las mismas muestras de entrenamiento. La mitad de las predicciones son que el precio subirá, la otra mitad bajará. No estoy contento con eso. Si se entrena mucho tiempo, la red se acerca a un mínimo global y sus predicciones son las mismas en diferentes ejecuciones.

Sobre el número óptimo de muestras, lo pensaré. No es fácil. Hay que conocer las estadísticas del mercado y la rapidez con la que cambia su distribución. El aumento del número de muestras llevará a una situación en la que la red estaba detectando provisionalmente una vaca y en el proceso se cambió de vaca a tortuga. Finalmente la red concluirá que es una tortuga con cuernos y pezuñas. Si se reduce el número de muestras, digamos que la red sólo se dio para palpar los cuernos de una vaca, entonces habrá muchas variantes: vaca, alce, cabra, ciervo, etc.

 
gpwr писал(а) >>

Al aumentar el número de muestras, la red utilizará sus tentáculos para identificar una vaca y, en el proceso, cambiará la vaca por una tortuga. Como resultado, la red concluye que se trata de una tortuga con cuernos y pezuñas. Si para reducir el número de muestras, digamos que la red sólo se diera para palpar los cuernos de una vaca, entonces habría muchas variantes: vaca, alce, cabra, ciervo, etc.

+5 Estoy completamente de acuerdo.

Tú, sin embargo, hojeas a Jejov y a Shumsky. Tal vez se le ocurran algunas ideas en relación con las pruebas.

La línea azul en círculos es el error medio de predicción en los datos brutos. ¿Correcto?

Correcto.

1. ¿Corresponde la línea azul fina inferior a la línea roja fina inferior? En otras palabras, ¿mejora la precisión de la predicción fuera de la muestra para los experimentos estadísticos con el menor error de aprendizaje?

Debido a la falta de recursos, no he hecho un experimento completo. Pero, estoy de acuerdo en que es necesario y me obligaré a hacerlo.

P.D. gpwr, encontré un enlace en la red al trabajo de dos americanos que hace 5 años pudieron demostrar la existencia e implementar un algoritmo ORO modificado para NS no lineal bicapa con UNA neurona por salida. Así, con un tipo especial de función de activación (y su tipo específico no afecta a la potencia de cálculo de la red), la velocidad de aprendizaje del nuevo algoritmo supera a la del ORO clásico en más de dos órdenes de magnitud. ¿Has visto alguna vez algo así?

 
Neutron >> :

+5 Estoy completamente de acuerdo.

Sin embargo, deberías ojear a Jejov y Shumsky. Tal vez te sirva para tener algunas ideas sobre las pruebas.

Sí.

Debido a la falta de recursos, no he hecho un experimento completo. Pero estoy de acuerdo en que es necesario y me obligaré a realizarlo.

P.D. gpwr, he encontrado una referencia en la red al trabajo de dos americanos que hace 5 años pudieron demostrar la existencia y realizar el algoritmo ORO modificado para NS no lineal de dos capas con UNA neurona de salida. Así, con un tipo especial de función de activación (y su tipo específico no afecta a la potencia de cálculo de la red), la velocidad de aprendizaje del nuevo algoritmo supera a la del ORO clásico en más de dos órdenes de magnitud. ¿Nunca te has encontrado con algo así?

He visto varias variantes de RFO:

QuickProp - 1988, se añade la derivada de segundo orden para acelerar la convergencia

RProp - Resilient back-Propagation - 1993, Riedmiller, Alemania, el objetivo del algoritmo es sustituir el gradiente por su signo

iRProp - Improved RProp - 2000, Igel, alemán, el mismo RProp pero la red da un paso atrás si el error de aprendizaje de la época anterior aumenta

SARProp - Simulated Annealing back-Propagation - 1998, Treadgold, Australia, para la convergencia global, añadió un tamaño de paso aleatorio bajo ciertas condiciones cuando el error de la época anterior aumentó

JRProp - Jacobi RProp, 2005, Anastasiadis, griego de Inglaterra, el mismo iRProp, pero con un método ligeramente diferente de retorno cuando el error se incrementa

GRProp, GJRProp - Global RProp/JRProp - 2005, Anastasiadis, en cada época se elige el paso de peso más pequeño y se sustituye por una fórmula extraña

Los he probado todos. RProp, iRProp, JRProp funcionan de forma casi idéntica. Los métodos globales SARProp y GRProp no funcionan. Puede encontrar fácilmente artículos sobre estos algoritmos.

Vea aquí en ruso

http://masters.donntu.edu.ua/2005/kita/tkachenko/library/article01/index.htm

www.iis.nsk.su/preprints/pdf/063.pdf

 

Gracias. Voy a echar un vistazo.

Esos dos estadounidenses idearon su algoritmo rápido únicamente para una sola salida NS, es decir, estamos hablando de algo altamente especializado.

 

Me compré un 2001i Pro.

¿Puede comentar brevemente los gráficos de asignación que publiqué ayer?

 

Bueno, por supuesto.

Tienen razón. La primera y la tercera cifras no tienen interés debido a las pequeñas estadísticas de la última y a la pequeña H de la primera. Sin embargo, la segunda cifra es representativa:

Para la distribución de Kagi (fig. de la izquierda), podemos notar la ausencia de longitudes de hombros más pequeñas que el escalón de división H(paralocus, por supuesto, es usted un gran original en cuanto a representaciones inusuales de dnanos, por ejemplo, medir el escalón de división en extensiones en lugar de puntos...) y la disminución exponencial de la frecuencia de aparición de longitudes de hombros con un aumento de su longitud. Para una serie de operaciones, podemos observar una distribución casi en forma de banda de la frecuencia de aparición de las longitudes en las preposiciones +/-H y el mismo decaimiento exponencial en la transición a las longitudes superiores a H. Esto puede verse en la Fig. de la derecha. Creo que tal representación de los datos de entrada para NS (normalizados todavía en Н), es casi ideal, ya que no requiere procedimientos "astutos" de normalización y centrado (MO es idénticamente igual a cero). Sin embargo, la cuestión de la optimización de la representación Cagi sigue abierta. Aquí el problema debe resolverse de forma integral, y el segundo bloque importante en el enlace es MM. Para la CT sin reinversión, el reparto de Kagi es efectivamente óptimo.

 
Gracias. MM sigue siendo terra incognita para mí. Intenté varias veces reinvertir el dinero que acumulé con un lote y obtuve una pérdida importante. Al principio de este hilo escribiste sobre MM en relación con el apalancamiento. Pero, ¿es el apalancamiento ajustable por el comerciante? En mi opinión, apalancamiento = 100 y ya está. Sólo se pueden elegir pares para reducir el riesgo. Yo prefiero el AUDUSD - también lo he sacado de tu post. Pues bien, aún no ha llegado el momento (para mí). Ahora trabajaré en la doble capa. Hoy voy a codificar y mañana os enseñaré lo que he conseguido.
 
El apalancamiento es proporcional al valor del lote en relación con la cantidad de capital. Por lo tanto, al aumentar o disminuir el tamaño del lote que se negocia, se está cambiando esencialmente el tamaño del apalancamiento. Para el análisis es más fácil utilizar el apalancamiento que el tamaño del lote, porque es adimensional. Por eso lo he utilizado en mis fórmulas.
 

Esencialmente, un probador de MT es una caja negra con varias entradas (MAs, estocásticos y otros indicadores de AT), con un número contable de parámetros ajustables (periodos de MAs, amplitudes óptimas, etc.) y un algoritmo "complicado" para mezclarlo todo dentro. En la salida tenemos una orden de venta/compra o stop. Existe un procedimiento de optimización que permite elegir los mejores parámetros en función del máximo beneficio de la ST sobre datos históricos. ¿Te recuerda a algo? Exactamente, si consideramos que los indicadores de AT junto con el astuto algoritmo (no lineal) de su procesamiento, la esencia es una función no lineal de activación de pseptron multicapa, entonces todos nosotros aquí hemos estado haciendo lo mismo durante muchos años - ¡construyendo y educando a nuestros NS! Sólo que este hecho no es obvio, lo que causa muchos problemas al trabajar con el probador de estrategias (ajuste, inestabilidad del óptimo encontrado, etc.). ¡Muchas personas respetables del foro suelen ser escépticas con respecto a la NS, mientras hacen lo mismo todo su tiempo libre y parece que no hay nada más! Piensa en ello.

Si esto es así, es evidente que tenemos que pasar al lenguaje de los términos de la IA. Muchas cosas se harán evidentes a partir de lo que nos ha asolado durante tantos años. Por ejemplo, la adaptación de un probador en la historia, simplemente no es lo suficientemente largo (medido en eventos TC, es decir, las transacciones, no el número de barras) o, igualmente, un número excesivo de parámetros sintonizables. Rentabilidad insuficiente: se utilizan indicadores con una transformación lineal del precio (no se aprovechan las correlaciones no lineales entre los eventos del mercado), etc. Otro punto importante: se ha demostrado en la teoría de NS que la potencia de cálculo de la red no depende de un tipo específico de no linealidad. De ello se desprende que no tiene mucho sentido rellenar indicadores y algoritmos inteligentes y no triviales de procesamiento de series de precios en la ST, ya que no puede afectar significativamente a las propiedades predicativas de la ST. Pero es muy importante minimizar el error de generalización (en términos de CT), y para ello basta con elegir la longitud óptima de los datos históricos y el número de indicadores.

En definitiva, todos haremos lo mismo, y no importa si estamos puliendo nuestro Probador de Estrategias o escribiendo nuestra propia red. Lo importante es que entendamos exactamente lo que estamos haciendo y por qué.

P.D. Hice un pequeño perseptrón solitario sobre los sintéticos.

Se ve bien que en el proceso de entrenamiento la neurona rueda con seguridad hacia el mínimo global (fig. de la izquierda en rojo), esto se indica por la dispersión que disminuye a cero (líneas delgadas), caracterizando el proceso de aprendizaje para los experimentos con diferentes valores de los pesos de inicialización. Por otro lado, el error de generalización (la inversa de la capacidad de predicción) comienza a crecer de nuevo en algún momento del proceso de aprendizaje, lo que indica que la neurona pierde su capacidad de generalizar el conocimiento. La figura de la derecha muestra los mismos datos, pero en el eje de la protuberancia. El aprendizaje óptimo está bien indicado.

 

Cuando estaba "puliendo el probador" tuve una sensación parecida, pero no llegó a cuajar... -:)

Pero ahora han surgido ideas aparentemente sencillas, pero que funcionan mejor. Algo que formulé ayer:

Оптимальным каги-разбиением тикового ВР с порогом Н, следует считать такое разбиение, при котором имеется минимальное количество следующих друг за другом одноцветных плеч ряда транзакций. При этом средняя длина плеча равна величине средней взятки.


Es decir, resulta realmente lo que has escrito: ¡tomar es igual a parar! Hay un punto sutil aquí:

Si la distribución de las series de transacciones recibidas es tal que más del 50% de los hombros sucesivos tienen un color diferente, entonces ¿por qué NS en absoluto?(no me des una patada, sólo he preguntado... -:))


P.D. Corregido el error tipográfico