Redes neuronales artificiales. - página 3

 
gpwr:

La red es una herramienta, una especie de función no lineal universal que puede optimizarse (ajustarse) para diferentes datos (entrada-salida). Esta función no puede extraer ninguna regularidad.

Lo hace :)

El NS se entrena con datos de entrada-salida y si los patrones son universales para la población general, el NS funcionará con éxito fuera de la muestra.

Y el aislamiento de las regularidades es una capa adicional de trabajo para analizar los pesos entrenados y las funciones de transferencia de NS, yo mismo nunca lo he hecho personalmente.

El cerebro humano es capaz de aprender patrones no lineales con mucho éxito. Por ejemplo, calcular la trayectoria de un boomerang lanzado por las tribus de bosquimanos en algún lugar de África. La naturaleza nos lo ha dado todo. Puedes aprender a propósito patrones no lineales en el mercado. Personalmente, me gustaría escribir un programa de aprendizaje VBA del siguiente tipo: Voy a mostrar una serie de pequeñas cotizaciones, digamos, 100-150 barras en un gráfico y necesitaré adivinar la dirección general del precio en el futuro, digamos, para 50 barras. Pulsaré los botones arriba/abajo y el programa registrará mi respuesta y si la he adivinado o no. Después, el gráfico se desplazará aleatoriamente en el eje temporal, etc. Como resultado, o bien aprenderé (el porcentaje de direcciones adivinadas aumentará), o no (como, lo siento, fallé). Este sería un buen ejemplo de la capacidad de entrenamiento del cerebro.

 
gpwr:

La red es una herramienta, una especie de función no lineal universal que puede optimizarse (ajustarse) para diferentes datos (entrada-salida). Esta función no puede recoger ninguna regularidad. También se puede argumentar que un polinomio ajustado a una curva suave encuentra sus patrones ocultos. Salga del rango de datos al que se ha ajustado la función y sabrá lo que obtendrá como ejemplo de regresión polinómica. Por cierto, el número de parámetros a optimizar en el grafo es mucho mayor que en el árbol de decisión, ya que el grafo contiene subconexiones que no influyen en las decisiones correctas y cuyos pesos disminuyen durante la optimización.

Una cosa es aproximar los datos del mercado mediante una red, y otra muy distinta es hacer un reconocimiento de patrones.

La segunda parece ser más correcta: al fin y al cabo, es el cerebro del comerciante el que reconoce las imágenes.

 
joo:

Una cosa es aproximar los datos del mercado mediante una red, y otra muy distinta reconocer las imágenes.

La segunda parece ser más correcta: al fin y al cabo, es el cerebro del comerciante el que reconoce las imágenes.

Los ingenieros de Google alimentaron la red de autoaprendizaje (no sé de qué tipo) con capturas de pantalla de vídeos de YouTube y la red aprendió a distinguir los gatos como una clase aparte. Es posible estimar la cantidad de información que circulaba en la RAM. En teoría, es posible enviar gráficos a la red, pero debe ser una red enorme y compleja y un ordenador adecuado. Es más fácil enviar un patrón de precios normalizado en el rango de, por ejemplo, [0;1]. Y la estacionariedad se preserva y es fácil de implementar. Básicamente, el operador ve el patrón de precios, mientras que hay operadores que operan utilizando un gráfico puro (sin indicadores). Pero aparentemente, la red tiene que ser reentrenada constantemente. Porque nuestro cerebro también está actualizando constantemente las conexiones y mejorando nuestra comprensión del proceso.
 
alexeymosc:
Los ingenieros de Google alimentaron la red de autoaprendizaje (no sé de qué tipo) con capturas de pantalla de vídeos de YouTube y la red aprendió a separar los gatos en una clase distinta. Es posible estimar la cantidad de información que giraba en la memoria RAM. En teoría, es posible enviar gráficos a la red, pero debe ser una red enorme y compleja y un ordenador adecuado. Es más fácil enviar un patrón de precios normalizado en el rango de, por ejemplo, [0;1]. Y la estacionariedad se preserva y es fácil de implementar. Básicamente, el operador ve el patrón de precios, mientras que hay operadores que operan utilizando un gráfico puro (sin indicadores). Pero aparentemente, la red tiene que ser reentrenada constantemente. Porque nuestro cerebro también está actualizando constantemente las conexiones y mejorando nuestra comprensión del proceso.
Cuando un operador "ve" una pauta, no analiza una serie de precios pura. Ningún cerebro humano tiene tal cantidad de RAM (es, por cierto, una RAM pensante: un par de cientos de bytes como máximo). Por lo tanto, el preprocesamiento de la señal es obligatorio.
 
alsu:
Cuando un operador "ve" una pauta, no analiza una serie de precios pura. Ningún cerebro humano tiene tal cantidad de RAM (por cierto, es una RAM pensante: un par de cientos de bytes como máximo). Por lo tanto, el preprocesamiento de la señal es obligatorio.

No había oído hablar de eso. DE ACUERDO. Entonces, por supuesto, es difícil entender qué aspectos de la EC son percibidos por el cerebro. Ese es el problema de todos los intentos de hacer algo similar basado en NS. Los signos importantes de la información entrante no están definidos, así que tenemos que adivinar.

Pero - personalmente entiendo las curvas y los picos sobre todo :)

 
alexeymosc:

No había oído hablar de eso. DE ACUERDO. Entonces, por supuesto, es difícil entender qué aspectos de la EC son percibidos por el cerebro. Ese es el problema de todos los intentos de hacer algo similar basado en NS. Los signos importantes de la información entrante no están definidos, así que tenemos que adivinar.

Pero - personalmente entiendo más las curvas y los picos :)

Me parece muy prometedor: despejar la información sobre los precios del ruido por medio de la NS. Básicamente, una señal útil se describe mediante un pequeño número de parámetros, por ejemplo, si tomamos un día en M1, podemos ver de un vistazo 10-20 (en lugar de 1440), lo que es fácilmente comprensible para el cerebro humano. La cuestión es cómo despejar correctamente la señal sin perder información importante. Aquí es donde una red puede ayudar, en mi opinión. Bueno, y para procesar (clasificar, cluster, regresión, etc.) la parte restante es posible por cualquier método adecuado, y no el hecho, por cierto, que NS será la mejor opción. En cualquier caso, hay muchas herramientas desarrolladas para este tipo de tareas, y no es la menor razón que todas funcionen igual de mal)))
 
alsu:
Creo que es muy prometedor despejar la información de precios del ruido con la ayuda de NS. Básicamente, una señal útil se describe con un pequeño número de parámetros, por ejemplo, si tomamos un día en M1, puede haber entre 10 y 20 (en lugar de 1440), lo que es bastante fácil de percibir para el cerebro humano. La cuestión es cómo despejar correctamente la señal sin perder información importante. Aquí es donde una red puede ayudar, en mi opinión. Bueno, y para procesar (clasificar, cluster, regresión, etc.) la parte restante es posible por cualquier método adecuado, y no el hecho, por cierto, que NS será la mejor opción. En cualquier caso, hay muchas herramientas desarrolladas para este tipo de tareas, y no es la menor razón que todas funcionen igual de mal)))
Alexey, estás hablando directamente del problema de la selección de características, es decir, en lenguaje llano: cómo elegir el 1% de los datos del conjunto disponible que es más informativo para una predicción como: entrar en largo, entrar en corto, esperar. Pero incluso cuando se aplican técnicas sofisticadas a este problema, las trampas salen rápidamente a la luz. En primer lugar, no está claro qué salsa utilizar para alimentar los puntos de datos seleccionados: los valores brutos no son adecuados, hay que preprocesarlos. Tal vez funcione si se toma la diferencia entre 457 y 891 bares, y entre 1401 y 1300. Hay muchas opciones, y no hay tiempo suficiente para forzarlas todas.
 

Otra cosa sobre la información que llega al cerebro. Un ejemplo muy instructivo es la compresión fractal de imágenes. Sólo muestra que, en realidad, visualmente para una persona para la percepción hay suficiente información en miles e incluso decenas de miles de veces menos que el tamaño "crudo" de la imagen.

Me pregunto qué proporción se puede conseguir comprimiendo un cociente mediante el algoritmo fractal. 100? ¿500? ¿más?

 
alexeymosc:
Alexey, estás hablando directamente del problema de la selección de características, en lenguaje llano: cómo seleccionar el 1% de los datos de la matriz que es más informativo para un pronóstico como: entrar en largo, entrar en corto, esperar. Pero incluso cuando se aplican técnicas sofisticadas a este problema, las trampas salen rápidamente a la luz. En primer lugar, no está claro qué salsa utilizar para alimentar los puntos de datos seleccionados: los valores brutos no son adecuados, hay que preprocesarlos. Tal vez funcione si se toma la diferencia entre 457 y 891 bares, y entre 1401 y 1300. Hay muchas variantes, y no tengo suficiente tiempo para forzarlas todas.
También existe el problema de la interpretación del resultado del algoritmo. Muy a menudo tratamos de construir la misma red para que su salida tenga una señal clara de qué hacer, o al menos la información relativamente comprensible (para un diseñador) se convierta en una señal de este tipo. Pero no es el hecho de que le convenga a la red dar la información de esa forma, tal vez sería mucho más fácil darnos no aproximadamente un bit y medio (compra-venta-parada), sino, por ejemplo, 10 bits de información?
 
alsu:
También existe el problema de la interpretación del resultado del algoritmo. A menudo intentamos construir la misma red para que la salida tenga una señal clara de lo que hay que hacer, o al menos una información relativamente comprensible (para el diseñador) para convertirla en tal señal. Pero no es seguro que sea conveniente emitir la información de esa forma, tal vez sería mucho más fácil darnos no aproximadamente un bit y medio (by-sell-stop), sino, por ejemplo, 10 bits de información?
Buen punto, por cierto. Básicamente, tratamos de comprimir la información de entrada a un nivel tal que podamos tomar decisiones claras (compra-venta-parada). Es muy posible que la mejor solución sea tener una relación de compresión de 1 (es decir, sin compresión o cerca de ella). La imagen de entrada es comprensible para la red, la imagen de salida es comprensible para la persona.