Estadística de la dependencia entre comillas (teoría de la información, correlación y otros métodos de selección de características) - página 13

 

No, el problema no ha cambiado. Es un problema atómico, indivisible. Y para tener una visión de conjunto, hay que escudriñar también la variable Lag.

Puedo publicar extractos de mis resultados de hace unos meses (pero los tengo en forma de texto). No se trata de información mutua, como tiene el topicstarter, sino de frecuencias de Matrix. También están los resultados del cálculo del estadístico "prueba de chi-cuadrado para la independencia de las variables" (en aquel momento no sabía lo que era la información mutua, pero ya me preocupaba una medida común de la dependencia de las variables y experimenté con diferentes criterios). Sin embargo, estas cifras tampoco son aburridas en absoluto.

Los publicaré mañana (bueno, quiero decir hoy, pero más tarde), porque no tengo acceso al ordenador en el que estaba calculando.

P.D. Esto no tiene nada que ver con la "regresión universal, etc.": (18) es un enfoque crudamente mecanicista del precio, mientras que aquí es fundamentalmente estadístico.

 
Mathemat:

No, el problema no ha cambiado. Es un problema atómico, indivisible. Y para tener una visión de conjunto, hay que escudriñar también la variable Lag.

Puedo publicar extractos de mis resultados de hace unos meses (pero los tengo en forma de texto). No se trata de información mutua, como tiene el topicstarter, sino de frecuencias de Matrix. También están los resultados del cálculo del estadístico "prueba de chi-cuadrado para la independencia de las variables" (en aquel momento no sabía lo que era la información mutua, pero ya me preocupaba una medida común de la dependencia de las variables y experimenté con diferentes criterios). Sin embargo, estas cifras tampoco son aburridas en absoluto.

Los publicaré mañana (quiero decir hoy, pero más tarde), ya que en este momento no tengo acceso al ordenador en el que se hicieron los cálculos.

P.D. Esto no tiene nada que ver con la "regresión universal, etc.": (18) es un enfoque crudamente mecanicista del precio, mientras que aquí es fundamentalmente estadístico.

(18) en el modo ATS da, incluso si es malo, pero el resultado, sin utilizar las paradas y TP, y llevar su enfoque estadístico fino a este nivel, entonces vamos a comparar.

Oro desde el 25.11.2009 hasta el 02.09.2011, H4, 0.1 lote, reducción máxima 10.32%, MO 27,6

ׂ

 
Mathemat:

No hay discusión, todo tiene sentido. Empecemos por el punto 1.

1. "Definir exactamente lo que tomamos": Primero - la célula de tarea, luego la indivisible.

Arreglar el Lag de los enteros. Será la "distancia entre barras", es decir, el módulo de diferencia de sus índices en el marco temporal especificado en MT4.

Objetivo: determinar si existe una relación estadística entre las dos variables aleatorias siguientes: 1) el retorno de la barra "maestra" con índice sh, y 2) el retorno de la barra "esclava" con índice sh+Lag.

Esto es lo que tomamos: todos los pares de barras con una distancia entre ellas igual a Lag. Es extremadamente preciso.

¿Dónde y qué hay que dudar? Tratemos primero el primer punto. Si funciona, pasemos al segundo punto.

Es casi un ACF, pero la fórmula es diferente. El ACF es una parte integral de la estadística. Es genial para buscar dependencias de todo tipo. Se ha utilizado tanto en la teoría como en la práctica muy ampliamente desde la aparición de ARIMA.Cualquier cosa nueva debe comenzar indicando las similitudes y diferencias con cosas similares comúnmente conocidas y bien establecidas. Si no se hace así, la idea no es negociable en las casas más sucias de Londres. De eso es de lo que he hablado durante todo este hilo. Siempre hay que empezar con un repaso de la literatura. No hay circunloquio - no hay bazar en la cita de su puesto.

Siguiente. Veo sh, entiendo que el ACF se cuenta desde sh=1, no desde un lugar arbitrario. Pero hay un ACF. ¿En qué se parece o difiere su sugerencia? Simplemente no ofusques el punto (dependencias en BP) con palabras de TI.

 
faa1947: Es casi un ACF, pero la fórmula es diferente. El ACF es una parte integral de la estadística. Es genial para buscar dependencias de todo tipo.

No es necesariamente un ACF. Y te equivocas de plano cuando dices que el ACF busca dependencias de todo tipo. Mira la correlación. Las limitaciones del análisis de correlación se encuentran al final del artículo, donde está la imagen. Por eso abandoné el ACF. Las correlaciones lineales entre barras detectadas por la correlación de Pearson son demasiado débiles y de corta duración.

Siempre hay que empezar con un repaso de la bibliografía. No hay circunloquio - no hay bazar en la cita de su puesto.

Así no podremos movernos durante mucho tiempo. Pero en general estoy de acuerdo contigo: sigue siendo necesario algún tipo de argumentación. Me lo pensaré - si no está satisfecho con la última frase del párrafo anterior, relativa a las dependencias lineales.

Simplemente no ofusques el punto (dependencias en BP) con palabras de TI.

¿Así que has decidido prohibirme que utilice TI para encontrar dependencias?

2 yosuf: No voy a competir contigo. Sigue mejorando tu tipster, pero no entres en este hilo, por favor. Aquí es una idea de última hora.

 
Mathemat:

Encontré un artículo sobre la entropía de la información (Wiki). Cita 1 de allí:

Esto es entropía, entropía convencional. ¿Es esa la definición que interpretas?

Sí, estoy de acuerdo en que las letras del alfabeto deben ser estadísticamente independientes para que no haya redundancias ni dependencias. Esto es, a grandes rasgos, lo que hace el archivero, que crea un alfabeto claramente distinto del utilizado para crear el texto.

Pero eso no es lo que estamos contando. Sobre lo que estamos contando, a continuación.


La charla del topicstarter (y la mía también) no era sobre la entropía de la información, sino, maldita sea, sobre la información mutua (¡¡¡Wiki otra vez!!!)

Lainformación mutua es una función estadística de dos variables aleatorias que describe la cantidad de información que contiene una variable aleatoria en relación con la otra.

La información mutua se define a través de la entropía y la entropía condicional de dos variables aleatorias como [a continuación viene la fórmula de I(X,Y)

Sólo para señalar, se deduce de la misma pedivada que la fórmula para calcular la información mutua puede ser la siguiente:

Información mutua (entre X e Y) = Entropía (X) - Entropía condicional (entre X e Y)

Eso si no escribimos fórmulas de aspecto aterrador de fuentes americanas, sino que nos guiamos por definiciones.

Aquí X e Y son dos sistemas diferentes, y existe una dependencia entre ellos, en X e Y.

Si queremos la información mutua total, entonces es como la del topicstarter:

Información mutua total (entre X e Y) = Entropía (X) + Entropía (Y) - Entropía del sistema combinado (X e Y)

Por qué se escribe "entropía del sistema combinado" y no "entropía condicional", porque en realidad la entropía total del sistema de dos sistemas puede ser independiente o condicional. Está claro que si X e Y no están relacionados, y son independientes, entonces hay que contar como probabilidades conjuntas (teorema de la adición de la entropía), y si hay una conexión, entonces como condicionales.


Ahora, nuestros intereses. Cómo se puede aplicar toda esta derivación al mercado. Supongamos que el modelo es el siguiente. Existe un sistema X - mercado (alfabeto), tiene un número finito y definido de estados (símbolos) que aparecen con cierta frecuencia (probabilidades de los símbolos). Hay un segundo sistema Y: un registro de cotizaciones. Las comillas (alfabeto) tienen también un conjunto limitado de símbolos con determinadas frecuencias. ¿Qué se puede deducir de todo ello?

1. Hay que conocer el alfabeto del mercado. Allí siempre pasa algo, se compra y se vende, alguien quiebra, alguien sale con dinero nuevo, se produce una histeria masiva, etc. Es decir, el alfabeto es muy vasto y difícilmente se puede describir con tanta facilidad.

2. Incluso si es posible describir el alfabeto del mercado, se plantea la cuestión de la estacionariedad de los procesos que tienen lugar en el mercado. Debe entenderse que el TI está absolutamente orientado a la constancia de las propiedades.

El alfabeto del segundo sistema, las comillas. Es diferente del alfabeto del mercado. Probablemente ya lo es. Y tienes que saber cuál es. Si simplemente dividimos el rango de cambios de las cotizaciones en el marco temporal en cuantiles y los convertimos en alfabeto, qué obtenemos. Más concretamente, ¿obtenemos el mapeo total o parcial de la información del alfabeto del mercado en el alfabeto de las cotizaciones? ¿Qué parte de la información se pierde? O tal vez no se pierde nada y el alfabeto del mercado es simplemente redundante. Etc.

 
Mathemat:

No es ni mucho menos ACF. Y te equivocas al decir que el ACF busca dependencias de todo tipo. Mira la correlación. Las limitaciones del análisis de correlación se encuentran al final del artículo, donde está la imagen. Por eso abandoné el ACF. Las correlaciones lineales entre barras detectadas por la correlación de Pearson no me interesan, ya que son demasiado débiles y efímeras.


La elaboración de la correlación es su lado fuerte, pero al mismo tiempo al lado débil le has atribuido las limitaciones conocidas de la correlación. Pero son precisamente estas limitaciones las que nos permiten razonar con sentido sobre una cantidad llamada "ACF", la probabilidad de confianza en esa cantidad, las condiciones para calcular esa confianza y, en general, evaluar la permisibilidad de cualquier razonamiento sobre estas cantidades, dependiendo de si se cumplen las limitaciones de correlación. Incluso habiendo dominado todo, armado con una herramienta, en la práctica uno encuentra serias dificultades y cae constantemente en la fornicación.

Intenta escribir lo mismo sobre el tema del tópico.

ACF muestra las tendencias de forma bastante concreta y, junto con ChAKF, busca los ciclos. ¿Y qué busca la "dependencia de la información", qué tipo de bestia es y cómo se muestra entre comillas o en incrementos? Hay multitud de publicaciones sobre la psicología del mercado, donde se explica la formación de tendencias y ciclos, pero ¿cuál es la base psicológica de la "dependencia informativa", en qué publicaciones está escrita? y ¿afecta a las cotizaciones? ¿En qué se basan las imágenes resultantes? ¿Dónde están las probabilidades de credibilidad del resultado? ¿Dónde están las condiciones de aplicabilidad de todo esto? Sólo preguntas. Este tema me recuerda cada vez más al tema con hfenks (si no recuerdo mal), que también se inclinó sin saberlo por el tema de las dependencias.

Desde el punto de vista de la tesis, exclusivamente preliminar, hay indicios de novedad científica, pero sin comparación con la correlación es todo basura vacía (lo siento).

 
HideYourRichess:

Sólo señalar que se deduce de la misma pedivada que la fórmula para calcular la información mutua podría ser la siguiente: [...]

Por qué se escribe "entropía del sistema fusionado" y no "entropía condicional", porque en realidad la entropía total del sistema de dos sistemas puede ser tanto independiente como condicional. Está claro que si X e Y no están correlacionados y son independientes, hay que contar como probabilidades conjuntas (teorema de la adición de entropía), y si hay conexión, entonces como condicionales.

Sospechaba que ibas a señalar esto. Afortunadamente, en cualquier caso, las fórmulas escritas a través de probabilidades (en lugar de entropías) siguen siendo las mismas, independientemente de lo que haya o no. Así que este razonamiento no aporta nada nuevo.

Existe un sistema X - mercado (alfabeto), tiene un número finito y definido de estados (símbolos) que aparecen con una determinada frecuencia (probabilidades de los símbolos). Hay un segundo sistema Y: un registro de cotizaciones. Las comillas (alfabeto) tienen también un conjunto limitado de símbolos con determinadas frecuencias. ¿Qué se puede deducir de todo ello?

Llamo su atención sobre el hecho de que este ya no es el sistema que el autor del tema estaba considerando. No soy tan ingenuo como para sugerir seriamente que es posible aprender el alfabeto del mercado. Y trato de fijarme objetivos realistas.
 
faa1947: La elaboración de la correlación es su fuerza, pero al mismo tiempo al lado débil le has atribuido las limitaciones conocidas de la correlación. Pero son precisamente estas limitaciones las que nos permiten razonar con sentido sobre una cantidad llamada "ACF", la probabilidad de confianza en esa cantidad, las condiciones para calcular esa confianza y, en general, evaluar la permisibilidad de cualquier razonamiento sobre estas cantidades, en función del cumplimiento de las limitaciones de correlación.

Absolutamente correcto. La mitad del terver/matstat habla de los teoremas del límite central y de sus implicaciones, en lo que respecta específicamente a la distribución normal. Es una distribución perfectamente "trabajada". Sin embargo, hay algunas variables aleatorias que no la obedecen ni siquiera en el límite. ¿Por qué debería tratar específicamente la correlación de Pearson sólo porque está perfectamente elaborada?

El ACF muestra específicamente las tendencias y, junto con el CHAKF, busca los ciclos.

Ni los ciclos ni las tendencias son todavía de interés en la fase de extracción de datos. Lo que interesa son las dependencias que en principio no detecta el ACF.

¿Y qué busca la "dependencia de la información", qué es esta bestia y cómo aparece entre comillas, o en incrementos? Hay multitud de publicaciones sobre la psicología del mercado, donde se explica la formación de tendencias y ciclos, pero ¿cuál es la base psicológica de la "dependencia informativa", en qué publicaciones está escrita? y ¿afecta a las cotizaciones? ¿En qué se basan las imágenes resultantes? ¿Dónde están las probabilidades de credibilidad del resultado? ¿Dónde están las condiciones de aplicabilidad de todo esto? Este hilo me recuerda cada vez más al hilo con hfenks (si no recuerdo mal), que también se pitorreaba de las dependencias sin saberlo.

Haces demasiadas preguntas. Les preguntaré: ¿conocen al menos a un investigador que, antes de empezar algo muy nuevo y muy extraño, haga primero una fundamentación completa y absoluta de la aplicabilidad de lo nuevo, y luego proceda a obtener resultados, cuya pista se le pasó por la cabeza en una fracción de segundo? Normalmente es al revés: primero se aplica lo nuevo sin tener en cuenta la fundamentación y el rigor, y luego, si sale algo interesante, se empieza a fundamentar. ¿Entiendes lo que quiero decir?

Y hablando de hrenfx: también hizo un análisis basado en la correlación de Pearson.

Desde el punto de vista de la tesis, exclusivamente preliminar, hay indicios de novedad científica, pero sin comparación con la correlación todo esto es basura ociosa (lo siento).

No es gran cosa. Bueno, aquí no estamos discutiendo una disertación, sino sólo una idea curiosa, de la que puede salir algo en el futuro. Soy consciente de que puede que no. Entonces, ¿por qué perder el tiempo en una justificación tensa?

 
Mathemat:

Absolutamente correcto. La mitad del terver/matstat habla de los teoremas del límite central y de las implicaciones sobre ellos, que se refieren específicamente a la distribución normal. Es una distribución perfectamente "trabajada". Sin embargo, hay algunas variables aleatorias que no la obedecen ni siquiera en el límite. ¿Por qué debería tratar específicamente la correlación de Pearson sólo porque está perfectamente elaborada?

Todavía no interesan ni los ciclos ni las tendencias en la fase de extracción de datos. Las dependencias que interesan son las que fundamentalmente no pueden ser detectadas por el ACF.

Haces demasiadas preguntas. Yo también les preguntaré: ¿conocen al menos a un investigador que, antes de empezar algo muy nuevo y muy extraño, haga primero una justificación completa y al cien por cien de la aplicabilidad de esta novedad, y luego proceda a obtener resultados, cuyo indicio se le pasó por la cabeza en una fracción de segundo? Normalmente es al revés: primero se aplica lo nuevo sin tener en cuenta la fundamentación y el rigor, y luego, si sale algo interesante, se empieza a fundamentar. ¿Sabes a qué me refiero?

Y hablando de hrenfx: también hizo un análisis basado en la correlación de Pearson.

No es gran cosa. Bueno, aquí no estamos discutiendo una disertación, sino sólo una idea curiosa, de la que puede salir algo en el futuro. Soy consciente de que puede que no. Entonces, ¿por qué perder el tiempo en una justificación tensa?

¿Por qué debería tratar específicamente la correlación de Pearson sólo porque está perfectamente elaborada?

Prácticamente valioso. Y se consigue manejar procesos aleatorios no estacionarios con distribuciones desconocidas.

Por lo general, es al revés: al principio, lo nuevo se aplica sin tener en cuenta las corroboraciones y todo tipo de restricciones, y luego, si se obtiene algo interesante, se hacen las corroboraciones. ¿Me entiendes?

No. Primero se mide el vado y luego todo lo demás. En todos los consejos científicos a los que he asistido en mi época su discurso sería el último para siempre.

¿Por qué entonces perder el tiempo en justificaciones estiradas?

Estirado no es necesario. Pero hay que entender lo que se discute a nivel de comparación con lo existente.

 
Mathemat:

Sospechaba que lo señalarías. Afortunadamente, en cualquier caso, las fórmulas escritas a través de probabilidades (en lugar de entropías) siguen siendo las mismas, independientemente de lo que haya o no. Así que este razonamiento no aporta nada nuevo.

En mi opinión, aunque sea errónea, la esencia de la fórmula no puede cambiar, así como las condiciones de su aplicabilidad, por el hecho de estar escrita por otros símbolos.

Matemáticas:
Llamo su atención sobre el hecho de que este ya no es el sistema que el iniciador del tema estaba considerando. No soy tan ingenuo como para hablar seriamente de aprender el alfabeto del mercado. Y trato de fijarme objetivos realistas.
Un sistema más completo es el siguiente: alfabeto del mercado <-> alfabeto de las cotizaciones -> alfabeto de las tareas. El topikstarter sólo consideró el último par, la cita es la tarea.