Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2208
Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
ese enlace que di en la wiki sobre el semi. Entiendo que las marcas son los bordes de las secciones estables.
ZZ no va, porque el marcaje sólo va sin diferencias en las secciones, y el aprendizaje va igual, y si marcando ZZ es como demasiados ejemplos con características diferentes y el resultado del aprendizaje no puede ser bueno.
Las etiquetas son conocidas como target{classes}. El resto de los datos son sin ellos, sólo en forma de características.
Se supone que estas etiquetas tienen algún tipo de significado. Por ejemplo, las etiquetas de que son gatos o cocodrilos
en nuestro caso, no tenemos ni idea de dónde están los gatos. Así que no sabemos ningún patrón ni cómo se diferencian, lo que hace aún más difícil
para que podamos forzar las marcas iniciales, pasar por las variantes
son sólo los objetivos/clases conocidos. El resto de los datos sin ellos
Es como establecer la dirección de búsqueda correcta)).
Se supone que estas etiquetas tienen algún tipo de significado. Por ejemplo, las etiquetas que dicen que son gatos o cocodrilos.
En este caso, no tenemos ni idea de dónde están los gatos. Es decir, no conocemos ningún patrón y cómo se diferencian, lo que dificulta aún más la tarea.
para que podamos forzar las marcas iniciales, pasar por las variantes.
La fuerza bruta completa siempre es mejor que la incompleta. El punto de que el marcado no es totalmente correcto siempre ha estado ahí. Y la maldición de la dimensionalidad sólo se resuelve acertando en la dirección de búsqueda. Es cuestión de encontrar/identificar la zona adecuada para pasar por las variantes.
Intenté ampliar la idea de la aceptabilidad de las muestras pequeñas para el GMM. Entrenar 6 meses, probar 5 años. Dividí las etiquetas en n partes de tamaño fijo. Para cada parte creé mi propio modelo GMM, generé 1000 muestras de cada una, las apilé y entrené el catbusto. Seleccioné las características y obtuve lo siguiente:
Segunda versión, mismas etiquetas, con la misma partición, pero con premezcla:
X = X.sample(frac=1.0)
En ambos casos se utilizó un objetivo fijo. Puedo reproducir este experimento si lo desea. No se me da bien interpretar este tipo de fenómenos, quizás haya una explicación.
Intenté ampliar la idea de la aceptabilidad de las muestras pequeñas para el GMM. Entrenar 6 meses, probar 5 años. Dividí las etiquetas en n partes de tamaño fijo. Para cada parte creé mi propio modelo GMM, generé 1000 muestras de cada una, las apilé y entrené el catbusto. Seleccioné las características y obtuve lo siguiente:
Segunda versión, mismas etiquetas, con la misma partición, pero con premezcla:
En ambos casos se utilizó un objetivo fijo. Puedo reproducir este experimento si lo desea. No soy fuerte en la interpretación de tales fenómenos, tal vez hay una explicación.
Lo siento chicos, hay una pregunta.
¿Cuál es el número de coeficientes de ponderación en sus rejillas, y sobre cuántos oficios se está entrenando?
Quiero entender la relación entre estas cantidades y especular sobre la dependencia del sobreentrenamiento en esta relación. Gracias.
¿Esta mezcla es antes del gmm o antes del boost? Es necesario comprobar el balance de clases para el entrenamiento/prueba. Tal vez los ceros fueron a traine y los unos a la prueba. También puede probar a agrupar por separado las marcas de compra y de venta.
La mezcla se realiza antes de crear el MMG.
Antes de eso, suelto las etiquetas por condición:
esto hace que el equilibrio de la clase sea siempre 1/1 con ligeras variaciones:
En este caso, se mezclaron 115 etiquetas y se dividieron en 4 partes. A continuación, se crearon 4 MMG basados en ellos. De cada una de ellas se sembraron 1000 etiquetas y se combinaron en un marco de datos. En el siguiente paso se dividirá en pista de prueba y triple.
El equilibrio de las clases de muestras era un poco diferente del ideal. Pero las muestras del tren y de la prueba tenían aproximadamente la misma proporción
A continuación se muestran los resultados de la simulación con la misma muestra de 115 etiquetas dividida en 4 partes, pero sin mezcla. El equilibrio de clases es, por supuesto, un poco mejor, pero no creo que afecte a los resultados de forma significativa.
Esto puede parecer una tontería, pero creo que hay algún tipo de correlación temporal en la serie que los modelos GMM encuentran en diferentes partes de la serie. Desaparece si se rompe el ordenamiento barajando la fila.
No había pensado en la agrupación por separado, lo probaré esta noche.
La agitación se realiza antes de crear el MMG.
Antes de esto, dejar caer las etiquetas por condición:
esto hace que el equilibrio de la clase sea siempre 1/1 con ligeras variaciones:
En este caso, se barajaron 115 etiquetas y se dividieron en 4 partes. A continuación, se crearon 4 MMG basados en ellos. De cada una de ellas se sembraron 1000 etiquetas y se combinaron en un marco de datos. En el siguiente paso se dividirá en pista de prueba y triple.
El equilibrio de las clases de muestras era un poco diferente del ideal. Pero las muestras del tren y de la prueba tenían aproximadamente la misma proporción
A continuación se muestran los resultados de la simulación con la misma muestra de 115 etiquetas dividida en 4 partes, pero sin mezcla. El equilibrio de clases es, por supuesto, un poco mejor, pero no creo que afecte a los resultados de forma significativa.
Esto puede parecer una tontería, pero creo que hay algún tipo de correlación temporal en la serie que los modelos GMM encuentran en diferentes partes de la serie. Desaparece si se rompe el ordenamiento barajando la fila.
No pensé en la agrupación por separado, lo probaré esta noche.
Tendré que dibujarlo, no está muy claro... Es un hecho que las distribuciones son diferentes en ambos casos. Además ya has eliminado la serialización. Lo más probable es que las distribuciones resulten muy poco informativas, y los nuevos puntos después del muestreo empiezan a estar en un lugar poco claro. Es decir, la información de la serie se pierde, sí, ya que las citas no son independientes.
O hacer en algún ejemplo simple (no cotizaciones) y comparar entonces.
Tendré que dibujar, no está muy claro... Es un hecho que las distribuciones son diferentes en ambos casos. Además, ya ha eliminado la serie. Lo más probable es que las distribuciones resulten muy poco informativas, y que los nuevos puntos tras el muestreo empiecen a estar en un lugar poco claro. Es decir, la información de la serie se pierde, sí, ya que las citas no son independientes.
O hacer en algún ejemplo simple (no cotizaciones) y comparar entonces.
Maxim, hola. Ha pasado mucho tiempo desde que vine aquí... He intentado manejarlo y tengo muchas preguntas))) ¿Supongo que MARKUP es un diferencial? El marcado es una simple comparación del valor actual con el actual + un número aleatorio, dependiendo del signo > o < se pone un marcado 1 o 0. ¿Correcto? Para una prueba, se establece markup=0.0? (si la bandeja MARKUP=0.00001 creo)) ¿no?
Maxim, hola, hace mucho tiempo que no vengo por aquí... Estoy tratando de entenderlo, y tengo muchas preguntas))) ¿Supongo que MARKUP es un diferencial? El marcado es una simple comparación del valor actual con el actual + un número aleatorio, dependiendo del signo > o < se pone un marcado 1 o 0. ¿Correcto? Para una prueba, pones markup=0.0? (para la bandeja, creo que MARKUP=0.00001)) ¿no?
Hola. Sí, así es. El mismo marcado se utiliza en el probador. Sobre los artículos, probablemente sea mejor preguntar en los artículos. Para tener en un solo lugar.
Analizo los comentarios y veo lo que se puede mejorar