Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 1188

 
Dmitriy Skub:
Yuri, estás apenas fora do tópico - a palavra chave aqui é garfo. Não tem nada a ver com MO)

Fora de contacto, isso é certo. Mas é um tópico interessante. Abstrato.

 
Yuriy Asaulenko:

A automação não é tão fácil aí, imho. Tanto quanto sei, é difícil com soluções típicas - há demasiadas soluções possíveis.

A única coisa que me vem à cabeça é um BD em equipas e jogadores, dos quais há centenas, ambos)).

Diferentes casas de apostas uma equipa pode ser chamada de forma diferente: Olympique, Marselha + em latim, pelo menos 4 variantes. Diferentes prefixos FK - clube de futebol, PFC - clube de futebol profissional.

Automatizar os garfos é uma dor no pescoço.

 

é um pouco simples demais.

Na verdade, o objectivo do RL não é sequer os pacotes, mas sim a abordagem, ou seja, a ultrapassagem. Usado em vez da genética, mas através de um aproximador do tipo NS

a principal dificuldade é amostrar a partir das distribuições certas

 
Maxim Dmitrievsky:

é demasiado simples.

Na verdade, o objectivo do RL não é sequer os pacotes, mas sim a abordagem, ou seja, a ultrapassagem. Usado em vez da genética, mas através de um aproximador do tipo NS

a principal dificuldade é amostrar a partir das distribuições certas

Bem, o exemplo simples é meio normal, porque o exemplo não precisa ser complicado, e o fato de já existirem pacotes prontos é bom.... Eu não entendo nem mesmo esse simples exemplo (( Não entendo porque as matrizes devem ser preenchidas com probabilidades e porque essas probabilidades são necessárias e como elas são calculadas

 
mytarmailS:

Bem, o exemplo simples é meio normal, porque o exemplo não deve ser complicado, e o fato de já existirem pacotes prontos é bom.... Eu não entendo nem esse simples exemplo (( Não entendo porque as matrizes devem ser preenchidas com probabilidades e porque essas probabilidades são necessárias e como elas são calculadas

probabilidades de transições de estado, cadeias de Markov

como a probabilidade de comprar sob alguma condição, ou vender

a matriz é preenchida com todos os estados possíveis, depois o estado actual é seleccionado a partir dela e o sinal é olhado... é uma tabela primitiva :)

 
Maxim Dmitrievsky:

probabilidades de transições de estado, cadeias de Markov

Bem, eu tenho essa....

Eu não entendo o papel deles no código.

 
mytarmailS:

Eu tenho essa....

Não entendo o papel deles no código.

Como assim? É uma tabela de transições de estado e probabilidades.

 
Maxim Dmitrievsky:

Como assim, papéis? É uma tabela de transições de estado e probabilidades.

Não sei de onde vêm as probabilidades de transição, temos 4 direcções - esquerda, direita, para cima, para baixo. O algoritmo tem de encontrar o caminho "algures" pela combinação certa de direcções. Mesmo antes de o algoritmo começar a procurar a combinação certa de probabilidades criou uma matriz com probabilidades de transição, onde é que elas foram buscar essas probabilidades?

Sou provavelmente muito burro, mas mesmo assim, se não se importa que eu pergunte, porque não explica?

 
mytarmailS:

Não entendo de onde vêm as probabilidades de transição, temos 4 direções - esquerda, direita, para cima, para baixo. O algoritmo tem de encontrar o caminho "algures" através de uma combinação correcta de direcções. Mesmo antes de o algoritmo começar a procurar a combinação certa de probabilidades criou uma matriz com probabilidades de transição, onde é que elas foram buscar essas probabilidades?

Provavelmente sou apenas um idiota, mas mesmo assim, se não te importas de explicar.

Leia o básico, não em R, apenas na internet.

Inicialmente as probabilidades são escolhidas aleatoriamente, depois ao longo das iterações são actualizadas por diferentes métodos, principalmente pelo método TD, no final convergem para um óptimo, ou seja, resolvem o problema original, por exemplo para sair do apartamento onde existem várias salas da forma mais rápida, sem entrar noutras salas. Para este propósito, uma matriz de estados (matriz de valores) e uma matriz de transições (matriz de políticas) são especificadas, ou seja, para cada estado (estar em uma determinada sala) pode haver várias transições para outras salas e suas probabilidades. Depois de cada acção, é devolvida uma recompensa numérica (boa-mal). A essência do método é maximizar a recompensa, ou seja, um agente é penalizado por transições erradas e recompensado por transições certas.

 
Maxim Dmitrievsky:

Não vi nada no tópico sobre critérios de informação(Bayesian ou Akaike). Talvez eles sejam usados por padrão (nos pacotes MoD aplicados)?