Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3190

 
Aleksey Nikolayev #:

Relacione-o de alguma forma com o lucro, pelo menos aproximadamente, e compare o lucro real com uma amostra de lucros aleatórios. A verificação de que não há erros é que o lucro médio na amostra é igual a zero. Verifique a significância da positividade do lucro real em relação à amostra - a regra de três sigma.

Não estou pronto para entrar em detalhes sobre sua tarefa, pois minhas próprias tarefas estão muito ocupadas.

O que o lucro tem a ver com isso, quando estamos falando de pré-processamento de dados para classificação posterior?

Aleksey Nikolayev #:

Seus quanta são projetados para a extração de lucros? Existe algum esquema para isso? Simplifique ao máximo para calcular, mesmo que de forma aproximada, mas rapidamente, uma amostra e verifique se o resultado real cai na cauda dessa amostra.

Sua disposição de exigir que as pessoas se aprofundem em sua mentalidade, acompanhada de sua total falta de vontade de se aprofundar em ideias simples e amplamente conhecidas como Monte Carlo, é cansativa.

Acho que já estou farto.

Todos têm o direito de administrar seu próprio tempo.

Mas, aparentemente, você não entendeu a pergunta sobre a qual deu o conselho.

Obrigado por tentar ajudar.

 
Aleksey Vyazmikin #:

Eu entendo.

Tenho outra sugestão para você: que tal tornar mais gerenciável o processo de construção da floresta e tomar como raiz de cada árvore uma subamostra concreta do segmento quântico selecionado?

A profundidade deve ser de 2 a 3 divisões, de modo que os exemplos de classe classificável por folha não sejam inferiores a 1%.

Acho que o modelo será mais estável.

Ou seja, se você selecionar 10 quanta/divisões e treinar 10 árvores com exemplos dessas divisões? Parece simples de fazer.
Sobre a estabilidade em OOS - o experimento mostrará. Minha estabilidade é violada ao alterar o tamanho da janela de dados (2 meses e 4) e ao deslocá-la em até 2% (treinamento na terça-feira em vez de sábado). As árvores acabam sendo diferentes.

Aleksey Vyazmikin #:

Realizei um experimento com a amostra na qual publiquei os gifs, já existem 47% de unidades na amostra, os dados foram resumidos na tabela.

...
descobriu-se que a qualidade (utilidade) desses segmentos quânticos é 10 vezes pior (menos) do que os originais.

Quando me comuniquei com fxsaber, supus que essa deterioração (em vezes) se referia à mistura por seu algoritmo. Ele não apresenta uma diferença tão forte em seus dados. Aparentemente, porque ele não tem todas as barras em uma linha na marcação (ou linhas em uma linha), mas com grandes lacunas. Se suas barras estiverem próximas, elas têm passado e futuro muito semelhantes, ou seja, 20 exemplos da classe 1 podem estar em uma linha. Ao randomizá-las, você as torna médias 0101010.... e deve alterar toda a série de 20 "1's" para 20 "0's". Como eles estão próximos e podem ser contados como um exemplo. Se não for assim para você, é assim para mim (avalio todas as barras em uma linha, por isso essa ideia surgiu).

Em geral, acho que com uma diferença tão grande de 10 vezes, é possível não fazer 10.000 testes. A diferença é muito clara nos primeiros 10 testes (todos piores) para se presumir que outros 10.000 aumentarão o resultado para a igualdade com o original. Se foram 3 piores, 3 melhores, 4 aproximadamente iguais, então sim - continue acumulando estatísticas.

Se os dados forem serializados, o problema é que uma série de 20 1's em algum lugar da história encontrará uma série de 20 0's com um passado semelhante. É a randomização do mercado aqui. Não se trata de transformar 111111111 em 010101010.

UPD Portanto, acho que o Monte Carlo na forma de 01010101 para dados de mercado não funcionará para dados de mercado (se for em série). É como dividir um retângulo e um quadrado em quadrados iguais e depois tentar determinar a qual figura primária o quadrado pertencia)).

 
Aleksey Vyazmikin #:

Escrevi sobre a sequência estrita apenas como um exemplo para maior clareza. E escrevi que a solução desse problema pode melhorar a estabilidade do modelo. Mas a solução pode ser diferente.

Mesmo sem resolver o problema mencionado acima, a seleção da tabela quântica correta melhora o aprendizado, o que foi testado por mim em dezenas de amostras.

Em seguida, mostrei como você pode fazer rapidamente o pré-processamento para treinamento, limpando a amostra de dados inconsistentes. Você pode ver nos gifs que é possível até mesmo obter um modelo lucrativo em novos dados com esse método.

No final, a abordagem funciona e meu objetivo é desenvolvê-la.

Portanto, dizer que ela não funciona é negar a realidade.

Não acredito que o preço seja puro SB, cuja natureza não pode ser pelo menos parcialmente desmontada. Se for SB puro, então todo o tópico é um erro.

Acredito que deveríamos fazer uma conferência de operadores de máquinas. Obviamente, com um bufê e em algum lugar nos Emirados Árabes Unidos. E lá, em uma atmosfera formal e depois informal, discutir tudo. Caso contrário, é inconveniente fazer isso por meio do fórum.

O programa seria o seguinte: um dia de conferência, um dia em que todos bebem, no dia seguinte todos brigam, puxam os peitos uns dos outros, depois fazem outra conferência e assim por diante. Em tempo real :)

O patrocinador e o palestrante principal seriam o Saber, depois o Alexei Nikolaev e, em seguida, todos os outros :)
 
Aleksey Vyazmikin #:

O que o lucro tem a ver com o pré-processamento de dados para classificação posterior?

Qual foi o objetivo de seus inúmeros gifs com balanços patrimoniais cada vez mais íngremes? Talvez você simplesmente não tenha entendido a resposta à sua pergunta?

 
Maxim Dmitrievsky #:
Acho que deveríamos fazer uma conferência de máquinas. Ela teria que incluir um bufê e ser realizada em algum lugar nos Emirados Árabes Unidos. E lá, em um ambiente formal e depois informal, poderíamos discutir tudo. Caso contrário, é inconveniente fazer isso por meio do fórum.

O programa seria assim: um dia de conferência, um dia todos bebem, no dia seguinte todos brigam, puxam os seios uns dos outros, depois fazem outra conferência e assim por diante. Em tempo real :)

O patrocinador e o palestrante principal seriam o Saber, depois o Alexei Nikolaev e, em seguida, todos os outros :)

A ideia de usar o dinheiro do Saber para se familiarizar com suas estratégias parece ótima e bem pensada. Nem sei o que poderia dar errado 🤔

 
Aleksey Nikolayev #:

A ideia do dinheiro do Saber para se familiarizar com suas estratégias parece ótima e bem pensada. Eu nem sei o que poderia dar errado 🤔

Esqueci de acrescentar - patrocinador principal como o mais bem-sucedido. Mas todos precisam contribuir.
Acho que é possível encontrar pessoas para patrocinar sua palestra.

O objetivo da conferência provavelmente não é discutir estratégias específicas, mas abordagens gerais, filosofia, ferramentas e assim por diante.
 
Forester #:

Ou seja, se você selecionar 10 quanta/segmentos, então treine 10 árvores usando exemplos desses segmentos? Parece simples de fazer.
Sobre a estabilidade em OOS - o experimento mostrará. Minha estabilidade é violada ao alterar o tamanho da janela de dados (2 meses e 4) e ao deslocá-la em até 2% (treinamento na terça-feira em vez de sábado). As árvores acabam sendo diferentes.

Sim, é tudo assim - a abordagem pode se tornar mais complicada, é claro, mas só se você quiser.

No momento, se bem me lembro, o preditor na árvore atinge apenas metade do intervalo, sem procurar o melhor lugar para dividir?

Quanto ao sucesso da ideia, concordo plenamente, mas a água também não corre sob uma pedra deitada.

Forester #:

Pensei nessa deterioração (por vezes) quando conversei com fxsaber sobre a mistura com seu algoritmo. Ele não tem uma diferença tão forte em seus dados. Aparentemente, porque ele não tem todas as barras em uma linha na marcação (ou linhas em uma linha), mas com grandes lacunas. Se suas barras estiverem próximas, elas têm passado e futuro muito semelhantes, ou seja, 20 exemplos da classe 1 podem estar em uma linha. Ao randomizá-las, você as torna médias 0101010.... e deve alterar toda a série de 20 "1's" para 20 "0's". Como eles estão próximos e podem ser contados como um exemplo. Se não for assim para você, é assim para mim (avalio todas as barras em uma linha, por isso tive essa ideia).


Em geral, acho que, com uma diferença tão grande de 10 vezes, é possível não fazer 10.000 testes. A diferença é óbvia demais nos primeiros 10 testes (todos piores) para supor que outros 10.000 elevarão o resultado à igualdade com o original. Se foram 3 piores, 3 melhores, 4 aproximadamente iguais, então sim - continue acumulando estatísticas.

Se os dados forem serializados, o problema é que uma série de 20 1's em algum lugar da história encontrará uma série de 20 0's com um passado semelhante. É a randomização do mercado aqui. Não se trata de transformar 111111111 em 010101010.

UPD Portanto, acho que o Monte Carlo na forma de 01010101 para dados de mercado não funcionará para dados de mercado (se for em série). É como dividir um retângulo e um quadrado em quadrados iguais e depois tentar determinar a qual forma primária o quadrado pertence)).

Infelizmente, cometi um erro ao processar os dados (eu estava redesenhando o script para esses testes rapidamente e uma nuance não foi levada em consideração), e o resultado da tabela é o seguinte

A conclusão é que os dados podem cair aleatoriamente nos intervalos das tabelas quânticas e passar no teste de estabilidade disponível. As configurações/critérios padrão foram usados - agora tentarei restringi-los e verei o resultado.

No entanto, já escrevi anteriormente que apenas 30% dos pontos de corte quânticos mostram sua eficiência nas outras duas amostras, portanto, o resultado era geralmente esperado. Foi apenas sua estranheza que me fez verificar tudo novamente. O desafio é como melhorar o resultado da seleção.

Entretanto, o objetivo da quantificação é selecionar um grupo com uma mudança de probabilidade. É possível que uma folha estável possa ser encontrada dentro dele por meio da divisão, apesar do fato de que o próprio grupo mudará para outro alvo com novos dados.

Na amostra em que fiz o experimento, há uma média de 1 sinal por dia, creio eu, portanto as barras estão muito distantes.

Acho que seria mais interessante observar os resultados do experimento que sugeri acima - ele deve mostrar a frequência com que as respostas-alvo geradas aleatoriamente se enquadram nos segmentos quânticos amostrados. Apenas isso será o espaçamento fixo já "baús", como Aleksey Nikolayev sugeriu em sua abstração.

Você pode enviar sua amostra, eu selecionarei os segmentos quânticos e, com esses dados, você poderá experimentar a criação de uma floresta modificada, ou eu posso lhe dar minha amostra.

 
Maxim Dmitrievsky #:
Acho que deveríamos fazer uma conferência de máquinas. Ela teria que incluir um bufê e ser realizada em algum lugar nos Emirados Árabes Unidos. E lá, em um ambiente formal e depois informal, poderíamos discutir tudo. Caso contrário, é inconveniente fazer isso por meio do fórum.

O programa seria o seguinte: um dia de conferência, um dia todos bebem, no dia seguinte todos brigam, puxam os seios uns dos outros, depois conferenciam novamente e assim por diante. Em tempo real :)

O patrocinador e o palestrante principal seriam o Saber, depois o Alexei Nikolaev e, em seguida, todos os outros :)

Fourchette - não parece ruim, mas a necessidade de violência - bem, eu não percebi por mim mesmo. Fico triste por não ser compreendido, mas isso não causa uma agressão tão forte por si só.

 
Aleksey Vyazmikin #:

Furshet - não parece ruim, mas a necessidade de violência - bem, eu não notei isso. Fico triste por não ser compreendido, mas isso não causa uma agressão tão forte em si.

A violência é apenas consensual e, quando as discussões terminam, todas as pessoas civilizadas
 
Maxim Dmitrievsky #:
Acho que deveríamos fazer uma conferência de máquinas. Ela teria que incluir um bufê e ser realizada em algum lugar nos Emirados Árabes Unidos. E lá, em um ambiente formal e depois informal, discutir tudo. Caso contrário, é inconveniente fazer isso por meio do fórum.
O programa seria o seguinte: um dia de conferência, um dia em que todos bebem, no dia seguinte todos brigam, puxam os seios uns dos outros, depois fazem outra conferência e assim por diante. Em tempo real :)
O patrocinador e o palestrante principal seriam o Saber, depois o Alexei Nikolaev e, em seguida, todos os outros :)

Eu queria ler sobre aprendizado de máquina, e aqui os humoristas estão aprimorando suas habilidades.

Eu gostaria de ver piadas de humor e outras coisas não relacionadas ao tópico em outro lugar.


Agora sobre o assunto.

Você escreveu que acha que o mercado é aleatório. Qual é a base dessa afirmação?

Você tem alguma base sólida para provar a aleatoriedade do movimento dos preços de mercado?