Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2757

 
Aleksey Nikolayev #:

A primeira ideia para sobrecarregar é escrever outra função com o mesmo nome, mas com argumentos diferentes. Nunca fiz isso no Rcpp, portanto, não sei se funcionará. Provavelmente terei de criar o código C em um arquivo separado e usar sourceCpp() em vez de cppFunction().

Agradecimentos

 
Maxim Dmitrievsky #:
Correto. Por falta de suposições a priori, o segundo tipo é usado.
Aleksey Nikolayev #:

Na minha opinião, há dois tipos de conexão.

O primeiro é causal, que é determinado por informações a priori sobre o objeto de pesquisa a partir do conhecimento na área de assunto em questão, e não por alguns cálculos.

O segundo tipo é a dependência probabilística, que pode ser calculada a posteriori a partir de alguns dados obtidos pela observação do comportamento do objeto. O segundo tipo inclui a correlação, a dependência determinística (como um caso extremo) e assim por diante, incluindo a descrita por cópulas e outros métodos. A base para o estudo desse tipo é a suposição de que há uma distribuição conjunta para preditores e alvo.

Por falta de experimentos , o segundo tipo é usado (por exemplo US Food & Drugs Association - não testará uma amostra representativa normal para suas conclusões, portanto, depende de abordagens bayesianas)... e sem informações a priori, não há nada para modelar

 
JeeyCi #:

Por falta de experimentos , o segundo tipo é usado (por exemplo, a Associação de Alimentos e Medicamentos dos EUA - não testará uma amostra representativa normal para suas conclusões, portanto, ela se baseia em abordagens bayesianas)... e sem informações a priori, não há nada para modelar

Você já deu uma olhada na própria biblioteca? Há algo com que possa brincar? Vou dar uma olhada nela quando terminar.

Há muitas dessas bibliotecas, portanto, elas estão em demanda.
 

Alguém já participou da competição Numerai? O que é preciso fazer para ganhar dinheiro lá?

É preciso investir seu próprio dinheiro? Não entendo qual é o modelo de pagamento deles.

 
Evgeni Gavrilovi #:

Alguém já participou da competição Numerai? O que você precisa fazer para ganhar dinheiro lá?

É preciso investir seu próprio dinheiro? Não entendo qual é o modelo de pagamento deles.

Talvez isso possa ajudar.
 

Não dei uma olhada na biblioteca, o artigo é nojento - contradiz o senso comum das estatísticas ....

em inglês padrão fontes - o significado da análise de séries temporais é reduzido à mudança de política no momento do tratamento/intervenção e à análise da mudança de inclinação da tendência agregada (que, suponho, pode ser interpretada como um ator - experimentando a influência da política e modificando seu processo de tomada de decisão no momento do tratamento - que é o objetivo da pesquisa de profissionais de marketing quando avaliam o efeito de descontos, vendas, etc. promoções para descobrir se o preço não é adequado para os clientes, ou o produto em princípio, ou a localização do shopping center, etc.)....д.)...

mas o mesmo problema de sempre na modelagem - para avaliar o pós-tratamento, é claro, você precisa de uma amostra(!) para aproximar as conclusões "ajudou-não ajudou-indiferente" (em termos de intervenção)...

e em termos de contrafactual - é importante fazer a pergunta certa para avaliar a dinâmica das mudanças causadas por uma mudança de política (ou alguma intervenção) - para escolher a métrica, a meta e os parâmetros (para ajuste) - porque questionamentos diferentes podem gerar resultados diferentes (e mudanças de inclinação diferentes) - portanto, conclusões diferentes.

Estou confuso com o problema do desequilíbrio nos dados reais de ML (que distorce as estimativas) - alguém aqui resolve isso com superamostragem/ subamostragem? -- Não vejo sentido em distorcer os dados reais dessa maneira....

mas é necessário obter uma amostra representativa no estágio pré-tratamento (distribuição de probabilidade a priori), e a distribuição posterior é obtida no pós-tratamento (por exemplo, mudança de política)... É aqui que é importante decidir sobre sua regra de parada, ou seja, se deve aumentar a amostra para refinar os resultados ou se deve se contentar com o limite de amostra escolhido para chegar a uma conclusão, que provavelmente será estatisticamente menos significativa do que se aumentarmos a amostra.... mas não é certo que o aumento da amostra aumentará a significância estatística da média ou da variação.

= esse é um problema de tamanho ... normalmente, se o efeito da intervenção for grande, ele poderá ser visto em uma amostra pequena....

o problema dos fatores (FS) também permanece - ao aumentar o número de fatores considerados, reduzimos o viés das estimativas, mas aumentamos a variação ... Tarefa: encontrar fatores significativos (como de costume na Análise Exploratória de Dados - é por isso que se chamaData_Science, e não uma aproximação estúpida de programador aleatório) para obter estimativas imparciais com baixa variação (o equilíbrio desses dois objetivos fica a critério do desenvolvedor).

Vladimir falou muito sobre o problema da seleção de fatores, se estivermos modelando probabilidades para selecionar uma operação de alta probabilidade.

P.S.

a velocidade e a aceleração (se houver) são sempre importantes na análise de séries temporais, sua comparação no período pré-tratamento e pós-tratamento fornece conclusões (inclusive sobre a mudança de direção)...

a divergência/convergência e os extremos dos alvos selecionados corretamente também permanecem válidos... tudo está como sempre - é tudo uma questão de design/arquitetura da rede neural... e somente as tendências e as probabilidades de seu desenvolvimento são previstas - nada mais... e no mercado para day traders tudo muda mais rápido do que em uma tendência de longo prazo (se analisada por D1) - portanto, o fator tempo também deve ser incluído no modelo do robô para day trading.... Em geral, formalize seu estilo de negociação para não precisar ficar sentado na frente do monitor o tempo todo e, se quiser, procure motivos estatísticos para entradas e saídas ou para ficar fora do mercado (até mesmo por motivos de gerenciamento de risco, quando o mercado não estiver claro).

p.p.s

o tópico pode ser desenvolvido infinitamente em termos de estudo de Modelos Causais Estruturais (o que depende do quê, como observei anteriormente), incluindo a consideração de fatores exógenos (influência externa) e endógenos (por exemplo, commodity ou moeda financeira, e até mesmo mudança de partido no poder, eu acho).... Em geral, como de costume, você pode examinar os dados para qualquer hipótese e observar a aceitação ou rejeição da hipótese nula para um determinado nível de significância de interesse (aumentando o tamanho da amostra para sua possível melhoria [do nível de significância]).

p.p.p.s

embora algumas pessoas não gostem da palavra distribuição probabilística, mas a essência dela não muda, as distribuições ainda são probabilísticas, mesmo que sejam condicionais (a condição dá um motivo para a classificação)... e Before_treatment e After-treatment (no teste A/B) podem ser considerados como uma mudança de condições (política), mas é possível estimar a regressão ou comparar a variação (se ela mudou), mesmo que a inclinação seja a mesma.

Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности
Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности
  • www.mql5.com
Эта статья продолжает серию публикаций о глубоких нейросетях. Рассматривается выбор примеров (удаление шумовых), уменьшение размерности входных данных и разделение набора на train/val/test в процессе подготовки данных для обучения.
 
Tenho a impressão de que tudo isso está muito longe de ser negociado
 
É por isso que estou dizendo que você deve primeiro decidir sobre o algoritmo (incluindo desequilíbrios - não sei o que você quer fazer com eles ???)... e depois procurar uma biblioteca que permita carregar o código com as entidades/classes necessárias... - quando você aconselhou a sobreamostragem anteriormente)... e, em seguida, procure uma biblioteca que permita adicionar as entidades/classes necessárias ao código... ou codifique sua própria biblioteca com as classes necessárias... ou codifique sua própria biblioteca com as classes de que você precisa.
 
JeeyCi #:
É por isso que estou dizendo que você deve primeiro decidir sobre o algoritmo (incluindo desequilíbrios - não sei o que você quer fazer com eles ???)... e depois procurar uma biblioteca que permita carregar o código com as entidades/classes necessárias... - quando você aconselhou a sobreamostragem anteriormente)... e, em seguida, procure uma biblioteca que permita adicionar as entidades/classes necessárias ao código... ou codifique sua própria biblioteca com as classes necessárias... ou codificar sua própria biblioteca com as classes de que você precisa.
A reamostragem é feita para remover exceções e gaussianizar a amostra

Em geral, eu estava sugerindo uma amostragem significativa por entropia ou correlação. Para tornar os chips mais informativos. Além disso, pegue os incrementos e adicione a eles o máximo de informações da série original por meio de todos os tipos de transformações. Além de uma janela de gagueira não fixa. É uma abordagem recente e ninguém fez isso. Mas peguei uma porcaria de coronavírus e estou descansando ☺️

Os inferninhos casuais deveriam ter ajudado a escolher as fichas informativas como opção, mas acabou não sendo o caso
 
JeeyCi #:
É por isso que estou dizendo que você deve primeiro decidir sobre o algoritmo (incluindo desequilíbrios - não sei o que você quer fazer com eles ???)... e depois procurar uma biblioteca que permita carregar o código com as entidades/classes necessárias... - quando você aconselhou a sobreamostragem anteriormente)... e, em seguida, procure uma biblioteca que permita adicionar as entidades/classes necessárias ao código... ou codifique sua própria biblioteca com as classes necessárias... ou codifique sua própria biblioteca com as classes de que você precisa.

Tudo o que você precisa já foi codificado antes de você.

O shell caret do R contém até 200(!) modelos, em sua terminologia (bibliotecas) + todo o pipelining necessário para mineração de dados e seleção de modelos.

O problema está na seleção de preditores e na seleção deles; não há problemas nos modelos há muito tempo.