Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2424

 
transcendreamer:

Na verdade, o ónus da prova recai sobre a acusação, portanto cabe a você provar que o produto está abaixo das normas (não como alegado).

Bem, isso é apenas apelativo à lógica e ao senso comum 🧐

Bem, você também não é um réu))) Mais como um especialista) Então faça a sua opinião de especialista

 
YURY_PROFIT:

Bem, você também não é um réu))) Mais como um especialista) Então faça a sua opinião de especialista

Vou pedir-lhe provas 😉 porque você é o procurador.

Ou talvez já tenhas feito lá um milhão e não é suficiente para ti.

 
Igor Makanu:

Isso é bobagem, há usuários, há produtores de produtos/bens/serviços

Não construíste o teu próprio carro, pois não? Compraste um carro pré-fabricado a um fabricante de carros.

SZZ: você pode fazê-lo cientificamente... você já ouviu o teorema de Pitágoras? Onde está o seu?)))


o humor está nos recursos do perfil, aqui de apenas ler: "os 3 elementos se juntaram, fotógrafo da treta, modelo da treta e cosplay da treta".


sobre isso... bem como se o Mercado permite que novas versões do produto sejam publicadas, não importa que alguns autores de produtos apenas reoptimizem seus EAs em novos dados históricos...... "em geral, os elementos se juntaram" - aqui, aliás, um dos "elementos" - imho, baixa formação do cliente, poucos são capazes de verificar a qualidade do produto, mas é assim em todo o lado - incluindo os compradores dos automóveis acima mencionados - por assim dizer, o marketing

Onde você viu estupidez? Esse post dizia, em primeiro lugar, que implicava trabalho intelectual e, em segundo lugar, que "NÃO aprendeu a usar".

Para criticar publicações textuais, você tem que estar em UM nível com o autor. Foi feita uma comparação ridícula com Pitágoras. Qual é o objectivo?

Um exemplo mais apropriado pode ser o seguinte: Você comprou um computador quântico mas não pode aprender a usá-lo, mesmo depois de ler as instruções detalhadas.

Espero que entenda qual é a diferença fundamental.

 
Gente quente chilena - você por acaso confundiu o ramo?
 
O nível pode ser visto imediatamente através da percepção de certos tópicos (links) e outras coisas. Duas ou três pessoas estão sobre o assunto, o resto é só para acalmar, como sempre.
 
mytarmailS:

Qual é a diferença fundamental entre "jogo de parar" e "não abrir" ou "comprar não comprar"?

Acho que não há nada, a classificação habitual...


O início/parada de outro robô é suposto ser mais fácil do que a sua própria compra/venda...

Há menos ruído de mercado (o ruído é filtrado pelo robô controlado), a solução é mais fácil de encontrar - porque há menos invariantes

 
Maxim Kuznetsov:

início/parada de outro robô - deve ser mais fácil do que a própria compra/venda...

menos ruído de mercado (o ruído é filtrado por um robô controlado), a solução é mais fácil de encontrar - porque há menos invariantes

Não há diferença, a partida/parada será controlada por outros sinais em que haverá ruído
 
Maxim Kuznetsov:

início/parada de outro robô - deve ser mais fácil do que a própria compra/venda...

menos ruído de mercado (o ruído é filtrado por robô controlado), a solução é mais fácil de encontrar - porque há menos invariantes

hmmm...

Ainda estou céptico. Filtrei a rede com outra, mas tu filtras algum jogo TS e está tudo bem?

 

Assim, conduzi a primeira fase da pesquisa, que anunciei anteriormente, e vamos tentar descobrir quais são os resultados reais. Vou escrever e pensar num relance, não sei o resultado até o fim, há muita informação, e como analisá-la adequadamente também é uma questão.

Eu tirei amostra de 2014 até a primeira metade de 2021 (60% de trem, 20% de teste, 20% de exame), 5336 preditores, fixei todos os parâmetros - 6 árvores de profundidade e 100 de semente aleatória set, taxa de aprendizagem 0,03 e 1000 iterações (árvores) com parada automática no caso de não haver melhoria após novas 100 árvores na amostra de controle, outras configurações não são importantes, mas os parâmetros variáveis são tipo de quantização e número de limites quânticos. O número de limites quânticos aumenta progressivamente de 8 para 512 e tipo de quantização - 6 variantes diferentes, mantemos as tabelas de quantização em arquivo separado.

Tendo treinado todos os modelos, obtemos uma tabela de 42 modelos encomendados pela coluna "Balans_Exam" - seleção independente.

A captura de tela mostra uma tabela com valores centrais ocultos, mas os primeiros cinco melhores e cinco piores são mostrados, e o valor médio dos indicadores foi calculado para toda a amostra.



No final são seleccionados dois modelos - destacados a verde claro, que diferem no número de quanta - 8 e 128 respectivamente e no tipo de quantização - Mediana e UniformesAndQuantiles.

Depois dividi a amostra dentro do teste em 8 partes, para que cada parte tivesse 6 meses, e treinei modelos com a primeira e segunda tabela quântica fixa separadamente, e para cada, vamos chamar-lhe um projeto, utilizei 5 opções de treinamento, em que o parâmetro semente aleatória - 100 opções de 8 a 800 com o passo 8:

  1. Treinar 1000 árvores sem controle de parada na subamostra de teste;
  2. Treinar 1000 árvores na subamostra com controle de parada na subamostra de teste após 100 iterações sem melhoria;
  3. Treinar 100 árvores sem parar o controle no teste de subamostra;
  4. Treinar 50 árvores sem controle de parada na subamostra de teste;
  5. Treinar 5 árvores sem parar o controle no teste da subamostra.

Após o treinamento ter sido concluído, os modelos resultantes foram analisados para as seguintes opções de obtenção de estatísticas sobre os preditores CatBoost:

  1. PrevisãoValoresAlterar;
  2. LossFunctionChange;
  3. Importação de Recursos Internos.

Em seguida, fiz a média dos resultados para cada 1/8 da amostra separadamente e os combinei em uma tabela geral que foi ordenada pela média das pontuações de significância do preditor em cada segmento, verificando separadamente a presença de um preditor significativo em cada segmento e usando a ordenação da tabela por essa pontuação também. O procedimento descrito foi feito para cada projeto e cada tipo de estatística do modelo.

Abaixo está um extrato da tabela para treinamento da variante 5 e análise do modelo da variante 1

Depois fiz configurações para excluir do treinamento os preditores que não cabiam nos primeiros preditores. Se não houvesse preditores suficientes que atendessem aos critérios, nenhum arquivo de configurações foi criado. As configurações foram feitas para cada variante estatística e projeto. Foram utilizados os seguintes limites para o número de preditores utilizados no treinamento: 5/25/50/100/300/500/1000/2000/3000. Assim, temos o conjunto de configurações.

Em seguida, realizei o treinamento com um ajuste fixo da tabela quântica na amostra - 60% teste - 20% exame - 20% com um máximo de 1000 árvores e parei o treinamento no teste da amostra, o treinamento foi realizado para todas as configurações e duas versões das tabelas quânticas, 100 modelos com sementes aleatórias - 100 opções de 8 a 800 em incrementos de 8. Além disso, foi realizado treinamento separado para as duas tabelas quânticas sem exclusão de preditores, mas com enumeração de sementes aleatórias - 100 variantes de 8 a 800 em passos de 8.

Abaixo está a tabela com a configuração de partiçãomediana de 8 limites- a primeira e as últimas 5 melhores escolhas.

Abaixo está uma tabela com 128 limites configurada pelo método UniformAndQuantiles - primeira e última 5 melhores escolhas.


A primeira conclusão que se pode tirar é que o modelo tem potencial, que depende dos preditores utilizados, cujo uso é afetadopor sementes aleatórias. E pensando alto, eu sugeriria que o objetivo da seleção de configurações/métodos não deveria ser o melhor resultado, mas o resultado médio de lucro ou outros indicadores. Gostaria de salientar que o valor médio do resultado financeiro na amostra fora do treinamento (coluna Balans_Exam) na primeira variante é 2222,39 e na segunda variante 1999,13.

A seguir, compilamos uma tabela com os valores médios dos modelos com uma repartição das configurações para a sua formação.

Abaixo está uma tabela com uma subdivisão em 8 limites de acordo com o métodoMediana para diferentes configurações responsáveis pela exclusão de preditores- as primeiras 10 variantes do topo são os valores médios.


Abaixo está uma
tabela com 128 limites usando o método UniformAndQuantilespara as diferentes configurações responsáveis pela exclusão de preditores - asprimeiras 10 opções do topo são os valores médios.


Para decifrar o que temos aqui na coluna "File_Name", sugiro que se utilize a seguinte tabela



Vamos tentar analisar passo a passo, reduzindo o número de combinações observadas.

A tabela abaixo calcula quais "Projetos" estão entre os dez primeiros nas duas tabelas quânticas.

E aqui vemos que em ambas as tabelas há bons representantes do primeiro projeto (Exp_000) e do quinto(Exp_004), o que é melhor e do qual abandonar não está claro, mas o fato de ambos terem ficado entre os dez melhores motivos para pensar. Talvez você devesse tomar estatísticas com quaisquer coeficientes em toda a tabela - eu não sei - propor opções. No entanto, quero notar que a variante Exp_004 é boa porque leva menos tempo para preparar os dados para criar arquivos de configuração, o que é lógico porque existem apenas 5 árvores. Eu acho que é muito cedo para tirar conclusões finais sobre a escolha do número de árvores para o treinamento inicial, não acha?

Na tabela abaixo, para as dezenas de duas tabelas quânticas, vejamos o tipo de análise de preditores e o número limite de preditores utilizados no modelo.



Podemos ver na tabela que o primeiro método de análise mostra um maior número de respostas, e também podemos ver que a maioria das configurações do número de preditores usados no modelo não excedem 50 unidades.

Sugiro que olhemos agora para os resultados dos próprios modelos, retirando as amostras de projectos cujas configurações se revelaram em maioria, para a primeira tabela quantitativa - CB_Svod_Exp_000_x_0000000000002 , e para a segunda - CB_Svod_Exp_004_x_0000000000002.


Abaixo está uma tabela com o método mediano para definir a configuração de seleção do preditor CB_Svod_Exp_000_x_0000002 - as primeiras 5 melhores e 5 piores variantes - em 8 limites.



Abaixo está uma tabela com uma divisão de 128 limites pelo método UniformAndQuantiles da definição de seleção de preditores CB_Svod_Exp_004_x_000000002 - as 5 primeiras 5 melhores e 5 piores variantes.

Abaixo estão as tabelas de resumo para comparação - a primeira linha contém dados da tabela quantitativa inicial, a segunda linha contém dados após enumeração desementes aleatórias e a terceira linha contém os resultados da seleção após o procedimento de seleção do preditor:

1.Tabelamedianade 8 limites



2. tabela com 128 limites definidos de acordo com o métodoUniformAndQuantiles



As estimativas das duas tabelas mostram uma diminuição nos resultados para as amostras de treinamento e teste, e uma melhoria no desempenho para a amostra independente, ou seja, o efeito do ajuste diminuiu ao melhorar as características dos preditores e reduzir seu número.


Que conclusões provisórias podem ser tiradas:

1. A simples alimentação da amostra CatBoost é possível, mas a manipulação dos preditores pode melhorar significativamente o modelo, incluindo o resultado financeiro.

2. Nem sempre é necessário usar um grande número de preditores disponíveis na amostra para obter um bom resultado - acontece que usar apenas 1% de todos os preditores é suficiente para alcançar os bons resultados que estimamos a partir da média.

Para desenvolver esta ideia, precisamos de realizar experiências com outras amostras e, se o resultado se repetir, podemos pensar em reduzir o número de combinações para encontrar resultados promissores. O objetivo é desenvolver um método cego que permita encontrar melhores médias sem olhar as amostras de teste e exame, o que aumentaria em 40% a amostra para treinamento e também acrescentaria a detecção de preditores com resposta estável.

Poder-se-ia pensar numa filtragem adicional dos preditores no momento da estimação, acrescentando um factor de ajustamento pela sua utilidade/eficiência, tendo em conta o resultado financeiro obtido.

Porque olho para as finanças - a questão é que diferentes eventos podem ocorrer no mercado e se o modelo pode, de preferência, selecionar eventos com maior retorno, então eu gosto desta abordagem do modelo, enquanto olho para os indicadores estatísticos estimados do modelo e para o próprio gráfico.

Espero que tenha achado o post interessante, aguardo ansiosamente os seus comentários!

Anexei um arquivo com todas as tabelas - quem está interessado e quem quer pensar.

Arquivos anexados:
CB_Svod_Si_Q.zip  697 kb
 
E depois podes tirar os 5-15 incrementos, e é igualmente bom.

Ou peneirar primeiro todos os preditores por correlação (segundos de tempo) e depois tirar os 5-15 restantes (se conseguir tantos)

É assim que a econometria te poupa tempo.