O que alimentar a entrada da rede neural? Suas ideias... - página 39

 
Aleksey Vyazmikin #:
É assim que as filiais recebem spam....



Não me importo. Você é construtivo.

 
Alexey Volchanskiy #:

Considerando que tenho um scalper funcionando com uma taxa de amostragem de 1 Hz para compra/venda, negociar em barras mensais me parece uma aberração mental. Sem o mínimo de trollagem.

lembrando de qualquer DSP: na caixa de areia local, os ticks têm uma frequência de 3-5 Hz ... extremamente desagradável para uma amostragem de 1.

 
Andrey Dik #:


... dezenas de milhares* de linhas densas de código....

dezenas de milhares de linhas densas de código...

Alexei, responderei mais tarde.
 
Estive pensando: Por que a saída de uma rede neural é apenas COMPRAR e VENDER?

Bem, digamos HOLD. Afinal de contas, o mesmo SoftMax pode escolher... qualquer coisa, não há limites para a fantasia.

Por exemplo, tomamos duas estratégias diferentes. Uma é plana, a outra é de tendência. Enviamos para a entrada como de costume - o que enviamos anteriormente.




Na saída, decidimos qual estratégia será negociada agora (ou monitoramos seus sinais). E aqui a Softmax mostra a estratégia plana: a estratégia plana verifica a presença de um sinal, TP, SL e assim por diante, de acordo com suas regras formalizadas prontas. Então, novamente: análise dos dados de entrada.



O NS decide que agora o gráfico é mais adequado para uma estratégia de tendência e passa o controle para ela. ATUALIZAÇÃO Vou fazer algo simples. Se houver algo interessante, eu o publicarei.
 
Ivan Butko #:


Estive pensando: Por que a saída de uma rede neural é apenas COMPRAR e VENDER?

Bem, digamos HOLD. Afinal, o mesmo SoftMax pode escolher... qualquer coisa, não há limites para a fantasia.

Por exemplo, tomamos duas estratégias diferentes. Uma é plana, a outra é de tendência. Enviamos para a entrada como de costume - o que enviamos anteriormente.




Na saída, decidimos qual estratégia será negociada agora (ou monitoramos seus sinais). E aqui a Softmax mostra a estratégia plana: a estratégia plana verifica a presença de um sinal, TP, SL e assim por diante, de acordo com suas regras formalizadas prontas. Então, novamente: análise dos dados de entrada.



O NS decide que agora o gráfico é mais adequado para uma estratégia de tendência e passa o controle para ela. ATUALIZAÇÃO Vou fazer algo simples. Se houver algo interessante, eu o publicarei.

É possível distribuir as saídas em pullback (limite) e breakout (stop), mas, em geral, a rede é muito... A primeira opção foi expressa por mim há vários anos, mas foi bombardeada com tomates na filial da MO, embora as mesmas pessoas que se opunham ao aumento do número de neurônios agora estejam tentando dominar o LLM em relação aos mercados.

Em resumo, você deve tentar não dar ouvidos a ninguém. Você pode me ouvir (referência à famosa frase 😊).

 
Andrey Dik #:

É possível distribuir as saídas em rollback (limite) e breakdown (parada), mas, em geral, a rede é muito... adicionar neurônios ao estado quando o GPT é obtido, ou vice-versa, para simplificar as opções de ações possíveis da rede. a primeira opção foi expressa por mim há vários anos, mas foi bombardeada com tomates na filial do MO, embora as mesmas pessoas que se opunham ao aumento do número de neurônios agora estejam tentando dominar o LLM em relação aos mercados.

Em resumo, você deve tentar não dar ouvidos a ninguém. você pode me ouvir (referência à famosa frase 😊).



Obrigado pela ideia. Limite e stop são direções essencialmente diferentes. Em alguma estratégia, ou também nas duas: onde ele negocia o melhor preço, o outro em um rompimento.



A ndrey Dik #:

A primeira opção foi expressa por mim há vários anos, mas foi lançada com tomates no tópico MO, embora as mesmas pessoas que eram oponentes do aumento do número de neurônios agora estejam tentando dominar o LLM aplicado aos mercados.


Muito bem.

A bandeira está em suas mãos e talvez eles compartilhem o graal conosco quando o chat escrever para eles. Eu reluto obstinadamente em desenhar o graal.

 
Aleksey Vyazmikin #:

1 - E eu pensei que você tivesse feito uma referência ao tópico MO, porque alguns participantes tinham opiniões críticas sobre os algoritmos discutidos em seus artigos. Decidi apenas esclarecer, pelo que entendi, qual é o motivo da discordância em substância, em minha opinião. Não quero trazer à tona o tópico de personalidades.

2. Sei o que procurar - dependências estatisticamente estáveis em segmentos quânticos de preditores, mas ainda não sei o que os sinais dizem sobre isso. Ao criar um modelo, é necessário ter uma alta probabilidade de dar o passo certo em uma nova iteração - isso é tudo :)

3. ...

4. Ainda assim, você não entendeu o que eu quis dizer. Para simplificar, imagine que você possa iterativamente, de acordo com o algoritmo de otimização, verificar à força todos os resultados das variantes entre as quais você precisa fazer uma escolha, e essa escolha aproximará o modelo de uma meta específica em todas as amostras disponíveis. E, aqui no bolso, há esse modelo (ou coeficientes - como você quiser chamá-lo), que é bom para os dados disponíveis, mas não é necessariamente a melhor opção. Ou seja, o algoritmo dá uma olhada no que será o FF nos dados finais ao escolher uma etapa para resolver em uma iteração. É isso que estou dizendo: quando você não observa, pode acidentalmente obter um bom resultado que dependia de etapas aleatórias. Estamos falando de dados de mercado. E o resultado pode se tornar ruim quando novos dados são fornecidos. De qualquer forma, o que quero dizer é que não é fácil entender se você obteve um bom modelo por acaso ou devido a um algoritmo , em uma subamostra não representativa.

5. Portanto, o uso é o mesmo do otimizador padrão com sua genética e FFs padrão. A admissibilidade aqui se refere à probabilidade de obter um modelo estável (configurações) em novos dados. Está claro o que será pesquisado e encontrado....

6. A propósito, você já avaliou como os algoritmos lidam com recursos categóricos?

7. Muitos algoritmos usam randomização para variabilidade. Você não encontrou nenhum fora do MOE? Se você quiser repetir o resultado, fixe a semente.

É necessário comparar não apenas um modelo, mas pelo menos uma centena deles, de acordo com alguns critérios estatísticos descritivos. Apenas a probabilidade de escolher as configurações corretas (modelo) pode ser estimada com base em novos dados...

8. A descida de gradiente é usada como um método eficiente de utilização de recursos computacionais. Há métodos mais complicados e mais pesados, como o palestrante mencionou em um vídeo, mas eu não me lembrava, só entendi a lógica.

1. A discordância, ao que me parece, é que os oponentes dos algoritmos de otimização negam sua aplicabilidade em dados de mercado, embora não percebam ativamente (ou finjam não perceber) que os AOs estão presentes de uma forma ou de outra nas mesmas redes neurais e em outras ferramentas de MO.

2. Qual é o grau de robustez necessário? Um pouco ou um pouco mais? É necessário atingir a máxima estabilidade possível em novos dados; essa é a função de adequação que precisa ser maximizada.

3. ...

4 O algoritmo de otimização não é o único componente do processo de otimização (por algum motivo, todos se esquecem disso). A AO em si pode ser comparada à gasolina de um carro, que não se importa para onde o carro vai; se a gasolina for ruim, o carro pode não ir, e quanto melhor for a gasolina, mais rápido o carro pode ir (ou seja, atingir a meta mais rapidamente). Já dei um exemplo várias vezes para entender o papel da AO no processo de otimização, dei um esquema. Deixe-me lembrá-lo novamente: vamos imaginar que seja possível fazer uma busca completa de parâmetros (seja uma simples TC ou usando métodos MO) e obter o valor da função de adequação desses parâmetros; então, como podemos ver, o algoritmo de otimização não está envolvido nesse exemplo, mas ainda é necessário escolher entre todos os parâmetros da busca completa. É possível observar que o AO sempre atua como um acelerador do resultado, ele próprio não participa da correção da seleção do resultado (a função de adequação é apenas um parâmetro externo para o AO). Somente a função de adequação participa da correção da seleção de resultados (a correção pode ser entendida como qualquer coisa, inclusive a capacidade de operar com sucesso o TS em novos dados). Portanto, no contexto de falar sobre a robustez ou a capacidade do sistema de trabalhar com sucesso com novos dados, não se deve olhar para a AO, mas para a função de adequação, em que ela consiste e tudo o que precede o desempenho da função de adequação (o desempenho da avaliação da decisão).

5. Veja os parágrafos anteriores.

6. Em processo de pesquisa sobre esse tópico. No momento, está sendo verificado um artigo sobre esse tópico. Pensando em continuar a expô-lo (o tópico).

7. Randomizar o estado inicial dos parâmetros do sistema, não para obter resultados aleatórios na saída, mas para cobrir a maior área possível de possíveis variantes de parâmetros. A saída não deve ser aleatória, mas um resultado bastante definido (em termos de robustez - o máximo da função de adequação que descreve em si mesma e o índice de robustez). Aqui é conveniente usar o método de limites, a primeira iteração - parâmetros aleatórios, a última iteração - parâmetros necessários. Entre eles, a área dos valores da função de adequação, cuja localização mostra a eficiência do algoritmo de otimização, quanto mais à direita do resultado aleatório, pior o AO, respectivamente, quanto mais à esquerda, mais próximo do máximo exigido do resultado ideal (repito, o resultado ideal, que satisfaz a máxima robustez possível do sistema), mais eficiente o AO. Se a rede neural mostrar resultados diferentes, e com grande dispersão, isso significa que o algoritmo usado como parte da rede neural está estupidamente preso em algum lugar no extremo local da função de adequação (a função de perda foi usada).

8. O palestrante provavelmente lhe disse que os algoritmos frequentemente usados para treinar redes ficam presos no extremo local? - Provavelmente não, mas ele enfatizou, suponho, que eles são muito rápidos. Sim, eles são rápidos porque não têm população e, portanto, reduzem o número de execuções necessárias nos dados de treinamento, mas é para isso que foram projetados: para serem rápidos, mas a convergência é afetada (nada neste mundo é gratuito).

Alexey, espero que agora você analise o tópico levantado de um ângulo ligeiramente diferente, diferente daquele aceito no ramo de MO e, em geral, em muitos outros lugares. Os MOSistas são muito parecidos com os crentes que acreditam em muitas coisas (isso não é ruim nem bom, apenas, às vezes, impede que se olhe para muitas coisas do ponto de vista da lógica), ou como alquimistas fanáticos que combinam métodos MOS na esperança de obter a pedra filosofal - um sistema MOS que funcione em OOS. Não sou um oponente do MO, mas sempre tento desmontar as coisas para entender o impacto de cada engrenagem da máquina no resultado.

 
Andrey Dik #:

1. A discordância, a meu ver, é que os oponentes dos algoritmos de otimização negam sua aplicabilidade nos dados de mercado, embora ignorem ativamente (ou finjam não perceber) que os ARs estão presentes de uma forma ou de outra nas mesmas redes neurais e em outras ferramentas de MO.

2. Qual é o grau de robustez necessário? Um pouco ou um pouco mais? É necessário atingir a máxima estabilidade possível em novos dados, essa é a função de aptidão que precisa ser maximizada.

3. ...

4 O algoritmo de otimização não é o único componente do processo de otimização (por algum motivo, todos se esquecem disso). A AO em si pode ser comparada à gasolina de um carro, que não se importa para onde o carro vai; se a gasolina for ruim, o carro pode não ir, e quanto melhor for a gasolina, mais rápido o carro pode ir (ou seja, atingir a meta mais rapidamente). Já dei um exemplo várias vezes para entender o papel da AO no processo de otimização, dei um esquema. Deixe-me lembrá-lo novamente: vamos imaginar que seja possível fazer uma busca completa de parâmetros (seja uma simples TC ou usando métodos MO) e obter o valor da função de adequação desses parâmetros; então, como podemos ver, o algoritmo de otimização não está envolvido nesse exemplo, mas ainda é necessário escolher entre todos os parâmetros da busca completa. É possível observar que o AO sempre atua como um acelerador do resultado, ele próprio não participa da correção da seleção do resultado (a função de adequação é apenas um parâmetro externo para o AO). Somente a função de adequação participa da correção da seleção de resultados (a correção pode ser entendida como qualquer coisa, inclusive a capacidade de operar com sucesso o TS em novos dados). Portanto, no contexto de falar sobre robustez ou a capacidade do sistema de trabalhar com sucesso em novos dados, não se deve olhar para a AO, mas para a função de adequação, em que ela consiste e tudo o que precede o desempenho da função de adequação (o desempenho da avaliação da decisão).

5. Consulte os parágrafos anteriores.

6. No processo de pesquisa desse tópico. Tenho um artigo sobre esse tópico que está sendo verificado no momento. Acho que continuarei a explorá-lo (o tópico).

7. Randomize o estado inicial dos parâmetros do sistema, não para obter resultados aleatórios na saída, mas para cobrir a maior área possível de possíveis variantes de parâmetros. A saída não deve ser aleatória, mas um resultado bastante definido (em termos de robustez - o máximo da função de adequação que descreve em si mesma e o índice de robustez). Aqui é conveniente usar o método de limites, a primeira iteração - parâmetros aleatórios, a última iteração - parâmetros necessários. Entre eles, a área dos valores da função de adequação, cuja localização mostra a eficiência do algoritmo de otimização, quanto mais à direita do resultado aleatório, pior o AO, respectivamente, quanto mais à esquerda, mais próximo do máximo exigido do resultado ideal (repito, o resultado ideal, que satisfaz a máxima robustez possível do sistema), mais eficiente o AO. Se a rede neural mostrar resultados diferentes com uma grande dispersão, isso significa que o algoritmo usado na rede neural está preso em algum ponto do extremo local da função de adequação (a função de perda foi usada).

8. O palestrante provavelmente lhe disse que os algoritmos frequentemente usados para treinar redes ficam presos no extremo local? - Provavelmente não, mas ele enfatizou, suponho, que eles são muito rápidos. Sim, eles são rápidos porque não têm população e, portanto, reduzem o número de execuções necessárias nos dados de treinamento por um fator de um, mas foi para isso que foram projetados - para serem rápidos, mas a convergência é afetada (nada neste mundo é gratuito).

Alexey, espero que agora você analise o tópico levantado de um ângulo ligeiramente diferente, diferente daquele aceito no ramo MO e, em geral, em muitos outros lugares. Os MOSistas são muito parecidos com os crentes que acreditam em muitas coisas (isso não é ruim nem bom, apenas, às vezes, impede que se olhe para muitas coisas do ponto de vista da lógica), ou como alquimistas fanáticos que combinam métodos MOS na esperança de obter a pedra filosofal - um sistema MOS que funcione em OOS. Não sou um oponente do MO, mas sempre tento desmontar as coisas para entender o impacto de cada engrenagem da máquina no resultado.

1. Acima, já escrevi sobre a aplicação direta, sobre o fato de que os artigos são considerados não como algoritmos abstratos, mas como um substituto para o algoritmo do otimizador padrão, que deve ser usado com FFs padrão. E essa abordagem não é muito eficaz, como muitas pessoas já perceberam. Isso acontece porque em todo artigo de qualquer autor, o leitor tenta encontrar algo útil para a negociação. É necessário apenas levar isso em consideração e não se ofender com os leitores por isso. Talvez você deva dar exemplos de FFs no artigo que levem em conta não apenas os indicadores que descrevem o resultado financeiro, mas também outros indicadores que o afetam, que estão implícitos, mas não nomeados?

2. A resiliência, nesse contexto, é uma variável binária que resulta da medição do viés da probabilidade de encontrar uma das classes em um segmento preditor quantificado em relação ao número de todos os representantes da classe na amostra. Quando você muda as subamostras, o viés da probabilidade não deve mudar, portanto, essa seria a estabilidade. Isso é como encontrar a estacionariedade em processos não estacionários. Em seguida, o modelo é criado com base nesses dados, e quanto mais corretamente detectados forem esses segmentos quânticos, maior será a probabilidade de escolhê-los em cada etapa do algoritmo de criação do modelo e, portanto, maior será a probabilidade de criar o modelo necessário. Está claro que a seção de validação de resultados não é avaliada inicialmente. Como resultado, há uma meta, há uma métrica para avaliação, mas o que afeta o resultado não está totalmente claro - precisamos de métricas de avaliação adicionais.

Abaixo está um gráfico que mostra a probabilidade (porcentagem) de selecionar um segmento quântico estável do pool em cada iteração do algoritmo de criação de modelos para cada uma das duas classes.

4. Já escrevi no primeiro parágrafo, e aqui só vou repetir que as pessoas tentem entender por que precisam dele e entendam a alternativa ao otimizador padrão com sua genética. Quais outros parâmetros que estão longe do mercado devem ser definidos no FF - isso não está claro para a maioria das pessoas.

7. Eu não escrevi que o objetivo é obter resultados aleatórios na saída. O objetivo é considerar diferentes maneiras de encontrar uma solução, incluindo a alteração do cenário abstrato de diferentes dimensões.

8. Acho que não é correto presumir que as pessoas que têm conhecimento em seu campo não têm o conhecimento e a experiência necessários. Isso se aplica tanto ao palestrante abstrato quanto a muitos membros do fórum. Às vezes, antes de provar sua posição, você deve entender a lógica de seu oponente. Estamos envolvidos em uma direção de desenvolvimento, pode haver diferentes pontos de vista sobre a situação, que podem mudar, portanto, não é produtivo pensar categoricamente. E se você afirmar algo referente à sua experiência - eu fiz isso e aquilo, mas o resultado foi triste, acho que é porque "isso...". - então talvez alguém sugira uma solução ou compartilhe seu resultado com dados iniciais semelhantes.

Tudo o que você escreveu sobre seu trabalho até agora aqui, eu li seus artigos, como acho que muitos outros que escreveram comentários sobre eles também leram. É a suposição de que as pessoas são subdesenvolvidas, o que é evidente em suas crenças, que leva a conflitos com você. Observo que o tópico sobre MO é apenas um exemplo de um tópico em que qualquer afirmação ou abordagem é questionada, procurando um motivo pelo qual um método é ineficaz, mesmo que pareça ser eficaz. É por isso que vejo preconceito nos julgamentos de sua parte. Muitos participantes do tópico sobre MO não são fundamentados em suas afirmações, mas nem sempre é por não terem esses argumentos. Acho que é uma deformidade ocupacional. Sim, isso pode ser frustrante.

Se você acha que tem um conhecimento mais profundo da questão, entende bem a matemática do processo e quer beneficiar as pessoas, então preste atenção às abordagens dos missionários nos tempos antigos - encontre um ponto em comum e dialogue a partir daí. E se você não quiser fazer isso, pode simplesmente ignorar os outros representantes com suas opiniões e crenças. Quem precisa ler seus pensamentos inteligentes tirará as conclusões necessárias por si mesmo.

Em geral, tentei mostrar a você o outro lado da causa do conflito, na esperança de que ele pare e que seus participantes ouçam uns aos outros e comecem a tratar adequadamente as críticas, sem insultos mútuos.

 
Aleksey Vyazmikin #:

8.

Você não percebe que, com essa mensagem, não está extinguindo o conflito, mas adicionando óleo ao fogo?

Se você não fez isso intencionalmente, sugiro que todos finjam que o ponto 8. da postagem de Aleksey Vyazmikin simplesmente não existe.

 
Gosto da interpretação de Alexei, pois ela se aproxima da situação real. Mas também podemos acrescentar que você não deve ensinar de forma agressiva o que você mesmo ainda não entendeu completamente. Especialmente se você não tiver resultados que o sustentem. Você pode provar seu ponto de vista com referências a artigos científicos confiáveis (como é feito no tópico MO) ou de outras formas que devem resumir a essência da narrativa, sem dogmas subjetivos. Por exemplo, estou trabalhando com redes neurais há 20 anos e agora sou o mais inteligente.