O que alimentar a entrada da rede neural? Suas ideias... - página 58
Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
A generalização é mais parecida com a subaprendizagem. Ou seja, eles se lembraram, mas não com absoluta precisão (eles também envolveram os vizinhos...). Quase como um colegial com um "C"))
Mas se memorizarmos algo definido por uma lei (por exemplo, a lei de Ohm), não haverá superaprendizagem; é mais fácil haver subaprendizagem se houver poucos exemplos e um número infinito deles.
No caso da negociação, em que os padrões são quase inexistentes e barulhentos, a memorização absolutamente precisa junto com o ruído resultará em uma perda.Por alguma razão, isso é chamado de superaprendizagem. A memorização precisa não é prejudicial em si mesma, como no caso do aprendizado de padrões. A memorização de ruído/lixo, por outro lado, não é benéfica.
O que há de errado com a definição usual de aprendizado - atribuir valores específicos aos parâmetros do modelo?
A definição usual de aprendizado como atribuição de valores específicos aos parâmetros do modelo pode ser insuficiente por vários motivos:
Incompletude da descrição do processo: O treinamento do modelo envolve não apenas a atribuição de valores aos parâmetros, mas também o processo de otimização desses parâmetros com base nos dados. Esse processo pode incluir a seleção de um algoritmo de otimização, o ajuste de hiperparâmetros, a seleção de uma função de perda e outros aspectos que não são cobertos pela simples atribuição de valores.
Ignorar a dinâmica do aprendizado: o treinamento do modelo é um processo dinâmico que pode envolver muitas iterações e etapas. A atribuição simples de valores não capta essa natureza iterativa, em que os parâmetros são gradualmente ajustados para minimizar o erro.
Falta de contexto de dados: o treinamento de modelos é orientado por dados e o processo de treinamento envolve a análise e a interpretação desses dados. A simples atribuição de valores não leva em conta como os dados são usados para treinar o modelo e como isso afeta os parâmetros finais.
Não levar em conta a generalização: o objetivo do treinamento do modelo não é apenas minimizar o erro nos dados de treinamento, mas também a capacidade do modelo de generalizar seu conhecimento para dados novos e não vistos. A simples atribuição de valores não capta esse aspecto da generalização.
Ignorar a validação e o teste: o processo de treinamento também envolve a validação e o teste do modelo para avaliar seu desempenho e evitar o treinamento excessivo. A simples atribuição de valores não leva em conta essas etapas importantes.
Portanto, uma definição mais completa de aprendizado de modelo deve incluir um processo de otimização de parâmetros orientado por dados, levando em conta a dinâmica do aprendizado, o contexto dos dados, a capacidade de generalização e as etapas de validação e teste.
Sobre o treinamento...
Há alguns anos, encontrei essa expressão em um site comum (não técnico): bancos de dados baseados em redes neurais. Em geral, concordei com esse termo para mim.
Eu mesmo faço árvores - um banco de dados baseado em árvores também é aplicável. 1 folha em uma árvore = 1 linha em um banco de dados. Diferenças:
Vantagens das árvores em relação aos bancos de dados: generalização e busca rápida da folha desejada - não é necessário passar por um milhão de linhas, a folha pode ser alcançada por meio de várias divisões.
O agrupamento também generaliza. Kmeans - pela proximidade dos exemplos ao centro do cluster, outros métodos são diferentes.
Conclusão: aprendizado de árvore = memorização/registro de exemplos, assim como um banco de dados. Se você interromper a divisão/aprendizado antes da memorização mais precisa possível, vocêmemoriza com generalização.Você também pode dividir pelo número máximo de clusters = número de exemplos e obterá um análogo de banco de dados/folhas sem generalização. As redes neurais são mais difíceis de entender e compreender, mas, em essência, também são um banco de dados, embora não sejam tão óbvias quanto as folhas e os clusters.
Andrew, é claro, quer levantar a questão de que o aprendizado é otimização. Não - é memorização. Mas a otimização também está presente. Você pode otimizar as variações com a profundidade do aprendizado, métodos divididos, etc. Cada etapa da otimização treinará um modelo diferente. Mas o aprendizado não é otimização. É memorização.
Sobre o treinamento...
Há alguns anos, encontrei essa expressão em um site comum (não técnico): bancos de dados baseados em redes neurais. Em geral, concordei com esse termo para mim.
Eu mesmo faço árvores - um banco de dados baseado em árvores também é aplicável. 1 folha em uma árvore = 1 linha em um banco de dados. Diferenças:
Vantagens das árvores em relação aos bancos de dados: generalização e busca rápida da folha desejada - não é necessário passar por um milhão de linhas, a folha pode ser alcançada por meio de várias divisões.
O agrupamento também generaliza. Kmeans - pela proximidade dos exemplos ao centro do cluster, outros métodos são diferentes.
Conclusão: aprendizado de árvore = memorização/registro de exemplos, assim como um banco de dados. Se você interromper a divisão/aprendizado antes da memorização mais precisa possível, vocêmemoriza com generalização.Você também pode dividir pelo número máximo de clusters = número de exemplos e obterá um análogo de banco de dados/folhas sem generalização. As redes neurais são mais difíceis de entender e compreender, mas, em essência, também são um banco de dados, embora não sejam tão óbvias quanto as folhas e os clusters.
Andrew, é claro, quer levantar a questão de que o aprendizado é otimização. Não - é memorização. Mas a otimização também está presente. Você pode otimizar as variações com a profundidade do aprendizado, métodos divididos, etc. Cada etapa da otimização treinará um modelo diferente. Mas o aprendizado não é otimização. É memorização.
A qualidade máxima de aprendizagem será com a memorização absolutamente precisa, ou seja, com um registro completo de todos os dados no banco de dados, ou com o treinamento de uma árvore até a última divisão possível ou com o agrupamento com o número de agrupamentos = número de exemplos.
Árvores com parada de divisão mais cedo ou agrupamento com menos agrupamentos - generalizarão e mesclarão dados em folhas/agrupamentos. Esses modelos serão pouco treinados, mas, na presença de ruído, podem ser mais bem-sucedidos do que os modelos com recuperação exata.
Houve um exemplo no início do ramo MO com o ensino da tabuada de multiplicação a um andaime. Como ele não foi alimentado com um número infinito de opções possíveis para treinamento, a floresta produz, às vezes, respostas exatas, mas, na maioria das vezes, respostas aproximadas. Claramente, ela está mal treinada. Mas ela é capaz de generalizar, encontrando e calculando a média das respostas mais próximas das corretas de árvores individuais.
Com o aprendizado com ruído, é difícil avaliar a qualidade. Especialmente se o ruído for muito mais forte do que os padrões, como no comércio.
Para isso, inventaram a avaliação em amostras de validação e teste, validação cruzada, jacking forward etc.A qualidade máxima do treinamento será a memorização absolutamente precisa, ou seja, quando todos os dados estiverem completamente registrados no banco de dados, ou quando se treinar uma árvore até a última divisão ou agrupamento possível com o número de agrupamentos = número de exemplos.
Árvores que param de se dividir mais cedo ou que se agrupam com menos clusters - generalizarão e mesclarão dados em folhas/clusters. Esses modelos serão pouco treinados, mas, na presença de ruído, podem ser mais bem-sucedidos do que os modelos com recuperação exata.
Houve um exemplo no início do ramo MO com o ensino da tabuada de multiplicação a um andaime. Como ele não foi alimentado com um número infinito de opções possíveis para treinamento, a floresta produz, às vezes, respostas exatas, mas, na maioria das vezes, respostas aproximadas. Obviamente, ela é pouco treinada. Mas ela é capaz de generalizar, encontrando e calculando a média das respostas mais próximas das corretas de árvores individuais.
Com o aprendizado com ruído, é difícil avaliar. Especialmente se o ruído for muito mais forte do que os padrões, como no comércio.
O que há de errado com a definição usual de aprendizado - atribuir valores específicos aos parâmetros do modelo?
Ela não capta a essência.
Se começarmos pelo oposto (memorização/lembrança), então o aprendizado é a identificação de certos padrões por meio dos quais você pode criar ou identificar novos conhecimentos. Por exemplo: o Chat escreve poemas sobre um tópico arbitrário.
Maximizar a qualidade do treinamento é maximizar a qualidade das previsões em novos dados. Ninguém está interessado em previsões sobre a amostra de treinamento, porque elas já são conhecidas. Isso não é aprendizado, é aproximação. Você não chama a aproximação de aprendizado.