Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Aula 6 - Teoria da Generalização
Curso de Machine Learning da Caltech - CS 156. Aula 06 - Teoria da Generalização
A palestra discute a teoria da generalização e a função de crescimento como o número de dicotomias que podem ser geradas por uma hipótese definida em um conjunto de N pontos, com o objetivo de caracterizar toda a função de crescimento e generalizar para cada N caracterizando a quebra apontar. O palestrante demonstra o processo de calcular a função de crescimento para diferentes conjuntos de hipóteses e provar o limite superior para a função de crescimento usando identidade combinatória. A discussão também aborda o uso da função de crescimento na desigualdade de Hoeffding, o VC destinado a caracterizar sobreposições entre hipóteses e a desigualdade de Vapnik-Chervonenkis, que é polinomial em N com a ordem do polinomial decidida pelo ponto de quebra.
O professor discute a teoria da generalização, esclarecendo pontos anteriores e explicando o conceito de break point, que é utilizado para calcular os recursos necessários para o aprendizado. O foco do aprendizado está na aproximação para E_out, não E_in, permitindo que o aluno trabalhe com quantidades familiares. O professor também explica o raciocínio por trás da substituição de M pela função de crescimento e como isso está relacionado à quantidade combinatória B de N e k. Ao discutir as funções de regressão, o professor enfatiza a compensação viés-variância e como a capacidade de aprendizado é independente da função de destino. Por fim, o professor observa que os mesmos princípios se aplicam a todos os tipos de funções.
Aula 07 - A Dimensão VC
Curso de Machine Learning da Caltech - CS 156. Aula 07 - A Dimensão VC
A palestra apresenta o conceito de dimensão VC, que é o número máximo de pontos que pode ser quebrado por um conjunto de hipóteses, e explica suas aplicações práticas. A dimensão VC representa os graus de liberdade de um modelo, e sua relação com o número de parâmetros em um modelo é discutida. Exemplos são dados para demonstrar como calcular a dimensão VC para diferentes conjuntos de hipóteses. A relação entre o número de exemplos necessários e a dimensão VC é explorada, e nota-se que existe uma relação proporcional entre os dois. As implicações de aumentar a dimensão VC no desempenho de um algoritmo de aprendizado também são discutidas. No geral, a palestra fornece informações sobre a teoria VC e suas implicações práticas para o aprendizado de máquina.
Além disso, o vídeo aborda o conceito de generalização e o limite de generalização, que é uma afirmação positiva que mostra a compensação entre o tamanho do conjunto de hipóteses e a boa generalização no aprendizado de máquina. O professor explica a dimensão VC, que é o maior valor antes do primeiro ponto de quebra, e como ela pode ser usada para aproximar o número de exemplos necessários. Ele observa a importância de escolher a medida de erro correta e esclarece que a estimativa da dimensão VC é uma estimativa imprecisa que pode ser usada para comparar modelos e aproximar o número de exemplos necessários. A palestra termina destacando as semelhanças entre este material e o tópico de design de experimentos e como os princípios de aprendizagem se estendem a outras situações além dos cenários de aprendizagem estritos.
Aula 8 - Compensação de Viés-Variância
Curso de Machine Learning da Caltech - CS 156. Aula 08 - Troca de Viés-Variação
O professor discute a compensação de viés-variância no aprendizado de máquina, explicando como a complexidade do conjunto de hipóteses afeta a compensação entre generalização e aproximação. O palestrante apresenta o conceito de viés e variância, que mede o desvio entre a média das hipóteses que um algoritmo de aprendizado de máquina produz e a função de destino real e quanto a distribuição de hipóteses de um determinado modelo varia com base em diferentes conjuntos de dados, respectivamente. A compensação resulta em um conjunto de hipóteses maior com um viés menor, mas uma variância maior, enquanto um conjunto de hipóteses menor terá um viés maior, mas uma variância menor. O palestrante enfatiza a importância de ter recursos de dados suficientes para navegar efetivamente no conjunto de hipóteses e destaca a diferença de escala entre a análise de viés-variância e a análise de VC.
Ele também discute a troca entre modelos simples e complexos em termos de sua capacidade de aproximar e generalizar, com menos exemplos exigindo modelos simples e maiores recursos de exemplos exigindo modelos mais complexos. A análise de viés-variância é específica para regressão linear e pressupõe o conhecimento da função de destino, sendo a validação o padrão-ouro para a escolha de um modelo. O aprendizado de conjunto é discutido por meio do Bagging, que usa bootstrapping para calcular a média de vários conjuntos de dados, reduzindo a variação. O equilíbrio entre variância e covariância no aprendizado conjunto também é explicado, e a regressão linear é classificada como uma técnica de aprendizado com ajuste como a primeira parte do aprendizado, enquanto a teoria enfatiza o bom desempenho fora da amostra.
Aula 9 - O Modelo Linear II
Curso de Machine Learning da Caltech - CS 156. Aula 09 - O Modelo Linear II
Esta palestra cobre vários aspectos do modelo linear, incluindo a decomposição de viés-variância, curvas de aprendizado e técnicas para modelos lineares, como perceptrons, regressão linear e regressão logística. O palestrante enfatiza a compensação entre complexidade e desempenho de generalização, alertando contra o overfitting e enfatizando a importância de cobrar adequadamente a dimensão VC do espaço de hipóteses para garantias válidas. O uso de transformadas não lineares e seu impacto no comportamento de generalização também é discutido. A palestra cobre ainda mais a função logística e suas aplicações na estimativa de probabilidades e apresenta os conceitos de probabilidade e medidas de erro de entropia cruzada no contexto da regressão logística. Finalmente, métodos iterativos para otimizar a função de erro, como gradiente descendente, são explicados.
Além disso, a palestra abrange uma variedade de tópicos relacionados a modelos lineares e algoritmos de otimização em aprendizado de máquina. O professor explica o compromisso entre taxa de aprendizado e velocidade na otimização gradiente descendente, apresentando o algoritmo de regressão logística e discutindo suas medidas de erro e algoritmo de aprendizado. Os desafios de terminação em gradiente descendente e classificação multiclasse também são abordados. O papel da derivação e seleção de recursos no aprendizado de máquina é enfatizado e discutido como uma arte em domínios de aplicação, cobrado em termos de dimensão VC. No geral, esta palestra fornece uma visão geral abrangente de modelos lineares e algoritmos de otimização para aprendizado de máquina.
Aula 10 - Redes Neurais
Curso de Machine Learning da Caltech - CS 156. Aula 10 - Redes Neurais
Yaser Abu-Mostafa, professor do Instituto de Tecnologia da Califórnia, discute regressão logística e redes neurais nesta palestra. A regressão logística é um modelo linear que calcula uma interpretação de probabilidade de uma função de valor real limitada. É incapaz de otimizar sua medida de erro diretamente, então o método de gradiente descendente é introduzido para minimizar uma função não linear arbitrária que é suave o suficiente e duas vezes diferenciável. Embora não haja solução de forma fechada, a medida de erro é uma função convexa, tornando-a relativamente fácil de otimizar usando gradiente descendente.
A descida do gradiente estocástico é uma extensão da descida do gradiente que é usada em redes neurais. As redes neurais são um modelo que implementa uma hipótese motivada por um ponto de vista biológico e relacionada a perceptrons. O algoritmo de retropropagação é um algoritmo eficiente que acompanha as redes neurais e torna o modelo particularmente prático. O modelo tem um link biológico que deixou as pessoas empolgadas e foi fácil de implementar usando o algoritmo. Embora não seja o modelo de escolha atualmente, as redes neurais foram bem-sucedidas em aplicações práticas e ainda são usadas como padrão em muitos setores, como o bancário e o de aprovação de crédito.
Sumário breve:
Aula 11 - Sobreajuste
Curso de Machine Learning da Caltech - CS 156. Aula 11 - Overfitting
Esta palestra apresenta o conceito e a importância do overfitting no aprendizado de máquina. O overfitting ocorre quando um modelo é treinado no ruído em vez do sinal, resultando em um ajuste fora da amostra ruim. A palestra inclui vários experimentos para ilustrar os efeitos de diferentes parâmetros, como nível de ruído e complexidade do alvo, no overfitting. O palestrante destaca a importância da detecção precoce do overfitting e o uso de técnicas de regularização e validação para preveni-lo. O impacto do ruído determinístico e estocástico no overfitting também é discutido, e a palestra termina apresentando as próximas duas palestras sobre como evitar o overfitting por meio de regularização e validação.
O conceito de overfitting é discutido e a importância da regularização na prevenção é enfatizada. O professor destaca o trade-off entre overfitting e underfitting e explica o papel da dimensão VC no overfitting, onde a discrepância na dimensão VC dado o mesmo número de exemplos resulta em discrepâncias nos erros fora da amostra e dentro da amostra. A questão prática de validar um modelo e como isso pode afetar o overfitting e a seleção do modelo também é abordada. Além disso, o professor enfatiza o papel das funções lineares por partes na prevenção do overfitting e destaca a importância de considerar o número de graus de liberdade no modelo e restringi-lo por meio da regularização.
Aula 12 - Regularização
Curso de Machine Learning da Caltech - CS 156. Aula 12 - Regularização
Esta palestra sobre regularização começa com uma explicação sobre overfitting e seu impacto negativo na generalização de modelos de aprendizado de máquina. Duas abordagens para regularização são discutidas: matemática e heurística. A palestra então investiga o impacto da regularização no viés e variância em modelos lineares, usando o exemplo dos polinômios de Legendre como componentes de expansão. A relação entre C e lambda na regularização também é abordada, com uma introdução ao erro aumentado e seu papel em justificar a regularização para generalização. Técnicas de decaimento/crescimento de peso e a importância de escolher o regularizador certo para evitar overfitting também são discutidas. A palestra termina com foco na escolha de um bom ômega como exercício heurístico e espera que o lambda sirva como uma graça salvadora para a regularização.
A segunda parte discute o decaimento de peso como forma de balancear a simplicidade da rede com sua funcionalidade. O palestrante adverte contra o excesso de regularização e desempenho não ideal, enfatizando o uso de validação para determinar parâmetros de regularização ideais para diferentes níveis de ruído. A regularização é discutida como experimental com base na teoria e na prática. Tipos comuns de regularização, como L1/L2, parada antecipada e abandono, são apresentados, além de como determinar o método de regularização apropriado para diferentes problemas. Hiperparâmetros comuns associados à implementação de regularização também são discutidos.
Aula 13 - Validação
Curso de Machine Learning da Caltech - CS 156. Aula 13 - Validação
Na aula 13, o foco está na validação como uma técnica importante em aprendizado de máquina para seleção de modelos. A palestra aborda as especificidades da validação, incluindo por que ela é chamada de validação e por que é importante para a seleção do modelo. A validação cruzada também é discutida como um tipo de validação que permite o uso de todos os exemplos disponíveis para treinamento e validação. O palestrante explica como estimar o erro fora da amostra usando a variável aleatória que pega um ponto fora da amostra e calcula a diferença entre a hipótese e o valor alvo. A palestra também discute o viés introduzido ao usar a estimativa para escolher um determinado modelo, pois ele não é mais confiável, pois foi selecionado com base no conjunto de validação. O conceito de validação cruzada é introduzido como um método para avaliar o erro fora da amostra para diferentes hipóteses.
Ele também aborda o uso de validação cruzada para seleção e validação de modelos para evitar overfitting, com foco em "deixar um de fora" e validação cruzada de 10 vezes. O professor demonstra a importância de contabilizar a discrepância fora da amostra e a espionagem de dados e sugere a inclusão de métodos aleatórios para evitar o viés de amostragem. Ele explica que, embora a validação cruzada possa adicionar complexidade, combiná-la com a regularização pode selecionar o melhor modelo e, como a validação não requer suposições, é única. O professor explica ainda como a validação cruzada pode ajudar a fazer escolhas baseadas em princípios, mesmo ao comparar diferentes cenários e modelos, e como o total de pontos de validação determina a barra de erro e o viés.
Aula 14 - Máquinas de Vetores de Suporte
Curso de Machine Learning da Caltech - CS 156. Aula 14 - Support Vector Machines
A palestra aborda a importância da validação e seu uso no aprendizado de máquina, bem como as vantagens da validação cruzada sobre a validação. O foco da palestra está nas máquinas de vetores de suporte (SVMs) como o modelo de aprendizado mais eficaz para classificação, com um esboço detalhado da seção que envolve a maximização da margem, formulação e soluções analíticas por meio da otimização restrita apresentada. A palestra cobre uma variedade de detalhes técnicos, incluindo como calcular a distância entre um ponto e um hiperplano em SVMs, como resolver o problema de otimização para SVMs e como formular o problema de otimização SVM em sua formulação dupla. O palestrante também aborda os aspectos práticos do uso da programação quadrática para resolver o problema de otimização e a importância da identificação de vetores de suporte. A palestra termina com uma breve discussão sobre o uso de transformações não lineares em SVMs.
Na segunda parte desta palestra sobre máquinas de vetores de suporte (SVM), o palestrante explica como o número de vetores de suporte dividido pelo número de exemplos dá um limite superior na probabilidade de erro na classificação de um ponto fora da amostra, tornando o uso de vetores suporte com transformação não linear factível. O professor também discute a normalização de w transposto x mais b para 1 e sua necessidade de otimização, bem como a versão soft-margin do SVM, que permite erros e os penaliza. Além disso, é explicada a relação entre o número de vetores de suporte e a dimensão VC, e é mencionada a resistência do método ao ruído, sendo a versão soft do método utilizada em casos de dados ruidosos.
Aula 15 - Métodos Kernel
Curso de Machine Learning da Caltech - CS 156. Aula 15 - Métodos do Kernel
Esta palestra sobre métodos de kernel apresenta as máquinas de vetor de suporte (SVMs) como um modelo linear que é mais voltado para o desempenho do que os modelos de regressão linear tradicionais devido ao conceito de maximizar a margem. Se os dados não forem separáveis linearmente, as transformações não lineares podem ser usadas para criar superfícies onduladas que ainda permitem hipóteses complexas sem pagar um alto preço em complexidade. O vídeo explica os métodos do kernel que vão para o espaço Z de alta dimensão, explicando como calcular o produto interno sem calcular os vetores individuais. O vídeo também descreve as diferentes abordagens para obter um kernel válido para problemas de classificação e explica como aplicar o SVM a dados não separáveis. Por fim, o vídeo explica o conceito de folga e quantifica a violação de margem no SVM, introduzindo uma variável xi para penalizar a violação de margem e revisando a formulação lagrangiana para resolver alfa.
A segunda parte aborda aspectos práticos do uso de máquinas de vetores de suporte (SVMs) e métodos de kernel. Ele explica o conceito de máquinas vetoriais de suporte de margem flexível e como elas permitem alguns erros de classificação, mantendo uma margem ampla. Ele fala sobre a importância do parâmetro C, que determina quanta violação pode ocorrer, e sugere o uso de validação cruzada para determinar seu valor. Ele também aborda preocupações sobre a coordenada constante em dados transformados e garante aos usuários que ela desempenha o mesmo papel que o termo de viés. Além disso, ele discute a possibilidade de combinar kernels para produzir novos kernels e sugere métodos heurísticos que podem ser usados quando a programação quadrática falha na solução de SVMs com muitos pontos de dados.