Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
CS480/680 Aula 6: Redes soma-produto (Pranav Subramani)
CS480/680 Aula 6: Redes soma-produto (Pranav Subramani)
A palestra discute os conceitos de redes soma-produto (SPN), que são redes compostas de somas e produtos, usadas para modelagem probabilística tratável que produz tempos de execução não exponenciais e tem muitas aplicações, como interpretabilidade e fácil cálculo de densidade marginal. O vídeo também menciona o excelente desempenho do SPN com redes neurais convolucionais, seu potencial na construção de modelos generativos melhores quando combinados com modelos como GANs e codificadores de variação de água, e as áreas de pesquisa potenciais inexploradas para SPNs, incluindo robustez adversária, cenários de aprendizado por reforço e utilidades esperadas de modelagem em jogos. A garantia teórica de interpretação do modelo e a oportunidade de acadêmicos fazerem contribuições significativas na área de aprendizado de máquina também foram destacadas.
CS480/680 Aula 6: EM e modelos de mistura (Guojun Zhang)
CS480/680 Aula 6: EM e modelos de mistura (Guojun Zhang)
Na aula 6 do CS480/680, o professor Guojun Zhang discute os fundamentos do aprendizado não supervisionado e agrupamento, com foco em modelos de mistura e seu uso em agrupamento de dados. A palestra gira em torno do algoritmo Expectation-Maximization e seus processos Estep e Mstep, bem como gradiente descendente como um método de otimização. O potencial projeto proposto envolve estudar como EM e gradiente descendente se comportam em modelos de mistura de aprendizagem, com o objetivo final de propor um algoritmo melhor para evitar mínimos locais ruins. Um conhecimento matemático é apontado como necessário para o projeto.
CS480/680 Aula 6: Compressão de modelo para PNL (Ashutosh Adhikari)
CS480/680 Aula 6: Compressão de modelo para PNL (Ashutosh Adhikari)
Neste vídeo, o apresentador discute o conceito de compressão de modelo para NLP e os desafios de tempo de processamento e requisitos de memória à medida que o número e a profundidade das redes neurais profundas aumentam. As técnicas de compressão de modelo são categorizadas e o método mais antigo, corte e compartilhamento de parâmetros, é apresentado. O palestrante elabora ainda mais o conceito de um sistema aluno-professor para compressão de modelo em NLP e como a função objetiva é usada para comprimir um modelo maior em um modelo menor de aluno, mantendo a precisão. Por fim, destaca-se a importância potencial de comprimir modelos no contexto de trabalhos recentes sobre o desenvolvimento de modelos de PNL em larga escala.
CS480/680 Aula 7: Mistura de Gaussianas
CS480/680 Aula 7: Mistura de Gaussianas
Nesta palestra sobre mistura de gaussianas, o palestrante explica como o modelo pode ser utilizado para classificação construindo uma distribuição a priori para cada classe, o que possibilita a construção de um modelo probabilístico utilizando o teorema de Bayes para estimar a probabilidade de uma classe para um determinado ponto de dados. A palestra também aborda o processo de cálculo da probabilidade de um ponto de dados pertencer a uma determinada classe e como isso é usado para determinar a previsão da classe. As notas de aula exploram a relação entre a função softmax e a distribuição de arco máximo e como a forma e os limites do gaussiano são determinados pela matriz de covariância. Finalmente, a palestra detalha o processo de aprendizado de máxima verossimilhança e como ele pode ser usado para estimar a média e a matriz de covariância para uma mistura de modelo gaussiano.
CS480/680 Aula 8: Regressão logística e modelos lineares generalizados
CS480/680 Aula 8: Regressão logística e modelos lineares generalizados
Esta primeira parte da palestra sobre "CS480/680: Regressão Logística e Modelos Lineares Generalizados" apresenta a ideia da família exponencial de distribuições e sua relação com a regressão logística, uma poderosa técnica utilizada para problemas de classificação. A palestra explica que a regressão logística visa ajustar a melhor função logística que modela a posterior para um determinado conjunto de dados, e para problemas com poucas dimensões e pesos, o método de Newton pode ser usado para encontrar o mínimo da função objetivo, que é uma função convexa função. O instrutor também destaca a importância da regressão logística em sistemas de recomendação e colocação de anúncios, onde a simplicidade e eficiência da técnica a tornam ideal para fazer recomendações personalizadas com base nas características e comportamentos do usuário.
A palestra também aborda o tema da regressão logística e modelos lineares generalizados. O instrutor discute as limitações do método de Newton para regressão logística, como a questão do overfitting causado por pesos grandes arbitrários e problemas de singularidade na matriz Hessiana. Para evitar overfitting, a regularização é sugerida. O instrutor apresenta modelos lineares generalizados (GLMs) que podem ser usados para trabalhar com separadores não lineares de forma eficiente. Os GLMs envolvem o mapeamento das entradas para um novo espaço onde a regressão linear e a classificação podem ser feitas de maneira não linear, desde que o mapeamento seja não linear. A palestra também cobre funções básicas e seus tipos que podem ser usados para realizar regressão não linear e classificação.
CS480/680 Aula 9: Perceptrons e redes neurais de camada única
CS480/680 Aula 9: Perceptrons e redes neurais de camada única
Esta palestra apresenta redes neurais com foco no tipo elementar, o perceptron, que produz um separador linear para classificação. A palestra explora como os pesos são usados para calcular uma combinação linear de entradas que passam por uma função de ativação para produzir saídas, e como diferentes pesos podem ser usados para aproximar portas lógicas como portas AND, OR e NOT. O palestrante discute a rede neural feedforward e como o algoritmo de aprendizado perceptron é usado para classificação binária e como a descida de gradiente pode otimizar pesos. As limitações do uso de uma linha para separar os dados são discutidas e a função de ativação sigmóide logística é apresentada como uma possível solução, com foco em como os pesos podem ser treinados usando a função de ativação sigmóide logística.
Esta palestra sobre Perceptrons e redes neurais de camada única aborda o uso de funções logísticas de ativação sigmoide para minimizar o erro quadrado e a introdução da taxa de aprendizado como um parâmetro crucial na descida de gradiente sequencial. O palestrante também demonstra como as redes neurais com várias camadas podem ser compostas para aproximar qualquer função arbitrariamente usando funções de retenção de lixo e como a retropropagação pode ser usada para treinar uma rede para aprender funções arbitrárias. O instrutor enfatiza a versatilidade e eficiência das redes neurais, citando seu uso generalizado na solução de vários problemas, como reconhecimento de fala, visão computacional, tradução automática e incorporação de palavras.
CS480/680 Aula 10: Redes neurais multicamadas e retropropagação
CS480/680 Aula 10: Redes neurais multicamadas e retropropagação
Esta palestra sobre redes neurais multicamadas e retropropagação explica as limitações dos modelos lineares e a necessidade de modelos não lineares, como redes neurais multicamadas. O palestrante discute as diferentes funções de ativação que podem ser usadas em redes neurais e como elas permitem funções de base não lineares. A palestra continua explicando como o algoritmo de retropropagação é usado para calcular o gradiente do erro em relação a cada peso em uma rede neural. Ferramentas de diferenciação automática também são discutidas como uma forma de calcular eficientemente os deltas e gradientes em uma rede neural. No geral, a palestra enfatiza a flexibilidade e o poder das redes neurais em aproximar uma ampla gama de funções.
O palestrante neste vídeo discute questões de otimização de redes neurais, como convergência lenta, otimização local, otimização não convexa e overfitting. Para superar a convergência lenta, técnicas como regularização e dropout podem ser usadas. Além disso, o palestrante explica o comportamento da descida do gradiente para otimização, destacando a necessidade de otimizar o tamanho do passo para melhorar sua eficiência. O algoritmo DES grant é proposto como uma solução, que ajusta a taxa de aprendizado de cada dimensão separadamente. O palestrante também apresenta o RMSProp, uma média móvel ponderada de gradientes anteriores. Por fim, o palestrante discute Adam, que envolve obter uma média móvel ponderada do próprio gradiente, e mostra que ele supera outras técnicas, como SGD Nesterov.
CS480/680 Aula 11: Métodos do Kernel
CS480/680 Aula 11: Métodos do Kernel
Nesta palestra, o conceito de métodos kernel é apresentado como uma forma de escalar modelos lineares generalizados mapeando dados de um espaço para um novo espaço usando uma função não linear. O dual trick ou kernel trick é explicado como uma técnica que permite trabalhar em espaços de alta dimensão sem pagar custos adicionais, levando ao uso de uma função kernel que calcula o produto escalar de pares de pontos no novo espaço. Vários métodos para construir kernels são discutidos, incluindo os kernels polinomiais e gaussianos, que podem ser usados para medir similaridade entre pontos de dados e são úteis em tarefas de classificação. Regras para compor kernels também são introduzidas para construir novos kernels que podem controlar sua complexidade. A palestra enfatiza a importância de escolher funções que tenham correspondência com Phi transposta Phi, pois a matriz gram deve ser positiva semidefinida e ter autovalores maiores ou iguais a zero.
Nesta palestra sobre métodos de kernel, o palestrante define kernels como funções semidefinidas positivas que podem ser decompostas em uma matriz multiplicada por sua transposta. Vários tipos de kernels, como polinomial e gaussiano, e suas aplicações são discutidas para comparar diferentes tipos de dados, como strings, conjuntos e gráficos. O palestrante também explica como os núcleos de substring podem calcular rapidamente a similaridade entre palavras aumentando o comprimento das substrings e usando programação dinâmica. Além disso, as máquinas de vetores de suporte mostraram-se eficazes na classificação de documentos usando artigos de notícias da Reuters.
CS480/680 Aula 13: Máquinas de vetores de suporte
CS480/680 Aula 13: Máquinas de vetores de suporte
Esta palestra é uma introdução ao suporte a máquinas vetoriais (SVMs) como um tipo de método de kernel usado para classificação. Os SVMs ainda são populares para problemas com poucos dados e são considerados esparsos, pois podem trabalhar com um subconjunto dos dados e ignorar o resto. O palestrante explica o conceito de vetores de suporte, que são os pontos de dados mais próximos do limite de decisão e o exemplo visual de SVMs encontrando um separador linear para separar classes enquanto maximizam a margem. As diferenças entre SVMs e perceptrons são discutidas, com SVMs empregando um separador linear de margem máxima exclusivo e sendo menos propensos a overfitting. O problema de otimização para SVMs pode ser reescrito usando o Lagrangeano, resultando em um problema equivalente sem restrições. A solução obtida do Lagrangeano pode ser substituída de volta para obter uma expressão que envolve a função kernel, levando a uma otimização de problema dual. Os benefícios de trabalhar no espaço dual com uma função kernel que calcula a similaridade entre pares de pontos de dados também são explicados. Os SVMs calculam o grau de similaridade entre um ponto de consulta e todos os vetores de suporte para determinar os mais semelhantes, e a discussão também gira em torno do número de vetores de suporte e como isso afeta a classificação dos pontos.
Este vídeo discute o conceito de máquinas de vetores de suporte (SVMs) na categorização de texto, onde os documentos são representados como vetores de contagem de palavras. Os SVMs são eficazes em minimizar a perda de pior caso, tornando o classificador adequado para qualquer amostra possível, mesmo para conjuntos de dados diferentes. Os pesquisadores usaram SVMs com representação dupla e mapeamento de kernel para mapear dados em um espaço dimensional ainda maior, sem perder a precisão ou sacrificar a escalabilidade. A palestra também aborda o uso de SVMs na recuperação de documentos relevantes de um conjunto de dados e equilíbrio entre precisão e recuperação. O vídeo termina com uma discussão sobre a capacidade dos SVMs de fornecer separadores lineares ou não lineares para dados e os desafios associados à classificação multiclasse e dados não linearmente separáveis.
CS480/680 Aula 14: Máquinas de vetores de suporte (continuação)
CS480/680 Aula 14: Máquinas de vetores de suporte (continuação)
Esta seção da palestra é focada no tratamento de dados não linearmente separáveis e classes sobrepostas ao usar máquinas de vetor de suporte (SVMs), introduzindo variáveis de folga e considerando uma margem flexível. O palestrante explica como as variáveis de folga permitem que os pontos dentro da margem sejam classificados sem introduzir um erro de classificação. Um termo de penalidade é adicionado ao problema de otimização para regular o uso de variáveis de folga, controladas pelo peso C, que ajusta o trade-off entre minimização de erros e complexidade do modelo. O palestrante também discute diferentes abordagens para o uso de SVMs para problemas de classificação multiclasse, incluindo um contra todos, comparação pareada e classificação contínua, sendo esta última a abordagem de fato para SVMs com várias classes. Adicionalmente, é introduzido o conceito de margem multiclasse, que envolve um buffer em torno do separador linear, definido pela diferença de vetores de peso para cada par de classes.