Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
Aula 22. Descida Gradiente: Descida ao Mínimo
22. Descida Gradiente: Descida ao Mínimo
No vídeo, "Gradient Descent: Downhill to a Minimum", o palestrante discute a importância da descida do gradiente na otimização e aprendizado profundo, onde o objetivo é minimizar uma função. O palestrante apresenta o gradiente e o Hessian e ilustra as etapas de descida mais íngreme usando uma função quadrática. O palestrante também discute como interpretar o gradiente e o Hessian, bem como seu papel na medição da convexidade. O palestrante se aprofunda na escolha da taxa de aprendizado apropriada, enfatizando a importância do número de condição no controle da velocidade de convergência. O vídeo também fornece exemplos práticos e fórmulas para ajudar a entender o conceito de gradiente descendente, incluindo o método da bola pesada.
Aula 23. Acelerando a Descida do Gradiente (Use Momentum)
23. Acelerando a Descida do Gradiente (Usar Momentum)
Este vídeo discute o conceito de momento na aceleração do gradiente descendente. O apresentador explica a fórmula básica de descida do gradiente e mostra como a adição de impulso pode resultar em uma descida mais rápida do que o método comum, resultando em melhorias significativas. Eles também discutem um modelo contínuo de descida mais íngreme e explicam como ele pode ser analisado como uma equação diferencial de segunda ordem com um termo de momento. O apresentador enfatiza a importância de minimizar ambos os autovalores ao usar o momento para minimizar o maior autovalor, escolhendo valores para s e beta para tornar os autovalores da matriz os menores possíveis. Eles também discutem o método de Nesterov e sugerem que pode ser possível obter mais melhorias voltando duas ou três etapas ou mais.
Aula 24. Programação Linear e Jogos de Duas Pessoas
24. Programação linear e jogos de duas pessoas
Este vídeo do YouTube aborda o tópico de programação linear e jogos para duas pessoas. A programação linear é o processo de otimização de uma função de custo linear sujeita a um conjunto de restrições lineares e é usada em campos como economia e engenharia. O vídeo explica os algoritmos usados na programação linear, incluindo o método simplex e os métodos de pontos interiores, e o conceito de dualidade, onde o problema primal e seu problema dual estão intimamente conectados e podem ser resolvidos usando o método simplex. O vídeo também aborda como a programação linear pode ser aplicada a jogos de duas pessoas, incluindo o processo de encontrar um limite superior no fluxo máximo em uma rede e resolver um jogo com uma matriz. Por fim, o vídeo discute brevemente as limitações da aplicação dessas técnicas a jogos de três ou mais pessoas e menciona que a próxima palestra abordará a descida de gradiente estocástico.
Aula 25. Descida do Gradiente Estocástico
25. Descida do Gradiente Estocástico
Neste vídeo, o conceito de gradiente descendente estocástico (SGD) é apresentado como um método de otimização para resolver problemas de aprendizado de máquina em grande escala, geralmente apresentados na forma de um problema de soma finita. O palestrante explica como o SGD seleciona pontos de dados aleatórios para calcular o gradiente para acelerar o cálculo e como ele se comporta de maneira diferente da descida do gradiente em lote conforme se aproxima do ideal devido à natureza flutuante do método. A principal propriedade do SGD é que a estimativa do gradiente estocástico é uma versão imparcial do verdadeiro gradiente na expectativa e a variação do gradiente estocástico deve ser controlada para reduzir o ruído. O uso de mini-lotes é discutido como um meio de paralelismo barato no treinamento de GPU de aprendizado profundo, mas selecionar o tamanho certo de mini-lote ainda é uma questão em aberto que pode afetar a robustez da solução na presença de dados não vistos. Os desafios na otimização do SGD incluem a determinação do tamanho do minilote e a computação de gradientes estocásticos, mas os pesquisadores estão tentando entender a eficácia do SGD em redes neurais por meio do desenvolvimento de uma teoria de generalização.
Aula 26. Estrutura de Redes Neurais para Deep Learning
26. Estrutura de Redes Neurais para Deep Learning
Este vídeo discute a estrutura de redes neurais para aprendizado profundo. O objetivo é classificar os dados de maneira binária construindo uma rede neural com vetores de recursos que possuem m recursos, criando uma função de aprendizado que pode classificar os dados em uma das duas categorias. A não linearidade é essencial na criação dessas funções, pois os classificadores lineares são incapazes de separar dados não lineares. O vídeo também discute a importância do número de pesos e camadas na rede neural e fornece recursos como o playground TensorFlow para os usuários praticarem a criação de funções. Por fim, o vídeo discute a recursão usada para provar a fórmula do número de pedaços planos obtidos ao cortar um bolo e como ela se relaciona com o problema de otimização de minimizar a perda total no aprendizado profundo.
Aula 27. Retropropagação: Encontrar Derivadas Parciais
27. Retropropagação: Encontrar Derivadas Parciais
Este vídeo aborda vários tópicos relacionados à retropropagação e à localização de derivadas parciais. O palestrante demonstra o uso da regra da cadeia para derivadas parciais e enfatiza a importância da ordem dos cálculos na multiplicação de matrizes. A retropropagação é destacada como um algoritmo eficiente para calcular gradientes, e vários exemplos são dados para demonstrar sua eficácia. A convergência da descida do gradiente estocástico é brevemente discutida, juntamente com uma ideia de projeto relacionada ao uso de uma ordem aleatória de amostras de funções de perda na descida do gradiente estocástico. No geral, o vídeo fornece uma visão geral abrangente de retropropagação e suas aplicações.
Aula 30: Completando uma Matriz de Nível Um, Circulantes!
Aula 30: Completando uma Matriz de Nível Um, Circulantes!
Na Aula 30, o palestrante discute o preenchimento de uma matriz de posto um e matrizes circulantes. Eles começam com um determinante 2x2 e usam isso para restringir quais valores podem ser preenchidos em uma matriz para torná-la de nível um. O professor passa então para um problema combinatório para uma matriz 4x4 e apresenta matrizes circulantes que apresentam padrões cíclicos que podem ser criados com apenas quatro números dados. A palestra também aborda convolução cíclica, autovalores e autovetores de matrizes circulantes, que são importantes no processamento de sinais.
Aula 31. Autovetores de Matrizes Circulantes: Matriz de Fourier
31. Autovetores de Matrizes Circulantes: Matriz de Fourier
Neste vídeo sobre autovetores de matrizes circulantes, o palestrante discute como as matrizes circulantes se relacionam com o processamento de imagens e o aprendizado de máquina, bem como sua conexão com a matriz de Fourier. O palestrante enfatiza a importância de entender a convolução e as matrizes circulantes em relação à transformada discreta de Fourier (DFT) e às transformadas de Fourier. O palestrante discute os autovetores de matrizes circulantes, particularmente a matriz de Fourier, e como eles são todos construídos a partir do mesmo conjunto de oito números que também são os autovalores. O palestrante também fala sobre as propriedades da matriz de Fourier, incluindo como as colunas são ortogonais, mas não ortonormais e como seus autovetores somam zero devido à simetria da matriz circulante, tornando-os ortogonais entre si. Por fim, o palestrante demonstra o conceito do Vetor de Argan como um autovetor da Matriz de Fourier com exemplos.
Aula 32: ImageNet é uma rede neural convolucional (CNN), a regra de convolução
Aula 32: ImageNet é uma rede neural convolucional (CNN), a regra de convolução
Na Aula 32 de um curso de aprendizado profundo, o poder das redes neurais convolucionais (CNNs) na classificação de imagens é discutido, com o exemplo da competição ImageNet vencida por uma grande CNN profunda com camadas de convolução, camadas normais e camadas de agrupamento máximo. A palestra também enfoca a regra da convolução, que conecta multiplicação e convolução, com exemplos de convoluções bidimensionais, o uso do produto Kronecker para uma transformada bidimensional de Fourier e no processamento de sinais, e a diferença entre periódicos e não periódicos casos de convolução. O palestrante também discute autovetores e autovalores de uma matriz circulante e a operação de soma de Kronecker.
Aula 33. Redes Neurais e a Função de Aprendizagem
33. Redes Neurais e a Função de Aprendizagem
Neste vídeo, o palestrante discute a construção da função de aprendizado f para redes neurais, que é otimizada por gradiente descendente ou estocástico gradiente descendente e aplicada aos dados de treinamento para minimizar a perda. Ele explica o uso de uma imagem desenhada à mão para ilustrar o conceito de redes neurais e a função de aprendizado, bem como várias funções de perda usadas no aprendizado de máquina, incluindo perda de entropia cruzada. O palestrante também fala sobre o problema de encontrar as posições dos pontos dadas suas distâncias, que é um problema clássico com diversas aplicações, como na determinação de formas de moléculas por meio de ressonância magnética nuclear. Ele conclui discutindo a construção do X, etapa final para a obtenção da estrutura de uma rede neural, e menciona uma convocação de voluntários para discutir um projeto na sexta-feira.