Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
CS480/680 Aula 15: Redes neurais profundas
CS480/680 Aula 15: Redes neurais profundas
Este vídeo aborda os fundamentos do aprendizado profundo, incluindo os conceitos de redes neurais profundas, o problema do gradiente de fuga e a evolução das redes neurais profundas em tarefas de reconhecimento de imagem. O palestrante explica como as redes neurais profundas podem ser usadas para representar funções de forma mais sucinta e como elas calculam recursos que se tornam cada vez mais de nível superior à medida que a rede se torna mais profunda. São abordadas soluções para o problema do gradiente de fuga, incluindo o uso de unidades lineares retificadas (ReLU) e normalização em lote. A palestra também aborda unidades de máximo e suas vantagens como uma generalização de ReLUs que permite várias partes lineares.
A palestra sobre redes neurais profundas discute dois problemas que requerem resolução para um aprendizado profundo eficaz: a questão do overfitting devido à expressividade da rede de múltiplas camadas e a exigência de alto poder computacional para treinar redes complexas. O palestrante propõe soluções como regularização e abandono durante o treinamento, bem como computação paralela durante a computação. A palestra também detalha como o dropout pode ser usado durante o teste, dimensionando a entrada e as magnitudes das unidades ocultas. Por fim, a palestra termina apresentando algumas aplicações inovadoras de redes neurais profundas em reconhecimento de fala, reconhecimento de imagem e tradução automática.
CS480/680 Aula 16: Redes neurais convolucionais
CS480/680 Aula 16: Redes neurais convolucionais
Este vídeo apresenta as redes neurais convolucionais (CNNs) e explica sua importância no processamento de imagens como um tipo específico de rede neural com propriedades importantes. O palestrante discute como a convolução pode ser usada para processamento de imagens, como na detecção de bordas, e como as CNNs podem detectar recursos de maneira semelhante. O conceito de camadas convolucionais e seus parâmetros é explicado, juntamente com o processo de treinamento de CNNs usando backpropagation e gradiente descendente com pesos compartilhados. O palestrante também fornece princípios de design para criar arquiteturas CNN eficazes, como o uso de filtros menores e ativação não linear após cada convolução.
Nesta palestra sobre Redes Neurais Convolucionais (CNNs), o palestrante discute o conceito de conexões residuais como uma solução para o problema do gradiente de fuga enfrentado pelas redes neurais profundas. Essas conexões de salto permitem encurtar os caminhos da rede e ignorar as camadas inúteis enquanto ainda podem usá-las, se necessário, para evitar a produção de saídas próximas de zero. O uso de técnicas de normalização em lote também é introduzido para mitigar o problema de desaparecimento de gradientes. Além disso, o palestrante destaca que as CNNs podem ser aplicadas a dados sequenciais e tensores com mais de duas dimensões, como em sequências de vídeo, e que as CNNs 3D também são uma possibilidade para determinadas aplicações. A estrutura do TensorFlow é destacada por ser projetada para computação com matrizes multidimensionais.
CS480/680 Aula 17: Modelos ocultos de Markov
CS480/680 Aula 17: Modelos ocultos de Markov
A palestra apresenta os Modelos Ocultos de Markov (HMM), um tipo de modelo gráfico probabilístico usado para explorar correlações em dados de sequência que podem melhorar a precisão. As suposições do modelo envolvem um processo estacionário e um processo Markoviano em que um estado oculto depende apenas do estado anterior. As três distribuições no HMM são a distribuição de estado inicial, a distribuição de transição e a distribuição de emissão, com o último tipo usado dependendo do tipo de dados. O algoritmo pode ser usado para monitoramento, previsão, filtragem, suavização e tarefas de explicação mais prováveis. O HMM tem sido usado para reconhecimento de fala e aprendizado de máquina, como prever a sequência mais provável de saídas com base em uma sequência de entradas e estados ocultos para pessoas mais velhas que usam dispositivos de caminhada para correlação de estabilidade. Um experimento envolvendo sensores e câmeras modificados em um andador foi conduzido para reconhecer automaticamente as atividades realizadas por idosos com base na coleta de dados sobre as atividades de idosos em uma casa de repouso. A demonstração em aprendizagem supervisionada e não supervisionada no contexto de reconhecimento de atividades também foi discutida.
A palestra enfoca o uso de distribuições gaussianas de emissão em Hidden Markov Models (HMMs), que é comumente usado em aplicações práticas onde os dados coletados são contínuos. O palestrante explica que esse método envolve calcular os parâmetros de média e variância que correspondem à média e à variância empírica dos dados e usá-los para calcular a solução para as distribuições inicial e de transição. A distribuição de transição corresponde a contagens de frequência relativa, e máxima verossimilhança é usada para obter as soluções. Esta abordagem é semelhante à solução para misturas de gaussianas, onde também são utilizadas uma distribuição inicial e uma distribuição de emissão.
CS480/680 Aula 18: Redes neurais recorrentes e recursivas
CS480/680 Aula 18: Redes neurais recorrentes e recursivas
Nesta palestra, o palestrante apresenta redes neurais recorrentes e recursivas como modelos adequados para dados sequenciais sem comprimento fixo. Redes neurais recorrentes podem lidar com sequências de qualquer comprimento devido a certos nós com saídas realimentadas como entradas, e a forma como o H em cada passo de tempo é calculado é através do uso da mesma função f, que envolve compartilhamento de peso. No entanto, eles podem sofrer de limitações, como não lembrar informações de entradas anteriores e desvios de previsão. O palestrante também explica a arquitetura da rede neural recorrente bidirecional (BRNN) e o modelo codificador-decodificador, que utiliza dois RNNs - um codificador e um decodificador, para aplicações em que as sequências de entrada e saída não coincidem naturalmente. Além disso, o palestrante descreve os benefícios das unidades de memória de longo prazo (LSTM), que podem mitigar o problema do gradiente de desaparecimento, facilitar dependências de longo alcance e permitir ou bloquear seletivamente o fluxo de informações.
Esta palestra sobre redes neurais recorrentes e recursivas abrange uma variedade de tópicos, incluindo o uso de unidades de Long Short-Term Memory (LSTM) e Gated Recurrent Unit (GRU) para evitar problemas de gradiente, bem como a importância dos mecanismos de atenção na tradução automática para preservar o significado da frase e o alinhamento das palavras. O palestrante também discute como as redes neurais recorrentes podem ser generalizadas para redes neurais recursivas para sequências, gráficos e árvores, e como analisar sentenças e produzir incorporações de sentenças usando árvores de análise.
sendo feito. O estado oculto é calculado usando uma função que usa o estado oculto anterior e a entrada, e a saída é obtida usando outra função que usa o estado oculto como entrada. Em última análise, o objetivo é usar essa computação para computar probabilidades ou reconhecer atividades.
CS480/680 Aula 19: Atenção e Redes Transformadoras
CS480/680 Aula 19: Atenção e Redes Transformadoras
Nesta palestra, o conceito de atenção em redes neurais é introduzido e seu papel no desenvolvimento de redes transformadoras é discutido. A atenção foi inicialmente estudada em visão computacional, permitindo a identificação de regiões cruciais semelhantes à forma como os humanos se concentram naturalmente em áreas específicas. A aplicação da atenção à tradução automática levou à criação de redes transformadoras, que utilizam apenas mecanismos de atenção e produzem resultados tão bons quanto as redes neurais tradicionais. As redes transformadoras têm vantagens sobre as redes neurais recorrentes, resolvendo problemas associados a dependências de longo alcance, gradientes desaparecendo e explodindo e computação paralela. A palestra explora a atenção multicabeçal em redes de transformadores, o que garante que cada posição de saída atenda à entrada. O uso de máscaras, camadas de normalização e a camada Donora em redes transformadoras é discutido, e o conceito de usar a atenção como um bloco de construção é explorado.
Nesta palestra sobre atenção e redes transformadoras, o palestrante explica a importância da normalização para desacoplar gradientes em diferentes camadas, bem como a importância da incorporação posicional para manter a ordem das palavras nas frases. O palestrante compara as estimativas de complexidade de redes transformadoras com redes neurais recorrentes e convolucionais, destacando a capacidade da rede transformadora de capturar dependências de longo alcance e processar palavras simultaneamente. As vantagens das redes transformadoras em melhorar a escalabilidade e reduzir a concorrência também são discutidas, juntamente com a introdução de redes transformadoras como GPT, BERT e XLNet, que mostraram desempenho impressionante em precisão e velocidade, levantando questões sobre o futuro das redes neurais recorrentes.
CS480/680 Aula 20: Autoencoders
CS480/680 Aula 20: Autoencoders
Os autoencoders referem-se a uma família de redes intimamente relacionadas aos codificadores-decodificadores, com a diferença de que os autoencoders recebem uma entrada e produzem a mesma saída. Eles são importantes para compactação, redução de ruído, obtenção de uma representação esparsa e geração de dados. Os autoencoders lineares alcançam a compactação mapeando vetores de alta dimensão para representações menores, garantindo que nenhuma informação seja perdida e usando matrizes de peso para calcular uma transformação linear da entrada para a representação compactada e vice-versa. Além disso, os autoencoders profundos permitem mapeamentos sofisticados, enquanto os autoencoders probabilísticos produzem distribuições condicionais sobre a representação e entrada intermediárias, que podem ser usadas para geração de dados. O uso de funções não lineares por autoencoders tira proveito do manifold não linear, uma projeção em um espaço dimensional inferior que captura a dimensionalidade intrínseca dos dados, levando a uma compressão sem perdas da entrada.
CS480/680 Aula 21: Redes generativas (autoencoders variacionais e GANs)
CS480/680 Aula 21: Redes generativas (autoencoders variacionais e GANs)
Esta palestra se concentra em redes generativas, que permitem a produção de dados como saída por meio de redes como autoencoders variacionais (VAEs) e redes adversárias generativas (GANs). Os VAEs usam um codificador para mapear os dados do espaço original para um novo espaço e, em seguida, um decodificador para recuperar o espaço original. O palestrante explica o conceito por trás dos VAEs e os desafios de calcular a integral das distribuições necessárias no treinamento. As GANs consistem em duas redes - uma geradora e uma discriminadora - onde a rede geradora cria novos pontos de dados e a rede discriminadora tenta distinguir entre os gerados e os reais. Os desafios na implementação da GAN são discutidos, incluindo garantir um equilíbrio entre os pontos fortes das redes e alcançar a convergência global. A palestra termina com exemplos de imagens geradas e uma prévia para a próxima aula.
CS480/680 Aula 22: Ensemble learning (bagging e boosting)
CS480/680 Aula 22: Ensemble learning (bagging e boosting)
A palestra discute o aprendizado conjunto, onde vários algoritmos se combinam para melhorar os resultados do aprendizado. As duas principais técnicas revisadas são bagging e boosting, e o palestrante enfatiza a importância de combinar hipóteses para obter uma hipótese mais rica. A palestra detalha o processo de votação por maioria ponderada e sua probabilidade de erro, além de como o aumento funciona para melhorar a precisão da classificação. O palestrante também aborda as vantagens de impulsionar e ensemble learning, observando a aplicabilidade do ensemble learning a muitos tipos de problemas. Por fim, o vídeo segue o exemplo do desafio da Netflix para demonstrar o uso do ensemble learning em competições de ciência de dados.
Nesta palestra sobre aprendizado conjunto, o palestrante enfatiza o valor de combinar hipóteses de diferentes modelos para obter um aumento na precisão, uma abordagem que pode ser particularmente útil ao começar com soluções já razoavelmente boas. Ele discute a importância de fazer uma combinação ponderada de previsões, observando que deve-se tomar cuidado, pois a média de duas hipóteses às vezes pode ser pior do que as hipóteses individuais sozinhas. O palestrante também explica que a normalização dos pesos pode ser necessária, dependendo se a tarefa é de classificação ou regressão.
CS480/680 Aula 23: Normalizando fluxos (Priyank Jaini)
CS480/680 Aula 23: Normalizando fluxos (Priyank Jaini)
Nesta palestra, Priyank Jaini discute fluxos de normalização como um método para estimativa de densidade e apresenta como eles diferem de outros modelos generativos, como GANs e VAEs. Jaini explica o conceito de conservação da massa de probabilidade e como ele é usado para derivar a fórmula de mudança de variáveis em fluxos de normalização. Ele explica ainda o processo de construção da estrutura triangular na normalização de fluxos usando famílias de transformações e o conceito de matrizes de permutação. Jaini também introduz o conceito de fluxos de soma de quadrados (SOS), que usam polinômios de ordem superior e podem capturar qualquer densidade alvo, tornando-os universais. Por fim, Jaini discute o espaço latente e seus benefícios em métodos baseados em fluxo para geração de imagens e pede ao público que reflita sobre as possíveis desvantagens dos modelos baseados em fluxo.
Nesta palestra sobre fluxos normalizados por Priyank Jaini, ele discute os desafios de capturar transformações de alta dimensão com um grande número de parâmetros. A normalização dos fluxos exige que ambas as dimensões sejam iguais para obter uma representação exata, ao contrário das GANs que usam gargalos para superar tais problemas. Jaini destaca que aprender os parâmetros associados com conjuntos de dados de alta dimensão em experimentos de normalização de fluxos pode ser difícil. Ele também aborda questões sobre como a normalização de fluxos pode capturar distribuições multimodais e oferece um código para implementar transformações afins lineares.
CS480/680 Aula 24: Aumento de gradiente, ensacamento, florestas de decisão
CS480/680 Aula 24: Aumento de gradiente, ensacamento, florestas de decisão
Esta palestra aborda aumento de gradiente, ensacamento e florestas de decisão em aprendizado de máquina. O aumento de gradiente envolve a adição de novos preditores com base no gradiente negativo da função de perda para o preditor anterior, levando a uma maior precisão nas tarefas de regressão. A palestra também explora como evitar o overfitting e otimizar o desempenho usando a regularização e interrompendo os processos de treinamento antecipadamente. Além disso, a palestra aborda bagging, que envolve subamostragem e combinação de diferentes aprendizes de base para obter uma previsão final. O uso de árvores de decisão como aprendizes básicos e a criação de florestas aleatórias também é discutido, e um exemplo da vida real do Microsoft Kinect usando florestas aleatórias para reconhecimento de movimento é fornecido. Os benefícios dos métodos ensemble para computação paralela são discutidos e a importância de entender as atualizações de peso em sistemas de aprendizado de máquina é enfatizada. Esta palestra aborda os possíveis problemas com pesos médios na combinação de preditores em redes neurais ou modelos ocultos de Markov, recomendando, em vez disso, a combinação de previsões por meio de um voto majoritário ou método de média. O professor também sugere vários cursos relacionados disponíveis na Universidade de Waterloo, vários cursos de pós-graduação em otimização e álgebra linear e um programa de ciência de dados de graduação focado em IA, aprendizado de máquina, sistemas de dados, estatística e tópicos de otimização. A palestra enfatiza a importância das abordagens algorítmicas sobre a sobreposição com estatísticas e a especialização em tópicos de ciência de dados em comparação com cursos gerais de ciência da computação.