Você está perdendo oportunidades de negociação:
- Aplicativos de negociação gratuitos
- 8 000+ sinais para cópia
- Notícias econômicas para análise dos mercados financeiros
Registro
Login
Você concorda com a política do site e com os termos de uso
Se você não tem uma conta, por favor registre-se
CS 198-126: Aula 10 - GANs
CS 198-126: Aula 10 - GANs
A palestra sobre GANs apresenta o conceito de duas redes, o discriminador e o gerador, competindo entre si em uma configuração de teoria dos jogos. A entrada do gerador é o ruído aleatório, ao qual atribui significado para gerar imagens de aparência real, e o trabalho do discriminador é julgar se a imagem é real ou falsa. As GANs usam uma função de perda que corresponde à perda de entropia cruzada negativa, com o gerador querendo minimizar e o discriminador querendo maximizá-la. A função de valor representa o desempenho do gerador e precisa ser maximizada pelo discriminador, classificando corretamente dados falsos e reais. A palestra também aborda questões com GANs de treinamento e a perda não saturante que permite que o gerador tenha mais agência para mudar.
CS 198-126: Aula 11 - GANs avançadas
CS 198-126: Aula 11 - GANs avançadas
Esta palestra sobre GANs avançadas abrange várias técnicas para melhorar a estabilidade e a qualidade dos modelos GAN, incluindo upsampling bilinear, convolução transposta, GANs condicionais, StyleGAN e CycleGAN. A palestra também discute o uso de ruído aleatório controlado, normalização de instância adaptativa e processamento de vídeos em GANs. Para obter melhor estabilidade e resultados, o palestrante recomenda usar tamanhos de lote maiores e truncar a faixa de ruído aleatório durante o teste, ao mesmo tempo em que adverte contra enfraquecer excessivamente o discriminador. Além disso, sugere-se começar com uma ampla distribuição de diferentes tamanhos de espaço latente para gerar uma variedade de imagens. Por fim, a palestra aborda o Big Gan, que ajuda a gerar GANs em escalas muito grandes.
CS 198-126: Aula 12 - Modelos de Difusão
CS 198-126: Aula 12 - Modelos de Difusão
Nesta palestra sobre modelos de difusão, o palestrante discute a intuição por trás dos modelos de difusão - prever o ruído adicionado a uma imagem e reduzi-lo para obter a imagem original. A palestra aborda o processo de treinamento, arquitetura aprimorada e exemplos de modelos de difusão na geração de imagens e vídeos. Além disso, a palestra aprofunda os modelos de difusão latente, que comprimem o modelo em um espaço latente para executar a difusão na parte semântica da imagem. O palestrante também fornece uma visão geral de modelos relacionados, como Dolly Q, modelo Imagine do Google e Make a Video do Facebook, e sua capacidade de gerar modelos 3D usando texto.
CS 198-126: Aula 13 - Introdução à Modelagem de Sequência
CS 198-126: Aula 13 - Introdução à Modelagem de Sequência
Nesta palestra sobre modelagem de sequência, o palestrante apresenta a importância de representar dados de sequência e atingir um número razoável de etapas de tempo sem perder muita informação. Redes neurais recorrentes (RNNs) são discutidas como uma primeira tentativa de resolver esses desafios, que têm a capacidade de lidar com comprimentos variados de entradas e saídas. No entanto, problemas com RNNs impedem que eles tenham um desempenho ideal. A incorporação de texto é introduzida como uma maneira mais eficiente de representar dados de texto, em vez de usar um vetor único de alta dimensão. Além disso, o conceito de codificação posicional é discutido como uma forma de representar a ordem dos elementos em uma sequência usando valores contínuos, em vez de binários.
CS 198-126: Aula 14 - Transformadores e Atenção
CS 198-126: Aula 14 - Transformadores e Atenção
Esta palestra em vídeo sobre Transformadores e Atenção aborda o conceito e a motivação por trás da atenção, sua relação com os Transformadores e sua aplicação em PNL e visão. O palestrante discute a atenção leve e forte, a autoatenção, a atenção local e a atenção multifacetada, e como eles são usados na arquitetura do Transformer. Eles também explicam o sistema de consulta de valor-chave, a importância das conexões residuais e da normalização da camada e o processo de aplicação de uma camada linear para obter kqv de incorporações de entrada. Por fim, a palestra aborda o uso de incorporações de posição e o token CLS em exemplos de sequência para vetor, destacando a eficiência computacional e a escalabilidade do mecanismo de atenção.
CS 198-126: Aula 15 - Transformadores de visão
CS 198-126: Aula 15 - Transformadores de visão
Nesta palestra, o palestrante discute o uso de Vision Transformers (ViTs) para tarefas de processamento de imagens. A arquitetura ViT envolve a redução da resolução de imagens em patches discretos, que são então projetados em incorporações de entrada usando uma saída de camada linear antes de passar por um Transformer. O modelo é pré-treinado em um grande conjunto de dados rotulado antes do ajuste fino no conjunto de dados real, resultando em excelente desempenho com menos computação do que os métodos de última geração anteriores. As diferenças entre ViTs e Convolutional Neural Networks (CNNs) são discutidas, com ViTs tendo um campo receptivo global e mais flexibilidade do que CNNs. O uso de aprendizado autossupervisionado e não supervisionado com Transformers para tarefas de visão também é destacado.
CS 198-126: Aula 16 - Detecção avançada de objetos e segmentação semântica
CS 198-126: Aula 16 - Detecção avançada de objetos e segmentação semântica
Nesta palestra avançada de detecção de objetos e segmentação semântica, o palestrante discute as vantagens e desvantagens de redes neurais convolucionais (CNNs) e Transformers, particularmente em processamento de linguagem natural (NLP) e visão computacional. Enquanto as CNNs se destacam no viés de textura, os Transformers lidam com tarefas de PNL e visão computacional de maneira eficiente, usando camadas de auto-atenção para unir conceitos importantes e focar em entradas específicas. A palestra então se aprofunda nos Vision Transformers, que priorizam a forma sobre a textura, tornando-os resistentes à distorção. Ele explica ainda as vantagens e limitações do Swin Transformer, uma versão aprimorada do Vision Transformer, que se destaca na classificação de imagens, segmentação semântica e detecção de objetos. A palestra enfatiza a importância da generalização em modelos que podem lidar com qualquer tipo de dados e as possíveis aplicações em áreas como carros autônomos.
CS 198-126: Aula 17 - Pesquisa de Visão 3-D, Parte 1
CS 198-126: Aula 17 - Pesquisa de Visão 3-D, Parte 1
O vídeo discute diferentes representações visuais 3D e seus prós e contras, incluindo nuvens de pontos, malhas, voxels e campos de radiância. A palestra também abrange raycasting, para frente e para trás, bem como colorir e renderizar imagens para objetos que se cruzam, com diferentes abordagens para sólidos e transparências. O palestrante aborda as limitações da renderização diferenciável e como o Radiance Fields pode criar uma função para cada ponto XYZ com densidade e cor física, tornando-o mais fácil de aprender.
CS 198-126: Aula 18 - Pesquisa de Visão 3-D, Parte 2
CS 198-126: Aula 18 - Pesquisa de Visão 3-D, Parte 2
Nesta palestra sobre visão 3D, o instrutor discute campos de radiância, especificamente Neural Radiance Fields (NeRFs), que ocupam uma posição no espaço e produzem cor e densidade. O palestrante explica o processo de renderização, que envolve a consulta da perspectiva da câmera e o uso da função de caixa preta para descobrir como será a imagem. As palestras discutem os desafios na representação de perspectivas consistentes de objetos em visão 3D e o uso de MLPs para obter os dados XYZ de um objeto e visualizar a direção para densidade de saída e informações RGB. A palestra também aborda os desafios da renderização volumétrica e o uso de derivados Nerf para melhorar a visão computacional. O instrutor termina demonstrando o uso da contração do espaço para gerar imagens 3D realistas usando uma rede neural.
CS 198-126: Aula 19 - Pré-treinamento de Visão Avançada
CS 198-126: Aula 19 - Pré-treinamento de Visão Avançada
Este vídeo aborda várias técnicas usadas para pré-treinamento auto-supervisionado em visão avançada, incluindo aprendizado contrastivo, codificadores automáticos de redução de ruído, codificadores de contexto e a rede Mae. O palestrante fornece uma visão geral de cada método, discutindo seus pontos fortes e fracos, e destaca os benefícios de combinar perdas de contraste e reconstrução no método BYOL, que supera ambos individualmente. O vídeo fornece informações úteis sobre as últimas tendências de pesquisa em aprendizagem autossupervisionada e seu potencial para melhorar o desempenho dos modelos de visão computacional.