Ti stai perdendo delle opportunità di trading:
- App di trading gratuite
- Oltre 8.000 segnali per il copy trading
- Notizie economiche per esplorare i mercati finanziari
Registrazione
Accedi
Accetti la politica del sito e le condizioni d’uso
Se non hai un account, registrati
CS 198-126: Lezione 13 - Introduzione alla modellazione di sequenze
CS 198-126: Lezione 13 - Introduzione alla modellazione di sequenze
In questa conferenza sulla modellazione di sequenze, il relatore introduce l'importanza di rappresentare i dati di sequenza e ottenere un numero ragionevole di passi temporali senza perdere troppe informazioni. Le reti neurali ricorrenti (RNN) sono discusse come un primo tentativo di risolvere queste sfide, che hanno la capacità di gestire diverse lunghezze di input e output. Tuttavia, i problemi con gli RNN impediscono loro di funzionare in modo ottimale. L'incorporamento del testo viene introdotto come un modo più efficiente per rappresentare i dati di testo, piuttosto che utilizzare un vettore one-hot ad alta dimensione. Inoltre, il concetto di codifica posizionale è discusso come un modo per rappresentare l'ordine degli elementi in una sequenza utilizzando valori continui, piuttosto che binari.
CS 198-126: Lezione 14 - Trasformatori e Attenzione
CS 198-126: Lezione 14 - Trasformatori e attenzione
Questa video conferenza su Transformers e Attenzione copre il concetto e la motivazione dietro l'attenzione, la sua relazione con Transformers e la sua applicazione nella PNL e nella visione. Il docente discute l'attenzione morbida e dura, l'auto-attenzione, l'attenzione locale e l'attenzione multi-testa e come vengono utilizzate nell'architettura Transformer. Spiegano anche il sistema di query valore-chiave, l'importanza delle connessioni residue e della normalizzazione dei livelli e il processo di applicazione di un livello lineare per ottenere kqv dagli incorporamenti di input. Infine, la lezione copre l'uso degli incorporamenti di posizione e del token CLS in esempi di sequenza-vettore, evidenziando l'efficienza computazionale e la scalabilità del meccanismo di attenzione.
CS 198-126: Lezione 15 - Vision Transformers
CS 198-126: Lezione 15 - Vision Transformers
In questa conferenza, il relatore discute l'uso di Vision Transformers (ViTs) per le attività di elaborazione delle immagini. L'architettura ViT prevede il downsampling delle immagini in patch discrete, che vengono quindi proiettate in incorporamenti di input utilizzando un output di livello lineare prima di passare attraverso un trasformatore. Il modello viene pre-addestrato su un set di dati etichettato di grandi dimensioni prima della messa a punto sul set di dati effettivo, ottenendo prestazioni eccellenti con meno calcoli rispetto ai precedenti metodi all'avanguardia. Vengono discusse le differenze tra ViT e reti neurali convoluzionali (CNN), con ViT che hanno un campo ricettivo globale e maggiore flessibilità rispetto alle CNN. Viene inoltre evidenziato l'uso dell'apprendimento auto-supervisionato e non supervisionato con Transformers per compiti visivi.
CS 198-126: Lezione 16 - Rilevamento avanzato di oggetti e segmentazione semantica
CS 198-126: Lezione 16 - Rilevamento avanzato di oggetti e segmentazione semantica
In questa lezione avanzata di rilevamento di oggetti e segmentazione semantica, il docente discute i vantaggi e gli svantaggi delle reti neurali convoluzionali (CNN) e dei trasformatori, in particolare nell'elaborazione del linguaggio naturale (NLP) e nella visione artificiale. Mentre le CNN eccellono nel pregiudizio strutturale, i Transformer gestiscono in modo efficiente sia le attività di PNL che di visione artificiale utilizzando livelli di auto-attenzione per legare insieme concetti importanti e concentrarsi su input specifici. La conferenza approfondisce quindi i Vision Transformers, che privilegiano la forma rispetto alla trama, rendendoli resistenti alla distorsione. Spiega inoltre i vantaggi e i limiti dello Swin Transformer, una versione migliorata del Vision Transformer, che eccelle nella classificazione delle immagini, nella segmentazione semantica e nel rilevamento degli oggetti. La conferenza sottolinea l'importanza della generalizzabilità nei modelli in grado di gestire qualsiasi tipo di dati e le potenziali applicazioni in campi come le auto a guida autonoma.
CS 198-126: Lezione 17 - 3-D Vision Survey, Parte 1
CS 198-126: Lezione 17 - 3-D Vision Survey, Parte 1
Il video discute diverse rappresentazioni visive 3D e i loro pro e contro, tra cui nuvole di punti, mesh, voxel e campi di radianza. La conferenza copre anche il raycasting, avanti e indietro, oltre alla colorazione e al rendering di immagini per oggetti che si intersecano tra loro, con approcci diversi per solidi e trasparenze. Il docente tocca i limiti del rendering differenziabile e come Radiance Fields può creare una funzione per ogni punto XYZ con una densità e un colore fisico, rendendolo più apprendibile.
CS 198-126: Lezione 18 - 3-D Vision Survey, Parte 2
CS 198-126: Lezione 18 - 3-D Vision Survey, Parte 2
In questa conferenza sulla visione 3D, l'istruttore discute i campi di radianza, in particolare i campi di radianza neurale (NeRF), che prendono posizione nello spazio e producono colore e densità. L'oratore spiega il processo di rendering, che prevede l'interrogazione dal punto di vista della telecamera e l'utilizzo della funzione scatola nera per capire come sarà l'immagine. Le lezioni discutono le sfide nel rappresentare prospettive coerenti di oggetti nella visione 3D e l'uso di MLP per acquisire i dati XYZ di un oggetto e visualizzare la direzione per la densità di output e le informazioni RGB. La conferenza copre anche le sfide del rendering volumetrico e l'utilizzo dei derivati Nerf per migliorare la visione artificiale. L'istruttore termina dimostrando l'uso della contrazione dello spazio per generare immagini 3D realistiche utilizzando una rete neurale.
CS 198-126: Lezione 19 - Advanced Vision Pretraining
CS 198-126: Lezione 19 - Advanced Vision Pretraining
Questo video copre varie tecniche utilizzate per il pre-training auto-supervisionato nella visione avanzata, tra cui l'apprendimento contrastivo, gli autocodificatori di denoising, i codificatori di contesto e la rete Mae. Il relatore fornisce una panoramica di ciascun metodo, discutendone i punti di forza e di debolezza, e sottolinea i vantaggi della combinazione delle perdite di contrasto e di ricostruzione nel metodo BYOL, che supera entrambi individualmente. Il video fornisce utili approfondimenti sulle ultime tendenze della ricerca nell'apprendimento auto-supervisionato e sul loro potenziale per migliorare le prestazioni dei modelli di visione artificiale.
CS 198-126: Lezione 20 - Stilizzare le immagini
CS 198-126: Lezione 20 - Stilizzare le immagini
Il video illustra varie tecniche per la stilizzazione delle immagini, tra cui il trasferimento di stili neurali, GAN e Pix2Pix, che richiedono dati accoppiati, e CycleGAN, che utilizza dati non accoppiati per la traduzione da immagine a immagine. I limiti di CycleGAN possono essere affrontati da StarGAN, che può prendere informazioni da più domini per addestrare generatori per attività di transizione di immagini multi-dominio. Il relatore discute anche la traduzione multimodale da immagine a immagine senza supervisione utilizzando informazioni di dominio e codici latenti a bassa dimensione per produrre output diversi, esemplificati dal modello BicycleGAN. Infine, vengono menzionati i potenziali vantaggi dell'utilizzo di Vision Transformers con GAN per le attività di traduzione delle immagini e la conferenza si conclude con divertenti esempi di immagini e un'opportunità per domande e discussioni.
CS 198-126: Lezione 21 - Audio generativo
CS 198-126: Lezione 21 - Audio generativo
In questa conferenza sull'audio generativo, il relatore copre vari argomenti come quantizzazione, aliasing, elaborazione del segnale, proiezioni, deep learning e Transformers. Il docente discute come campionare e quantizzare i segnali continui e il compromesso tra la precisione delle profondità di bit e la potenza di calcolo. Vengono inoltre spiegati il teorema del campionamento di Shannon-Nequist ei suoi effetti sulla ricostruzione dei segnali e l'importanza delle proiezioni e del loro uso per la ricostruzione dei segnali. Il deep learning viene esplorato per la ricostruzione audio e il presentatore introduce l'audio generativo e come può ricostruire la musica da registrazioni perse o danneggiate. Viene discusso l'uso di Transformers per la generazione audio e viene spiegato il processo di rappresentazione della musica come una serie di token. Il relatore sottolinea inoltre l'importanza di disporre di un set di dati ampio e vario e discute il funzionamento del modello del trasformatore per le previsioni musicali. La conferenza si conclude con una demo della musica generata, che mostra la capacità del modello di prevedere con precisione le note future.
CS 198-126: Lezione 22 - Apprendimento multimodale
CS 198-126: Lezione 22 - Apprendimento multimodale
L'apprendimento multimodale implica la rappresentazione di oggetti in modi diversi, ad esempio attraverso testo, immagini, video o audio, pur riconoscendo che sono lo stesso oggetto. Le lezioni spiegano l'importanza dell'apprendimento multimodale nell'acquisizione di diversi set di dati e nella risoluzione del problema dello spostamento della distribuzione. Il video è incentrato su CLIP, un metodo di pre-addestramento di immagini in lingua contrastante, che utilizza codificatori di testo e immagini per creare incorporamenti per coppie di didascalie immagine simili. Gli incorporamenti possono essere utilizzati per la classificazione, la robotica, la generazione di testo in immagini e la visione 3D. Il relatore sottolinea che l'universalità dei latenti CLIP mostra l'importanza dell'apprendimento della rappresentazione e la sua utilità nell'apprendimento automatico. Il metodo CLIP ha portato all'evoluzione del campo dell'apprendimento multimodale.