Apprendimento automatico e Reti Neurali - pagina 48

 

CS480/680 Lezione 17: Modelli di Markov nascosti


CS480/680 Lezione 17: Modelli di Markov nascosti

La conferenza introduce gli Hidden Markov Models (HMM), un tipo di modello grafico probabilistico utilizzato per sfruttare le correlazioni nei dati di sequenza che possono migliorare la precisione. Le ipotesi del modello implicano un processo stazionario e un processo markoviano per cui uno stato nascosto dipende solo dallo stato precedente. Le tre distribuzioni in HMM sono la distribuzione dello stato iniziale, la distribuzione di transizione e la distribuzione delle emissioni, con quest'ultimo tipo utilizzato a seconda del tipo di dati. L'algoritmo può essere utilizzato per il monitoraggio, la previsione, il filtraggio, il livellamento e molto probabilmente le attività di spiegazione. HMM è stato utilizzato per il riconoscimento vocale e l'apprendimento automatico, come la previsione della sequenza più probabile di output sulla base di una sequenza di input e stati nascosti per le persone anziane che utilizzano dispositivi walker per la correlazione della stabilità. È stato condotto un esperimento che coinvolge sensori e telecamere modificati su un deambulatore per riconoscere automaticamente le attività svolte dagli anziani sulla base della raccolta di dati sulle attività degli anziani in una struttura di riposo. È stata discussa anche la dimostrazione dell'apprendimento supervisionato e non supervisionato nel contesto del riconoscimento delle attività.

La lezione si concentra sull'uso delle distribuzioni di emissione gaussiana nei modelli di Markov nascosti (HMM), che è comunemente usato nelle applicazioni pratiche in cui i dati raccolti sono continui. Il docente spiega che questo metodo comporta il calcolo dei parametri di media e varianza che corrispondono alla media empirica e alla varianza dei dati e il loro utilizzo per calcolare la soluzione per le distribuzioni iniziale e di transizione. La distribuzione di transizione corrisponde ai conteggi di frequenza relativa e per ottenere le soluzioni viene utilizzata la massima verosimiglianza. Questo approccio è simile alla soluzione per miscele di gaussiane, in cui vengono utilizzate anche una distribuzione iniziale e di emissione.

  • 00:00:00 In questa sezione, il docente introduce il concetto di Hidden Markov Models (HMM) che sono diversi dalle reti neurali che sono state discusse finora. Il docente spiega che HMM può essere utilizzato quando i dati provengono da sequenze anziché da punti dati indipendenti e le previsioni per un punto dati sono correlate con le previsioni per il punto dati successivo. Il docente fornisce l'esempio del riconoscimento vocale in cui la predizione di un fonema o di una parola è correlata con il successivo fonema o parola. Lo sfruttamento di queste correlazioni può migliorare l'accuratezza delle previsioni. Il docente spiega anche che l'HMM può essere generalizzato in una rete neurale ricorrente (RNN) in grado di gestire i dati della sequenza e propagare le informazioni tra diversi punti in una sequenza, che verrà discussa in seguito.

  • 00:05:00 In questa sezione della conferenza, il relatore introduce modelli di Markov nascosti come generalizzazione di combinazioni di gaussiane. Spiega che i modelli di Markov nascosti sfruttano le correlazioni nei dati sequenziali per aumentare la precisione e vengono utilizzati per esprimere una distribuzione su y, che segue la distribuzione di probabilità condizionale x dato y. Ciò è diverso da una combinazione di gaussiane, in cui una distribuzione condizionale di classe per l'input x viene espressa dopo che y è stato campionato da una distribuzione multinomiale. Il relatore traccia anche un confronto tra questo modello e il campo casuale condizionale e le reti neurali ricorrenti.

  • 00:10:00 In questa sezione, il docente spiega le ipotesi fatte durante la progettazione di un modello di Markov nascosto. La prima ipotesi è che il processo sia stazionario, il che significa che le distribuzioni di transizione ed emissione sono indipendenti dal tempo. La seconda ipotesi è che il processo sia markoviano, nel senso che un dato stato nascosto dipende solo dal precedente stato nascosto. Queste ipotesi creano un modello grafico probabilistico con una distribuzione iniziale, una distribuzione di transizione e una distribuzione di emissione, che insieme formano una distribuzione congiunta. La distribuzione iniziale descrive la distribuzione per il primo stato nascosto ed è tipicamente un multinomiale.

  • 00:15:00 In questa sezione, apprendiamo le tre distribuzioni nei modelli di Markov nascosti: distribuzione dello stato iniziale, distribuzione della transizione e distribuzione delle emissioni. La distribuzione di emissione gaussiana viene utilizzata per dati continui, mentre la distribuzione di emissione multinomiale è utile per dati discreti, come sequenze di parole per l'elaborazione del linguaggio naturale. Moltiplicando queste distribuzioni insieme, possiamo ricavare la distribuzione congiunta, che può essere utilizzata per varie applicazioni come la localizzazione di robot.

  • 00:20:00 In questa sezione, apprendiamo il problema di un robot che si perde a causa della deriva e delle imprecisioni nelle letture del contachilometri. Una soluzione a questo problema è l'uso di un modello di Markov nascosto, dove le Y, lo stato nascosto, corrispondono alle coordinate di posizione del robot e gli input corrispondono ad alcune misurazioni effettuate dai sensori. La distribuzione di transizione cattura la probabilità che il robot possa finire in posizioni diverse a causa di incertezze nel movimento, mentre la distribuzione delle emissioni ha una distribuzione sulle misurazioni ottenute dai sensori per tenere conto delle imprecisioni di misurazione. Il modello di Markov nascosto può essere utilizzato per la localizzazione, che implica il calcolo della probabilità della posizione del robot in un dato momento.

  • 00:25:00 In questa sezione, il relatore spiega le quattro grandi categorie in cui possono essere classificate le attività relative agli Hidden Markov Models (HMM). Queste categorie includono il monitoraggio, la previsione, la disambiguazione e la spiegazione più probabile. Per l'attività di monitoraggio, l'algoritmo utilizzato è noto come algoritmo di inoltro. Implica la scomposizione ricorsiva della query in termini di probabilità del precedente stato nascosto date tutte le misurazioni precedenti, che consente il calcolo della probabilità di Y per un dato X. L'algoritmo funziona calcolando il primo stato nascosto dato il primo misura e quindi calcola il successivo stato nascosto date le misurazioni fino a quel passo temporale e continua ad aumentare la sequenza andando avanti nel tempo.

  • 00:30:00 In questa sezione, il docente discute l'attività di previsione utilizzando Hidden Markov Models (HMM), che prevede la previsione dello stato futuro di un sistema dato lo stato attuale. Esempi di questa attività includono la previsione del tempo e del mercato azionario. Il calcolo viene eseguito in modo simile al monitoraggio, utilizzando un algoritmo forward con due fasi: monitoraggio e previsione. Nell'esempio fornito, il docente mostra come calcolare la probabilità di Y4 dati solo X1 e X2. Il docente menziona anche che gli HMM con previsione potrebbero essere utilizzati per la generazione di testo, in cui il modello prevede il prossimo testo osservabile dato il testo corrente.

  • 00:35:00 In questa sezione, il docente discute i compiti degli Hidden Markov Models (HMM) che includono il filtraggio, il livellamento e il ragionamento con il senno di poi. Il filtraggio si riferisce alla previsione dello stato attuale di un sistema basato su osservazioni passate, mentre il livellamento si riferisce alla previsione di stati precedenti utilizzando osservazioni sia prima che dopo quello stato. Il ragionamento a posteriori implica il calcolo della proprietà di uno stato nel passato, date le osservazioni prima e dopo quello stato. Il docente sottolinea che gli HMM non sono più lo stato dell'arte per questi compiti, ma sono un precursore di reti neurali ricorrenti che tendono ad essere più efficaci. Il calcolo per queste attività viene eseguito in modo ricorsivo, portando alla creazione dell'algoritmo forward-backward.

  • 00:40:00 In questa sezione, il relatore discute l'uso degli Hidden Markov Models (HMM) per il riconoscimento vocale e la traduzione automatica. Gli HMM vengono utilizzati per calcolare la sequenza più probabile di output in base a una sequenza di input e stati nascosti. L'algoritmo di Viterbi viene applicato a questa procedura di programmazione dinamica per eseguire la massimizzazione. Viene anche discussa un'applicazione del riconoscimento dell'attività che utilizza misurazioni di sensori e dispositivi Walker che le persone anziane usano per camminare. Dedurre le attività di una persona con un Walker aiuta a determinare le manovre più probabili che potrebbero portare a una caduta o innescare una caduta, che è stata osservata verificarsi in alcune situazioni nonostante i Walker siano utilizzati per la stabilità.

  • 00:45:00 In questa sezione, il relatore discute uno studio in cui è stato utilizzato un deambulatore modificato con sensori e telecamere per raccogliere dati sulle attività degli anziani in una struttura di riposo. Il deambulatore aveva sensori come un accelerometro 3D e sensori di carico che misuravano il peso su ciascuna gamba del deambulatore e una telecamera che guardava all'indietro le gambe. L'esperimento prevedeva che i partecipanti attraversassero un percorso a ostacoli che simulava le comuni attività quotidiane. I dati raccolti sono stati utilizzati per sviluppare un modello Hidden Markov che riconoscesse automaticamente le attività svolte dai partecipanti. Il modello aveva otto canali per i sensori e utilizzava l'apprendimento automatico per stimare i parametri della transizione iniziale e le distribuzioni delle emissioni.

  • 00:50:00 In questa sezione, il relatore discute una dimostrazione di un algoritmo che prevede l'attività di una persona in base alle misurazioni del sensore. L'algoritmo utilizza un modello di Markov nascosto o un campo casuale condizionale per tenere traccia dell'attività della persona e delle previsioni di output, che vengono quindi confrontate con i comportamenti corretti etichettati manualmente. L'attività della persona è rappresentata visivamente come curve fluttuanti e il pannello di destra del video mostra 13 attività separate indicate da un quadrato rosso per il comportamento corretto e da un quadrato blu per la previsione dell'algoritmo. L'oratore spiega che, sebbene teoricamente possibile, avere la persona che indossa i sensori indica la propria attività non è pratico in quanto la persona potrebbe non essere sempre un giudice affidabile dei propri movimenti e può essere imbarazzante che qualcuno annunci continuamente le proprie azioni. Inoltre, se venisse utilizzato l'apprendimento non supervisionato, l'algoritmo dedurrebbe un'attività ma non sarebbe in grado di denominarla con precisione.

  • 00:55:00 In questa sezione, il relatore discute l'approccio adottato per l'apprendimento supervisionato e non supervisionato nel contesto del riconoscimento delle attività. Per l'apprendimento supervisionato, le Y sono note e l'obiettivo è massimizzare la verosimiglianza dei dati. Un approccio discusso consiste nel calcolare la derivata, impostarla a zero, isolare i parametri e ottenere valori e stime per pi theta e phi. Nel caso di due attività e misure binarie, è possibile espandere la distribuzione congiunta del modello e impostare la derivata a zero. Le risposte risultanti sono naturali e riguardano il rapporto tra il numero di classi nei dati.

  • 01:00:00 In questa sezione, il docente discute l'uso delle distribuzioni di emissione gaussiane, che è una pratica comune nelle applicazioni pratiche perché i dati raccolti sono spesso continui. Questo metodo prevede l'utilizzo di parametri di media e varianza che corrispondono alla media empirica e alla varianza dei dati raccolti. La soluzione per le distribuzioni iniziale e di transizione è la stessa di prima, mentre la distribuzione di transizione corrisponde ai conteggi delle frequenze relative. La massima verosimiglianza viene quindi utilizzata per ottenere queste soluzioni. Questa tecnica è simile alla soluzione per miscele di gaussiane, dove abbiamo anche una distribuzione iniziale e di emissione.
 

CS480/680 Lezione 18: Reti neurali ricorrenti e ricorsive



CS480/680 Lezione 18: Reti neurali ricorrenti e ricorsive

In questa lezione, il relatore introduce le reti neurali ricorrenti e ricorsive come modelli adatti a dati sequenziali senza una lunghezza fissa. Le reti neurali ricorrenti possono gestire sequenze di qualsiasi lunghezza dovute a determinati nodi con output restituiti come input e il modo in cui viene calcolato l'H ad ogni passo temporale è attraverso l'uso della stessa funzione f, che implica la condivisione del peso. Tuttavia, possono soffrire di limitazioni come il mancato ricordo delle informazioni dai primi input e la deriva delle previsioni. Il docente spiega anche l'architettura della rete neurale ricorrente bidirezionale (BRNN) e il modello codificatore-decodificatore, che utilizza due RNN: un codificatore e un decodificatore, per applicazioni in cui le sequenze di input e output non corrispondono in modo naturale. Inoltre, il docente descrive i vantaggi delle unità Long Short-Term Memory (LSTM), che possono mitigare il problema del gradiente di fuga, facilitare le dipendenze a lungo raggio e consentire o bloccare selettivamente il flusso di informazioni.

Questa conferenza sulle reti neurali ricorrenti e ricorsive copre una vasta gamma di argomenti, tra cui l'uso di unità Long Short-Term Memory (LSTM) e Gated Recurrent Unit (GRU) per prevenire problemi di gradiente, nonché l'importanza dei meccanismi di attenzione nella traduzione automatica per preservare il significato della frase e l'allineamento delle parole. Il docente discute anche di come le reti neurali ricorrenti possono essere generalizzate a reti neurali ricorsive per sequenze, grafici e alberi e come analizzare frasi e produrre incorporamenti di frasi utilizzando alberi di analisi.

  • 00:00:00 In questa sezione del video, il relatore introduce le reti neurali ricorrenti e ricorsive come modelli adatti a dati sequenziali senza una lunghezza fissa. Le reti neurali feed-forward, discusse in precedenza, presuppongono un input di lunghezza fissa, che pone problemi quando si tratta di dati di lunghezza variabile, come dati di serie temporali o traduzione automatica. Le reti neurali ricorrenti, che hanno determinati nodi con output restituiti come input, possono gestire sequenze di qualsiasi lunghezza. L'oratore lo spiega utilizzando un modello e una versione srotolata della rete. Vengono anche discusse le reti neurali ricorsive, che si generalizzano ad alberi o grafici.

  • 00:05:00 In questa sezione, il relatore discute in che modo le reti neurali ricorrenti si connettono attraverso diverse fasi temporali e come vengono addestrate. Per addestrare gli RNN, il relatore spiega che la discesa del gradiente viene utilizzata insieme a una tecnica nota come backpropagation nel tempo, che prevede lo srotolamento della rete nel tempo e la creazione di una rete neurale feed-forward. Il relatore osserva inoltre che il modo in cui viene calcolato l'H ad ogni passo temporale è attraverso l'uso della stessa funzione f, che implica la condivisione del peso. La funzione f riceve input sia dalla H precedente che dalla X corrente e i pesi utilizzati per essa sono gli stessi in ogni fase temporale.

  • 00:10:00 In questa sezione, il docente spiega le reti neurali ricorrenti (RNN) e la condivisione del peso. Gli RNN sono reti che utilizzano ripetutamente la stessa funzione in ogni fase temporale, condividendo gli stessi pesi. Ciò significa che è in atto una certa condivisione del peso, che può rendere diversa la derivazione del gradiente durante la retropropagazione. Il docente menziona anche che H è generalmente un vettore, con F che è una funzione che emette un vettore. Questo effetto crea sfide per l'allenamento, incluso il problema della scomparsa del gradiente e dell'esplosione, in cui la moltiplicazione di fattori inferiori o superiori a uno può portare a un gradiente che svanisce o esplode.

  • 00:15:00 In questa sezione della conferenza, il relatore discute i limiti delle reti neurali ricorrenti (RNN) e come potrebbero non ricordare le informazioni dai primi input. Questo può essere problematico per applicazioni come la traduzione automatica, dove la prima parola è importante tanto quanto l'ultima parola. Tuttavia, per attività come il riconoscimento dell'attività, potrebbe andare bene se l'RNN dimentica le misurazioni del sensore avvenute qualche tempo fa perché le misurazioni recenti sono più importanti. Un altro problema con gli RNN è la deriva delle previsioni, in cui gli errori nelle previsioni si accumulano nel tempo, causando la deriva delle previsioni. L'oratore confronta anche gli RNN con i modelli di Markov nascosti (HMM) e spiega come gli RNN possono essere utilizzati per generalizzare gli HMM.

  • 00:20:00 In questa sezione, il relatore spiega la differenza tra un modello Markov nascosto e una rete neurale ricorrente. In un modello di Markov nascosto, le frecce indicano dipendenze probabilistiche, mentre in una rete neurale ricorrente le frecce indicano dipendenze funzionali. L'oratore introduce gli stati e gli output nascosti in una rete neurale ricorrente e spiega che il grafico corrisponde al calcolo
    essendo fatto. Lo stato nascosto viene calcolato utilizzando una funzione che accetta lo stato nascosto precedente e l'input e l'output viene ottenuto utilizzando un'altra funzione che accetta lo stato nascosto come input. In definitiva, l'obiettivo è utilizzare questo calcolo per calcolare le probabilità o riconoscere le attività.

  • 00:25:00 n questa sezione viene discusso il concetto di utilizzo di reti neurali ricorrenti per emulare un modello di Markov nascosto nel contesto della classificazione, in particolare del riconoscimento dell'attività. L'RNN viene utilizzato per disaccoppiare lo stato nascosto dall'output, il che significa che l'output dipende solo dallo stato nascosto trasformato attraverso una funzione. Un esempio di ciò è mostrato utilizzando una funzione di attivazione non lineare applicata a HT e diversi set di pesi per trasformare l'output. L'algoritmo forward dell'RNN può calcolare y1 in base a X1, y2 in base a X1 e X2 e così via, in modo simile al modello di Markov nascosto, tuttavia, l'RNN ha un problema durante il calcolo di y2, che verrà affrontato più avanti nella lezione.

  • 00:30:00 In questa sezione, il docente discute i limiti dell'architettura di rete neurale ricorrente unidirezionale che consente solo il calcolo in avanti e introduce l'architettura di rete neurale ricorrente bidirezionale (BRNN) come soluzione a questo problema. Il docente disegna un diagramma dell'architettura BRNN, che include stati nascosti avanti e indietro, input e output. Aggregando le informazioni prima e dopo attraverso gli stati nascosti avanti e indietro, l'architettura BRNN consente il calcolo bidirezionale e può calcolare previsioni basate su input in entrambe le direzioni.

  • 00:35:00 In questa sezione del video, il docente discute di come le reti neurali ricorrenti possono essere utilizzate in applicazioni in cui le sequenze di input e output non corrispondono in modo naturale, come la traduzione automatica, la risposta alle domande e gli agenti conversazionali. Per affrontare questi problemi, viene spesso utilizzata un'architettura diversa nota come modello del decodificatore dell'encoder, o modello da sequenza a sequenza. Questa architettura utilizza due RNN: un codificatore e un decodificatore. Il codificatore codifica la sequenza di input in un vettore di contesto, che è un incorporamento dell'input, e il decodificatore utilizza il vettore di contesto per produrre la corrispondente sequenza di output. Questo approccio consente sequenze di input e output di lunghezze diverse e nessuna sincronizzazione tra le parole in input e output.

  • 00:40:00 In questa sezione della lezione, l'istruttore descrive l'architettura di un modello sequenza-sequenza nella traduzione automatica, che utilizza una rete neurale ricorrente per riassumere le frasi di input in un vettore di contesto (C) che funge da vettore la memoria del modello Il vettore di contesto viene utilizzato per decodificare e produrre una sequenza di parole tradotte, con ciascuna parola corrispondente a un output diverso. Il modello utilizza anche gli stati nascosti per tenere traccia dell'avanzamento della traduzione e per garantire che le informazioni del vettore di contesto non vengano dimenticate nel tempo. L'istruttore spiega che è utile alimentare sia il vettore di contesto che il precedente stato nascosto in ogni fase del processo di decodifica per garantire la coerenza della frase tradotta.

  • 00:45:00 In questa sezione del video, il professore discute l'uso della ridondanza nel flusso di informazioni nelle reti neurali. Il vettore utilizzato per codificare le informazioni è tipicamente ad alta dimensione e può avere valori 500-1000, rendendolo ideale per codificare intere frasi. Il video mostra anche esempi di traduzioni ottenute utilizzando un modello che utilizza una rete neurale ricorrente. Il modello è stato addestrato su un ampio corpus di dati ed è stato in grado di eguagliare lo stato dell'arte della traduzione automatica senza bisogno di una conoscenza approfondita della linguistica o delle complessità della traduzione automatica, il che lo rende un progresso significativo. Inoltre, negli anni '90 è stata proposta l'unità Long Short-Term Memory (LSTM) per migliorare le dipendenze a lungo raggio nelle reti neurali.

  • 00:50:00 In questa sezione, il docente discute i vantaggi delle unità di memoria a lungo termine (LSTM), che possono mitigare il problema del gradiente evanescente e facilitare l'apprendimento delle dipendenze a lungo raggio grazie alla loro capacità di ricordare le informazioni per lunghi periodi periodi di tempo. La chiave dell'unità LSTM è l'introduzione di porte, incluse porte di ingresso, dimenticanza e uscita. Queste porte regolano il flusso di informazioni prendendo un valore compreso tra 0 e 1 e moltiplicandolo per l'input, lo stato nascosto o l'output. Il docente inoltre srotola l'architettura della cella LSTM e introduce porte a ciascun collegamento per regolare le connessioni tra di loro. Queste modifiche consentono all'unità LSTM di consentire o bloccare selettivamente il flusso di informazioni e facilitare la memoria a lungo termine in attività come la traduzione automatica.

  • 00:55:00 In questa sezione, il docente spiega la struttura e le variazioni delle unità Long Short-Term Memory (LSTM), un tipo di rete neurale ricorrente. Le unità LSTM sono costruite utilizzando una combinazione di diversi gate che regolano il flusso di informazioni, come input gate, output gate, forget gate e memory gate. Queste porte accettano sia l'attuale X che il precedente stato nascosto come input e emettono un valore compreso tra 0 e 1 che decide se far entrare nuove informazioni o dimenticare quelle vecchie. Il docente menziona anche che le unità LSTM più recenti usano stati di cella invece di stati nascosti per l'archiviazione della memoria e hanno H come output invece di Y. La lezione si conclude descrivendo equazioni specifiche che governano le diverse porte dell'unità LSTM.

  • 01:00:00 In questa sezione, l'istruttore spiega come funzionano le unità di memoria a lungo termine (LSTM) e come sono utili per prevenire problemi di gradiente come gradienti che svaniscono ed esplodono. Viene spiegato che le porte vengono utilizzate per determinare cosa può influenzare lo stato della cella, che trasporta la memoria della rete. L'istruttore osserva inoltre che le unità gated note come Gated Recurrent Unit (GRU) sono state proposte nel 2014 come una versione semplificata delle unità LSTM. Il GRU rimuove una delle porte utilizzate nelle unità LSTM.

  • 01:05:00 In questa sezione, l'oratore introduce l'unità ricorrente gated (GRU), che semplifica l'unità di memoria a lungo termine (LSTM) avendo solo due porte: la porta di ripristino e la porta di aggiornamento. La porta di aggiornamento determina se il nuovo input va nello stato nascosto o conserva ciò che era già in esso. Ciò riduce la complessità dell'unità e la rende più efficiente, con conseguente miglioramento delle prestazioni. Tuttavia, anche con l'uso di GRU, c'è ancora un po' di memoria che viene perturbata ad ogni passo, quindi sono stati sviluppati meccanismi di attenzione, particolarmente utili nella traduzione automatica, per allineare ogni parola di output con alcune parole nella sequenza di input, permettendo al modello di preservare il significato della frase originale e controllare l'allineamento parola per parola.

  • 01:10:00 In questa sezione è stata introdotta l'idea dei vettori di contesto per decodificare una sequenza di parole. Il vettore di contesto si basa su una combinazione ponderata di tutti gli stati nascosti associati a ciascuna fase temporale del processo di codifica. I pesi sono ottenuti attraverso un softmax che produce una maggiore probabilità quando c'è un allineamento tra l'output previsto e una parola di input. L'allineamento viene calcolato utilizzando un prodotto scalare e trasformato in una probabilità attraverso un softmax che consente di calcolare una combinazione ponderata di possibili input. In questo modo, creiamo un vettore di contesto che riassume il contesto che conta per le prossime parole che vogliamo produrre, piuttosto che riassumere l'intera frase.

  • 01:15:00 In questa sezione, il docente discute l'uso dei meccanismi di attenzione nella traduzione automatica. Il meccanismo dell'attenzione comporta l'acquisizione di una combinazione convessa di stati nascosti calcolati in ogni fase temporale, invece di utilizzare solo l'ultimo stato nascosto come vettore di contesto. I pesi utilizzati per la combinazione sono probabilità ottenute da un softmax e vengono utilizzati per calcolare gli allineamenti tra lo stato nascosto precedente e tutti gli input precedenti. Ciò consente al modello di traduzione automatica di allineare i concetti che sta per tradurre con la parte corretta dell'input. L'uso dell'attenzione ha migliorato la traduzione automatica e il docente presenta alcuni risultati ottenuti dagli autori che l'hanno utilizzata nel 2015.

  • 01:20:00 In questa sezione della conferenza, il relatore discute la questione delle frasi lunghe nella traduzione automatica e l'importanza di disporre di un meccanismo che consenta di guardare indietro durante il processo di traduzione. Il ricercatore confronta l'accuratezza di una rete neurale ricorrente con e senza attenzione e misura le differenze di accuratezza utilizzando il punteggio di valutazione bilingue sotto studio (BLEU). La curva superiore, che utilizza l'attenzione, mostra un livello costante di accuratezza anche con l'aumentare della lunghezza della frase. Ciò può essere attribuito al meccanismo di attenzione che consente a tutte le parole nella sequenza di input di influenzare il vettore del contesto per la fase successiva della decodifica, indipendentemente dalla loro posizione.

  • 01:25:00 In questa sezione, il docente discute i limiti delle reti neurali ricorrenti quando si lavora con frasi lunghe e l'importanza dei meccanismi di attenzione per risolvere questo problema. Le reti neurali ricorrenti tendono a sovrascrivere le prime parole con le parole successive, con conseguente degradazione della qualità della traduzione quando si tratta di lunghe sequenze. I meccanismi di attenzione risolvono questo problema concentrandosi su parole specifiche, consentendo alla rete neurale di gestire sequenze più lunghe di lunghezza arbitraria. I meccanismi di attenzione aiutano anche con l'elaborazione di lingue diverse, in cui l'allineamento delle parole non è necessariamente uno a uno. Il docente fornisce esempi di come funzionano i meccanismi di attenzione nella produzione di mappe di traduzione che mostrano l'allineamento delle parole nelle diverse lingue.

  • 01:30:00 In questa sezione, il relatore spiega come le reti neurali ricorrenti possono essere generalizzate a reti neurali ricorsive, che possono essere utilizzate per sequenze, grafici e alberi. La chiave è trasformare gli input e combinarli in modo ricorsivo in modo da produrre un output o un incorporamento che catturi il significato dell'input. Per gestire le diverse lunghezze degli input, il relatore sottolinea l'importanza della condivisione del peso tra le diverse applicazioni delle regole per combinare diversi nodi nel grafico. L'oratore suggerisce anche di utilizzare alberi di analisi o grafici delle dipendenze per costruire un grafico che rifletta la sintassi e possa essere utile nel calcolo e nell'incorporamento.

  • 01:35:00 In questa sezione, il docente discute come analizzare una frase utilizzando alberi di analisi del collegio elettorale e come produrre incorporamenti per intere frasi. L'idea è di inventare parti di tag vocali e combinarli in frasi e alberi di analisi per comprendere la struttura della frase. Associando le regole a ogni trasformazione e condividendo i pesi tra tutte le applicazioni della stessa regola, possiamo produrre incorporamenti più promettenti e coerenti con il modo in cui gli esseri umani comprendono le frasi. Alcuni ricercatori hanno dimostrato che costruendo incastonature in questo modo si possono ottenere ottimi risultati.

  • 01:40:00 In questa sezione del video, l'oratore discute il potenziale per ottenere una migliore incorporazione della frase attraverso l'uso di un albero di analisi corretto. Concludono la serie di diapositive precedente e passano alla successiva.
 

CS480/680 Lezione 20: Codificatori automatici



CS480/680 Lezione 20: Codificatori automatici

Gli autoencoder si riferiscono a una famiglia di reti strettamente correlate ai codificatori-decodificatori, con la differenza che gli autocodificatori prendono un input e producono lo stesso output. Sono importanti per la compressione, il denoising, l'ottenimento di una rappresentazione sparsa e la generazione di dati. Gli autocodificatori lineari ottengono la compressione mappando vettori ad alta dimensione su rappresentazioni più piccole, garantendo al contempo che nessuna informazione venga persa e utilizzano matrici di peso per calcolare una trasformazione lineare dall'input alla rappresentazione compressa e viceversa. Inoltre, i codificatori automatici profondi consentono mappature sofisticate, mentre i codificatori automatici probabilistici producono distribuzioni condizionali sulla rappresentazione e sull'input intermedi, che possono essere utilizzati per la generazione dei dati. L'uso di funzioni non lineari da parte degli autoencoder sfrutta il collettore non lineare, una proiezione su uno spazio dimensionale inferiore che cattura la dimensionalità intrinseca dei dati, portando a una compressione senza perdita dell'input.

  • 00:00:00 In questa sezione della lezione sugli Autoencoder, il presentatore spiega che si tratta di una famiglia di reti strettamente imparentata con gli encoder-decoder, con la differenza che gli Autoencoder prendono un input e producono lo stesso output. Gli autoencoder sono importanti per attività come la compressione, il denoising, l'ottenimento di una rappresentazione sparsa e la generazione di dati. La compressione comporta la mappatura di vettori ad alta dimensione su rappresentazioni più piccole, garantendo al contempo che nessuna informazione venga persa. Per ottenere ciò, l'input viene inviato a un codificatore che produce una rappresentazione più piccola, che viene quindi decodificata nell'input per garantire che la rappresentazione compressa contenga tutte le informazioni dell'input. I codificatori automatici lineari utilizzano matrici di peso per calcolare una trasformazione lineare dall'input alla rappresentazione compressa e viceversa.

  • 00:05:00 In questa sezione, il docente spiega la connessione tra gli autoencoder e l'analisi delle componenti principali (PCA). Osserva che l'uso tipico della PCA è proiettare i dati in un iperpiano dimensionale inferiore preservando la variazione dei dati. Tuttavia, spiega anche che quando si utilizza un codificatore automatico (con mappature lineari) per ridurre al minimo la distanza euclidea, si ottiene la stessa soluzione del PCA, rendendolo uno strumento utile per la riduzione della dimensionalità. Il docente sottolinea che le matrici WF e WG nell'autoencoder sono essenzialmente le inverse (o pseudo inverse) l'una dell'altra poiché WG x WF produce X.

  • 00:10:00 In questa sezione, il docente spiega la bellezza degli autoencoder, ovvero che non si limitano a mappature lineari a differenza di PCA. Invece, gli autocodificatori possono utilizzare funzioni non lineari per trovare la rappresentazione nascosta dei dati, che possono essere proiettati su uno spazio dimensionale inferiore attraverso una varietà non lineare. Questo collettore può catturare la dimensionalità intrinseca dei dati, che può portare a una compressione senza perdita dell'input. Tuttavia, determinare la dimensionalità ottimale di H richiederebbe tecniche specifiche per l'apprendimento della struttura.

  • 00:15:00 In questa sezione, il video introduce i codificatori automatici profondi e le rappresentazioni sparse. Gli autocodificatori profondi hanno più livelli prima di raggiungere il livello nascosto, consentendo mappature sofisticate, mentre le rappresentazioni sparse impongono la struttura alle rappresentazioni intermedie riducendo al minimo il numero di voci diverse da zero nel vettore prodotto da F. Ciò può essere fatto tramite l'ottimizzazione non convessa o utilizzando la regolarizzazione l1 per minimizzare la norma l1 dell'output. Inoltre, il video fornisce un esempio di utilizzo di un codificatore automatico per il denoising inserendo una versione corrotta dell'input e tentando di recuperare il file X.

  • 00:20:00 In questa sezione, il docente descrive gli autocodificatori probabilistici o stocastici, che sono diversi da quelli deterministici perché si concentrano su distribuzioni condizionali. In un codificatore automatico deterministico, il codificatore produce una rappresentazione intermedia che il decodificatore può utilizzare direttamente per ricostruire l'input, mentre un codificatore automatico probabilistico produce distribuzioni condizionali sulla rappresentazione intermedia e sull'input. Progettando una rete neurale con appropriate ultime funzioni di attivazione, l'ultimo strato può essere utilizzato per produrre modelli che possono essere interpretati come distribuzioni. Le unità lineari nel livello di output possono essere utilizzate per codificare distribuzioni condizionali per dati reali, mentre le unità sigmoidee possono funzionare con dati binari. Il docente sottolinea che questi autocodificatori probabilistici consentono la generazione di dati, che è una differenza significativa rispetto a quelli deterministici.

  • 00:25:00 In questa sezione della lezione, il relatore spiega il modello grafico probabilistico di un autoencoder. L'input X è considerato una variabile casuale e l'output X tilde è una versione approssimativa dell'input. H è un'altra variabile casuale che rappresenta il livello nascosto e le frecce indicano le dipendenze condizionali. I pesi sono rappresentati da distribuzioni condizionali e il decodificatore è una distribuzione condizionale. Diverse funzioni di attivazione vengono utilizzate per produrre diversi tipi di output. Il relatore discute anche come calcolare una distribuzione su X basata su una distribuzione su H sia per i vettori binari che per quelli gaussiani.

  • 00:30:00 In questa sezione, il docente spiega come un'architettura come un autoencoder probabilistico può essere utilizzata per generare dati. Con un codificatore automatico deterministico, il decodificatore richiede un po' di incorporamento e genera un punto dati. Tuttavia, avendo una distribuzione, potremmo campionare da una distribuzione sulla rappresentazione intermedia e usarla per generare un punto dati. Ad esempio, se addestriamo l'autocodificatore probabilistico con i volti, potremmo facilmente campionare dalla rappresentazione nascosta e quindi produrre un nuovo volto diverso ma simile a quelli nel set di dati. Campionando dalla distribuzione su immagini, otteniamo un'immagine.

  • 00:35:00 In questa sezione, il relatore discute la generazione di nuove immagini utilizzando autoencoder probabilistici. Il relatore spiega come l'autoencoder può generare nuove immagini mappando i punti dati di input in incorporamenti in uno spazio in cui i punti vicini possono essere decodificati in nuove immagini. Tuttavia, il relatore osserva che per generare immagini veramente nuove, è necessaria una distribuzione che consenta il campionamento di incorporamenti adeguati. La distribuzione utilizzata nell'autoencoder è condizionata dal punto dati di input X, che può portare alla generazione di immagini simili. Per superare questa limitazione, la prossima serie di diapositive discuterà i meccanismi per il campionamento direttamente con una H e la generazione di nuove immagini.
 

CS480/680 Lezione 21: Reti generative (codificatori automatici variazionali e GAN)



CS480/680 Lezione 21: Reti generative (codificatori automatici variazionali e GAN)

Questa lezione si concentra sulle reti generative, che consentono la produzione di dati come output tramite reti come gli autocodificatori variazionali (VAE) e le reti generative avversarie (GAN). I VAE utilizzano un codificatore per mappare i dati dallo spazio originale a un nuovo spazio e quindi un decodificatore per recuperare lo spazio originale. Il docente spiega il concetto alla base dei VAE e le sfide con il calcolo dell'integrale delle distribuzioni necessarie nella formazione. I GAN sono costituiti da due reti - un generatore e un discriminatore - in cui la rete del generatore crea nuovi punti dati e la rete del discriminatore cerca di distinguere tra quelli generati e quelli reali. Vengono discusse le sfide nell'attuazione del GAN, compresa la garanzia di un equilibrio tra i punti di forza delle reti e il raggiungimento della convergenza globale. La conferenza si conclude con esempi di immagini generate e un'anteprima della lezione successiva.

  • 00:00:00 In questa sezione della conferenza, l'attenzione è rivolta alle reti generative e al modo in cui possono essere utilizzate per la generazione di dati. Mentre la classificazione e la regressione sono state le principali tecniche trattate finora nel corso, le reti generative consentono la produzione di dati come output. Ciò è particolarmente utile per la generazione del linguaggio naturale, la sintesi vocale e la generazione di immagini e video. I codificatori automatici variazionali e le reti generative contraddittorie sono tra le reti più popolari attualmente utilizzate per la generazione di dati. Queste reti vengono utilizzate per produrre dati realistici simili a quelli trovati in un set di dati.

  • 00:05:00 In questa sezione, il docente discute l'idea degli autocodificatori probabilistici, dove invece di un codificatore deterministico, abbiamo un codificatore probabilistico che codifica una distribuzione condizionale. Allo stesso modo, anche il decodificatore è una distribuzione condizionale e può essere pensato come un generatore che crea una distribuzione sui dati, rendendo possibile la generazione di nuovi punti dati. Un autocodificatore variazionale viene utilizzato per campionare un vettore nascosto, H, da una distribuzione fissa, una gaussiana con media 0 e varianza 1, e quindi costruire un obiettivo che cerca di rendere la distribuzione del codificatore su H condizionata su X il più vicino possibile a questo distribuzione fissa, garantendo buoni risultati del campione.

  • 00:10:00 In questa sezione, il docente spiega il concetto alla base degli autocodificatori variazionali (VAE). I VAE utilizzano un codificatore per mappare i dati dallo spazio originale a un nuovo spazio e quindi un decodificatore per recuperare lo spazio originale. Il codificatore produce una distribuzione che può essere utilizzata per campionare nuovi punti, che possono essere ricondotti allo spazio originale dal decodificatore. Tuttavia, la distribuzione del codificatore deve essere il più vicino possibile a una distribuzione fissa per garantire che i punti dati generati siano dello stesso tipo dei dati originali. La lezione copre la funzione obiettivo per i VAE e come ottimizzare la rete per raggiungere questo obiettivo.

  • 00:15:00 In questa sezione, il docente discute le sfide con il calcolo dell'integrale della distribuzione del codificatore su H e della distribuzione su X per ogni H. Questo integrale non può essere calcolato in forma chiusa poiché il codificatore e il decodificatore sono complessi reti neurali. Per risolvere questo problema, il docente propone l'uso di un singolo campione per approssimare l'integrale e produrre un H campionando dal codificatore e quindi approssimare la distribuzione risultante dalla distribuzione del decodificatore. L'approssimazione viene effettuata durante l'addestramento e il docente sottolinea che questo è diverso dai normali codificatori automatici in quanto esiste una fase di campionamento che richiede un'attenta considerazione per calcolare ancora un gradiente.

  • 00:20:00 In questa sezione del video, l'oratore spiega il trucco della ridefinizione delle priorità utilizzato nell'addestramento di reti generative come gli autocodificatori variazionali. Le architetture di rete del codificatore e del decodificatore implicano passaggi di campionamento, il che rende difficile il calcolo dei gradienti durante l'ottimizzazione. Per risolvere questo problema, viene introdotta una distribuzione gaussiana fissa per consentire il campionamento di una nuova variabile, H tilde, che viene moltiplicata per l'output del codificatore, H, per ottenere la distribuzione con la media e la varianza ottimali per la variabile latente. L'H trasformato viene quindi utilizzato nella rete di decodifica per generare l'output X tilde ricostruito.

  • 00:25:00 In questa sezione, il relatore spiega un trucco chiamato "riparametrizzazione" che consente alle reti neurali di generare campioni da una distribuzione di dati senza impedire la retropropagazione dei gradienti. Il trucco prevede il campionamento da una distribuzione diversa ma risolvibile (come una gaussiana) e quindi l'utilizzo di alcune operazioni matematiche per trasformare il campione in un campione dalla distribuzione desiderata. In questo modo, il campione è un input per la rete, che consente ai gradienti di attraversarlo durante la retropropagazione. Il relatore spiega quindi come questo trucco viene utilizzato per addestrare una rete generativa e generare nuovi punti dati dalla rete addestrata.

  • 00:30:00 In questa sezione, il relatore discute l'uso della divergenza della libreria di ritorno, una misura della distanza utilizzata per ridurre al minimo la differenza tra una distribuzione fissa e una distribuzione del codificatore nelle reti generative. L'oratore utilizza la gaussiana con varianza unitaria media zero come distribuzione fissa e ha addestrato il codificatore a produrre una distribuzione vicina ad essa. Utilizzando il termine di regolarizzazione, il decodificatore può generare un punto dati simile a quello che si trova nel training set, che in questo caso sono immagini di volti. Vengono mostrati esempi di immagini generate da un autoencoder variazionale, che sono leggermente sfocate a causa della natura probabilistica dell'autoencoder. L'oratore introduce quindi le reti generative avversarie (GAN), che utilizzano due reti - un generatore e un discriminatore - per produrre immagini più nitide e realistiche che non sono costruite probabilisticamente.

  • 00:35:00 In questa sezione, il docente spiega come funzionano i Generative Adversarial Network (GAN). I GAN sono costituiti da due reti: una rete di generatori e una rete di discriminatori. La rete del generatore crea nuovi punti dati, mentre la rete del discriminatore cerca di distinguere tra i punti dati generati e quelli reali. Il discriminatore funge da tutor fornendo feedback al generatore, aiutandolo a generare punti dati più realistici. L'addestramento viene effettuato ottimizzando una funzione obiettivo, in cui la rete del discriminatore cerca di massimizzare la probabilità di riconoscere punti dati reali e falsi, mentre la rete del generatore cerca di minimizzare queste probabilità e ingannare il discriminatore. La funzione obiettivo può essere riscritta come la probabilità che un punto dati sia falso.

  • 00:40:00 In questa sezione, l'istruttore spiega l'architettura dei Generative Adversarial Networks (GAN) che consistono in un generatore e un discriminatore. Il generatore prende un vettore campione e produce dati simulati mentre il discriminatore è un classificatore che prende sia i dati reali che quelli generati per classificarli come reali o falsi. L'obiettivo GAN è ottimizzare queste due reti utilizzando la backpropagation con diversi set di pesi per il generatore (WG) e il discriminatore (WD). L'istruttore prosegue spiegando che i pesi vengono aggiornati procedendo nella direzione del gradiente per ridurre al minimo l'obiettivo GAN.

  • 00:45:00 In questa sezione, il relatore discute un algoritmo per addestrare una rete contraddittoria generativa. L'algoritmo prevede un ciclo esterno in cui i pesi sono ottimizzati per il discriminatore e quindi vengono eseguiti K passaggi per ottimizzare l'obiettivo. Successivamente, viene eseguito un singolo passaggio per ottimizzare il generatore. L'obiettivo è che il generatore apprenda la distribuzione utilizzata per generare il training set in modo che possa produrre dati reali indistinguibili dall'ambiente reale. In caso di successo, il discriminatore avrà un tasso di errore del 50% e sarà impossibile stabilire se un punto dati è reale o falso.

  • 00:50:00 In questa sezione del video, il docente discute le sfide che sorgono nell'implementazione di Generative Adversarial Networks (GAN), un approccio alla modellazione generativa che utilizza due reti chiamate generatore e discriminatore che lavorano in un ambiente contraddittorio per generare nuovi dati. Una questione chiave è garantire un equilibrio tra i punti di forza di entrambe le reti, poiché una potrebbe dominare l'altra. Un'altra difficoltà è raggiungere la convergenza globale durante l'ottimizzazione poiché l'ottimizzazione non convessa può portare a ottimi locali che non sono ottimali. Nonostante queste sfide, alcuni aspetti dei GAN funzionano bene nella pratica, poiché le immagini generate di cifre e volti assomigliano a punti dati reali nel loro set di addestramento, anche se potrebbe essere ancora necessaria una messa a punto.

  • 00:55:00 In questa sezione del video, il relatore parla delle reti generative avversarie (GAN) e di come possono generare volti simili ma diversi. Fornisce esempi di immagini generate, tra cui un cavallo, un cane e un'immagine sfocata. Il relatore afferma inoltre che la prossima lezione tratterà un argomento diverso nell'apprendimento automatico.
 

CS480/680 Lezione 22: Ensemble learning (bagging and boosting)



CS480/680 Lezione 22: Ensemble learning (bagging and boosting)

La conferenza discute l'apprendimento d'insieme, in cui più algoritmi si combinano per migliorare i risultati dell'apprendimento. Le due principali tecniche esaminate sono il bagging e il boosting, e il relatore sottolinea l'importanza di combinare le ipotesi per ottenere un'ipotesi più ricca. La conferenza analizza il processo di votazione a maggioranza ponderata e la sua probabilità di errore, nonché il modo in cui il potenziamento funziona per migliorare l'accuratezza della classificazione. Il relatore copre anche i vantaggi del potenziamento e dell'apprendimento d'insieme, rilevando l'applicabilità dell'apprendimento d'insieme a molti tipi di problemi. Infine, il video segue l'esempio della sfida Netflix per dimostrare l'uso dell'apprendimento d'insieme nelle competizioni di data science.

In questa conferenza sull'apprendimento d'insieme, il relatore sottolinea l'importanza di combinare ipotesi tratte da modelli diversi per ottenere un aumento dell'accuratezza, un approccio che può essere particolarmente utile quando si parte da soluzioni già abbastanza buone. Discute l'importanza di prendere una combinazione ponderata di previsioni, osservando che bisogna fare attenzione poiché la media di due ipotesi a volte potrebbe essere peggiore delle singole ipotesi da sole. Il relatore spiega inoltre che potrebbe essere necessaria la normalizzazione dei pesi, a seconda che l'attività sia di classificazione o di regressione.

  • 00:00:00 Viene introdotta l'importanza dell'apprendimento d'insieme, che è il processo di combinazione di più algoritmi e ipotesi per migliorare i risultati dell'apprendimento. La lezione discute le tecniche di bagging e boosting e sottolinea la difficoltà di determinare quale singolo algoritmo sia più adatto per un problema specifico. Spesso è una questione di tentativi ed errori, ma la combinazione di ipotesi imperfette può portare a un risultato complessivo migliore, simile a come le elezioni combinano le scelte degli elettori oi comitati combinano le opinioni degli esperti. Combinando più algoritmi, l'obiettivo è ottenere una previsione o una classificazione più solida e accurata.

  • 00:05:00 Il docente discute l'apprendimento d'insieme e come può essere utilizzato per migliorare l'accuratezza dei modelli di apprendimento automatico. L'apprendimento d'insieme implica la combinazione di più ipotesi imperfette per ottenere un'ipotesi più ricca che è potenzialmente migliore. La conferenza menziona due metodi di apprendimento d'insieme: il bagging e il boosting. La tecnica del bagging consiste nel prendere un sacco di ipotesi prodotte da diversi algoritmi e combinarle attraverso il voto, mentre il boosting comporta la regolazione dei pesi delle ipotesi per dare più peso a quelle che funzionano bene. Il docente spiega come queste tecniche vengono utilizzate per generalizzare i separatori lineari per ottenere contorni non lineari e fornisce un esempio di politopo.

  • 00:10:00 Viene introdotto il concetto di votazione a maggioranza per la classificazione, in cui più ipotesi fanno previsioni e viene scelta la classe che ottiene il maggior numero di voti. Maggiore è il numero di ipotesi, più improbabile è che la maggioranza sia errata. Quando le ipotesi sono indipendenti, il voto a maggioranza diventa più robusto. Viene introdotta un'equazione matematica per calcolare la probabilità che la maggioranza commetta un errore in base al numero di ipotesi e alla probabilità di errore. Viene fornito un esempio in cui cinque ipotesi che commettono errori del 10% forniscono una probabilità inferiore all'1% che il voto di maggioranza sia errato, dimostrando la solidità del metodo di voto di maggioranza.

  • 00:15:00 Il video discute i limiti delle tecniche di apprendimento di base dell'insieme, come l'assunzione di ipotesi indipendenti. Per affrontare queste limitazioni, è possibile utilizzare un voto a maggioranza ponderata per correggere le correlazioni e assegnare pesi più elevati a ipotesi migliori. Questa tecnica è nota come potenziamento e viene eseguita utilizzando uno studente di base che produce classificatori, che vengono poi raggruppati per ottenere una maggiore precisione. Il framework di potenziamento è stato in grado di superare la convinzione che i cattivi algoritmi dovrebbero essere abbandonati a favore della progettazione di migliori combinando le loro ipotesi per migliorare l'accuratezza complessiva.

  • 00:20:00 Il docente discute il concetto di potenziamento nell'apprendimento d'insieme, che implica l'utilizzo di uno studente di base per produrre ipotesi e quindi perturbare i pesi del training set per ottenere un'ipotesi diversa. Aumentando i pesi delle istanze classificate in modo errato, c'è una migliore possibilità di ottenere un'ipotesi più accurata. Il docente spiega che le tecniche di apprendimento supervisionato possono essere adattate per funzionare con un set di allenamento ponderato, e questo può essere fatto semplicemente cambiando l'obiettivo e introducendo un peso per ogni punto dati. Questo metodo consente la creazione di una combinazione ponderata della funzione di perdita di ogni punto dati.

  • 00:25:00 Il docente spiega il concetto di potenziamento nell'apprendimento d'insieme. Il potenziamento implica l'apprendimento con un set di training ponderato in cui le istanze con pesi elevati sono orientate verso una corretta classificazione. Il framework di potenziamento include un ciclo in cui un'ipotesi viene appresa ripetutamente dal set di dati con i pesi corrispondenti, le istanze vengono controllate per errori di classificazione e i loro pesi vengono aumentati e, alla fine, l'ipotesi nel campione è una maggioranza ponderata delle ipotesi generate utilizzando i pesi proporzionali alla loro accuratezza. Esistono due tipi di pesi, quelli per i dati e quelli per le ipotesi. Il docente sottolinea che l'idea è quella di migliorare l'accuratezza della classificazione e che qualsiasi algoritmo che funzioni con set di dati ponderati può essere utilizzato come base di apprendimento per il potenziamento.

  • 00:30:00 Il relatore discute il concetto di aumentare i pesi dei punti dati classificati in modo errato negli algoritmi di potenziamento. Spiegano che ciò ha l'effetto di diminuire implicitamente i pesi dei punti dati correttamente classificati, ma è la grandezza relativa dei pesi che conta. L'algoritmo quindi riduce al minimo la perdita e cerca di classificare correttamente per evitare di pagare un prezzo più elevato per l'errata classificazione. Il relatore osserva inoltre che se il set di allenamento non segue la stessa distribuzione del set di test, i pesi possono essere utilizzati per perturbare la distribuzione. Tuttavia, il potenziamento in genere non viene utilizzato per questo scopo, poiché l'aumento del peso delle ipotesi imperfette può prevenire l'overfitting e migliorare la generalizzazione.

  • 00:35:00 L'istruttore spiega il funzionamento dell'algoritmo di potenziamento adattivo con un esempio visivo di generazione di più ipotesi utilizzando un semplice set di dati. Utilizzando i voti a maggioranza ponderata, l'algoritmo assegna pesi proporzionali all'accuratezza di ciascuna ipotesi e questi vengono utilizzati per calcolare una combinazione ponderata delle ipotesi con le migliori prestazioni. L'insieme formato da questa combinazione viene quindi utilizzato per fare previsioni.

  • 00:40:00 Il docente spiega il concetto di combinazione di più ipotesi per prevenire l'overfitting. Sostengono che anche se abbiamo un'ipotesi perfetta, è comunque meglio combinare più ipotesi per evitare l'overfitting. Il docente osserva che una rete neurale profonda può portare a una precisione perfetta sul set di formazione, ma non è semplice e veloce, che è ciò che vogliamo in uno studente di base utilizzato in combinazione con l'apprendimento d'insieme. Il docente descrive anche l'algoritmo Adaboost e come funziona per assegnare pesi a ipotesi e istanze di dati.

  • 00:45:00 Il relatore spiega la teoria alla base del potenziamento e i suoi vantaggi. Il potenziamento funziona bene con gli studenti deboli, che sono algoritmi che producono ipotesi valide almeno quanto un classificatore casuale. L'obiettivo è quello di migliorare la precisione e le prestazioni. Il relatore spiega come calcolare i pesi per le istanze e le ipotesi dei dati e come normalizzarli. Il potenziamento tende ad essere robusto per l'overfitting ed è semplice da implementare, rendendolo applicabile a molti problemi. Inoltre, il potenziamento genera più ipotesi, non solo una, il che porta a una migliore precisione.

  • 00:50:00 Apprendiamo il potenziamento e l'apprendimento dell'insieme, che è una tecnica utilizzata per combinare le previsioni di più modelli. Il potenziamento è un metodo per generare più ipotesi con pesi diversi, combinarle tutte e selezionare la migliore. Come approssimazione all'apprendimento bayesiano, è un modo trattabile di generare un'ipotesi alla volta pur essendo selettivo nel combinare più ipotesi per la generalizzazione. Boosting ha diverse applicazioni industriali, tra cui il Kinect prodotto da Microsoft e la sfida Netflix, dove è stato utilizzato per migliorare il loro sistema di raccomandazione del 10%. Il potenziamento è generalmente molto utile per combinare le previsioni degli esperti, a differenza di altre euristiche, che potrebbero non funzionare sempre e venire senza alcuna teoria.

  • 00:55:00 Il relatore discute le origini di Kaggle e come hanno iniziato a organizzare gare di data science. Risale al 2006 quando Netflix lanciò un concorso per migliorare la precisione del 10%. Il primo team, Bellcore, ha ottenuto un miglioramento dell'8,43% ma non ha raggiunto la soglia. Il relatore descrive quindi come, nel corso degli anni, i team hanno iniziato a collaborare, utilizzando l'apprendimento d'insieme e come si è formato il team del gran premio. I team hanno unito le forze per condividere un milione di dollari del primo premio, proporzionale al miglioramento del punteggio del team a cui ogni algoritmo contribuisce. Il team del primo premio è riuscito ad arrivare al 9,46% formando un grande esempio di molti ricercatori e l'ultimo giorno Bellcore, pragmatico e caos si sono presentati, vincendo il premio.

  • 01:00:00 Il relatore discute l'importanza e il valore dell'apprendimento d'insieme, in particolare nel contesto delle competizioni vincenti. Usa l'esempio del team Pragmatic Chaos di BellKor che ha vinto il Premio Netflix utilizzando tecniche di apprendimento d'insieme per migliorare la loro precisione di alcuni punti percentuali. Osserva che l'apprendimento d'insieme è particolarmente utile quando si inizia con soluzioni già abbastanza buone piuttosto che con studenti deboli e che combinando ipotesi da modelli diversi, è possibile ottenere un aumento dell'accuratezza. Inoltre, afferma che l'apprendimento d'insieme si presta bene al calcolo distribuito e può essere ottenuto attraverso più macchine o core.

  • 01:05:00 L'istruttore spiega il concetto di prendere una combinazione ponderata di previsioni piuttosto che ipotesi per evitare di incorrere in un costo maggiore. L'idea è che ogni ipotesi farà una previsione e quelle previsioni saranno combinate in base ai pesi. Tuttavia, è necessario prestare attenzione quando si combinano le ipotesi poiché a volte la media di due ipotesi potrebbe effettivamente essere peggiore delle singole ipotesi prese singolarmente. L'istruttore menziona anche che potrebbe essere necessario normalizzare i pesi a seconda che l'attività sia classificazione o regressione.
 

CS480/680 Lezione 23: Normalizzazione dei flussi (Priyank Jaini)



CS480/680 Lezione 23: Normalizzazione dei flussi (Priyank Jaini)

In questa conferenza, Priyank Jaini discute la normalizzazione dei flussi come metodo per la stima della densità e introduce come differiscono da altri modelli generativi, come GAN e VAE. Jaini spiega il concetto di conservazione della massa di probabilità e come viene utilizzato per derivare la formula del cambiamento delle variabili nella normalizzazione dei flussi. Spiega inoltre il processo di costruzione della struttura triangolare nella normalizzazione dei flussi utilizzando famiglie di trasformazioni e il concetto di matrici di permutazione. Jaini introduce anche il concetto di flussi di somma dei quadrati (SOS), che utilizzano polinomi di ordine superiore e possono catturare qualsiasi densità target, rendendoli universali. Infine, Jaini discute lo spazio latente ei suoi vantaggi nei metodi basati sul flusso per la generazione di immagini e chiede al pubblico di riflettere sui potenziali svantaggi dei modelli basati sul flusso.

In questa conferenza sulla normalizzazione dei flussi di Priyank Jaini, discute le sfide di catturare trasformazioni ad alta dimensione con un gran numero di parametri. La normalizzazione dei flussi richiede che entrambe le dimensioni siano le stesse per ottenere una rappresentazione esatta, a differenza dei GAN che utilizzano i colli di bottiglia per superare tali problemi. Jaini sottolinea che l'apprendimento dei parametri associati con set di dati ad alta dimensione negli esperimenti di normalizzazione dei flussi può essere difficile. Affronta anche domande su come la normalizzazione dei flussi può catturare distribuzioni multimodali e offre un codice per implementare trasformazioni affini lineari.

  • 00:00:00 Lo studente di dottorato Priyank Jaini discute la normalizzazione dei flussi come una famiglia di modelli generativi profondi per risolvere il problema della stima della densità, che costituisce un problema centrale nell'apprendimento non supervisionato. Jaini spiega che la stima della densità ha una vasta gamma di applicazioni nell'apprendimento automatico, come il campionamento importante, l'inferenza bayesiana e la sintesi di immagini. Jaini fornisce anche una breve introduzione su come i flussi di normalizzazione sono diversi dagli autocodificatori variazionali (VAE) e dalle reti generative avversarie (GAN), che sono stati discussi nelle lezioni precedenti. Propone che la normalizzazione dei flussi sia utile per i modelli generativi condizionali e possa essere utilizzata per la stima della densità.

  • 00:05:00 Il relatore discute il framework per i modelli generativi, tra cui Generative Adversarial Networks (GAN) e Variational Autoencoders (VAEs), e introduce la normalizzazione dei flussi come approccio alternativo. Sia GAN che VAE utilizzano una distribuzione di origine e una trasformazione per generare esempi sintetici o ricostruire dati, ma rappresentano le funzioni di densità in modo implicito piuttosto che esplicito. Al contrario, i flussi normalizzanti forniscono una rappresentazione esplicita delle funzioni di densità e lavorano sul principio di conservazione della massa di probabilità. L'obiettivo è apprendere una trasformazione che trasformi una distribuzione sorgente semplice (ad es. gaussiana) in una distribuzione target più complicata per approssimare la vera distribuzione dei dati.

  • 00:10:00 Priyank Jaini introduce il concetto di conservazione della massa di probabilità e come viene utilizzato per derivare la formula del cambio di variabili. Fornisce un esempio di una variabile casuale nell'intervallo 0-1 e applica la funzione T di Z, che risulta in una variabile casuale uniforme con densità di probabilità 1/3. Spiega che la formula del cambio di variabili viene utilizzata per trovare la densità di una variabile casuale target X in termini della variabile casuale sorgente Z e della funzione T. Estende la formula al caso multivariato, dove la funzione T viene appresa da Rd a Rd, e la formula diventa QX = PZ moltiplicato per il determinante del gradiente di T moltiplicato per l'inverso.

  • 00:15:00 Il relatore spiega il concetto di normalizzazione dei flussi, che implica l'apprendimento di una funzione che associa un dato vettore di input, X, a un altro vettore, Z. La funzione, indicata come D, è composta da funzioni univariate, da T1 a TD , che accettano le componenti di X e generano le componenti di Z. L'obiettivo è approssimare la densità del set di dati di input, QX, utilizzando una semplice densità di origine PZ e massimizzando la probabilità dei punti dati utilizzando il cambiamento di variabili formula. Tuttavia, sorgono alcuni problemi, inclusa la funzione D che deve essere invertibile e biiettiva.

  • 00:20:00 Il docente discute come calcolare lo spazio latente dati solo i dati osservati. Per fare ciò, è necessaria la funzione inversa della funzione di mappatura. Tuttavia, calcolare il determinante in pratica è costoso, quindi il docente ha introdotto il concetto di mappe triangolari, dove il calcolo del determinante è facile. La conferenza spiega poi che la normalizzazione della ricerca sul flusso si concentra principalmente sulla costruzione di queste trasformazioni che sono triangolari, in modo da poter effettuare la stima della densità e su come queste trasformazioni possono essere utilizzate in diversi flussi di normalizzazione.

  • 00:25:00 Il docente spiega il processo di costruzione di una struttura triangolare per normalizzare i flussi. La struttura comporta la scelta di una densità semplice, P(Z), per approssimare una data densità, Q(X). La densità P(Z) può essere qualsiasi distribuzione di probabilità, come una distribuzione normale o uniforme. Inizialmente, viene utilizzata una trasformazione t1 per ottenere X1 dall'insieme 1. Quindi, man mano che le iterazioni continuano, la trasformazione t2 prende le schede in 1 e Z2 come input, fornendo X2. Il processo continua fino a quando TD prende Z1, Z2, ..., fino a ZD come input e fornisce XT come output. L'obiettivo è massimizzare la verosimiglianza ottimizzando una verosimiglianza logaritmica negativa, che comporta la ricerca della somma del logaritmo degli elementi diagonali della matrice. Il docente fornisce esempi di famiglie di trasformazioni utilizzabili per costruire la struttura triangolare e spiega come la densità articolare può essere scritta come prodotto delle distribuzioni marginali e condizionali.

  • 00:30:00 Il docente discute il concetto di normalizzazione dei flussi. Le distribuzioni normali sono condizionate dai dati e sono funzioni dei dati. Viene appresa una trasformazione dalla gaussiana standard a questa distribuzione normale. La trasformazione viene eseguita in modo iterativo e la funzione risultante è triangolare. Impilando queste trasformazioni, si forma un flusso auto-regressivo della maschera, consentendo una trasformazione più complessa con più variabili casuali. Il determinante di ogni trasformazione e la trasformazione finale possono essere facilmente calcolati prendendo lo Jacobiano e l'inverso. I parametri che definiscono la trasformazione vengono addestrati riducendo al minimo una probabilità logaritmica.

  • 00:35:00 Il presentatore spiega come utilizzare una matrice di permutazione per modificare l'ordinamento delle variabili casuali e interrompere le correlazioni per creare una trasformazione più complessa nella stima della densità. Impilando più trasformazioni, la complessità della trasformazione aumenta, consentendo la capacità di catturare qualsiasi densità nella vita reale, anche se non segue una bella forma. Tuttavia, una volta applicata la permutazione, la trasformazione non è più triangolare, il che rende computazionalmente costoso prendere lo Jacobiano. Il metodo di utilizzo di una matrice di permutazione consente di risparmiare tempo e approssima la trasformazione completa.

  • 00:40:00 Il relatore discute i vari metodi di trasformazione utilizzati nella normalizzazione dei flussi. Spiega che Real NVP è un metodo di trasformazione lineare che divide l'input in due parti, applica una trasformazione lineare a una parte e lascia invariata l'altra parte. Quindi impilano più strati di questo per costruire trasformazioni più complicate. L'oratore menziona anche che i flussi autoregressivi neurali utilizzano reti neurali profonde invece di trasformazioni lineari e sono universali. Inoltre, parla del suo articolo che propone l'uso della somma dei quadrati dei polinomi invece delle trasformazioni lineari o delle reti neurali. Questo metodo utilizza polinomi di alto grado con coefficienti che provengono da un'altra rete neurale ed è anche universale.

  • 00:45:00 Il docente discute le proprietà dei flussi di somma dei quadrati (SOS), che sono una generalizzazione della somma dei quadrati dei polinomi precedentemente esplorata in informatica e ottimizzazione. A differenza di altri metodi, i flussi SOS utilizzano polinomi di ordine superiore che possono controllare momenti di ordine superiore della distribuzione target, come la curtosi e l'asimmetria, senza alcun vincolo sul coefficiente. I flussi SOS sono più facili da addestrare e possono catturare qualsiasi densità di target, rendendoli universali, con applicazioni nella simulazione stocastica. Il docente introduce anche un'architettura chiamata "Glow" che utilizza convoluzioni invertibili di un crossman e strati di accoppiamento affine per produrre immagini che possono interpolare i volti a una versione precedente.

  • 00:50:00 Priyank Jaini spiega l'architettura dei flussi di normalizzazione e come possono essere utilizzati per la generazione di immagini. L'algoritmo funziona utilizzando uno strato di accoppiamento affine con espressioni multiple e una matrice di rotazione casuale, W. Fissano il determinante della matrice utilizzando una decomposizione LU. Usando questo, possono interpolare tra immagini di anziani e giovani trasformando un'immagine di input in una rappresentazione latente, quindi spostandosi in una direzione specifica all'interno dello spazio latente per ottenere il risultato desiderato. I risultati mostrano che le immagini generate sono nitide, contraddicendo le ipotesi precedenti secondo cui le immagini generate con probabilità logaritmica sarebbero sfocate.

  • 00:55:00 Il docente discute il concetto di spazio latente, che cattura determinate proprietà dell'input ed è una distribuzione nascosta utilizzata nei metodi basati sul flusso per la generazione di immagini. Il docente fornisce un esempio di interpolazione lineare utilizzando lo spazio latente per creare un'immagine di una persona che invecchia. Il docente sottolinea inoltre i vantaggi della normalizzazione dei modelli di flusso, come la loro rappresentazione esplicita delle densità e l'uso di trasformazioni triangolari efficienti per catturare il determinante Jacobiano. Tuttavia, il docente pone anche una domanda al pubblico in merito ai potenziali svantaggi dei metodi basati sul flusso, uno dei quali è la complessità del calcolo.

  • 01:00:00 Il docente discute le sfide dell'acquisizione di trasformazioni ad alta dimensione con un gran numero di parametri nella normalizzazione dei flussi. Mentre i GAN utilizzano un collo di bottiglia per superare questo problema, la normalizzazione dei flussi richiede che entrambe le dimensioni siano le stesse per ottenere la rappresentazione esatta. Il docente sottolinea che le dimensioni dei set di dati utilizzati negli esperimenti di normalizzazione dei flussi sono elevate e ciò rende difficile l'apprendimento dei parametri associati. Il docente risponde anche a domande su come la normalizzazione dei flussi può catturare distribuzioni multimodali e su come l'allenamento sui pesi delle reti neurali si allena implicitamente sui parametri di rete.

  • 01:05:00 Priyank Jaini spiega di aver fornito circa un centinaio di righe di codice per implementare trasformazioni affini lineari, che ha appreso da un tutorial di Eric Jack. Afferma che è un processo semplice addestrare queste reti e offre il codice a coloro che sono interessati.
 

CS480/680 Lezione 24: Gradient boosting, bagging, decision forest



CS480/680 Lezione 24: Gradient boosting, bagging, decision forest

Questa lezione tratta il gradient boosting, il bagging e le foreste decisionali nell'apprendimento automatico. Il potenziamento del gradiente implica l'aggiunta di nuovi predittori basati sul gradiente negativo della funzione di perdita al predittore precedente, portando a una maggiore precisione nelle attività di regressione. La conferenza esplora anche come prevenire l'overfitting e ottimizzare le prestazioni utilizzando la regolarizzazione e l'interruzione anticipata dei processi di formazione. Inoltre, la lezione copre il bagging, che prevede il sottocampionamento e la combinazione di diversi studenti di base per ottenere una previsione finale. Viene anche discusso l'uso di alberi decisionali come studenti di base e la creazione di foreste casuali e viene fornito un esempio reale di Microsoft Kinect che utilizza foreste casuali per il riconoscimento del movimento. Vengono discussi i vantaggi dei metodi di ensemble per il calcolo parallelo e viene sottolineata l'importanza di comprendere gli aggiornamenti del peso nei sistemi di apprendimento automatico. Questa conferenza copre i potenziali problemi con la media dei pesi nella combinazione di predittori all'interno di reti neurali o modelli di Markov nascosti, raccomandando invece la combinazione di previsioni attraverso un voto di maggioranza o un metodo di media. Il professore suggerisce anche vari corsi correlati disponibili presso l'Università di Waterloo, diversi corsi di laurea in ottimizzazione e algebra lineare e un programma universitario di scienza dei dati incentrato su intelligenza artificiale, apprendimento automatico, sistemi di dati, statistica e argomenti di ottimizzazione. La conferenza sottolinea l'importanza degli approcci algoritmici rispetto alla sovrapposizione con la statistica e la specializzazione in argomenti di scienza dei dati rispetto alle lauree in informatica generale.

  • 00:00:00 L'istruttore parla del potenziamento del gradiente. Afferma che l'algoritmo adaboost è eccellente per la classificazione, ma non per la regressione. Introduce il potenziamento del gradiente, in cui viene calcolato il gradiente negativo della funzione di perdita e il successivo predittore si adatta a questo gradiente. Questo è un po' controintuitivo in quanto non adatta il predittore all'output desiderato, ma piuttosto al gradiente negativo. Questo emulerà un gradino di discesa del gradiente e, applicandolo ripetutamente, il predittore finale sarà la somma di tutti i predittori. Questo metodo è particolarmente utile per la regressione. L'istruttore spiega che questo algoritmo può essere utilizzato con un'ampia gamma di funzioni di perdita ed è una soluzione per aumentare la regressione.

  • 00:05:00 Viene spiegato il concetto di aumento del gradiente, in cui in ogni fase dell'algoritmo, un predittore con una funzione di perdita accompagna la differenza tra l'obiettivo e il valore previsto. Il gradiente negativo viene quindi utilizzato per approssimare i residui e il successivo predittore viene addestrato per il set di dati residuo. L'obiettivo è ridurre l'errore aggiungendo questo nuovo predittore a quello precedente. Viene quindi fornito lo pseudocodice dell'algoritmo, dove inizialmente il primo predittore viene impostato come costante riducendo al minimo le perdite per ogni punto dati.

  • 00:10:00 Il professore spiega il potenziamento del gradiente, un concetto potente nell'apprendimento automatico che combina diversi studenti deboli in un unico studente forte. L'idea è di iniziare con un semplice predittore che è solo una costante e quindi calcolare un nuovo predittore ad ogni iterazione calcolando uno pseudo residuo per ogni punto dati, formando un nuovo set di dati residuo, addestrando un nuovo studente di base rispetto a quei dati impostato e aggiungendo la nuova ipotesi moltiplicata per una certa lunghezza del passo al predittore. La lunghezza del passo viene selezionata minimizzando un'espressione di ottimizzazione per fare un passo nella direzione del gradiente negativo per ridurre l'errore. L'aggiornamento del peso avviene quando viene calcolato il gradiente negativo, ma non è di per sé un aggiornamento del peso.

  • 00:15:00 Il relatore spiega il processo di aggiornamento del peso durante la fase di addestramento di uno studente di base, che potrebbe essere una rete neurale, un albero decisionale o qualsiasi altro tipo di regressore. Chiariscono che quando si ottimizza il predittore, non vi è alcun aggiornamento dei pesi, poiché tutte le funzioni, ad esempio FK-1, HK ed Etha k, sono già ottimizzate e impostate su pesi fissi. La combinazione delle previsioni di queste funzioni porta a un predittore che migliora gradualmente ad ogni passaggio, portando a una funzione di perdita inferiore. Tuttavia, il processo potrebbe non portare a una perdita pari a zero nel lungo periodo.

  • 00:20:00 L'istruttore discute la possibilità di ridurre gradualmente l'errore con l'aumento del gradiente, ma osserva che ciò potrebbe portare a un overfitting, a seconda dello spazio dei predittori e della quantità di rumore presente nei dati. L'algoritmo prevede l'aggiunta di più ipotesi insieme per creare un campione più ampio senza modificare i pesi. L'istruttore pone una domanda alla classe sul rischio di overfitting con il gradient boosting e conclude che esiste un rischio di overfitting, ma è possibile prevenire questo evento utilizzando tecniche come la regolarizzazione o l'interruzione anticipata.

  • 00:25:00 Il docente discute i modi per ridurre l'overfitting, inclusa l'introduzione della randomizzazione e l'interruzione anticipata del processo di addestramento utilizzando un set di convalida. La conferenza introduce quindi la tecnica del gradient boosting e menziona il popolare pacchetto, XG boost, che è stato ottimizzato per prestazioni e precisione. Il docente delinea anche le principali differenze tra bagging e boosting, incluso l'uso di ipotesi indipendenti e un voto di maggioranza nel bagging rispetto alla creazione sequenziale di ipotesi e la loro combinazione nel boosting.

  • 00:30:00 Il relatore discute le tecniche di potenziamento e insaccamento nell'apprendimento automatico. Il potenziamento implica previsioni ponderate, che consentono alcune ipotesi e ipotesi correlate con una precisione squilibrata. Il potenziamento è flessibile e può determinare i pesi di diverse ipotesi per contrastare il problema della correlazione. Al contrario, il bagging implica il campionamento bootstrap, che comporta la formazione di uno studente di base su un sottoinsieme di dati per ridurre la correlazione tra ipotesi. Il relatore indica che queste tecniche offrono un modo pratico per progettare una configurazione in cui le ipotesi riguardanti l'indipendenza dell'ipotesi possono valere o approssimativamente valere, riducendo le restrizioni arbitrarie e rendendo il modello più affidabile.

  • 00:35:00 Il relatore discute l'idea di ottenere un predittore semplice che sia migliore di quello casuale nel paradigma dell'apprendimento nel campione sottocampionando le caratteristiche per ridurre la correlazione. Sottocampionando sia i punti dati che le caratteristiche, si ottiene un set di dati più piccolo, che viene fornito allo studente di base e il processo viene ripetuto per ciascun predittore. Le ipotesi risultanti sono meno correlate, il che rende il bagging un'opzione migliore. L'algoritmo di bagging consiste in un ciclo in cui vengono creati K predittori e, per ogni predittore, i dati vengono sottocampionati e lo studente di base produce ipotesi diverse a seconda della sovrapposizione.

  • 00:40:00 Apprendiamo il bagging, che è una tecnica che funziona estraendo più campioni casuali dai dati di addestramento per costruire più modelli. L'idea è di generare un'ipotesi da ciascuno degli studenti di base e poi combinarli per fare una previsione finale. Se l'obiettivo è la classificazione, la previsione viene effettuata prendendo il voto di maggioranza, mentre per la regressione, la decisione viene presa prendendo la media della previsione. La pratica popolare in letteratura consiste nell'utilizzare un albero decisionale come base di apprendimento e, una volta addestrati più alberi decisionali su vari sottoinsiemi di dati, li chiamiamo foresta casuale. Le foreste casuali possono essere utilizzate anche per il calcolo distribuito. Viene fornito l'esempio reale di Microsoft Kinect che utilizza una foresta casuale per il riconoscimento della postura e del movimento.

  • 00:45:00 Il video discute il Kinect e come produce una mappa di profondità proiettando una nuvola di punti nello spettro infrarosso e utilizzando una telecamera a infrarossi per percepire i punti. Microsoft ha integrato alcuni hardware per consentire l'inferenza in tempo reale delle informazioni sulla profondità in base alla distribuzione dei punti. Il Kinect ha la capacità di etichettare i pixel per identificare parti del corpo e movimenti con un approccio forestale casuale, dove i pixel adiacenti vengono confrontati con il valore di profondità del pixel corrente. La tecnica del sottocampionamento viene utilizzata per semplificare i pixel vicini e il confronto delle distanze in base alle dimensioni della parte del corpo fornisce indizi per classificare il pixel corrente, sebbene questo metodo sia considerato debole.

  • 00:50:00 Il relatore discute i vantaggi del bagging, del boosting e di altri metodi di ensemble, che consentono di distribuire e utilizzare più classificatori leggeri in parallelo, scalando bene per dati di grandi dimensioni. Le GPU sono diventate fondamentali per parallelizzare il calcolo ed esistono diversi framework per manipolare vettori, matrici e tensori senza preoccuparsi della parallelizzazione. Tuttavia, l'oratore mette in guardia contro il metodo intuitivo ma inaffidabile di prendere la media dei poteri di classificatori o predittori, poiché livelli e variabili nascosti possono causare problemi con questo approccio.

  • 00:55:00 Il relatore spiega come può essere problematico prendere la media dei singoli sistemi in un'architettura. Il presentatore disegna un esempio alla lavagna in cui usano variabili booleane che assumono valori 0 e 1 per codificare un or esclusivo. Il relatore imposta i pesi per le variabili booleane progettate per calcolare l'o di ciò che entra. I pesi impostano il lavoro per trovare ciascuno dei due modelli e, finché uno di essi viene attivato, il relatore calcola e/o combinandoli attraverso un'altra unità di raccolta dei rifiuti. Il presentatore prosegue spiegando come la modifica dei pesi può influire sull'output del sistema.

  • 01:00:00 Il relatore discute i pericoli della media dei pesi quando si combinano i predittori nelle reti neurali o nei modelli di Markov nascosti. Il pericolo sta nel fatto che potrebbero esserci soluzioni simmetriche che non calcolano la stessa cosa e prendere la media dei pesi potrebbe portare a un predittore che non calcola la cosa corretta. Invece, la cosa sicura da fare è combinare le previsioni, cosa che può essere fatta attraverso un voto di maggioranza per la classificazione o prendendo la media per la regressione. Il relatore consiglia anche altri corsi relativi all'apprendimento automatico offerti presso l'Università di Waterloo per coloro che sono interessati a saperne di più.

  • 01:05:00 Il professore discute altri corsi che integrerebbero l'attuale corso sull'apprendimento automatico. In primo luogo, suggerisce di seguire il corso di Algebra lineare computazionale prima di seguire il corso attuale poiché l'algebra lineare è una base cruciale per l'apprendimento automatico. Inoltre, cita il corso intitolato Fondamenti teorici dell'apprendimento automatico, che si concentra su un fattore importante nell'apprendimento automatico, vale a dire la complessità dei dati. Spiega come determinare il livello di accuratezza ottenibile con una certa quantità di dati sia una questione complessa, quindi il corso mira a derivare i principi che determinano la quantità di dati necessari per raggiungere un livello di accuratezza desiderato. Infine, il professore cita altri corsi a livello universitario come Optimization for Data Science e Fundamentals of Optimization, utili per comprendere gli algoritmi di machine learning.

  • 01:10:00 Il docente discute i corsi e i programmi disponibili relativi alla scienza dei dati che gli studenti possono seguire. Questi corsi vanno da corsi di livello 800 che non vengono regolarmente offerti a programmi di scienza dei dati a livello universitario e post-laurea. Il docente sottolinea che mentre potrebbe esserci qualche sovrapposizione tra questo corso e i corsi di statistica, l'approccio qui è più algoritmico. I programmi di scienza dei dati coprono argomenti all'intersezione tra intelligenza artificiale, apprendimento automatico, sistemi di dati, statistiche e ottimizzazione. I corsi che gli studenti seguono in questi programmi enfatizzano la specializzazione in argomenti di scienza dei dati, mentre un master in informatica generale richiede ampiezza su diversi argomenti.
 

Dovremmo avere paura dell'intelligenza artificiale? con Emad Mostaque, Alexandr Wang e Andrew Ng | 39



Dovremmo avere paura dell'intelligenza artificiale? con Emad Mostaque, Alexandr Wang e Andrew Ng | 39

Gli ospiti di questo video di YouTube discutono di vari aspetti dell'intelligenza artificiale (AI), inclusi i suoi potenziali pericoli, le interruzioni in vari settori e l'importanza di riqualificare i lavoratori per rimanere rilevanti. I relatori discutono anche dell'usabilità degli strumenti di intelligenza artificiale, dell'implementazione dell'IA nell'assistenza sanitaria, della standardizzazione nei sistemi di distribuzione delle informazioni, del potenziale di creazione di ricchezza nell'IA e dell'uso di modelli linguistici nell'assistenza sanitaria e nell'istruzione. Inoltre, hanno sottolineato la necessità di un'implementazione responsabile di modelli di intelligenza artificiale, trasparenza e considerazioni etiche nella governance. Infine, i relatori rispondono brevemente ad alcune domande del pubblico su argomenti come la privacy nell'intelligenza artificiale per l'assistenza sanitaria e l'istruzione.

  • 00:00:00 Gli ospiti discutono dei potenziali pericoli dell'IA e della necessità di trasparenza e cautela quando si tratta di questa tecnologia. Toccano anche l'interruzione che l'IA sta causando in vari settori e l'importanza di riqualificare i lavoratori per rimanere rilevanti di fronte a questa interruzione. Gli ospiti offrono potenziali soluzioni, come l'istruzione online e la collaborazione con i governi, per aiutare le persone ad adattarsi ai cambiamenti introdotti dall'IA. In definitiva, credono che l'intelligenza artificiale abbia il potenziale per creare ricchezza più velocemente di qualsiasi cosa abbiamo mai visto e sollevare tutti, ma deve essere trattata con cura e responsabilità.

  • 00:05:00 Gli esperti discutono dell'usabilità degli strumenti di intelligenza artificiale rispetto all'interfaccia user-friendly di Google. Sperano che gli strumenti di intelligenza artificiale possano evolversi per diventare più facili da usare senza richiedere molta istruzione. L'IA generativa è addestrata su grandi corpus di un intero set di media ed è focalizzata sulla comprensione del linguaggio naturale. Tuttavia, concordano sul fatto che la politica e l'adozione dell'IA sono relativamente incerte e che i corsi di formazione e la comunicazione con i responsabili politici potrebbero renderla più accessibile. Il panel parla anche delle sfide della definizione dei concetti nella programmazione AI e della necessità di nomi strutturali univoci ben definiti insieme al crescente utilizzo di prompt.

  • 00:10:00 Un medico di Chicago chiede ai relatori in che modo l'intelligenza artificiale può essere utilizzata in modo più efficiente nell'assistenza sanitaria in termini di point of care e valutazione del paziente. I relatori suggeriscono di trovare casi d'uso concreti e di eseguirli per ottenere un vantaggio sul mercato, poiché arrivare per primi sul mercato è fondamentale. Raccomandano inoltre di creare un set di dati tramite strumenti come euroscape.com e di etichettare e annotare i dati per addestrare un nuovo modello su di esso. Suggeriscono di collaborare con altre aziende o di coinvolgere un team per sviluppare e implementare l'IA, iniziando potenzialmente in piccolo e espandendosi gradualmente.

  • 00:15:00 I relatori discutono se esiste un'attività commerciale che l'IA non sarà mai in grado di interrompere. Sebbene alcune attività e industrie fisiche possano essere più lontane dall'essere interrotte dall'IA rispetto ad altre, i relatori alla fine concordano sul fatto che non esiste alcuna attività commerciale che l'IA non sarà mai in grado di interrompere. Tuttavia, discutono della sfida di interpretare le decisioni dell'IA e della necessità di archivi centralizzati di fiducia e standard per curare le informazioni e combattere la diffusione di informazioni false o fuorvianti sui social network.

  • 00:20:00 I relatori discutono della necessità di standardizzare i sistemi di distribuzione delle informazioni per adattarsi alla crescente adozione dell'intelligenza artificiale (AI). Toccano anche l'importanza delle considerazioni etiche e le implicazioni dell'IA, come sta accadendo attualmente e continuerà a plasmare il futuro. La conversazione si sposta verso le applicazioni pratiche dell'IA nel ripristino di emergenza, dove può essere utilizzata per tempi di risposta rapidi e coordinamento degli sforzi umanitari. Il panel discute anche del ruolo di un Chief AI Officer, che dovrebbe avere una conoscenza tecnica della tecnologia e una mentalità orientata al business per identificare casi d'uso preziosi per l'IA.

  • 00:25:00 I relatori discutono dell'implementazione e della passione necessarie per stare al passo con la tecnologia AI. Suggeriscono di creare un repository interno per le aziende per tenersi al passo con le ultime tendenze dell'IA e consigliano di catalogare tutti i dati esistenti che possono essere caricati nei sistemi di intelligenza artificiale. Discutono anche del potenziale di creazione di ricchezza nel settore dell'intelligenza artificiale e raccomandano di investire nel miglioramento delle competenze di se stessi o di un'azienda in questo settore. Anche se alcuni potrebbero ritenere che sia troppo tardi per intervenire, i relatori suggeriscono che in realtà è ancora presto per l'IA e che è prevista una crescita significativa nel prossimo futuro.

  • 00:30:00 Peter discute l'importanza del monitoraggio dei livelli di glucosio e raccomanda Levels, un'azienda che fornisce un monitoraggio continuo dei livelli di glucosio per garantire che le persone siano consapevoli di come i diversi alimenti li influenzano in base alla loro fisiologia e genetica. La conversazione si sposta quindi su come la tecnologia può contribuire alla pace nel mondo, con un'enfasi su come l'IA può funzionare come traduttore universale e fornire contesto e comprensione tra diversi punti di vista. I relatori toccano anche il tema dell'IA aperta e il suo licenziamento del suo comitato etico, con un membro che esprime ammirazione per il lavoro svolto dall'IA aperta ma riconosce anche le preoccupazioni per la decisione.

  • 00:35:00 I relatori discutono della responsabilità derivante dall'implementazione di grandi modelli di intelligenza artificiale e del potenziale compromesso tra i vantaggi che apportano e i rischi che comportano. Toccano l'implementazione responsabile della tecnologia da parte di OpenAI e riconoscono gli sforzi dei team di IA etici che stanno cercando di mitigare gli aspetti negativi dell'uso dell'IA. La conversazione copre anche la necessità di trasparenza e governance responsabile quando si tratta di tecnologia potenzialmente pericolosa. Infine, i relatori affrontano l'uso dell'IA nel processo decisionale di investimento, riconoscendo la complessità del processo e i limiti della tecnologia attuale.

  • 00:40:00 Il gruppo discute l'uso di modelli linguistici nel settore sanitario, in particolare per la creazione di chatbot che supportano il personale infermieristico o di triage. Menzionano l'utilizzo di modelli di chat stabili come GPT-Neo e TF-Plan T5, ma avvertono che poiché i dati sanitari sono altamente sensibili, la creazione di un modello open source che può essere controllato e posseduto è fondamentale. Il gruppo discute anche dell'uso di modelli linguistici nell'istruzione, in particolare della controversia sull'utilizzo di strumenti come Chad-GPT per scrivere saggi o recensioni di libri. Discutono i meriti della trasparenza e come formare gli studenti a utilizzare questi strumenti in modo efficace senza limitare la loro crescita. Infine, il gruppo affronta la questione di cosa definisce l'imbroglio in un contesto educativo.

  • 00:45:00 I relatori rispondono brevemente ad alcune domande del pubblico in un giro veloce. Gli argomenti includono la creazione di contenuti nella musica e nelle arti, la privacy nell'IA per l'assistenza sanitaria e se un quindicenne dovrebbe continuare a prendere Python e andare al college. I relatori toccano l'importanza della privacy dei dati e la necessità di un'intelligenza artificiale verificabile e interpretabile nel settore sanitario. Menzionano anche che l'etica dell'IA e il suo potenziale uso improprio da parte di paesi come la Cina saranno discussi nella prossima sessione.
Should We Be Fearful of Artificial Intelligence? w/ Emad Mostaque, Alexandr Wang, and Andrew Ng | 39
Should We Be Fearful of Artificial Intelligence? w/ Emad Mostaque, Alexandr Wang, and Andrew Ng | 39
  • 2023.04.20
  • www.youtube.com
This episode is supported by exceptional companies such as Use my code MOONSHOTS for 25% off your first month's supply of Seed's DS-01® Daily Synbiotic: http...
 

Il "padrino dell'IA" Geoffrey Hinton mette in guardia contro la "minaccia esistenziale" dell'IA | Amanpour e compagnia



Il "padrino dell'IA" Geoffrey Hinton mette in guardia contro la "minaccia esistenziale" dell'IA | Amanpour e compagnia

Geoffrey Hinton, noto come il "Padrino dell'IA", approfondisce le implicazioni del rapido progresso delle intelligenze digitali e il loro potenziale per superare le capacità di apprendimento umano. Esprime preoccupazione per la minaccia esistenziale rappresentata da questi sistemi di intelligenza artificiale, avvertendo che potrebbero superare il cervello umano in vari aspetti. Nonostante abbiano una capacità di archiviazione significativamente inferiore rispetto al cervello, le intelligenze digitali possiedono un'abbondanza di conoscenza del buon senso, che supera quella degli umani di migliaia di volte. Inoltre, mostrano capacità di apprendimento e comunicazione più rapide, utilizzando algoritmi superiori rispetto al cervello.

Hinton condivide un'intrigante scoperta che ha fatto utilizzando il sistema Palm di Google, in cui le IA sono state in grado di spiegare perché le battute erano divertenti, suggerendo una comprensione più profonda di alcuni concetti rispetto agli umani. Ciò evidenzia la loro notevole capacità di formare connessioni e acquisire informazioni. Sottolinea che l'intuizione e i pregiudizi umani sono incorporati nella nostra attività neurale, consentendoci di attribuire qualità di genere agli animali. Tuttavia, questi processi mentali fanno anche luce sulle potenziali minacce poste dall'IA in futuro.

Affrontando le preoccupazioni sulla sensibilità dell'IA, Hinton riconosce l'ambiguità che circonda la sua definizione e l'incertezza che circonda il suo sviluppo. Solleva diverse sfide che l'intelligenza artificiale presenta, tra cui lo spostamento del lavoro, la difficoltà di discernere la verità e il potenziale per esacerbare la disuguaglianza socio-economica. Per mitigare questi rischi, Hinton propone di implementare norme rigorose simili a quelle che regolano il denaro contraffatto, criminalizzando la produzione di video e immagini falsi generati dall'intelligenza artificiale.

Sottolineando l'importanza della collaborazione internazionale, Hinton sottolinea che cinesi, americani ed europei condividono tutti un interesse acquisito nel prevenire l'emergere di IA incontrollabili. Riconosce l'approccio responsabile di Google allo sviluppo dell'IA, ma sottolinea la necessità di un'ampia sperimentazione per consentire ai ricercatori di mantenere il controllo su questi sistemi intelligenti.

Pur riconoscendo i preziosi contributi delle intelligenze digitali in campi come la medicina, la previsione dei disastri e la comprensione dei cambiamenti climatici, Hinton non è d'accordo con l'idea di fermare del tutto lo sviluppo dell'IA. Invece, sostiene l'allocazione di risorse per comprendere e mitigare i potenziali effetti negativi dell'IA. Hinton riconosce le incertezze che circondano lo sviluppo dell'IA superintelligente e sottolinea la necessità di uno sforzo umano collettivo per plasmare un futuro ottimizzato per il miglioramento della società.

  • 00:00:00 In questa sezione, Geoffrey Hinton, noto come il Padrino dell'IA, discute di come le intelligenze digitali create possano imparare meglio del cervello umano, che è una minaccia esistenziale per l'umanità, avverte. Descrive come le intelligenze digitali abbiano una conoscenza di base del buon senso migliaia di volte superiore, nonostante abbiano un centesimo della capacità di memoria del cervello. Inoltre, possono imparare e comunicare tra loro molto più velocemente del cervello, che utilizza un algoritmo di apprendimento inferiore. Spiega che utilizzando un sistema Google chiamato Palm, si è reso conto che queste IA potevano spiegare perché le battute erano divertenti, e questo suggerisce che capiscono certe cose meglio degli umani, indicando i loro modi migliori per ottenere informazioni nelle connessioni.

  • 00:05:00 In questa sezione, Geoffrey Hinton, il "Padrino dell'IA", spiega che l'intuizione e i pregiudizi umani sono rappresentati nella nostra attività neurale, che è il modo in cui attribuiamo determinate qualità di genere agli animali. Tuttavia, questi tipi di processi mentali suggeriscono anche perché l'IA potrebbe essere una minaccia in futuro. Hinton affronta le preoccupazioni sulla sensibilità dell'IA, osservando che mentre le persone affermano che non è senziente, non sono sempre sicure di cosa intendano con quella definizione. Inoltre, ci sono diverse minacce poste dall'IA, tra cui l'acquisizione di posti di lavoro, il rendere difficile decifrare la verità e l'aumento della disuguaglianza socio-economica. Per combattere questi problemi, Hinton suggerisce di avere regole severe come quelle stabilite per il denaro contraffatto, che criminalizzerebbero la produzione di video e immagini falsi creati attraverso l'intelligenza artificiale.

  • 00:10:00 In questa sezione, Geoffrey Hinton, uno dei principali ricercatori di intelligence, avverte della minaccia esistenziale rappresentata dall'IA. Menziona il rischio che queste macchine diventino superintelligenti e prendano il controllo degli esseri umani. Hinton spiega inoltre che i cinesi, gli americani e gli europei condividono tutti un interesse reciproco nel prevenire questo risultato e, pertanto, dovrebbero collaborare per evitare lo sviluppo di un'IA pericolosa. Cita anche Google come un gigante tecnologico responsabile, ma sottolinea la necessità per le persone che sviluppano queste macchine di fare molte sperimentazioni per aiutare i ricercatori a capire come mantenere il controllo di questa IA.

  • 00:15:00 In questa sezione, l'esperto di intelligenza artificiale Geoffrey Hinton riconosce gli utili contributi delle intelligenze digitali in vari campi, come la medicina, la previsione dei disastri naturali e la comprensione del cambiamento climatico. Tuttavia, non è d'accordo con l'idea di mettere in pausa lo sviluppo dell'IA e suggerisce invece che una quantità comparabile di risorse dovrebbe essere utilizzata per comprendere ed evitare gli effetti negativi dell'IA. Hinton evidenzia anche le incertezze che derivano dallo sviluppo di super intelligenze e sottolinea la necessità per l'umanità di impegnarsi molto per assicurarsi che il futuro sia ottimizzato per il meglio.
“Godfather of AI” Geoffrey Hinton Warns of the “Existential Threat” of AI | Amanpour and Company
“Godfather of AI” Geoffrey Hinton Warns of the “Existential Threat” of AI | Amanpour and Company
  • 2023.05.09
  • www.youtube.com
Geoffrey Hinton, considered the godfather of Artificial Intelligence, made headlines with his recent departure from Google. He quit to speak freely and raise...
 

"Godfather of AI" discute i pericoli che le tecnologie in via di sviluppo rappresentano per la società


"Godfather of AI" discute i pericoli che le tecnologie in via di sviluppo rappresentano per la società

Il dottor Jeffrey Hinton, una delle principali autorità nel campo dell'intelligenza artificiale, solleva importanti preoccupazioni sui potenziali rischi posti dai sistemi di intelligenza artificiale superintelligenti. Esprime apprensione per la possibilità che questi sistemi prendano il controllo sugli umani e li manipolino per i propri programmi. Facendo una distinzione tra intelligenza umana e macchina, Hinton evidenzia i pericoli associati alla concessione all'IA della capacità di creare sotto-obiettivi, che potrebbero portare a un desiderio di maggiore potere e controllo sull'umanità.

Nonostante questi rischi, Hinton riconosce le numerose applicazioni positive dell'IA, in particolare nel campo della medicina, dove ha un immenso potenziale di avanzamento. Sottolinea che mentre la cautela è giustificata, è essenziale non arrestare del tutto il progresso dello sviluppo dell'IA.

Hinton affronta anche il ruolo dei creatori di tecnologia e le potenziali implicazioni che il loro lavoro potrebbe avere sulla società. Sottolinea che le organizzazioni coinvolte nello sviluppo dell'IA, compresi i dipartimenti della difesa, possono dare la priorità a obiettivi diversi dalla benevolenza. Ciò solleva preoccupazioni circa le intenzioni e le motivazioni alla base dell'uso della tecnologia AI. Hinton suggerisce che mentre l'intelligenza artificiale ha la capacità di portare benefici significativi alla società, il rapido ritmo del progresso tecnologico spesso supera la capacità dei governi e della legislazione di regolamentarne efficacemente l'uso.

Per affrontare i rischi associati all'intelligenza artificiale, Hinton sostiene una maggiore collaborazione tra scienziati creativi su scala internazionale. Lavorando insieme, questi esperti possono sviluppare sistemi di intelligenza artificiale più potenti esplorando contemporaneamente modi per garantire il controllo e prevenire potenziali danni. È attraverso questo sforzo collaborativo che Hinton ritiene che la società possa trovare un equilibrio tra lo sfruttamento dei potenziali benefici dell'IA e la protezione dai suoi potenziali rischi.

  • 00:00:00 In questa sezione, il Dr. Jeffrey Hinton discute le sue preoccupazioni riguardo ai rischi di un'IA super intelligente che prenda il controllo delle persone e manipoli gli esseri umani per i propri scopi. Spiega le differenze tra l'intelligenza umana e quella delle macchine e i potenziali pericoli di dare all'IA la capacità di creare sotto-obiettivi, che potrebbero portarla a cercare più potere e controllo sugli umani. Nonostante questi rischi, Hinton riconosce le numerose applicazioni positive dell'IA, come il progresso della medicina, e sottolinea che lo sviluppo nel campo non dovrebbe essere interrotto del tutto.

  • 00:05:00 In questa sezione, il dottor Stuart Russell riconosce che è una combinazione di tecnologia e persone che la creano che può causare potenziali pericoli per la società. Sottolinea che i dipartimenti della difesa sono tra le organizzazioni che sviluppano l'intelligenza artificiale e, in quanto tali, "Sii gentile con le persone" non è necessariamente la loro prima priorità. Sebbene l'intelligenza artificiale abbia la capacità di fare un enorme bene per la società, i governi e la legislazione non sono in grado di tenere il passo con la velocità con cui la tecnologia sta avanzando. Per mitigare i rischi associati all'IA, il dottor Russell incoraggia la collaborazione di scienziati più creativi su scala internazionale per sviluppare un'IA più potente e trovare modi per tenerla sotto controllo.
'Godfather of AI' discusses dangers the developing technologies pose to society
'Godfather of AI' discusses dangers the developing technologies pose to society
  • 2023.05.05
  • www.youtube.com
This has been a week where concerns over the rapidly expanding use of artificial intelligence resonated loudly in Washington and around the world. Geoffrey H...