Apprendimento automatico e Reti Neurali - pagina 58

 

Lezione 12.3 — Macchine di Boltzmann ristrette



Lezione 12.3 — Macchine Boltzmann limitate [Reti neurali per l'apprendimento automatico]

Le macchine Boltzmann hanno un'architettura semplificata senza connessioni tra le unità nascoste, rendendo facile calcolare la distribuzione di equilibrio delle unità nascoste quando le unità visibili sono bloccate. L'algoritmo di apprendimento per le macchine Boltzmann è lento, ma nel 1998 è stata scoperta una scorciatoia che ha portato a un algoritmo di apprendimento efficiente per macchine Boltzmann limitate (RBM). Gli RBM hanno una connettività limitata, con uno strato di unità nascoste e nessuna connessione tra unità nascoste o visibili. L'architettura RBM è un grafo bipartito con calcoli indipendenti per ogni unità.

La scorciatoia consente un rapido calcolo dei valori attesi delle connessioni tra unità visibili e nascoste in parallelo. Un algoritmo di apprendimento per RBM introdotto nel 2008 comporta il bloccaggio di un vettore di dati sulle unità visibili, il calcolo dei valori attesi delle connessioni e la loro media sui vettori di dati nel mini-batch. Nella fase negativa, le particelle di fantasia (configurazioni globali) vengono utilizzate per aggiornare ciascuna particella un paio di volte e i valori attesi delle connessioni vengono mediati sulle particelle di fantasia. Questo algoritmo costruisce buoni modelli di densità per i vettori binari.

Un altro algoritmo di apprendimento per RBM è più veloce ma non altrettanto efficace nella creazione di modelli di densità. Implica l'esecuzione di una catena alternata di aggiornamenti tra unità visibili e nascoste. La regola di apprendimento aggiorna i pesi in base alla differenza tra i valori previsti delle connessioni all'inizio e alla fine della catena. Non è necessario far girare a lungo la catena per raggiungere l'equilibrio termico; anche una filiera corta produce un apprendimento efficace.

La scorciatoia funziona perché la catena di Markov si allontana dai dati verso la distribuzione di equilibrio. Modificando i pesi per ridurre la probabilità di ricostruzioni e aumentare la probabilità dei dati dopo un passo completo, la catena smette di allontanarsi dai dati. L'apprendimento si interrompe quando i dati e le ricostruzioni hanno la stessa distribuzione. La superficie energetica nello spazio delle configurazioni globali viene modificata per creare un minimo di energia nel punto dati durante l'apprendimento.

Tuttavia, il collegamento non riesce per le regioni lontane dai dati. Le particelle persistenti, che ricordano i loro stati e subiscono ulteriori aggiornamenti, possono aiutare a risolvere questo problema. Un compromesso tra velocità e correttezza è iniziare con pesi piccoli e utilizzare la divergenza contrastiva (CD) con pochi passaggi (CD-1, CD-3, CD-5, ecc.) man mano che i pesi crescono. Questo approccio mantiene un apprendimento efficace anche se la velocità di mescolamento della catena di Markov diminuisce.

Usando questo approccio, l'algoritmo di apprendimento per le macchine Boltzmann limitate (RBM) raggiunge un equilibrio tra velocità e precisione. Inizia con piccoli pesi e utilizza la divergenza contrastiva (CD) con un piccolo numero di passaggi, come CD-1, man mano che i pesi aumentano gradualmente. Questa strategia garantisce che il processo di apprendimento continui a funzionare ragionevolmente bene anche quando la velocità di mescolamento della catena di Markov rallenta.

È importante considerare le regioni dello spazio dati che il modello favorisce ma che sono lontane da qualsiasi punto dati effettivo. Queste regioni, note come buchi a bassa energia, possono causare problemi con il termine di normalizzazione. Per risolvere questo problema, è possibile utilizzare una tecnica chiamata particelle persistenti. Le particelle persistenti mantengono i loro stati e subiscono ulteriori aggiornamenti dopo ogni aggiornamento del peso. In questo modo, possono esplorare e infine riempire questi buchi a bassa energia, migliorando le prestazioni del modello.

L'algoritmo di apprendimento RBM che utilizza la scorciatoia e varie tecniche, come CD con diversi numeri di passaggi e l'uso di particelle persistenti, consente un apprendimento efficiente e la costruzione di modelli di densità efficaci per insiemi di vettori binari. Sebbene la scorciatoia si discosti dall'apprendimento di massima verosimiglianza e abbia limiti teorici, ha dimostrato di funzionare bene nella pratica, portando a una rinascita dell'interesse per l'apprendimento automatico di Boltzmann.

Lecture 12.3 — Restricted Boltzmann Machines [Neural Networks for Machine Learning]
Lecture 12.3 — Restricted Boltzmann Machines [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Lezione 12.4 — Un esempio di apprendimento RBM



Lezione 12.4 — Un esempio di apprendimento RBM [Neural Networks for Machine Learning]

In questo video, dimostreremo un semplice esempio di una macchina Boltzmann (RBM) ristretta che impara un modello di due scritti a mano. Una volta addestrato il modello, valuteremo la sua capacità di ricostruire i due e osserveremo il suo comportamento quando viene data una cifra diversa da ricostruire. Inoltre, esamineremo i pesi ottenuti addestrando un RBM più grande su tutte le classi di cifre, che apprende un'ampia gamma di caratteristiche che sono efficaci per ricostruire e modellare varie classi di cifre.

L'RBM utilizzato in questo esempio ha immagini di 16x16 pixel di due e 50 unità nascoste binarie che funzionano come rilevatori di caratteristiche. Quando viene presentato un caso di dati, l'RBM attiva i rilevatori di caratteristiche utilizzando i pesi e le connessioni dai pixel ai rilevatori di caratteristiche. Ogni neurone binario prende una decisione stocastica di adottare uno stato di 1 o 0. L'RBM utilizza quindi queste attivazioni per ricostruire i dati prendendo decisioni binarie per ogni pixel. I pesi vengono aggiornati incrementando i pesi tra pixel attivi e rilevatori di caratteristiche attive durante l'elaborazione dei dati e decrementando i pesi durante la ricostruzione.

Inizialmente i pesi sono casuali e le ricostruzioni hanno un'energia inferiore rispetto ai dati. Attraverso l'allenamento su centinaia di esempi di cifre e regolazioni del peso, i pesi formano gradualmente schemi. Molti rilevatori di funzionalità iniziano come rilevatori globali, diventando più localizzati con il progredire della formazione. I pesi finali rivelano che ogni neurone è diventato un rivelatore di caratteristiche diverse, con la maggior parte dei rivelatori di natura locale. Ad esempio, un rilevatore di caratteristiche può rilevare la parte superiore di un due attivando i suoi pixel bianchi quando è presente la parte superiore di un due e i suoi pixel neri quando non c'è nulla.

Dopo aver appreso il modello, possiamo valutare le sue capacità di ricostruzione. Quando viene fornito un esempio di prova di un due, la ricostruzione è generalmente fedele, anche se leggermente sfocata. Tuttavia, se forniamo un esempio di prova da una classe di cifre diversa, come un tre, l'RBM ricostruisce un'immagine che assomiglia a un due piuttosto che a un tre. Questo comportamento si verifica perché l'RBM ha principalmente appreso rilevatori di funzionalità specifici per i due e manca di rilevatori per determinate caratteristiche di altre cifre.

Inoltre, mostriamo i rilevatori di funzionalità appresi nel primo strato nascosto di un RBM più grande addestrato su tutte le classi a dieci cifre. Questi rilevatori di caratteristiche presentano un'ampia varietà di modelli. Alcuni rilevano caratteristiche specifiche come linee oblique, mentre altri catturano regolarità a lungo raggio o spaziali introdotte dalla normalizzazione dei dati. Nel complesso, l'RBM dimostra la sua capacità di apprendere modi complessi di rappresentare e rilevare caratteristiche nei dati di input.

Inoltre, vorrei sottolineare che l'RBM utilizzato in questa dimostrazione è costituito da 500 unità nascoste, che gli consentono di modellare tutte le classi a dieci cifre. Questo modello è stato sottoposto a un lungo addestramento utilizzando una tecnica chiamata divergenza contrastiva. Di conseguenza, ha acquisito una serie diversificata di rilevatori di funzionalità.

Esaminando i rilevatori di caratteristiche nello strato nascosto, osserviamo modelli intriganti. Ad esempio, esiste un rilevatore di caratteristiche, indicato dal riquadro blu, che sembra adatto a rilevare la presenza di linee diagonali. D'altra parte, il rilevatore di caratteristiche nel riquadro rosso presenta una caratteristica unica. Preferisce attivare i pixel situati molto vicino alla parte inferiore dell'immagine e non gradisce i pixel in una riga specifica posizionata 21 pixel sopra la parte inferiore. Questo comportamento deriva dalla normalizzazione dei dati, dove le cifre non possono superare un'altezza di 20 pixel. Di conseguenza, un pixel attivato nella regione di peso positivo non può attivarsi contemporaneamente nella regione di peso negativo, con il risultato che questa regolarità a lungo raggio viene appresa.

Inoltre, un altro rilevatore di caratteristiche, evidenziato nel riquadro verde, dimostra una proprietà interessante. Rileva la posizione inferiore di una corsa verticale e può rilevarla in più posizioni ignorando le posizioni intermedie. Questo comportamento è simile alla cifra meno significativa in un numero binario, che alterna l'essere attivo e inattivo all'aumentare della grandezza del numero. Mette in mostra la capacità dell'RBM di sviluppare rappresentazioni complesse di relazioni e posizioni spaziali.

Questi esempi illustrano la capacità dell'RBM di apprendere ed estrarre caratteristiche significative dai dati di input. Regolando i pesi durante il processo di apprendimento, l'RBM mira a fare in modo che i dati abbiano una bassa energia pur mantenendo una maggiore energia per le ricostruzioni. Questo meccanismo di apprendimento consente all'RBM di modellare e ricostruire efficacemente le immagini delle cifre, catturando le caratteristiche globali e locali delle cifre nelle sue rappresentazioni apprese.

Lecture 12.4 — An example of RBM learning [Neural Networks for Machine Learning]
Lecture 12.4 — An example of RBM learning [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Lezione 12.5 — RBM per il filtraggio collaborativo



Lezione 12.5 — RBM per il filtraggio collaborativo [Neural Networks for Machine Learning]

In questo video, discuteremo l'applicazione delle Restricted Boltzmann Machines (RBM) nel filtraggio collaborativo, in particolare nel contesto della competizione Netflix. Il filtraggio collaborativo implica la previsione di quanto un utente vorrebbe un prodotto in base alle sue preferenze per altri prodotti e alle preferenze di altri utenti. Il concorso Netflix sfida i partecipanti a prevedere quanto un utente apprezzerà un film in base alle valutazioni di altri film.

I dati di formazione per questa competizione sono costituiti da un ampio set di dati con cento milioni di voti per diciottomila film da mezzo milione di utenti. Per affrontare la sfida delle valutazioni mancanti per la maggior parte dei film, viene utilizzato un trucco importante quando si utilizzano gli RBM. Utilizzando questo trucco, i modelli possono essere addestrati in modo efficace e dimostrarsi utili nella pratica, come dimostrato dal vincitore del concorso.

L'approccio all'utilizzo degli RBM per il filtraggio collaborativo implica il trattamento di ogni utente come un caso di formazione, in cui ogni utente è rappresentato come un vettore di valutazioni dei film. Per ogni film, al posto delle unità binarie viene utilizzata un'unità visibile con cinque valori alternativi (softmax a cinque vie). L'architettura RBM è costituita da unità visibili che rappresentano film e unità binarie nascoste. Gli RBM condividono i pesi tra gli utenti che hanno valutato lo stesso film, consentendo la condivisione del peso e riducendo il numero di parametri. L'apprendimento CD (divergenza contrastiva) viene applicato per addestrare gli RBM, inizialmente con CD1 e successivamente con CD3, CD5 e CD9.

I modelli RBM si comportano in modo paragonabile ai metodi di fattorizzazione matriciale comunemente usati nel filtraggio collaborativo. Tuttavia, producono errori diversi. Combinando le previsioni degli RBM con quelle dei modelli di fattorizzazione matriciale si ottengono miglioramenti significativi. Il gruppo vincitore del concorso Netflix ha utilizzato più modelli RBM e modelli di fattorizzazione della matrice nel loro insieme per ottenere previsioni migliori.

In sintesi, l'applicazione di Restricted Boltzmann Machines (RBM) nel filtraggio collaborativo per il concorso Netflix ha comportato il trattamento di ciascun utente come un caso di addestramento, utilizzando RBM con unità visibili che rappresentano film e unità binarie nascoste. Sfruttando la condivisione del peso tra gli utenti che hanno valutato lo stesso film, gli RBM possono gestire efficacemente il grande set di dati.

Gli RBM sono stati addestrati utilizzando l'apprendimento CD, con iterazioni di CD1, CD3, CD5 e CD9, e hanno funzionato in modo simile ai modelli di fattorizzazione della matrice comunemente usati nel filtraggio collaborativo. Tuttavia, la combinazione di RBM e modelli di fattorizzazione matriciale ha portato a un significativo miglioramento delle previsioni. Il vincitore del concorso Netflix ha utilizzato più modelli RBM e modelli di fattorizzazione di matrici nel loro insieme, dimostrando l'efficacia di questo approccio.

L'utilizzo di RBM nel filtraggio collaborativo dimostra la loro capacità di gestire set di dati grandi e sparsi, come il set di dati Netflix con milioni di valutazioni. Modellando le relazioni tra utenti e film, gli RBM forniscono un potente strumento per fare previsioni accurate e migliorare i sistemi di raccomandazione.

L'applicazione di successo degli RBM nel filtraggio collaborativo mette in mostra la loro utilità nel campo dell'apprendimento automatico e dei sistemi di raccomandazione e mette in evidenza il potenziale dell'utilizzo di approcci di ensemble per migliorare ulteriormente l'accuratezza della previsione.

Lecture 12.5 — RBMs for collaborative filtering [Neural Networks for Machine Learning]
Lecture 12.5 — RBMs for collaborative filtering [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Lezione 13.1 — Gli alti e bassi della retropropagazione



Lezione 13.1 — Gli alti e bassi della backpropagation [Reti neurali per l'apprendimento automatico]

Il video discute la storia della backpropagation, evidenziando le sue origini negli anni '70 e '80 e il motivo per cui è caduta in disgrazia negli anni '90. Sfida la credenza popolare che la retropropagazione sia fallita a causa della sua incapacità di gestire più strati di caratteristiche non lineari. Invece, le ragioni principali del suo abbandono sono state la limitata potenza di calcolo e i piccoli set di dati disponibili all'epoca.

La backpropagation è stata inventata in modo indipendente più volte da diversi ricercatori, tra cui Bryson e Ho alla fine degli anni '60, Paul Wallace nel 1974, Rama Hart e Williams nel 1981, David Parker e Youngocar nel 1985. Inizialmente, non funzionava bene per alcuni compiti, inducendo i ricercatori ad abbandonarlo. Tuttavia, nel 1986, un documento ha dimostrato il suo potenziale per l'apprendimento di più livelli di rilevatori di caratteristiche non lineari.

Alla fine degli anni '90, la maggior parte dei ricercatori di machine learning aveva rinunciato alla backpropagation, favorendo invece le support vector machine (SVM). La spiegazione popolare era che la retropropagazione faticava con più strati nascosti e reti ricorrenti. Tuttavia, da una prospettiva storica, le vere ragioni del suo fallimento sono state la limitata potenza di calcolo e i piccoli set di dati etichettati, che hanno impedito alla retropropagazione di brillare in compiti complessi come la visione e la parola.

Diversi tipi di attività di machine learning hanno requisiti diversi. In statistica, i dati a bassa dimensione con rumore richiedono la separazione della vera struttura dal rumore. Le reti neurali bayesiane possono gestirlo bene, mentre le reti neurali non bayesiane come la retropropagazione non sono altrettanto efficaci. Le macchine vettoriali di supporto ei processi gaussiani sono più adatti a tali compiti. Nell'intelligenza artificiale, i dati ad alta dimensione con struttura complessa richiedono la ricerca di rappresentazioni appropriate, che la retropropagazione può apprendere sfruttando più livelli e un'ampia potenza di calcolo.

Vengono discussi i limiti delle macchine vettoriali di supporto, osservando che sono viste come un'estensione dei percettroni con il trucco del kernel. Si basano su funzionalità non adattive e su uno strato di pesi adattivi. Sebbene funzionino bene, non possono apprendere più livelli di rappresentazione. Il video cita anche brevemente un documento storico del 1995, una scommessa tra Larry Jackel e Vladimir Vapnik riguardante la comprensione teorica e l'uso futuro di grandi reti neurali addestrate con la retropropagazione. Alla fine, entrambe le parti della scommessa si sono rivelate sbagliate, poiché i limiti erano pratici piuttosto che teorici.

Il fallimento della backpropagation negli anni '90 può essere attribuito ai limiti della potenza di calcolo e ai piccoli set di dati, piuttosto che alle sue capacità intrinseche. Aveva ancora il potenziale per attività complesse e alla fine ebbe successo quando divennero disponibili set di dati più grandi e computer più potenti. Il video sottolinea l'importanza di considerare diverse attività di apprendimento automatico e i loro requisiti specifici nella scelta degli algoritmi appropriati.

Lecture 13.1 — The ups and downs of backpropagation [Neural Networks for Machine Learning]
Lecture 13.1 — The ups and downs of backpropagation [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Lezione 13.2 — Reti di credenze



Lezione 13.2 — Reti di credenze [Reti neurali per l'apprendimento automatico]

Ho abbandonato la backpropagation negli anni '90 a causa della sua dipendenza da un gran numero di etichette, che all'epoca erano scarse. Tuttavia, sono stato ispirato dal successo dell'apprendimento con poche etichette esplicite. Per preservare i vantaggi dell'apprendimento della discesa del gradiente senza la necessità di etichette estese, ho esplorato funzioni obiettivo alternative. I modelli generativi, che mirano a modellare i dati di input piuttosto che prevedere le etichette, si sono allineati bene con questa ricerca. I modelli grafici, un concetto che combina strutture grafiche discrete con calcoli a valori reali, sono emersi come un approccio promettente nella statistica e nell'intelligenza artificiale. Mentre le macchine di Boltzmann erano i primi esempi di modelli grafici non orientati, nel 1992 Bradford Neil ha introdotto modelli grafici diretti chiamati Reti di credenze sigmoidee, impiegando unità simili alle macchine di Boltzmann. La sfida è quindi diventata come apprendere queste reti di credenze sigmoidee.

Imparare la credenza sigmoidea Le reti hanno riscontrato diversi problemi. Le reti profonde con più livelli nascosti soffrivano di un apprendimento lento. Si è scoperto che una scarsa inizializzazione del peso contribuisce a questo problema. La backpropagation tendeva anche a rimanere bloccata in ottimi locali non ottimali, che, sebbene ragionevolmente buoni, erano tutt'altro che ottimali per le reti profonde. Sebbene il ritiro a modelli più semplici che consentissero l'ottimizzazione convessa fosse una possibilità, non affrontava la complessità dei dati del mondo reale. Per superare queste limitazioni, l'apprendimento non supervisionato è emerso come soluzione. Utilizzando l'apprendimento senza supervisione, potremmo sfruttare l'efficienza e la semplicità dei metodi del gradiente e la discesa stocastica di mini-batch per la regolazione del peso. Tuttavia, l'attenzione si è spostata sulla modellazione della struttura dell'input sensoriale piuttosto che sulla relazione input-output. I pesi verrebbero aggiustati per massimizzare la probabilità che il modello generativo produca l'input sensoriale osservato.

Sorsero due problemi principali: il problema dell'inferenza e il problema dell'apprendimento. Il problema di inferenza comportava l'inferenza degli stati di variabili non osservate, con l'obiettivo di derivare distribuzioni di probabilità su queste variabili dato che non erano indipendenti l'una dall'altra. Il problema dell'apprendimento comportava la regolazione delle interazioni tra le variabili per aumentare le probabilità che la rete generasse i dati di addestramento. Ha comportato la determinazione di quali nodi hanno influenzato gli altri e la forza del loro effetto.

Il connubio tra modelli grafici e reti neurali ha avuto una dinamica unica. I primi modelli grafici si basavano su strutture grafiche definite da esperti e probabilità condizionali, con l'obiettivo di risolvere il problema dell'inferenza. D'altra parte, le reti neurali davano priorità all'apprendimento ed evitavano il cablaggio manuale. Sebbene le reti neurali mancassero di interpretabilità e scarsa connettività per una facile inferenza, avevano il vantaggio di apprendere dai dati di addestramento. Tuttavia, sono state sviluppate versioni di rete neurale delle reti di credenze. Durante la costruzione di modelli generativi utilizzando neuroni idealizzati, sono emersi due tipi: modelli basati sull'energia e modelli causali. I modelli basati sull'energia hanno utilizzato connessioni simmetriche tra neuroni stocastici binari, dando vita a macchine Boltzmann. Mentre l'apprendimento delle macchine Boltzmann si è rivelato impegnativo, la limitazione della connettività ha reso più facile l'apprendimento per le macchine Boltzmann limitate. Tuttavia, questo approccio ha limitato la potenza delle reti neurali con più livelli nascosti. I modelli causali, che impiegavano grafici aciclici diretti con neuroni stocastici binari, hanno dato origine alle reti di credenze sigmoidee. Nel 1992, Neil dimostrò che le reti di convinzioni sigmoidee erano leggermente più facili da imparare rispetto alle macchine Boltzmann. In una rete di convinzioni sigmoidee, tutte le variabili sono neuroni stocastici binari e la generazione di dati implica prendere decisioni stocastiche strato per strato, producendo infine campioni imparziali di valori visibili.

Adottando modelli causali o approcci ibridi, potremmo superare i limiti della retropropagazione e sfruttare l'apprendimento senza supervisione per modellare efficacemente la struttura dell'input sensoriale.

Prima di approfondire le reti di credenze causali fatte di neuroni, è essenziale fornire alcune informazioni sulla relazione tra intelligenza artificiale (AI) e probabilità. Negli anni '70 e all'inizio degli anni '80, c'era una forte resistenza all'interno della comunità dell'IA nei confronti della probabilità. La probabilità era considerata sfavorevole e i ricercatori di intelligenza artificiale preferivano l'elaborazione di simboli discreti senza incorporare elementi probabilistici. Tuttavia, un'eccezione degna di nota fu John von Neumann, che riconobbe il potenziale di una connessione tra logica formale e termodinamica, in particolare il lavoro di Boltzmann. Sfortunatamente, le idee di von Neumann non hanno preso piede durante la sua vita.

Alla fine, le probabilità hanno trovato la loro strada nell'intelligenza artificiale attraverso lo sviluppo di modelli grafici, che combinano la teoria dei grafi e la teoria della probabilità. Negli anni '80, i ricercatori di intelligenza artificiale stavano lavorando su problemi pratici che comportavano incertezza, come la diagnosi medica o l'esplorazione mineraria. Sebbene ci fosse un'avversione per le probabilità, divenne chiaro che l'uso delle probabilità era più efficace dei metodi ad-hoc. I modelli grafici, introdotti da Perl Hackerman Lauritzen e altri, hanno fornito un quadro per rappresentare l'incertezza e fare calcoli probabilistici basati su strutture grafiche.

I modelli grafici comprendono vari tipi di modelli e un sottoinsieme sono le reti di credenze. Le Belief Nets sono grafici aciclici diretti costituiti da variabili stocastiche. Questi grafici hanno spesso nodi scarsamente connessi e consentono algoritmi di inferenza efficienti che calcolano le probabilità di nodi non osservati. Tuttavia, questi algoritmi diventano esponenzialmente complessi se applicati a reti densamente connesse.

Una rete di credenze funge da modello generativo e il suo problema di inferenza implica la determinazione degli stati delle variabili non osservate, con conseguente distribuzione di probabilità su queste variabili. Il problema di apprendimento si concentra sulla regolazione delle interazioni tra le variabili per aumentare la probabilità di generare i dati di addestramento osservati.

Nel contesto delle reti neurali, esiste una connessione tra modelli grafici e reti neurali. I primi modelli grafici si basavano su strutture grafiche definite da esperti e probabilità condizionali, affrontando principalmente il problema dell'inferenza. D'altra parte, le reti neurali enfatizzavano l'apprendimento dai dati di addestramento ed evitavano la conoscenza artigianale. Sebbene le reti neurali mancassero di interpretabilità e scarsa connettività, offrivano il vantaggio dell'adattabilità attraverso l'apprendimento.

Per costruire modelli generativi con neuroni idealizzati, si possono considerare due tipi principali. I modelli basati sull'energia, come le macchine di Boltzmann, collegano simmetricamente i neuroni stocastici binari. Tuttavia, l'apprendimento delle macchine Boltzmann è impegnativo. Un'altra opzione sono i modelli causali, che utilizzano grafici aciclici diretti composti da neuroni stocastici binari. Nel 1992, Neil ha introdotto le reti di credenza sigmoidea, che erano più facili da imparare rispetto alle macchine Boltzmann. Le reti di convinzioni sigmoidee sono modelli causali in cui tutte le variabili sono neuroni stocastici binari.

Per generare dati da un modello causale come una rete di convinzioni sigmoidee, le decisioni stocastiche vengono prese strato per strato, partendo dallo strato superiore e scendendo a cascata fino agli effetti visibili. Questo processo produce un campione imparziale di valori visibili secondo le convinzioni della rete neurale.

Adottando l'apprendimento non supervisionato e utilizzando modelli causali o approcci ibridi, è possibile superare i limiti della retropropagazione e sfruttare il potere dell'apprendimento non supervisionato per modellare efficacemente la struttura dell'input sensoriale. Questi progressi forniscono una strada promettente per affrontare le sfide poste dalle reti neurali profonde e aprono la strada ad algoritmi di apprendimento più sofisticati ed efficienti.

In conclusione, l'esplorazione delle reti di credenze e la loro connessione alle reti neurali ha aperto nuove possibilità per l'intelligenza artificiale e la modellazione probabilistica. La resistenza iniziale nei confronti della probabilità nell'IA è stata superata e i modelli grafici sono emersi come un potente framework per rappresentare l'incertezza e fare calcoli probabilistici.

Le reti di credenze, in particolare le reti di credenze sigmoidee, offrono un approccio alternativo alla modellazione generativa rispetto ai modelli basati sull'energia come le macchine di Boltzmann. Utilizzando grafici aciclici diretti e neuroni stocastici binari, le reti di credenze sigmoidee forniscono un mezzo per generare dati e apprendere dai set di addestramento in modo più efficace.

L'integrazione dell'apprendimento non supervisionato con modelli causali o approcci ibridi ha il potenziale per affrontare i limiti della retropropagazione nelle reti neurali profonde. Modellando la struttura dell'input sensoriale e massimizzando la probabilità dei dati osservati, questi approcci offrono un modo per sfruttare l'efficienza e la semplicità dei metodi del gradiente catturando al contempo la complessità dei dati del mondo reale.

L'evoluzione dell'intelligenza artificiale e l'adozione della probabilità hanno rimodellato il campo, consentendo ai ricercatori di sviluppare modelli più robusti e adattabili. Man mano che il viaggio continua, è probabile che emergano ulteriori progressi nella modellazione probabilistica, nelle reti neurali e nell'apprendimento senza supervisione, che porteranno a sistemi di intelligenza artificiale più sofisticati e intelligenti.

Combinando i punti di forza dei modelli grafici e delle reti neurali, i ricercatori possono continuare a spingere i confini dell'IA, sbloccando nuove possibilità di comprensione, apprendimento e processo decisionale in ambienti complessi e incerti.

Lecture 13.2 — Belief Nets [Neural Networks for Machine Learning]
Lecture 13.2 — Belief Nets [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Lezione 13.3 — Imparare le reti di credenze sigmoidee



Lezione 13.3 — Apprendimento delle reti di convinzioni sigmoidee [Reti neurali per l'apprendimento automatico]

Il video discute le sfide dell'apprendimento delle reti di credenze sigmoidee e introduce due diversi metodi per affrontare queste sfide. A differenza delle macchine Boltzmann, le reti di credenze sigmoidee non richiedono due diverse fasi per l'apprendimento, rendendo il processo più semplice. Sono modelli localmente normalizzati, eliminando la necessità di occuparsi delle funzioni di partizione e delle loro derivate.

L'apprendimento nelle reti di credenze sigmoidee diventa facile se possiamo ottenere campioni imparziali dalla distribuzione posteriore su unità nascoste dati i dati osservati. Tuttavia, ottenere campioni imparziali è difficile a causa di un fenomeno chiamato "spiegazione", che influisce sulla distribuzione posteriore. Questo fenomeno nasce dall'anti-correlazione tra cause nascoste quando si verifica un effetto osservato.

L'apprendimento in profonde reti di credenze sigmoidee con più strati di variabili nascoste diventa ancora più impegnativo. La distribuzione posteriore sul primo strato di variabili nascoste non è fattoriale a causa della spiegazione e le correlazioni tra variabili nascoste esistono sia nel precedente che nel posteriore. Il calcolo del termine precedente per il primo livello richiede l'integrazione di tutti i possibili modelli di attività nei livelli superiori, rendendo complesso il processo di apprendimento.

Vengono discussi due metodi per l'apprendimento delle reti di credenze profonde: il metodo Monte Carlo ei metodi variazionali. Il metodo Monte Carlo prevede l'esecuzione di una catena di Markov per approssimare la distribuzione posteriore e ottenere campioni. Tuttavia, può essere lento per grandi reti di credenze profonde. I metodi variazionali, d'altra parte, mirano a ottenere campioni approssimati da una diversa distribuzione che approssima il posteriore. Sebbene non imparziali, questi campioni possono comunque essere utilizzati per l'apprendimento della massima verosimiglianza e, spingendo verso l'alto il limite inferiore della probabilità logaritmica, è possibile apportare miglioramenti nella modellazione dei dati.

L'apprendimento nelle reti di credenze sigmoidee pone sfide, in particolare nelle reti profonde, ma il metodo Monte Carlo e i metodi variazionali forniscono approcci per affrontare queste difficoltà e rendere fattibile l'apprendimento.

Lecture 13.3 — Learning sigmoid belief nets [Neural Networks for Machine Learning]
Lecture 13.3 — Learning sigmoid belief nets [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Lezione 13.4 — L'algoritmo wake sleep



Lezione 13.4 — L'algoritmo wake sleep [Neural Networks for Machine Learning]

L'algoritmo wake-sleep è un metodo di apprendimento utilizzato per modelli grafici diretti come le reti di credenze sigmoidee. Si compone di due fasi: la fase di veglia e la fase di sonno. A differenza delle macchine Boltzmann, utilizzate per modelli grafici non orientati, l'algoritmo wake-sleep è specificamente progettato per le reti di credenze sigmoidee.

L'algoritmo fa parte dell'apprendimento variazionale, un approccio di apprendimento automatico che approssima la distribuzione a posteriori per apprendere complicati modelli grafici. Invece di calcolare l'esatta distribuzione a posteriori, che è spesso difficile, l'apprendimento variazionale la approssima con un'approssimazione più economica. Quindi, l'apprendimento della massima verosimiglianza viene applicato in base a questa approssimazione.

Sorprendentemente, il processo di apprendimento funziona ancora in modo efficace, guidato da due fattori: migliorare la capacità del modello di generare dati osservati e adattare il posteriore approssimativo al reale posteriore. Questo effetto consente all'apprendimento variazionale di funzionare bene per le reti di credenze sigmoidee.

L'algoritmo wake-sleep utilizza due serie di pesi: pesi generativi e pesi di riconoscimento. Nella fase di attivazione, i dati vengono immessi nel livello visibile e viene eseguito un passaggio in avanti utilizzando i pesi di riconoscimento. Le decisioni binarie stocastiche vengono prese per ciascuna unità nascosta in modo indipendente, generando stati binari stocastici. Questi stati sono trattati come campioni dalla vera distribuzione posteriore e l'apprendimento di massima verosimiglianza viene applicato ai pesi generativi.

Nella fase del sonno, il processo si inverte. A partire da un vettore casuale nel livello superiore nascosto, vengono generati stati binari per ogni livello utilizzando i pesi generativi. L'obiettivo è recuperare gli stati nascosti dai dati. I pesi di riconoscimento sono addestrati per raggiungere questo obiettivo.

L'algoritmo wake-sleep presenta difetti, come i pesi di riconoscimento che non seguono il gradiente corretto e la media della modalità errata a causa dell'approssimazione dell'indipendenza. Nonostante queste limitazioni, alcuni ricercatori, come Karl Friston, credono che assomigli a come funziona il cervello. Tuttavia, altri pensano che in futuro verranno scoperti algoritmi migliori.

L'algoritmo di veglia-sonno approssima la distribuzione posteriore e alterna le fasi di veglia e di sonno per apprendere un modello generativo. Nonostante i suoi limiti, è stato influente nel campo dell'apprendimento automatico.

Lecture 13.4 — The wake sleep algorithm [Neural Networks for Machine Learning]
Lecture 13.4 — The wake sleep algorithm [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Lezione 14.1 — Apprendimento dei livelli di funzionalità impilando gli RBM



Lezione 14.1 — Apprendimento di livelli di funzionalità impilando RBM [Neural Networks for Machine Learning]

In questo video, l'oratore discute un approccio diverso all'apprendimento delle reti di credenze sigmoidee. Spiegano che mentre lavoravano sulle reti di credenze sigmoidee, hanno spostato la loro attenzione sulle macchine Boltzmann e hanno scoperto che le macchine Boltzmann restrittive potevano essere apprese in modo efficiente. Si sono resi conto che trattando le caratteristiche apprese da una macchina Boltzmann restrittiva come dati, potevano applicare un'altra macchina Boltzmann restrittiva per modellare le correlazioni tra quelle caratteristiche. Ciò ha portato all'idea di impilare più macchine Boltzmann per apprendere più strati di caratteristiche non lineari, il che ha suscitato una rinascita di interesse per le reti neurali profonde.

Il relatore esplora quindi la sfida di combinare le macchine Boltzmann impilate in un unico modello. Mentre ci si aspetterebbe una macchina Boltzmann multistrato, uno studente di nome Yitay ha scoperto che il risultato è più simile a una rete di credenze sigmoidee. Questa scoperta inaspettata ha risolto il problema dell'apprendimento delle reti di credenze sigmoidee profonde concentrandosi sull'apprendimento di modelli non orientati come le macchine di Boltzmann.

Il relatore descrive il processo di addestramento di un livello di funzionalità che ricevono direttamente input dai pixel e l'utilizzo dei modelli di attivazione di tali funzionalità per apprendere un altro livello di funzionalità. Questo processo può essere ripetuto per apprendere più livelli, con ogni livello che modella l'attività correlata nel livello sottostante. È dimostrato che l'aggiunta di un altro livello di funzionalità migliora un limite inferiore variazionale sulla probabilità di log di generare i dati.

Per combinare le macchine Boltzmann in un unico modello, il relatore spiega la procedura di apprendimento di ciascuna macchina individualmente e quindi di comporle insieme. Il modello combinato risultante è chiamato una rete di credenze profonde, che consiste di strati superiori che assomigliano a una macchina Boltzmann restrittiva e strati inferiori che assomigliano a una rete di credenze sigmoidee. Il relatore discute anche i vantaggi dell'impilamento delle macchine Boltzmann e spiega il concetto di media delle distribuzioni fattoriali. Dimostrano come la media di due distribuzioni fattoriali non si traduca in una distribuzione fattoriale. Il video approfondisce ulteriormente il processo di apprendimento dell'impilamento delle macchine Boltzmann e la messa a punto del modello composito utilizzando una variazione dell'algoritmo wake-sleep. Le tre fasi di apprendimento comportano la regolazione dei pesi generativi e di riconoscimento, il campionamento di unità nascoste e visibili e l'aggiornamento dei pesi utilizzando la divergenza contrastiva.

Viene presentato un esempio in cui vengono utilizzate 500 unità nascoste binarie per apprendere tutte le classi di dieci cifre in immagini di 28x28 pixel. Dopo aver addestrato l'RBM, le caratteristiche apprese vengono utilizzate per attività di riconoscimento e generazione.

Il video evidenzia la scoperta inaspettata dell'utilizzo di macchine Boltzmann impilate per apprendere reti di credenze profonde e fornisce approfondimenti sui processi di apprendimento e messa a punto coinvolti.

Lecture 14.1 — Learning layers of features by stacking RBMs [Neural Networks for Machine Learning]
Lecture 14.1 — Learning layers of features by stacking RBMs [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Lezione 14.2 — L'apprendimento discriminatorio per i DBN



Lezione 14.2 — Apprendimento discriminatorio per i DBN [Reti neurali per l'apprendimento automatico]

In questo video, esploriamo il processo di apprendimento di una rete di credenze profonde. Iniziamo impilando macchine Boltzmann restrittive per formare i livelli iniziali, che vengono poi trattati come una rete neurale profonda. Perfezioniamo questa rete utilizzando metodi discriminativi invece di metodi generativi, con l'obiettivo di migliorare la sua capacità di discriminare tra classi. Questo approccio ha avuto un impatto significativo sul riconoscimento vocale, portando molti gruppi leader ad adottare reti neurali profonde per ridurre i tassi di errore in questo campo.

Per mettere a punto la rete profonda, seguiamo una fase di pre-formazione in cui apprendiamo un livello di funzionalità alla volta utilizzando macchine Boltzmann restrittive in pila. Questa fase di pre-addestramento fornisce una buona serie iniziale di pesi per la rete neurale profonda. Quindi utilizziamo la backpropagation, una procedura di ricerca locale, per perfezionare e ottimizzare ulteriormente la rete per la discriminazione. Questa combinazione di pre-addestramento e messa a punto supera i limiti della tradizionale backpropagation, facilitando l'apprendimento delle reti neurali profonde e migliorandone le capacità di generalizzazione.

La pre-formazione offre vantaggi in termini di ottimizzazione e generalizzazione. Si adatta bene alle reti di grandi dimensioni, soprattutto quando ogni livello presenta località. Il processo di apprendimento diventa più parallelizzato, poiché c'è meno interazione tra luoghi molto separati. Inoltre, il pre-addestramento ci consente di avviare la retropropagazione con rilevatori di caratteristiche sensibili, ottenendo gradienti iniziali più significativi rispetto ai pesi casuali. Inoltre, le reti pre-addestrate mostrano meno overfitting perché la maggior parte delle informazioni nei pesi finali deriva dalla modellazione della distribuzione dell'input, che in genere contiene più informazioni delle etichette stesse.

L'uso della pre-formazione affronta anche l'obiezione che può portare all'apprendimento di caratteristiche irrilevanti per il compito discriminante a portata di mano. Sebbene sia vero che possiamo apprendere funzionalità che non vengono mai utilizzate, la potenza di calcolo dei computer moderni ci consente di permetterci questa inefficienza. Tra le funzionalità apprese, ce ne saranno sempre alcune molto utili, che superano gli input grezzi e compensano le funzionalità non utilizzate. Inoltre, il pre-addestramento riduce l'onere della backpropagation per scoprire nuove funzionalità, riducendo la necessità di grandi quantità di dati etichettati. I dati non etichettati rimangono preziosi per scoprire buone caratteristiche durante la fase di pre-formazione.

Per illustrare l'efficacia della pre-formazione e della messa a punto, il video discute la modellazione del set di dati MNIST. Tre livelli nascosti di funzionalità vengono appresi in modo completamente non supervisionato, generando cifre dall'aspetto realistico da classi diverse. Per valutare l'utilità di queste funzionalità per la discriminazione, viene aggiunto uno strato softmax finale a dieci vie e viene utilizzata la retropropagazione per la messa a punto. I risultati mostrano prestazioni migliorate rispetto all'addestramento puramente discriminativo, in particolare su attività invarianti di permutazione in cui la backpropagation standard fatica a ottenere bassi tassi di errore.

Vari esperimenti dimostrano i vantaggi del pre-allenamento. Quando si utilizza una pila di macchine Boltzmann per il pre-addestramento e la messa a punto, il tasso di errore sull'attività MNIST invariante permutazione può essere ridotto fino all'1,0%. Aggiungendo uno strato softmax a 10 vie direttamente sopra le macchine Boltzmann pre-addestrate, il tasso di errore può essere ulteriormente migliorato all'1,15% con alcuni aggiustamenti. Il lavoro di Micro Yerin, insieme al gruppo di Yan Lecun, mostra che la pre-formazione è particolarmente efficace con più dati e precedenti migliori. I loro esperimenti, che coinvolgono ulteriori immagini di cifre distorte e una rete neurale convoluzionale, hanno raggiunto tassi di errore fino allo 0,39%, stabilendo nuovi record nel riconoscimento vocale.

Questo progresso nella pre-formazione e nella messa a punto delle reti neurali profonde ha avuto un impatto significativo sul riconoscimento vocale, portando a miglioramenti nel campo. Molti ricercatori e gruppi, tra cui Microsoft Research, hanno adottato reti neurali profonde per attività di riconoscimento vocale, citando il successo e i progressi resi possibili da questo approccio.

Il successo del pre-addestramento e della messa a punto delle reti neurali profonde ha suscitato un rinnovato interesse per le reti neurali per varie applicazioni oltre al riconoscimento vocale. I ricercatori hanno iniziato a esplorare il potenziale delle reti neurali profonde nella visione artificiale, nell'elaborazione del linguaggio naturale e in altri domini. La combinazione di pre-addestramento e messa a punto si è dimostrata una tecnica potente per apprendere le rappresentazioni gerarchiche e migliorare le prestazioni delle reti neurali.

Uno dei motivi per cui il pre-training è efficace è che aiuta a superare i limiti della tradizionale backpropagation, specialmente quando si ha a che fare con reti profonde. Le reti profonde con molti livelli possono soffrire del problema del gradiente evanescente, in cui i gradienti diminuiscono man mano che si propagano attraverso i livelli, rendendo difficile addestrare la rete in modo efficace. Pre-addestrando la rete strato per strato e inizializzando i pesi in base alle funzionalità apprese, forniamo un buon punto di partenza per la backpropagation, che porta a un'ottimizzazione più efficiente.

Un altro vantaggio della pre-formazione è che aiuta a catturare rappresentazioni significative e gerarchiche dei dati di input. Gli strati della rete apprendono caratteristiche sempre più complesse e astratte man mano che ci addentriamo più in profondità nella rete. Questa rappresentazione gerarchica consente alla rete di estrarre caratteristiche di alto livello utili per la discriminazione. Pre-addestrando la rete per modellare la distribuzione dei vettori di input, ci assicuriamo che le caratteristiche apprese catturino modelli e variazioni importanti nei dati, il che aiuta a migliorare le prestazioni di generalizzazione della rete.

La combinazione di pre-formazione generativa e messa a punto discriminante è diventata un paradigma popolare nel deep learning. Sfrutta i vantaggi dell'apprendimento senza supervisione per apprendere utili funzionalità iniziali e quindi perfezionare tali funzionalità utilizzando dati etichettati per l'attività discriminativa specifica. Questo approccio ha dimostrato di avere successo in varie applicazioni e ha portato a progressi nelle prestazioni.

Mentre il campo del deep learning continua ad evolversi, i ricercatori esplorano costantemente nuove tecniche e architetture per migliorare la formazione e le prestazioni delle reti neurali profonde. Il successo della pre-formazione e della messa a punto ha spianato la strada a progressi in altre aree, come l'apprendimento trasferito, in cui i modelli pre-addestrati sono utilizzati come punto di partenza per nuove attività, e l'apprendimento auto-supervisionato, in cui i modelli apprendono da dati non etichettati prevedendo alcuni aspetti dei dati.

In conclusione, la combinazione di pre-formazione e fine tuning ha rivoluzionato il campo del deep learning. Sfruttando l'apprendimento non supervisionato per apprendere le funzionalità iniziali e quindi perfezionando tali funzionalità utilizzando l'apprendimento supervisionato, le reti neurali profonde possono ottenere prestazioni migliori e capacità di generalizzazione. Questo approccio ha avuto un impatto significativo su varie applicazioni, tra cui il riconoscimento vocale, la visione artificiale e l'elaborazione del linguaggio naturale, e continua a guidare i progressi nel campo del deep learning.

Lecture 14.2 — Discriminative learning for DBNs [Neural Networks for Machine Learning]
Lecture 14.2 — Discriminative learning for DBNs [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Lezione 14.3 — Fine tuning discriminativo



Lezione 14.3 — Fine tuning discriminativo [Reti neurali per l'apprendimento automatico]

In questo video, approfondiremo il processo di messa a punto discriminatoria dopo aver pre-addestrato una rete neurale utilizzando una pila di macchine Boltzmann. Osserviamo che durante la messa a punto, i pesi nei livelli inferiori subiscono modifiche minime, tuttavia questi piccoli aggiustamenti hanno un impatto significativo sulle prestazioni di classificazione della rete posizionando accuratamente i limiti decisionali.

La pre-formazione migliora anche l'efficacia delle reti più profonde rispetto a quelle meno profonde. Senza pre-addestramento, le reti meno profonde tendono a sovraperformare quelle più profonde. Tuttavia, il pre-addestramento inverte questa tendenza, in cui le reti profonde hanno prestazioni migliori mentre le reti poco profonde senza pre-addestramento hanno prestazioni peggiori.

Inoltre, forniamo un argomento convincente per iniziare con la formazione generativa prima di considerare la formazione discriminativa. Confrontando gli output delle reti su una serie di casi di test e visualizzandoli utilizzando t-SNE, osserviamo due classi distinte: reti senza pre-addestramento in alto e reti con pre-addestramento in basso. Le reti all'interno di ogni classe presentano somiglianze, ma non c'è sovrapposizione tra le due classi.

Il pre-addestramento consente alle reti di scoprire soluzioni qualitativamente diverse rispetto all'avvio con piccoli pesi casuali. Le soluzioni trovate attraverso il pre-addestramento generativo portano a regioni distinte nello spazio delle funzioni, mentre le reti senza pre-addestramento mostrano una maggiore variabilità.

Infine, discutiamo perché la pre-formazione è giustificata. Quando si generano coppie immagine-etichetta, è più plausibile che l'etichetta dipenda dagli oggetti del mondo reale piuttosto che solo dai pixel nell'immagine. Le informazioni veicolate dall'immagine superano quelle dell'etichetta, in quanto l'etichetta contiene informazioni limitate. In tali casi, ha senso invertire prima il percorso ad alta larghezza di banda dal mondo all'immagine per recuperare le cause sottostanti e quindi determinare l'etichetta corrispondente. Ciò giustifica la fase di pre-formazione, in cui viene appresa la mappatura immagine-causa, seguita dalla fase discriminativa per mappare le cause sull'etichetta, con potenziale messa a punto della mappatura immagine-causa.

Per illustrare i vantaggi del pre-allenamento, esaminiamo uno specifico esperimento condotto nel laboratorio di Yoshi Banjo. L'esperimento si concentra sulla messa a punto dopo il pre-addestramento generativo. Prima della messa a punto, i campi ricettivi nel primo strato nascosto di rilevatori di caratteristiche mostrano cambiamenti minimi. Tuttavia, questi sottili cambiamenti contribuiscono in modo significativo a migliorare la discriminazione.

L'esperimento comporta la discriminazione tra le cifre in un ampio insieme di cifre distorte. I risultati mostrano che le reti con pre-addestramento ottengono costantemente errori di test inferiori rispetto alle reti senza pre-addestramento, anche quando si utilizzano reti con un singolo livello nascosto. Il vantaggio della pre-formazione diventa più pronunciato quando si utilizzano reti più profonde. Le reti profonde con pre-addestramento mostrano una sovrapposizione minima o nulla con le reti poco profonde, sottolineando ulteriormente l'efficacia del pre-addestramento nel migliorare le prestazioni della rete.

Inoltre, esploriamo l'effetto del numero di livelli sull'errore di classificazione. Senza il pre-addestramento, due strati sembrano essere la scelta ottimale, poiché un ulteriore aumento del numero di strati porta a prestazioni significativamente peggiori. Al contrario, il pre-addestramento mitiga questo problema, poiché le reti con quattro livelli superano quelle con due livelli. La variazione di errore è ridotta e le prestazioni complessive sono migliorate.

Per rappresentare visivamente le variazioni di peso della rete durante l'allenamento, vengono utilizzate le visualizzazioni t-SNE. I pesi delle reti pre-addestrate e non pre-addestrate vengono tracciati nello stesso spazio. I grafici risultanti rivelano due classi distinte: reti senza pre-formazione in alto e reti con pre-formazione in basso. Ogni punto rappresenta un modello nello spazio funzionale e le traiettorie mostrano la progressione della somiglianza durante l'allenamento. Le reti senza pre-formazione finiscono in diverse regioni dello spazio funzionale, indicando una più ampia diffusione di soluzioni. Le reti con pre-formazione, invece, convergono verso una regione specifica, indicando una maggiore somiglianza tra loro.

Il solo confronto dei vettori di peso non è sufficiente perché le reti con configurazioni di peso diverse possono presentare lo stesso comportamento. Invece, gli output delle reti sui casi di test sono concatenati in vettori e t-SNE viene applicato per visualizzare la loro somiglianza. I colori nei grafici t-SNE rappresentano diversi stadi di formazione, illustrando ulteriormente la progressione della somiglianza.

Le reti neurali di pre-addestramento che utilizzano l'addestramento generativo prima dell'addestramento discriminante offrono diversi vantaggi. Migliora le prestazioni di classificazione posizionando accuratamente i limiti decisionali, migliora l'efficacia delle reti più profonde e fornisce soluzioni distinte nello spazio funzionale. Considerando il percorso ad alta larghezza di banda dal mondo all'immagine e il percorso a bassa larghezza di banda dal mondo all'etichetta, il pre-training consente il recupero delle cause sottostanti prima di determinare l'etichetta. Questo approccio in due fasi giustifica l'uso del pre-addestramento nell'addestramento della rete neurale.

Lecture 14.3 — Discriminative fine tuning [Neural Networks for Machine Learning]
Lecture 14.3 — Discriminative fine tuning [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...