Apprendimento automatico e Reti Neurali - pagina 46

 

CS480/680 Lezione 3: Regressione lineare



CS480/680 Lezione 3: Regressione lineare

La lezione sulla regressione lineare inizia con un'introduzione al problema di trovare la retta migliore che si avvicini il più possibile a un dato insieme di punti. Il docente spiega che le funzioni lineari possono essere rappresentate da una combinazione di input ponderati. La regressione lineare può essere risolta tramite l'ottimizzazione, con l'obiettivo di minimizzare la perdita euclidea variando il vettore dei pesi, cosa che può essere eseguita in modo efficiente utilizzando problemi di ottimizzazione convessi. Il processo di risoluzione di un'equazione di regressione lineare comporta la ricerca della variabile W, o pesi, che fornirà il minimo globale per la funzione obiettivo, che può essere eseguita utilizzando tecniche come l'inversione di matrice o metodi iterativi. Viene inoltre discussa l'importanza della regolarizzazione nella prevenzione dell'overfitting, con l'aggiunta di un termine di penalità alla funzione obiettivo per vincolare l'entità dei pesi e costringerli a essere il più piccoli possibile. La lezione termina discutendo l'importanza di affrontare il problema dell'overfitting nella regressione lineare.

  • 00:00:00 In questa sezione, l'istruttore introduce la regressione lineare, che è una tecnica di apprendimento automatico standard per la regressione, e spiega il problema in modo intuitivo. Il problema è trovare la linea migliore che si avvicini il più possibile a un dato insieme di punti. I dati sono costituiti da caratteristiche di input, X, e output di destinazione, T. L'obiettivo è trovare un'ipotesi H che associ X a T, assumendo che H sia lineare. Le funzioni lineari possono sempre essere rappresentate nel modo di prendere una combinazione ponderata degli input in cui i pesi vengono moltiplicati per gli input e quindi sommati.

  • 00:05:00 In questa sezione, il relatore discute lo spazio delle funzioni lineari e l'obiettivo di trovare le migliori funzioni lineari per minimizzare una funzione di perdita. Viene utilizzata la funzione di perdita euclidea, in cui la distanza al quadrato viene presa sottraendo la previsione dall'obiettivo. L'oratore spiega che Y è l'output del predittore, che è una funzione lineare, e T1 è il prezzo a cui viene venduta la casa, che è la verità fondamentale. Molteplici caratteristiche, come il numero di bagni e camere da letto, vengono prese in considerazione nella valutazione della casa, risultando in un vettore di dimensione 25-30. Il relatore discute anche la notazione utilizzata nelle diapositive e menziona che la divisione per due non è necessariamente necessaria in teoria.

  • 00:10:00 In questa sezione della lezione, il professore discute la notazione che utilizzerà durante il corso in riferimento alla regressione lineare. Introduce le variabili H per l'ipotesi, X per i punti dati, Y per il vettore delle uscite per tutti i punti dati e W per il vettore del peso. Cita anche l'uso della barra X per rappresentare un punto dati concatenato con uno scalare. Il professore prosegue spiegando che la regressione lineare può essere risolta tramite l'ottimizzazione, con l'obiettivo di minimizzare la perdita euclidea variando le W. Osserva che questo problema di ottimizzazione è facile perché è convesso, il che significa che esiste un minimo e che l'ottimo globale può essere trovato in modo affidabile.

  • 00:15:00 In questa sezione della lezione sulla regressione lineare, il relatore spiega come i problemi di ottimizzazione convessa possono essere risolti in modo efficiente utilizzando la discesa del gradiente, che implica seguire la curvatura della funzione fino ad arrivare al minimo. Tuttavia, il relatore osserva anche che gli obiettivi non convessi possono avere più minimi, rendendo difficile trovare in modo affidabile l'optimum globale. L'obiettivo nella regressione lineare è convesso, quindi una soluzione più efficiente è calcolare il gradiente, impostarlo a zero e risolvere per il singolo punto che soddisfa questa equazione, che è sia necessaria che sufficiente per garantire il minimo.

  • 00:20:00 In questa sezione della lezione, il professore spiega il processo di risoluzione di un'equazione di regressione lineare per trovare la variabile W, o pesi, che darà il minimo globale per la funzione obiettivo. Il sistema di equazioni lineari può essere riscritto nella forma W uguale a B isolando W, quindi la matrice A, che rappresenta i dati di input, può essere invertita per risolvere W. Tuttavia, esistono altre tecniche come l'eliminazione gaussiana, gradiente coniugato e metodi iterativi che possono essere più veloci ed efficienti. Il professore disegna anche un'immagine per dimostrare il concetto di trovare una linea che ridurrà al minimo la distanza euclidea rispetto all'output, o asse Y, riducendo le distanze verticali tra i punti dati e la linea.

  • 00:25:00 In questa sezione, il docente spiega l'intuizione alla base della minimizzazione della distanza verticale nella regressione lineare per ottenere un'unica soluzione. La funzione obiettivo è convessa e la funzione sferica ha un solo minimo. Tuttavia, la soluzione ottenuta minimizzando l'obiettivo dei minimi quadrati non è stabile, il che può portare a un overfitting. Il docente lo illustra con due esempi, uno dei quali perturba l'input di epsilon. La conferenza discute anche l'importante problema dell'impossibilità di invertire la matrice A a causa della singolarità o vicinanza alla singolarità.

  • 00:30:00 In questa sezione della lezione, l'istruttore fornisce due esempi numerici di regressione lineare con la stessa matrice A, ma diversi valori target, B. Il primo esempio ha un valore target esattamente 1 per il primo punto dati, mentre il secondo esempio ha un valore target di 1 più epsilon per lo stesso punto dati. La differenza nei valori target si traduce in un cambiamento significativo nell'output, nonostante epsilon sia un valore molto piccolo. L'istruttore illustra il problema con una rappresentazione grafica, evidenziando il significato dei cambiamenti nei valori di input e perché rappresenta una sfida nella regressione lineare.

  • 00:35:00 In questa sezione, il docente spiega la regressione lineare con l'aiuto di due punti dati. X ha due voci, ma la seconda dimensione è quella che varia e la prima voce viene ignorata. Il docente disegna due punti dati, uno con X come 0 e il target come 1 + Epsilon, e l'altro con X come Epsilon e il target come 1. Una linea tracciata attraverso questi punti cambia la sua pendenza da 0 a -1 quando il target del primo punto dati è aumentato da 1 a 1 + Epsilon, mostrando overfitting dovuto a dati insufficienti e rumore. La soluzione è instabile, anche se sono presenti più dati o dimensioni maggiori.

  • 00:40:00 In questa sezione viene introdotto il concetto di regolarizzazione nella regressione lineare. La regolarizzazione aggiunge un termine di penalità che vincola la grandezza dei pesi, costringendoli a essere il più piccolo possibile. Questo termine di penalità si aggiunge all'obiettivo originario di minimizzare la distanza euclidea tra output e target. L'uso della regolarizzazione ha senso sia dal punto di vista numerico che statistico, che verrà spiegato nella lezione seguente. A seconda del problema, l'iperparametro lambda, che determina l'importanza del termine di penalità, dovrà essere messo a punto tramite convalida incrociata. La regolarizzazione nella regressione lineare modifica il sistema di equazioni lineari in lambda I + A volte W uguale a B. Attraverso la regolarizzazione, gli autovalori del sistema lineare sono forzati ad essere almeno lambda, il che li allontana da 0, prevenendo instabilità numerica ed errori.

  • 00:45:00 In questa sezione, il docente discute l'applicazione della regolarizzazione nella regressione lineare per prevenire l'overfitting. L'idea di regolarizzazione prevede l'aggiunta di un termine di penalità alla funzione obiettivo e l'introduzione di un parametro lambda per controllare la quantità di peso assegnata al termine di penalità. Il docente spiega come funziona questa tecnica di regolarizzazione dal punto di vista dell'algebra lineare. Inoltre, viene fornito un esempio per illustrare come la regolarizzazione può stabilizzare le soluzioni ottenute nella regressione lineare e prevenire l'overfitting. L'esempio mostra che minimizzando i pesi e aggiungendo un termine di penalità, si possono ottenere soluzioni più vicine tra loro.

  • 00:50:00 In questa sezione, il docente discute l'importanza della regolarizzazione per mitigare il problema dell'overfitting nella regressione lineare. L'overfitting è un problema comune in cui un modello si comporta bene con i dati di addestramento ma con scarsi risultati con i dati di test. La regolarizzazione è un modo per affrontare questo problema e il corso coprirà anche altri approcci. Nella lezione successiva, l'argomento sarà affrontato da una prospettiva statistica.
 

CS480/680 Lezione 4: Apprendimento statistico



CS480/680 Lezione 4: Apprendimento statistico

In questa lezione sull'apprendimento statistico, il professore spiega vari concetti come la regola di emarginazione, la probabilità condizionata, la probabilità congiunta, la regola di Bayes e l'apprendimento bayesiano. Questi concetti implicano l'uso di distribuzioni di probabilità e il loro aggiornamento per ridurre l'incertezza durante l'apprendimento. La conferenza sottolinea l'importanza di comprendere questi concetti per giustificare e spiegare vari algoritmi. La conferenza evidenzia anche i limiti di questi concetti, in particolare nel trattare con ampi spazi di ipotesi. Nonostante questa limitazione, l'apprendimento bayesiano è considerato ottimale fintanto che il precedente è corretto, fornendo informazioni significative agli utenti.

In questa lezione, l'istruttore spiega il concetto di apprendimento bayesiano approssimato come soluzione per il problema della trattabilità con l'apprendimento bayesiano. La massima verosimiglianza e il massimo a-posteriori sono approssimazioni comunemente usate nell'apprendimento statistico, ma presentano una serie di punti deboli, come l'overfitting e previsioni meno precise rispetto all'apprendimento bayesiano. La lezione copre anche il problema di ottimizzazione derivante dalla massimizzazione della verosimiglianza, la quantità di dati necessari per diversi problemi e l'importanza delle prossime diapositive per l'assegnazione del corso. Il docente conclude sottolineando che l'algoritmo convergerà verso l'ipotesi migliore all'interno dello spazio dato, anche se alcuni rapporti non sono realizzabili.

  • 00:00:00 In questa sezione della lezione, il professore introduce l'argomento dell'apprendimento statistico, che implica l'uso della statistica e della teoria della probabilità per catturare e ridurre l'incertezza durante l'apprendimento. L'idea è di utilizzare le distribuzioni di probabilità per quantificare l'incertezza e aggiornarle man mano che l'apprendimento progredisce. La conferenza fornisce anche una rassegna delle distribuzioni di probabilità e del concetto di distribuzione di probabilità congiunta su più variabili casuali. In definitiva, l'apprendimento statistico aiuta a spiegare e giustificare gli algoritmi, inclusa la regolarizzazione, da una prospettiva statistica.

  • 00:05:00 In questa sezione, il docente spiega come utilizzare la regola di marginalizzazione per estrarre una particolare distribuzione da una distribuzione congiunta. Fornisce un esempio in cui viene fornita una distribuzione congiunta su tre variabili di condizioni meteorologiche, condizioni di mal di testa e una probabilità per ogni giorno. Dimostra il calcolo delle probabilità utilizzando distribuzioni marginali, mostrando come sia possibile trovare una probabilità congiunta o le probabilità di specifici scenari meteorologici o di mal di testa. Utilizzando questo metodo, arriva alla parte del mal di testa o del sole che arriva al punto ventotto, mostrando così come estrarre una distribuzione specifica da una distribuzione congiunta.

  • 00:10:00 In questa sezione viene discusso il concetto di probabilità condizionata, che è indicata dalla probabilità di una variabile data un'altra variabile. La barra verticale rappresenta il riferimento per la frazione e il numeratore rappresenta i mondi in cui entrambe le variabili sono vere. Per spiegare questo concetto viene utilizzata una rappresentazione grafica in cui viene preso in considerazione il rapporto tra il numero di persone che hanno entrambe le variabili. Questo concetto viene utilizzato per determinare rare occorrenze di eventi come la probabilità di avere mal di testa a causa dell'influenza.

  • 00:15:00 In questa sezione, il relatore spiega come calcolare le probabilità condizionali utilizzando metodi di conteggio e visualizzazione. L'equazione generale per la probabilità condizionata è una frazione di due aree che rappresentano il numero di mondi con variabili specifiche. Viene introdotto il concetto di probabilità congiunte e probabilità marginali e viene spiegata l'equazione della regola della catena, che ci consente di fattorizzare una distribuzione congiunta in una probabilità condizionata e una probabilità marginale. L'oratore mette in guardia anche sull'errore comune di presumere che la probabilità di avere l'influenza a causa del mal di testa sia la stessa della probabilità di avere un mal di testa a causa dell'influenza, e spiega perché questo non è corretto.

  • 00:20:00 In questa sezione, il relatore esplora la probabilità condizionale nel contesto della diagnosi di una malattia basata sui sintomi. L'ordine degli argomenti in una probabilità condizionata è importante perché il lato sinistro è ciò che viene stimato e il lato destro è il contesto. L'oratore lo illustra con l'esempio del calcolo della probabilità che l'influenza provochi mal di testa. La probabilità congiunta di avere l'influenza e il mal di testa viene calcolata utilizzando la regola della catena e quindi la probabilità condizionata viene ottenuta dividendo la probabilità congiunta per la probabilità marginale di avere il mal di testa. Un altro esempio è fornito con le tre variabili casuali di mal di testa, soleggiato e freddo. Vengono calcolate le probabilità condizionali di mal di testa e raffreddore in presenza di sole e la probabilità condizionale inversa di sole in presenza di mal di testa e raffreddore.

  • 00:25:00 In questa sezione della lezione, l'istruttore spiega il calcolo delle probabilità congiunte per più eventi dato un contesto specifico e discute perché le probabilità potrebbero non sommarsi a uno in determinate situazioni. Gli esempi forniti riguardano la probabilità di avere mal di testa e raffreddore dato che la giornata è soleggiata o meno. L'istruttore sottolinea quindi l'importanza di considerare tutti i risultati sul lato sinistro della barra verticale al fine di determinare se le probabilità devono sommarsi a uno, e mette in guardia contro l'errore comune di presumere che il cambiamento del contesto degli eventi risulterà in probabilità che sommano fino a uno.

  • 00:30:00 In questa sezione, l'istruttore spiega la regola di Bayes, che viene utilizzata per l'apprendimento automatico e l'inferenza. La regola di Bayes consente di calcolare la relazione tra due probabilità condizionali tramite lo scambio di argomenti. Viene utilizzato con una distribuzione precedente che cattura l'incertezza iniziale, seguita dall'evidenza o dal set di dati utilizzato per rivedere la distribuzione precedente per ottenere la distribuzione posteriore. Questa regola può anche essere utilizzata per misurare la probabilità di ottenere determinati set di dati e può essere uno strumento efficace per l'apprendimento rivedendo le distribuzioni che quantificano l'incertezza. L'equazione per la regola di Bayes comporta la moltiplicazione del precedente per la verosimiglianza e una costante invece di dividerla per l'evidenza.

  • 00:35:00 In questa sezione della conferenza, il relatore spiega che la proprietà dell'evidenza è una costante di normalizzazione dal punto di vista dell'apprendimento. Ha lo scopo di normalizzare il numeratore in modo che i numeri risultanti siano compresi tra 0 e 1. Il processo di apprendimento bayesiano fornisce una distribuzione a posteriori, ma in pratica ciò che si desidera è un'ipotesi da utilizzare per fare previsioni. Per fare ciò, viene utilizzata una combinazione ponderata di ipotesi per fare previsioni ponderandole in base alla loro corrispondente probabilità a posteriori.

  • 00:40:00 In questa sezione viene discusso il concetto di utilizzo della distribuzione a posteriori per definire i pesi per diverse ipotesi per l'apprendimento automatico. Viene fornito un esempio di utilizzo dell'apprendimento bayesiano per stimare il rapporto tra i sapori in un sacchetto di caramelle, in cui la distribuzione a priori è un'ipotesi fatta all'inizio e l'evidenza corrisponde ai dati ottenuti mangiando le caramelle. La distribuzione posteriore viene utilizzata per ridurre l'incertezza e conoscere il rapporto dei sapori. La convinzione iniziale è soggettiva e può essere basata su un'ipotesi plausibile.

  • 00:45:00 In questa sezione della conferenza, il relatore discute l'apprendimento bayesiano per stimare il rapporto tra i sapori in un sacchetto di caramelle. La distribuzione di verosimiglianza è calcolata sulla base del presupposto che le caramelle siano distribuite in modo identico e indipendente. Usando il teorema di Bayes e moltiplicando la probabilità a priori, si ottiene la distribuzione a posteriori, dando le probabilità a posteriori per ogni ipotesi. Il relatore mostra graficamente le distribuzioni a posteriori e spiega come domina la probabilità dell'ipotesi con tutto lime quando tutte le caramelle mangiate finora sono lime.

  • 00:50:00 In questa sezione del video sull'apprendimento statistico, il presentatore discute i risultati di un esperimento con un sacchetto di caramelle in cui le caramelle vengono estratte casualmente da un sacchetto e ne vengono annotati i sapori. L'ipotesi sul rapporto di sapore della borsa viene aggiornata in base all'osservazione e viene calcolata la probabilità. Si osserva che la probabilità di un'ipotesi che il sacchetto contenga solo ciliegie scende a zero quando si osserva un lime, mentre la probabilità di un'ipotesi del 75% di lime e del 25% di ciliegie aumenta con il lime ma scende di nuovo dopo quattro caramelle. Il presentatore spiega inoltre che la probabilità iniziale scelta per ciascuna ipotesi rappresenta la convinzione precedente e la selezione è soggettiva a seconda della convinzione dell'esperto. Infine, il relatore sottolinea l'importanza di fare previsioni utilizzando la distribuzione a posteriori per fornire informazioni significative agli utenti.

  • 00:55:00 In questa sezione della conferenza, il relatore discute l'apprendimento bayesiano e le sue proprietà. L'apprendimento bayesiano è considerato ottimale fintanto che il precedente è corretto e fornisce un modo basato su principi per fare previsioni. Inoltre, è generalmente immune all'overfitting, che è un problema importante nell'apprendimento automatico. Tuttavia, il principale svantaggio dell'apprendimento bayesiano è che è generalmente intrattabile, in particolare quando si ha a che fare con ampi spazi di ipotesi. Ciò rende problematico il calcolo della distribuzione a posteriori e della previsione.

  • 01:00:00 In questa sezione viene introdotto il concetto di apprendimento bayesiano approssimato come soluzione al problema della trattabilità con l'apprendimento bayesiano. Il massimo a-posteriori è un'approssimazione comune che comporta la selezione dell'ipotesi con la più alta probabilità nel posteriore e la formulazione di previsioni basate su quella. Questo approccio può controllare ma non eliminare l'overfitting ed è meno accurato della previsione bayesiana perché si basa su un'unica ipotesi. La massima verosimiglianza è un'altra approssimazione che implica la selezione dell'ipotesi che si adatta meglio ai dati e non utilizza probabilità a priori, rendendola più semplice ma meno precisa dell'apprendimento bayesiano. Entrambe le approssimazioni risolvono il problema dell'intrattabilità ma lo sostituiscono con problemi di ottimizzazione.

  • 01:05:00 In questa sezione del video, l'istruttore spiega il concetto di massima verosimiglianza, che è l'ipotesi che meglio si adatta ai dati. Tuttavia, ciò può includere l'adattamento di tutto, incluso il rumore, che può portare a un adattamento eccessivo. Sebbene la massimizzazione della verosimiglianza possa semplificare i calcoli, porta a previsioni meno accurate rispetto alle previsioni bayesiane e MAP. Il problema di ottimizzazione che deriva dalla massimizzazione della verosimiglianza può ancora essere intrattabile, ma molti algoritmi nel corso massimizzeranno la verosimiglianza da una prospettiva statistica. Infine, l'istruttore discute la questione della quantità di dati necessari per diversi problemi, che appartiene al campo della teoria dell'apprendimento ed è soggettiva alla dimensione dello spazio delle ipotesi.

  • 01:10:00 In questa sezione, il relatore conclude la lezione ma menziona che tratterà alcune altre diapositive nella lezione successiva che saranno importanti per il compito. Afferma inoltre che anche se alcuni dei rapporti non sono realizzabili, l'algoritmo convergerà comunque verso l'ipotesi che è la migliore per fare una previsione all'interno dello spazio dato.
 

CS480/680 Lezione 5: Regressione lineare statistica



CS480/680 Lezione 5: Regressione lineare statistica

In questa lezione sulla regressione lineare statistica, il professore copre numerosi argomenti, a partire dal concetto di massima verosimiglianza e distribuzioni di verosimiglianza gaussiana per dati rumorosi e corrotti. Spiegano l'uso delle tecniche di massima verosimiglianza per trovare i pesi che danno la massima probabilità per tutti i punti dati nel set di dati. La lezione poi approfondisce l'idea di massimo a-posteriori (MAP), gaussiana sferica e matrice di covarianza. Il relatore discute anche dell'uso dell'informazione a priori e della regolarizzazione. L'errore atteso nella regressione lineare viene quindi scomposto in due termini: uno che tiene conto del rumore e un altro dipendente dal vettore dei pesi, W, che può essere ulteriormente scomposto in bias e varianza. La conferenza si conclude con una discussione sull'uso dell'apprendimento bayesiano per il calcolo della distribuzione a posteriori. Nel complesso, la conferenza copre un'ampia gamma di argomenti relativi alla regressione lineare statistica e fornisce preziose informazioni sull'ottimizzazione dei modelli per ridurre l'errore di previsione.

La lezione si concentra sulla regressione bayesiana, che stima una distribuzione a posteriori che converge verso il vero insieme di pesi man mano che si osservano più punti dati. La distribuzione precedente risulta essere una distribuzione su coppie di W zero e W1 ed è una distribuzione di linee. Dopo aver osservato un punto dati, la distribuzione a posteriori viene calcolata utilizzando le distribuzioni a priori e di probabilità, risultando in una convinzione aggiornata sulla posizione della linea. Per fare previsioni, viene presa una combinazione ponderata delle previsioni delle ipotesi in base alla distribuzione a posteriori, portando a una previsione gaussiana con una media e una varianza date da formule specifiche. Il trucco per ottenere una previsione puntuale effettiva è prendere la media della previsione gaussiana.

  • 00:00:00 In questa sezione viene introdotto il concetto di massima verosimiglianza e massimo avversario che immagina l'apprendimento nel contesto della regressione lineare. Si presume che i dati provengano da misurazioni rumorose e corrotte. L'output osservato è una versione danneggiata dell'output della funzione sottostante con l'aggiunta di qualche rumore. Si presume che Gaussian indichi il rumore. Viene espressa una distribuzione di verosimiglianza per determinare la probabilità di misurare un determinato output per ogni input nel set di dati. Questa comprensione aiuta a fare scelte migliori per la regolarizzazione.

  • 00:05:00 In questa sezione della lezione, il professore discute la distribuzione gaussiana nel contesto della regressione lineare. Spiegano che assumendo che la funzione sottostante sia lineare e deterministica, la distribuzione risultante è gaussiana con una media uguale a W trasposizione X e una varianza equivalente al quadrato Sigma. Quindi disegnano un grafico della distribuzione gaussiana per illustrare che la probabilità di misurare valori attorno alla media è maggiore, con l'ampiezza della curva determinata dal quadrato Sigma. Il professore osserva che questa è la funzione di verosimiglianza e che possiamo utilizzare tecniche di massima verosimiglianza per trovare la W che fornisce la massima probabilità per tutti i punti dati nel nostro set di dati.

  • 00:10:00 In questa sezione, il docente spiega come selezionare il miglior modello per la regressione lineare statistica, iniziando con l'ottimizzazione della probabilità di Y osservati dati specifici input X e un livello di rumore con varianza Sigma. Il docente mostra quindi una derivazione di come semplificare e ridimensionare questa espressione a un obiettivo convesso prendendo il logaritmo naturale e rimuovendo i fattori irrilevanti. Il risultato è il problema dei minimi quadrati originale, che dimostra l'approccio intuitivo per minimizzare la distanza tra i punti e la linea nella regressione lineare.

  • 00:15:00 In questa sezione, il relatore discute la prospettiva statistica e come trovare il W che darebbe la massima probabilità di osservare le misurazioni assumendo un modello con rumore gaussiano. Il problema di ottimizzazione è equivalente matematicamente, dando maggiore fiducia in questo approccio. Rimuovere Sigma da ogni termine nella sommatoria equivale matematicamente a estrarlo dalla sommatoria e consente di supporre che lo stesso rumore sia presente per ogni singola misurazione quando è selezionato W. Il relatore afferma inoltre che è importante disporre di un modello per il rumore per trovare la soluzione migliore e stimare Sigma sulla base di ripetuti esperimenti per mantenerlo fisso. La distribuzione posteriore viene calcolata trovando il W che ha la probabilità più alta nel posteriore calcolando il posteriore come prodotto del precedente per la verosimiglianza e una costante di normalizzazione.

  • 00:20:00 In questa sezione della lezione, l'istruttore discute il concetto di massima a-posteriori (MAP) e come differisce dalla massima verosimiglianza. MAP implica l'inclusione della distribuzione precedente nel calcolo per affinare la distribuzione dell'ipotesi, che riduce l'incertezza. Il docente spiega come definire una distribuzione a priori gaussiana per il vettore dei pesi (W) e come calcolare la PDF della gaussiana multivariata. L'istruttore fornisce anche un esempio di disegno di linee di contorno per illustrare la forma della distribuzione gaussiana.

  • 00:25:00 In questa sezione della lezione, l'istruttore spiega il concetto di gaussiana sferica e come si relaziona alla matrice di covarianza. Le voci diagonali della matrice di covarianza rappresentano la varianza di ciascun peso, mentre le voci fuori diagonale rappresentano la covarianza tra i pesi. L'istruttore mostra quindi come trovare il massimo del posteriore utilizzando una derivazione, assumendo che l'inverso della matrice di covarianza sia uguale a lambda per la matrice identità. In questo modo, l'espressione è equivalente al problema dei minimi quadrati regolarizzato, con il termine di penalità lambda moltiplicato per la norma al quadrato di W. Il termine di regolarizzazione può ora essere interpretato in un modo nuovo, chiarendo che deriva dalla precedente distribuzione e che minimizzare la norma di W equivale ad avvicinare i pesi alla media della distribuzione.

  • 00:30:00 In questa sezione, il relatore discute l'uso di informazioni a priori per scegliere una matrice di covarianza nella regressione lineare statistica. Se sono presenti informazioni che suggeriscono che le soluzioni dovrebbero essere vicine allo zero, viene utilizzato un valore a priori di media zero con una matrice di covarianza definita da una distribuzione a campana con una certa diffusione. Massimizzare la verosimiglianza equivale a minimizzare l'obiettivo regolarizzato con il termine di penalità quando si utilizza questo precedente. Nelle situazioni in cui la gaussiana non ha una forma sferica, ma una forma più generale, il raggio per ogni dimensione è diverso, il che significa che ci sono valori diversi nelle entrate diagonali. È ragionevole supporre che una matrice di covarianza abbia una forma diagonale, con la stessa ampiezza in ogni direzione, che tende a funzionare bene nella pratica.

  • 00:35:00 In questa sezione, il relatore discute come gli approcci per minimizzare la perdita al quadrato con un termine organizzativo e massimizzare l'ipotesi a posteriori possono portare a risultati di perdita potenzialmente diversi. La sezione analizza la funzione di perdita e suddivide la perdita attesa in due diversi termini. La scelta di lambda influisce sulla soluzione e quindi sulla perdita prevista. Il relatore mostra quindi la derivazione matematica di come un dato W può portare a una perdita attesa e come questa perdita può essere scomposta in due termini diversi. L'analisi si basa su un set di dati campione e sulla distribuzione sottostante e i risultati possono essere utilizzati per comprendere la perdita prevista di un dato W e l'impatto della variazione di lambda.

  • 00:40:00 In questa sezione della lezione, il relatore spiega la derivazione dell'errore atteso in un modello di regressione lineare. L'errore atteso è scomposto in due termini: uno che tiene conto del rumore e un altro che dipende dal vettore dei pesi, W. Questo secondo termine può essere ulteriormente espanso per mostrare che può essere scomposto nel quadrato di polarizzazione e nella varianza . Il bias misura la differenza media tra l'output del modello e la vera funzione sottostante che viene approssimata, mentre la varianza misura la variabilità degli output del modello attorno alla loro media. Comprendendo i contributi di bias e varianza all'errore previsto, i data scientist possono ottimizzare meglio i loro modelli per ridurre l'errore di previsione.

  • 00:45:00 In questa sezione della lezione, il professore spiega la scomposizione della perdita attesa in tre termini: rumore, varianza e bias al quadrato. Ciò porta a un grafico in cui l'asse x è lambda, il peso del termine di regolarizzazione nell'assegnazione. All'aumentare di lambda, l'errore diminuisce inizialmente e poi aumenta di nuovo. La perdita attesa è composta dal rumore più la varianza più il bias al quadrato. Il grafico mostra che la curva della varianza più la polarizzazione al quadrato è la somma delle singole curve della varianza e della distorsione al quadrato. La convalida incrociata viene utilizzata per trovare il miglior valore lambda, che può controllare l'errore raggiunto, mentre la differenza tra la perdita attesa e la perdita effettiva è il rumore presente in tutti i casi.

  • 00:50:00 In questa sezione, il docente fornisce un esempio di regressione non lineare per illustrare come le diverse curve ottenute dall'applicazione del massimo apprendimento a-posteriori con diversi set di dati si riferiscono a bias e varianza. Il docente spiega che al diminuire di lambda, il bias diminuisce e la varianza aumenta. L'obiettivo è trovare un lambda che offra il miglior compromesso tra bias e varianza, come mostrato nella curva. Il docente ricorda anche che l'errore è misurato in termini di distanza al quadrato e che lambda è un parametro utilizzato nella regolarizzazione.

  • 00:55:00 In questa sezione, il docente discute l'idea di minimizzare le distanze al quadrato e di aggiungere un termine di penalità, dove lambda è il peso del termine di penalità. La variazione di lambda influenza la distorsione e la varianza, portando a diversi valori W ottimali e la perdita attesa può essere considerata come una funzione di lambda. L'apprendimento bayesiano comporta il calcolo della distribuzione a posteriori partendo da un precedente e riducendo l'incertezza attraverso l'apprendimento automatico. La distribuzione a posteriori viene calcolata moltiplicando una gaussiana a priori e una gaussiana verosimiglianza, risultando in una gaussiana a posteriori.

  • 01:00:00 In questa sezione, il concetto di regressione bayesiana viene spiegato con l'aiuto di una distribuzione gaussiana a priori nello spazio di w, che può rappresentare una linea. La distribuzione precedente risulta essere una distribuzione su coppie di w naught e w1 ed è una distribuzione di linee. Quindi, dopo aver osservato un singolo punto dati, viene calcolata una distribuzione a posteriori moltiplicando le distribuzioni a priori e di probabilità. La distribuzione posteriore risultante è allungata lungo la cresta e alquanto arrotondata, e quindi diventa l'opinione aggiornata sulla posizione della linea.

  • 01:05:00 di questa sezione, il docente spiega come l'apprendimento bayesiano stima una distribuzione a posteriori che converge verso il vero insieme di pesi man mano che vengono osservati più punti dati. Le linee rosse rappresentano i campioni della corrispondente distribuzione posteriore, che è una distribuzione rispetto ai pesi che definiscono una linea corrispondente nello spazio dei dati. Tuttavia, c'è ancora una questione su come fare previsioni basate sulla distribuzione finale a posteriori.

  • 01:10:00 In questa sezione, il relatore spiega come fare previsioni utilizzando l'apprendimento bayesiano, che implica prendere una combinazione ponderata delle previsioni fatte da ciascuna ipotesi. La previsione viene effettuata per un nuovo input ei pesi sono determinati dalla distribuzione a posteriori. Il relatore utilizza una gaussiana a posteriori e una verosimiglianza per arrivare a una previsione gaussiana, con una media e una varianza date da formule specifiche. Infine, un trucco comune per ottenere una previsione puntuale effettiva è prendere la media della previsione gaussiana.
 

CS480/680 Lezione 6: Strumenti per i rilievi (Paulo Pacheco)



CS480/680 Lezione 6: Strumenti per i rilievi (Paulo Pacheco)

In questo video, Paulo Pacheco presenta due strumenti accademici per i sondaggi: Google Scholar e RefWorks. Spiega come cercare documenti accademici e ordinarli per citazioni utilizzando Google Scholar e suggerisce di filtrare i documenti più vecchi per quelli più recenti. Pacheco sottolinea l'importanza dell'esportazione e della gestione delle citazioni e introduce RefWorks come strumento per questo compito. Fornisce inoltre suggerimenti per l'accesso alle pubblicazioni accademiche, incluso l'utilizzo di ricerche di parole chiave creative e la potenziale richiesta dell'accesso alla rete universitaria o di una VPN.

  • 00:00:00 In questa sezione, Paulo Pacheco introduce due strumenti per condurre sondaggi: Google Scholar e RefWorks della biblioteca. Spiega come Google Scholar può essere utilizzato per cercare documenti accademici e ordinarli approssimativamente per citazioni. Suggerisce anche come filtrare i documenti più vecchi e concentrarsi su quelli più recenti. Pacheco sottolinea l'importanza di esportare e gestire le citazioni per il lavoro accademico e menziona RefWorks come uno strumento che può aiutare in questo processo.

  • 00:05:00 In questa sezione, il relatore discute vari strumenti e suggerimenti per accedere alle pubblicazioni accademiche, in particolare tramite Google Scholar e la biblioteca dell'Università di Waterloo. Spiega come utilizzare Google Scholar per trovare documenti pertinenti e ordinarli per anno o numero di citazioni, e osserva inoltre che l'accesso ai testi completi potrebbe richiedere l'accesso alla rete universitaria o l'uso di una VPN. Inoltre, suggerisce di utilizzare una ricerca di parole chiave creative come "fantastici set di dati per la PNL" o "fantastici collegamenti per la visione artificiale" per trovare ispirazione e risorse di alta qualità.
 

CS480/680 Lezione 6: Dataset e concorsi Kaggle



CS480/680 Lezione 6: Dataset e concorsi Kaggle

La conferenza discute di Kaggle, una comunità per i professionisti della scienza dei dati per competere in concorsi sponsorizzati utilizzando i set di dati forniti per un premio in denaro, offrendo kernel per l'addestramento del modello di apprendimento automatico e l'estrazione delle caratteristiche dei dati e una vasta selezione di quasi 17.000 set di dati da utilizzare nella progettazione di algoritmi. Il docente osserva inoltre che i repository GitHub dell'azienda possono fornire preziosi set di dati, codici e documenti pubblicati per le competizioni.

  • 00:00:00 In questa sezione, il docente parla di Kaggle, una comunità di data science in cui i professionisti della data science possono competere in concorsi sponsorizzati da aziende private dove forniscono un set di dati e un premio in denaro. I partecipanti possono scaricare i dati, addestrare algoritmi di apprendimento automatico e inviare previsioni alla competizione per vincere se le loro previsioni sono le migliori per il set di dati. Kaggle fornisce anche kernel, frammenti di codice inviati da diversi utenti che sono utili per l'estrazione di funzionalità o per addestrare un particolare tipo di modello su alcuni dati. Oltre a competizioni e kernel, Kaggle fornisce quasi 17.000 set di dati che coprono qualsiasi disciplina ti venga in mente. Gli utenti possono guardarsi intorno per trovare un set di dati che possa soddisfare le ipotesi di cui hanno bisogno per progettare un algoritmo.

  • 00:05:00 In questa sezione, il relatore discute alcune fonti da cui è possibile trovare set di dati per varie competizioni. Cita Kaggle come una grande fonte di set di dati. Suggerisce inoltre di esaminare i repository GitHub dell'azienda in cui sono disponibili codici a pagamento e documenti pubblicati insieme a dati che possono essere utilizzati per eseguire il codice. Questa può essere una risorsa preziosa per ottenere set di dati di alta qualità.
 

CS480/680 Lezione 6: Normalizzazione dei flussi (Priyank Jaini)



CS480/680 Lezione 6: Normalizzazione dei flussi (Priyank Jaini)

Il video fornisce un'introduzione alla normalizzazione dei flussi nei modelli generativi profondi, una tecnica che apprende una funzione per trasformare una distribuzione in un'altra, con l'obiettivo di trasformare una distribuzione nota in una distribuzione di interesse sconosciuta. Il video discute anche possibili progetti di ricerca relativi alla normalizzazione dei flussi, inclusa la conduzione di un'indagine su diversi documenti e progressi relativi alla normalizzazione dei flussi e l'analisi della trasformazione di una singola gaussiana in una combinazione di gaussiane. Il docente incoraggia l'esplorazione delle molte diverse applicazioni della normalizzazione dei flussi.

  • 00:00:00 In questa sezione, il relatore fornisce un'introduzione alla normalizzazione dei flussi nei modelli generativi profondi. L'apprendimento di una distribuzione è un aspetto chiave dell'apprendimento automatico e il relatore spiega che la normalizzazione dei flussi è una tecnica che apprende una funzione per trasformare una distribuzione in un'altra. L'obiettivo è trasformare una distribuzione nota, come una distribuzione gaussiana, in una distribuzione di interesse sconosciuta. In pratica, per questa trasformazione viene utilizzata una rete neurale e l'attenzione della ricerca si è concentrata sulla progettazione di reti neurali per ottenere la distribuzione desiderata.

  • 00:05:00 In questa sezione, il docente discute possibili progetti di ricerca relativi alla normalizzazione dei flussi, che è un tema caldo nell'apprendimento automatico che ha guadagnato molta attenzione negli ultimi anni. Un'idea del progetto è quella di condurre un sondaggio sui diversi documenti e progressi relativi alla normalizzazione dei flussi, che potrebbero essere potenzialmente pubblicabili. Un'altra idea è analizzare la trasformazione di una singola gaussiana in una combinazione di gaussiane utilizzando determinate funzioni e come questa possa essere estesa ad altre distribuzioni come le distribuzioni esponenziale e T di Student. Il docente evidenzia anche questioni teoricamente aperte nel catturare il comportamento dalla coda pesante nei mercati dei capitali finanziari. Nel complesso, il docente incoraggia ad esplorare le diverse applicazioni della normalizzazione dei flussi e invita gli studenti interessati a contattarli per ulteriori conoscenze sul t
 

CS480/680 Lezione 6: Traduzione di parole senza supervisione (Kira Selby)



CS480/680 Lezione 6: Traduzione di parole senza supervisione (Kira Selby)

Il video discute la traduzione di parole senza supervisione, che prevede l'addestramento di un modello di apprendimento automatico per tradurre da e verso una lingua senza alcuna informazione interlinguistica o corrispondenza del dizionario. Il modello Muse viene introdotto come un approccio in grado di raggiungere un'accuratezza all'avanguardia su centinaia di lingue senza alcuna informazione interlinguistica e si avvicina ai modelli supervisionati nelle prestazioni. Il processo di traduzione di parole senza supervisione utilizza una matrice che traduce gli spazi di incorporamento di parole di lingue diverse, utilizzando GAN o reti di contraddittori generativi. Addestrando questi due modelli l'uno contro l'altro, viene creato un modo per mappare due distribuzioni in uno spazio, fornendo migliori risultati di traduzione. I modelli possono raggiungere un'accuratezza dell'82,3% nelle traduzioni da parola a parola.

  • 00:00:00 In questa sezione, il docente discute l'argomento della traduzione di parole senza supervisione, che implica l'addestramento di un modello di apprendimento automatico per tradurre da e verso una lingua senza alcuna informazione interlinguistica o corrispondenza del dizionario. Il docente spiega il concetto di word embedding, in cui le parole vengono trasformate in vettori che possono diventare parte di un modello. Il docente introduce il modello Muse, che utilizza una semplice ipotesi secondo cui una trasformazione lineare può connettere spazi vettoriali di lingue diverse. Muse può raggiungere un'accuratezza all'avanguardia in centinaia di lingue senza alcuna informazione interlinguistica e si avvicina ai modelli supervisionati in termini di prestazioni.

  • 00:05:00 In questa sezione, Kira Selby spiega il processo di traduzione di parole senza supervisione utilizzando una matrice che traduce gli spazi di incorporamento di parole in lingue diverse. La matrice può confrontare un intero gruppo di vettori da uno spazio linguistico trasformato in un altro spazio linguistico. L'obiettivo è raggiungere spazi linguistici coincidenti per ottenere traduzioni. Questo processo utilizza GAN o reti antagoniste generative in cui il generatore è la matrice u che accoglie un vettore spaziale sorgente e fornisce un vettore spaziale bersaglio. Nel frattempo, il discriminatore impara a stabilire se un insieme di vettori proviene da dati francesi reali o da dati francesi approssimati generati dal modello. Addestrando questi due modelli l'uno contro l'altro, viene creato un modo per mappare due distribuzioni in uno spazio, fornendo migliori risultati di traduzione. I modelli possono raggiungere un'accuratezza dell'82,3% nelle traduzioni da parola a parola, anche se devono ancora convergere su diverse lingue come dall'inglese al farsi, hindi, giapponese e vietnamita.
 

CS480/680 Lezione 6: Verifica dei fatti e apprendimento per rinforzo (Vik Goel)



CS480/680 Lezione 6: Verifica dei fatti e apprendimento per rinforzo (Vik Goel)

L'informatico Vik Goel discute l'applicazione dell'apprendimento per rinforzo nel controllo dei fatti online e propone di utilizzare un sistema di raccomandazioni per inserire prove a sostegno in tempo reale. Suggerisce di utilizzare un ampio corpus di documenti accademici come fonte di dati per addestrare un classificatore a prevedere dove è necessaria una citazione. Inoltre, Goel spiega come i ricercatori hanno iniziato a codificare i precedenti umani in modelli di apprendimento per rinforzo per accelerare il processo e riconoscere diversi oggetti nei videogiochi. Ciò presenta un'area di ricerca promettente in cui ulteriori priori possono migliorare il processo di apprendimento.

  • 00:00:00 In questa sezione della conferenza, Vik Goel discute l'idea di utilizzare l'apprendimento per rinforzo per verificare le notizie online. Spiega che Google ha compilato un set di dati di siti Web di verifica dei fatti che potrebbero essere utilizzati per addestrare modelli di classificazione per determinare la veridicità degli articoli di notizie. Tuttavia, poiché la maggior parte degli articoli di notizie mancano di citazioni nel testo, Goel suggerisce di sviluppare un sistema di raccomandazioni per inserire prove a sostegno in tempo reale. Propone di utilizzare un ampio corpus di articoli accademici come fonte di dati e di addestrare un classificatore per prevedere dove è necessaria una citazione in ogni articolo. L'applicazione di un sistema di raccomandazione può quindi suggerire quali fonti dovrebbero essere citate, contribuendo a prevenire la diffusione di disinformazione online.

  • 00:05:00 In questa sezione, l'informatico Vik Goel spiega il concetto di apprendimento per rinforzo, in cui un agente tenta di raggiungere un obiettivo massimizzando le ricompense in un ambiente. I modelli attuali prendono milioni di interazioni con l'ambiente, rendendo difficile imparare a giocare ai videogiochi. Per accelerare il processo, i ricercatori hanno iniziato a esplorare la codifica dei precedenti umani in modelli, consentendo agli agenti di comprendere e riconoscere diversi oggetti nel gioco. Questo approccio presenta un'ampia area di ricerca in cui gli scienziati possono aggiungere più precedenti per migliorare notevolmente il processo di apprendimento.
 

CS480/680 Lezione 6: Reti somma-prodotto (Pranav Subramani)



CS480/680 Lezione 6: Reti somma-prodotto (Pranav Subramani)

La conferenza discute i concetti di reti somma-prodotto (SPN) che sono reti composte da somme e prodotti, utilizzate per la modellazione probabilistica trattabile che produce tempi di esecuzione non esponenziali e ha molte applicazioni come l'interpretabilità e il facile calcolo della densità marginale. Il video menziona anche le eccellenti prestazioni di SPN con le reti neurali convoluzionali, il suo potenziale nella costruzione di modelli generativi migliori se combinato con modelli come GAN e codificatori di variazioni dell'acqua e le potenziali aree di ricerca non sfruttate per SPN, tra cui robustezza avversaria, scenari di apprendimento per rinforzo e modellazione delle utilità previste nei giochi. Sono state inoltre evidenziate la garanzia teorica di interpretazione del modello e l'opportunità per gli accademici di apportare contributi significativi nel campo del machine learning.

  • 00:00:00 In questa sezione, il relatore discute la modellazione probabilistica trattabile utilizzando alcune reti di prodotti, che sono reti composte da somme e prodotti - quindi "somma-prodotto" - e sono un modo trattabile di modellare la funzione di probabilità in un modo che produce tempi di esecuzione non esponenziali. Nonostante le sue dimensioni, i modelli di rete somma-prodotto sono super utili in termini di espressività, interpretabilità, facile calcolo della densità marginale, calcolo delle query MAP e calcolo della probabilità, mostrando anche prestazioni eccellenti in combinazione con le reti neurali convoluzionali. Questi modelli hanno dimostrato di essere in grado di superare lo stato dell'arte di circa il 10% e possono essere combinati con altri modelli come Gans e codificatori di variazione dell'acqua per creare modelli generativi migliori.

  • 00:05:00 In questa sezione, il relatore discute le potenziali aree di ricerca per alcune reti di prodotti (SPN). Il relatore introduce innanzitutto alcune proprietà etiche, che consentono l'interpretazione di modelli e set di dati come il "set di dati di Amnesty". A differenza delle reti neurali, questo modello fornisce una garanzia teorica che consente di interpretare in una certa misura ciò che il modello sta facendo. Alcune potenziali aree di ricerca per gli SPN includono la creazione di funzionalità in cima alla libreria primaria per gli SPN, la robustezza dell'avversario, gli scenari di apprendimento per rinforzo con alcune reti di prodotti massimi e la modellazione delle utilità previste nei giochi. Queste aree di ricerca sono per lo più non sfruttate, offrendo agli accademici l'opportunità di dare un contributo significativo nel campo dell'apprendimento automatico.
 

CS480/680 Lezione 6: EM e modelli misti (Guojun Zhang)



CS480/680 Lezione 6: EM e modelli misti (Guojun Zhang)

Nella lezione 6 di CS480/680, il professor Guojun Zhang discute le basi dell'apprendimento non supervisionato e del clustering, concentrandosi sui modelli misti e sul loro utilizzo nei dati di clustering. La lezione è incentrata sull'algoritmo Expectation-Maximization e sui suoi processi Estep e Mstep, nonché sulla discesa del gradiente come metodo di ottimizzazione. Il potenziale progetto proposto riguarda lo studio di come si comportano l'EM e la discesa del gradiente nell'apprendimento di modelli misti, con l'obiettivo finale di proporre un algoritmo migliore per evitare minimi locali errati. Un background matematico è indicato come necessario per il progetto.

  • 00:00:00 In questa sezione, Cody introduce le basi dell'apprendimento non supervisionato e del clustering e come si relaziona ai modelli misti. Un modello misto è un modo per descrivere una distribuzione di probabilità come una combinazione convessa di distribuzioni condizionali. Ad esempio, la combinazione di gaussiane e la combinazione di distribuzioni di Bernoulli possono essere utilizzate per raggruppare i dati. Per trovare una soluzione ai modelli misti, dobbiamo formulare una funzione obiettivo da minimizzare. L'algoritmo classico per questo è l'algoritmo Expectation-Maximization.

  • 00:05:00 In questa sezione, il docente parla dei processi Estep e Mstep che vengono utilizzati per valutare la distribuzione a posteriori e massimizzare la funzione q nell'ottimizzazione dei modelli di miscela. La discesa del gradiente è un altro algoritmo di ottimizzazione che viene discusso e si nota che ci sono alcuni cluster che potrebbero non essere recuperati nel processo di ottimizzazione. Il potenziale progetto proposto è studiare come si comportano EM e discesa del gradiente nei modelli di miscele di apprendimento e se esiste un modo per evitare minimi locali errati, con l'obiettivo finale di proporre un algoritmo migliore. Il docente osserva che per questo progetto è necessario un background matematico.