Ti stai perdendo delle opportunità di trading:
- App di trading gratuite
- Oltre 8.000 segnali per il copy trading
- Notizie economiche per esplorare i mercati finanziari
Registrazione
Accedi
Accetti la politica del sito e le condizioni d’uso
Se non hai un account, registrati
Numerics of Machine Learning presso l'Università di Tubinga nel semestre invernale 2022/23. Lezione 1 - Introduzione -- Philipp Hennig
Numeri di ML 1 -- Introduzione -- Philipp Hennig
In questo video, Philipp Hennig discute l'importanza di comprendere gli algoritmi numerici nell'apprendimento automatico e introduce il contenuto del corso per il termine. Il primo algoritmo numerico trattato è l'algebra lineare, con un'applicazione nella regressione del processo gaussiano. Hennig discute anche il ruolo della simulazione, delle equazioni differenziali, dell'integrazione e dell'ottimizzazione nell'apprendimento automatico. Introduce nuovi sviluppi negli algoritmi numerici, come spine algoritmiche, osservabili e algoritmi numerici probabilistici. In tutto il video, Hennig sottolinea l'importanza di aggiornare gli algoritmi classici utilizzati nell'apprendimento automatico per risolvere problemi complessi e sottolinea il ruolo della scrittura del codice in questa lezione di informatica.
Philipp Hennig sta introducendo il suo corso su Numerics of Machine Learning, che mira a esplorare come funzionano gli algoritmi di machine learning all'interno della scatola e come possono essere adattati o modificati per migliorare le macchine di apprendimento. La conoscenza altamente tecnica degli algoritmi numerici e degli algoritmi di apprendimento automatico è molto ricercata da ricercatori e professionisti del settore. Il corso consisterà in teoria e lavoro di codifica, con incarichi graduati su un sistema binario. Hennig sottolinea l'importanza degli algoritmi numerici nell'apprendimento automatico e invita gli studenti a partecipare a questo esperimento didattico unico con nove diversi istruttori.
Lezione 2 -- Algebra Lineare Numerica -- Marvin Pförtner
Numerics of ML 2 -- Algebra lineare numerica -- Marvin Pförtner
L'algebra lineare numerica è fondamentale per l'apprendimento automatico, i processi gaussiani e altri metodi di regressione non parametrici. La lezione copre vari aspetti dell'algebra lineare numerica, inclusa l'importanza di comprendere la struttura di una matrice per una moltiplicazione più efficiente, l'ottimizzazione degli algoritmi di apprendimento automatico attraverso la risoluzione di problemi di selezione degli iperparametri e il calcolo delle matrici del kernel e la soluzione di un sistema lineare utilizzando il Decomposizione LU, tra gli altri. La conferenza sottolinea inoltre l'importanza di implementare correttamente gli algoritmi, poiché l'algoritmo utilizzato per le operazioni matematiche ha un impatto significativo su prestazioni, stabilità e consumo di memoria.
Nella seconda parte del video, Marvin Pförtner discute l'importanza dell'algebra lineare numerica negli algoritmi di machine learning. Copre vari argomenti tra cui la decomposizione LU, la decomposizione di Cholesky, il lemma di inversione di matrice e la regressione del processo gaussiano. Pförtner sottolinea l'importanza di utilizzare la struttura per rendere gli algoritmi più efficienti e sottolinea l'importanza della stabilità numerica nella risoluzione di grandi sistemi di equazioni nella regressione del processo gaussiano. Discute anche tecniche come l'apprendimento attivo e le approssimazioni di basso rango per gestire grandi set di dati e le potenziali limitazioni di memoria delle matrici del kernel. Nel complesso, il video mostra il ruolo cruciale che l'algebra lineare numerica svolge in molti aspetti dell'apprendimento automatico.
Lezione 3 -- Ridimensionamento dei processi gaussiani -- Jonathan Wenger
Numerics of ML 3 -- Ridimensionamento dei processi gaussiani -- Jonathan Wenger
Jonathan Wenger illustra le tecniche per ridimensionare i processi gaussiani per set di dati di grandi dimensioni nel video "Numerics of ML 3". Esplora metodi iterativi per risolvere sistemi lineari e apprendere la matrice inversa, con l'obiettivo principale di ottenere generalizzazione, semplicità/interpretabilità, stime dell'incertezza e velocità. Wenger introduce approssimazioni di basso rango alla matrice del kernel come la decomposizione iterativa di Cholesky, Cholesky parziale e metodi del gradiente coniugato. Discute anche del precondizionamento per accelerare la convergenza e migliorare la stabilità quando si ha a che fare con set di dati di grandi dimensioni. Infine, propone di utilizzare una matrice ortogonale Z per riscrivere la traccia di una matrice, che potrebbe potenzialmente portare a un tempo quadratico per il ridimensionamento dei processi gaussiani.
Nella seconda parte della conferenza Jonathan Wenger discute il ridimensionamento dei processi gaussiani (GP) per set di dati di grandi dimensioni in questo video. Presenta varie strategie per migliorare il tasso di convergenza delle stime Monte Carlo per la regressione GP, incluso l'utilizzo di precondizionatori esistenti per il sistema lineare solve per stimare la matrice del kernel e la sua inversa. Introduce anche l'idea del tempo lineare GP attraverso l'approssimazione variazionale e affrontando la quantificazione dell'incertezza utilizzando il metodo del punto di induzione. Utilizzando queste strategie, è possibile eseguire lo scale-up a set di dati con un massimo di un milione di punti dati con la GPU, semplificando l'ottimizzazione rapida degli iperparametri.
Lezione 4 -- Processi Gaussiani Computation-Aware -- Jonathan Wenger
Numerics of ML 4 -- Processi gaussiani compatibili con il calcolo -- Jonathan Wenger
In questo video su Numerics of ML, Jonathan Wenger discute i processi gaussiani sensibili al calcolo e la loro capacità di quantificare l'errore di approssimazione e l'incertezza nelle previsioni. Esplora l'importanza di scegliere le azioni giuste e come i gradienti coniugati possono ridurre significativamente l'incertezza e accelerare l'apprendimento. Wenger parla anche dell'utilizzo di approssimazioni GP in tempo lineare basate su punti di induzione, ma evidenzia i problemi che sorgono da tali approssimazioni. Infine, discute l'aggiornamento delle convinzioni sui pesi rappresentativi e l'utilizzo di algoritmi di apprendimento probabilistico per risolvere l'errore nei pesi rappresentativi. Nel complesso, il video dimostra l'efficacia dei processi gaussiani compatibili con il calcolo nel migliorare l'accuratezza delle previsioni tenendo conto delle incertezze computazionali.
Jonathan Wenger discute anche il processo gaussiano consapevole del calcolo e la sua complessità in questo video. Spiega che è necessario solo calcolare e memorizzare il quadrante superiore della matrice del kernel e il costo computazionale dell'algoritmo è proporzionale alla dimensione di questo quadrante. Il processo gaussiano può essere utilizzato su set di dati di dimensioni arbitrarie, a condizione che i calcoli abbiano come obiettivo solo determinati punti dati, offuscando il confine tra dati e calcolo. Wenger sostiene che il GP può essere modellato per tenere conto di questa situazione condizionando i dati proiettati. Introduce un nuovo teorema che consente l'esatta quantificazione dell'incertezza con un modello approssimato. Infine, anticipa la conferenza della prossima settimana sull'estensione del modello GP ai casi in cui una legge fisica governa parzialmente la funzione che si sta imparando.
Lezione 5 -- Modelli Stato-Spazio -- Jonathan Schmidt
Numerics of ML 5 -- State-Space Models -- Jonathan Schmidt
In questa sezione, Jonathan Schmidt introduce i modelli dello spazio degli stati e la loro applicazione all'apprendimento automatico. Spiega che i modelli dello spazio degli stati vengono utilizzati per modellare sistemi dinamici complessi, che sono solo parzialmente osservabili e comportano interazioni altamente non lineari. La lezione copre la rappresentazione grafica dei modelli stato-spazio e le proprietà importanti della proprietà di Markov e delle misure condizionatamente indipendenti. Schmidt presenta diversi algoritmi per il calcolo di varie distribuzioni come distribuzioni di previsione, filtraggio e livellamento, che vengono utilizzate per stimare lo stato di un sistema, utilizzando misurazioni ottenute in diversi momenti. La lezione copre anche l'implementazione degli algoritmi di filtro di Kalman in Julia e il calcolo delle stime di livellamento nei modelli gaussiani lineari dello spazio degli stati. Infine, Schmidt discute il filtro di Kalman esteso, che consente la stima di dinamiche e misurazioni non lineari nei modelli stato-spazio.
Jonathan Schmidt discute anche i modelli dello spazio degli stati e la loro implementazione utilizzando il codice, concentrandosi in particolare sulle dinamiche non lineari e sul filtro di Kalman esteso. Dimostra anche algoritmi di livellamento e metodi alternativi di filtraggio bayesiano, evidenziandone i pro e i contro. La lezione si conclude con una raccomandazione per un ulteriore apprendimento e un'anticipazione per la prossima lezione, in cui Nathaniel introdurrà i numeri probabilistici per la simulazione dei sistemi dinamici.
Lezione 6 -- Risoluzione di equazioni differenziali ordinarie -- Nathanael Bosch
Numerics of ML 6 -- Risoluzione di equazioni differenziali ordinarie -- Nathanael Bosch
Nathanael Bosch copre il concetto di ODE nell'apprendimento automatico, che descrivono la derivata di una funzione dato il suo input e i sistemi modello che si evolvono nel tempo. Discute le sfide della risoluzione delle ODE e introduce metodi numerici, come Eulero in avanti e Eulero all'indietro, e le loro proprietà di stabilità. Bosch esplora diversi metodi numerici e i loro compromessi in termini di accuratezza e complessità, come il punto medio esplicito e i classici metodi del quarto ordine. Sottolinea l'importanza dell'errore locale, dell'ordine e della comprensione della stabilità per evitare problemi nell'utilizzo delle librerie per risolvere le ODE.
Questa seconda parte del video discute il problema della stima del campo vettoriale e del valore iniziale di un'equazione differenziale ordinaria (ODE) utilizzando tecniche di machine learning. Il relatore spiega l'importanza di scrivere il modello generativo e il modello di osservazione per gli stati dell'ODE per risolvere il problema dell'inferenza. La funzione di verosimiglianza viene massimizzata minimizzando la verosimiglianza logaritmica negativa, che produce una stima del parametro. Il relatore dimostra questo approccio utilizzando un modello SIR-D e discute l'utilizzo di reti neurali per migliorare la stima della velocità di contatto. Viene inoltre evidenziata l'importanza delle ODE nella ricerca sull'apprendimento automatico e il loro ruolo nella risoluzione dei problemi del mondo reale.
Lezione 7 -- Risolutori di ODE numeriche probabilistiche -- Nathanael Bosch
Numerics of ML 7 -- Probabilistic Numerical ODE Solvers -- Nathanael Bosch
In questo video, Nathanael Bosch presenta il concetto di risolutori ODE numerici probabilistici, che combinano la stima dello stato e i risolutori ODE numerici per fornire distribuzioni sugli stati o soluzioni ODE. Bosch spiega come utilizzare un processo Wiener integrato Q volte per modellare la vera soluzione e come questo processo consenta di quantificare e propagare le incertezze nel sistema. Quindi dimostra come utilizzare i filtri di Kalman estesi per risolvere le ODE e come le dimensioni dei passi influiscono sulle stime degli errori. Il video si conclude con una discussione sulla calibrazione dell'incertezza e sull'utilizzo del filtro di Kalman esteso per stimare i parametri nei modelli di spazio degli stati non lineari.
Nella seconda parte della conferenza Nathanael Bosch parla dei vantaggi dell'utilizzo di metodi probabilistici per risolvere le ODE, incluso l'ottenimento di stime significative dell'incertezza e la flessibilità di includere funzionalità aggiuntive del modello come i valori iniziali. Dimostra questo approccio con esempi come l'oscillatore armonico e le equazioni algebriche differenziali. Bosch mostra anche come l'inclusione di informazioni aggiuntive e l'utilizzo di tecniche probabilistiche può portare a risultati più significativi, utilizzando un esempio di un modello epidemico che non è riuscito a rappresentare accuratamente i dati utilizzando metodi scalari tradizionali. Utilizza filtri e smoother di Kalman estesi per risolvere le ODE attraverso la stima dello stato, trattando la stima come un problema probabilistico e sottolinea l'importanza di essere bayesiani nel processo decisionale.
Lezione 8 -- Equazioni alle derivate parziali -- Marvin Pförtner
Numerics of ML 8 -- Equazioni alle derivate parziali -- Marvin Pförtner
Marvin Pförtner discute le equazioni alle derivate parziali (PDE) e il loro significato nella modellazione di vari sistemi del mondo reale. Spiega come le PDE rappresentano il meccanismo di un sistema con una funzione sconosciuta e un operatore differenziale lineare, ma richiedono la risoluzione di parametri che sono spesso sconosciuti. L'inferenza del processo gaussiano può essere utilizzata per analizzare i modelli PDE e iniettare conoscenza meccanicistica nei modelli statistici. Pförtner esamina la distribuzione del calore in un'unità di elaborazione centrale in un computer limitando il modello a una distribuzione del calore bidimensionale e presentando le ipotesi fatte per il modello. La lezione copre anche l'uso dei processi gaussiani per risolvere le PDE e l'aggiunta di condizioni al contorno realistiche per modellare l'incertezza. Nel complesso, l'approccio GP combinato con la nozione di operatore informativo ci consente di incorporare conoscenze precedenti sul comportamento del sistema, iniettare conoscenza meccanicistica sotto forma di una PDE lineare e gestire condizioni al contorno e lati destri.
Nella seconda parte di questo video, Marvin Pförtner illustra l'utilizzo dei processi gaussiani per risolvere equazioni alle derivate parziali (PDE) stimando una misura di probabilità su funzioni piuttosto che una stima puntuale. Spiega i vantaggi della quantificazione dell'incertezza e osserva che questo approccio è più onesto perché riconosce l'incertezza nella stima della funzione del lato destro della PDE. Pförtner spiega anche il kernel Matern, che è utile nella pratica e può controllare la differenziabilità del GP, e fornisce una formula per calcolare il parametro P per il kernel Matern. Spiega inoltre come costruire un kernel d-dimensionale per PDE prendendo i prodotti di kernel Matern unidimensionali sulle dimensioni e l'importanza di essere matematicamente attenti nella costruzione del modello.
Lezione 9 -- Montecarlo -- Philipp Hennig
Numeri di ML 9 -- Monte Carlo -- Philipp Hennig
In questo video sull'argomento Monte Carlo, Philipp Hennig spiega come l'integrazione sia un problema fondamentale nell'apprendimento automatico quando si tratta di inferenza bayesiana utilizzando il teorema di Bayes. Introduce l'algoritmo Monte Carlo come un modo specifico di fare integrazione e fornisce una breve storia del metodo. Discute anche le proprietà degli algoritmi Monte Carlo, come la stima imparziale e la riduzione della varianza con un aumento del numero di campioni. Inoltre, Hennig approfondisce l'algoritmo Metropolis-Hastings, Markov Chain Monte Carlo e Hamiltonian Monte Carlo, fornendo una panoramica delle proprietà di ciascun algoritmo e di come funzionano durante il campionamento da una distribuzione di probabilità. In definitiva, Hennig sottolinea l'importanza di capire perché vengono utilizzati gli algoritmi, piuttosto che applicarli ciecamente, per ottenere risultati ottimali ed efficienti.
Nella seconda parte del video, Philipp Hennig discute i metodi Monte Carlo per distribuzioni ad alta dimensione, in particolare l'algoritmo No U-turn Sampler (NUTS) che risolve il problema con l'idea dell'inversione a U di rompere l'equilibrio dettagliato. Hennig sottolinea che sebbene questi algoritmi siano complessi e difficili da implementare, comprenderli è fondamentale per utilizzarli in modo efficace. Mette anche in dubbio l'approccio istintivo al calcolo dei valori attesi utilizzando i metodi Monte Carlo e suggerisce che potrebbero esserci altri modi per approssimare senza casualità. Hennig discute il concetto e le limitazioni della casualità, la mancanza di tassi di convergenza per i metodi Monte Carlo e propone la necessità di considerare altri metodi per l'apprendimento automatico piuttosto che fare affidamento sulla casualità deterministica.
Lezione 10 -- Quadratura Bayesiana -- Philipp Hennig
Numeri di ML 10 -- Quadratura bayesiana -- Philipp Hennig
In questo video, Philipp Hennig discute la quadratura bayesiana come metodo efficiente per il problema computazionale dell'integrazione nell'apprendimento automatico. Spiega come una funzione a valori reali può essere identificata in modo univoco ma è difficile rispondere direttamente alle domande. La quadratura bayesiana è un metodo di inferenza che tratta il problema di trovare un integrale come un problema di inferenza ponendo un precedente sull'oggetto sconosciuto e le quantità che possono essere calcolate, quindi esegue l'inferenza bayesiana. Hennig confronta anche questo approccio con il rifiuto Monte Carlo e il campionamento per importanza, mostrando come la quadratura bayesiana può superare le regole di quadratura classiche. La lezione copre l'algoritmo del filtro di Kalman per la quadratura bayesiana e la sua connessione agli algoritmi di integrazione classici, con una discussione sull'uso delle stime dell'incertezza nei metodi numerici. Infine, Hennig esplora il modo in cui la struttura sociale del calcolo numerico influisce sulla progettazione dell'algoritmo, discute un metodo per progettare metodi computazionali per problemi specifici e come l'apprendimento automatico probabilistico può stimare l'errore in tempo reale.
Nella seconda parte del video, Philipp Hennig discute la quadratura bayesiana, che comporta l'inserimento di distribuzioni precedenti sulle quantità che ci interessano, come integrali e valori di algoritmi, per calcolare qualcosa in modo bayesiano. Il metodo assegna sia una stima a posteriori che una stima dell'incertezza attorno alle stime, identificabili con metodi classici. Hennig spiega come l'algoritmo si adatta alla funzione osservata e utilizza una procedura di apprendimento attivo per determinare dove valutare successivamente. Questo algoritmo può funzionare in dimensioni superiori e ha alcuni tassi di convergenza intelligenti non banali. Discute anche i limiti degli algoritmi classici e delle regole di quadratura e propone una soluzione alternativa attraverso il ragionamento adattivo.