Apprendimento automatico e Reti Neurali - pagina 26

 

Lezione 4. Autovalori e autovettori



4. Autovalori e autovettori

Questo video spiega il concetto di autovalori e autovettori e come possono essere utilizzati per calcolare trasformazioni lineari. Continua anche mostrando come gli autovettori possono essere usati per trovare equazioni lineari in un sistema.

  • 00:00:00 In questo video l'autore spiega il concetto di autovettori e autovalori per matrici quadrate. Discutono anche dell'utilità di autovettori e autovalori per determinati problemi. Infine, l'autore discute le matrici simmetriche definite positive e la loro importanza.

  • 00:05:00 Il video discute il concetto di autovalori e autovettori e come possono essere utilizzati per calcolare trasformazioni lineari. Continua anche mostrando come gli autovettori possono essere usati per trovare equazioni lineari in un sistema.

  • 00:10:00 Questo video spiega come utilizzare autovalori e autovettori per risolvere rapidamente equazioni alle differenze. Il primo utilizzo degli autovettori è quello di poter risolvere l'uso principale per il quale sono stati inventati, ovvero essere in grado di risolvere le differenze nelle equazioni vettoriali. Inoltre, il video spiega come matrici simili abbiano gli stessi autovalori.

  • 00:15:00 Il video spiega come vengono calcolati gli autovalori e come sono correlati agli autovettori. Discute anche come gli autovalori vengono preservati quando le matrici vengono moltiplicate.

  • 00:20:00 In questo video, il presentatore discute il concetto di autovalori e autovettori e spiega perché potrebbero non essere identici. Quindi passa a discutere di come due matrici con gli stessi autovalori possano ancora essere diverse in termini di autovettori.

  • 00:25:00 In questo video, l'autore si specializza in matrici simmetriche per discutere cosa hanno di speciale gli autovalori e gli autovettori. Afferma che una matrice antisimmetrica ha autovalori immaginari.

  • 00:30:00 In questo video vengono spiegati gli autovalori e gli autovettori di una matrice. Vengono eseguiti due rapidi controlli per verificare che il calcolo sia stato eseguito correttamente, quindi viene mostrata la traccia di una matrice. Infine, vengono spiegate le matrici simmetriche e definite positive.

  • 00:35:00 Il video discute gli autovalori e gli autovettori di una matrice simmetrica. Gli autovalori e gli autovettori sono importanti per comprendere la struttura della matrice, ed è possibile verificare che gli autovalori rimangono gli stessi. Inoltre, il video illustra come ottenere una matrice diagonale.

  • 00:40:00 In questo video, l'autore diagonalizza una matrice, trova gli autovalori e trova una M in modo che gli autovettori siano simili. Quindi scrive queste informazioni in forma di matrice e conferma che sono corrette.

  • 00:45:00 Questo video discute i concetti di autovalori e autovettori e come sono correlati. Continua spiegando come una matrice simmetrica può avere diverse rappresentazioni di autovettori e autovalori e come calcolare queste rappresentazioni usando il teorema spettrale.
4. Eigenvalues and Eigenvectors
4. Eigenvalues and Eigenvectors
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 5. Matrici definite positive e semidefinite



5. Matrici definite e semidefinite positive

In questo video, il relatore riassume i punti salienti delle precedenti lezioni di algebra lineare, inclusi autovalori, determinanti e pivot, che forniscono tutti test per matrici definite positive. Il relatore spiega quindi la relazione tra matrici positive definite e indefinite, la loro connessione con autovalori e determinanti e come calcolare l'energia nel vettore X per una matrice. Il relatore discute anche i concetti di apprendimento profondo, reti neurali, apprendimento automatico e minimizzazione di un'energia. Toccano il concetto di funzione convessa e spiegano come può essere utilizzata nell'apprendimento profondo. Infine, il relatore introduce esercizi per matrici definite e semidefinite positive e accenna brevemente al prossimo argomento della decomposizione a valori singolari.

  • 00:00:00 In questa sezione, il relatore riassume i punti salienti delle cinque precedenti lezioni di algebra lineare, inclusi autovalori, trasposizione a determinanti e pivot, che forniscono tutti test per matrici definite positive. Spiega che le matrici definite positive sono le migliori delle matrici simmetriche e hanno autovalori positivi, ma ci sono test aggiuntivi oltre agli autovalori. Il relatore dimostra come determinare se una matrice due per due è definita positiva chiedendosi se ha autovalori positivi, un determinante positivo, pivot positivi o se può essere scomposta in un certo modo.

  • 00:05:00 In questa sezione, il relatore discute le matrici definite e indefinite positive e la loro connessione con autovalori e determinanti. Il determinante di una matrice è legato ai suoi autovalori, in quanto sono il prodotto degli autovalori, e se il determinante è negativo, allora c'è almeno un autovalore negativo. Le matrici indefinite possono essere rese definite positive regolando le voci diagonali e i determinanti principali (determinanti delle sottomatrici nell'angolo in alto a sinistra) devono superare i test per garantire la definitezza positiva. L'oratore collega anche i perni alle determinanti e all'eliminazione. In definitiva, il relatore definisce matrici definite positive come quelle che superano il test energetico.

  • 00:10:00 In questa sezione, il relatore dimostra come calcolare l'energia nel vettore X per una matrice e mostra che l'energia di una matrice definita positiva è maggiore di zero. L'energia, in questo caso, è una funzione quadratica pura che potrebbe essere una funzione di perdita utilizzata nel deep learning per minimizzare la differenza tra i dati di addestramento e il numero ottenuto. I numeri diagonali della matrice 3 e 6 danno i pezzi diagonali, e i termini incrociati, che possono diventare negativi, danno 8 X Y.

  • 00:15:00 In questa sezione, il relatore spiega la relazione tra deep learning, reti neurali, machine learning e minimizzazione di un'energia. L'oratore utilizza l'analogia di una ciotola per dimostrare visivamente come funzionano le reti neurali per trovare il quadratico minimo per un problema e come avere termini non lineari può rendere il problema più complicato. Spiegano quindi come l'apprendimento automatico su problemi di grandi dimensioni possa richiedere più di una settimana per il calcolo perché comporta la riduzione al minimo di funzioni complicate che possono includere più di 100.000 variabili. Il relatore tocca anche l'idea di una funzione convessa e spiega come può essere utilizzata nell'apprendimento profondo.

  • 00:20:00 In questa sezione, il relatore discute il concetto di discesa del gradiente, che è l'algoritmo principale utilizzato nell'apprendimento profondo, nelle reti neurali e nell'apprendimento automatico. Partendo da un punto iniziale su una superficie, l'algoritmo calcola le derivate della funzione per determinare la direzione della pendenza o del gradiente più ripido, quindi segue questo percorso finché non raggiunge un minimo o gira verso l'alto. L'algoritmo comporta il ricalcolo del gradiente ad ogni passo fino a raggiungere il livello di precisione desiderato.

  • 00:25:00 In questa sezione viene spiegato il concetto di discesa del gradiente, comunemente utilizzato nell'apprendimento automatico per l'ottimizzazione. Si dice che di solito solo le derivate prime vengono calcolate per l'ottimizzazione poiché il calcolo delle derivate seconde per un gran numero di variabili può essere complicato. Tuttavia, la discesa in pendenza ha dei limiti, come quando si scende in una valle stretta. Le matrici definite positive sono importanti in quanto danno una forma simile a una ciotola per l'ottimizzazione, ma se gli autovalori sono molto distanti, possono causare problemi. Infine, la conversazione si sposta sui compiti.

  • 00:30:00 In questa sezione il relatore introduce esercizi per matrici definite e semidefinite positive. Il relatore fornisce un esempio di una matrice definita positiva S e di una matrice definita positiva T, e chiede se la loro addizione, S + T, è definita positiva. L'oratore utilizza il test energetico per rispondere a questa domanda, separando l'equazione in due parti per dimostrare che è effettivamente definita positiva. Il relatore discute anche la positività dell'inverso del peccato, utilizzando il primo test. Il relatore osserva che una matrice deve essere simmetrica prima di avere autovalori reali e può essere sottoposta a ulteriori domande.

  • 00:35:00 In questa sezione, il relatore discute il concetto di matrici definite positive e introduce l'idea di matrici semi-definite. Una matrice definita positiva è una matrice simmetrica in cui tutti gli autovalori sono positivi. Il relatore mostra come una matrice ortogonale moltiplicata per la sua trasposizione su una matrice definita positiva dia una matrice simmetrica. Spiegano quindi come matrici simili abbiano gli stessi autovalori e che questa nuova matrice simmetrica sia effettivamente definita positiva. Il relatore introduce poi il concetto di matrici semidefinite, che hanno autovalori maggiori o uguali a zero. Spiegano come le matrici semidefinite abbiano un determinante pari a zero e possano avere un autovalore pari a zero, ma il loro valore di traccia darà un numero positivo.

  • 00:40:00 In questa sezione, il concetto di matrici definite positive viene ampliato per includere quelle semidefinite positive che giacciono sul bordo delle matrici definite positive. Gli autovalori di una matrice di tutti quelli sono calcolati come 3, 0 e 0, rendendola una matrice semidefinita positiva. I test per autovalori ed energie maggiori o uguali a 0 rimangono gli stessi, ma ora sono consentite colonne dipendenti. La matrice deve essere simmetrica, e se il suo rango è solo 1, allora non può essere definita positiva, ma è semidefinita positiva se gli autovalori sono positivi.

  • 00:45:00 In questa sezione, l'oratore menziona brevemente che l'argomento della prossima sezione sarà la decomposizione del valore singolare (SVD). Notano anche che ora hanno coperto matrici definite e semidefinite positive, indicando che stanno passando ad argomenti più avanzati in algebra lineare.
5. Positive Definite and Semidefinite Matrices
5. Positive Definite and Semidefinite Matrices
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 6. Decomposizione del valore singolare (SVD)



6. Decomposizione del valore singolare (SVD)

Questo video spiega il concetto di Singular Value Decomposition (SVD), che viene utilizzato per fattorizzare una matrice in tre matrici, dove quella centrale è diagonale e contiene i valori singolari. L'SVD aiuta a comprendere la relazione tra A, Sigma e V, aiutando in ultima analisi a risolvere le equazioni. Il video discute l'importanza di vettori ortogonali, autovettori e autovalori in SVD e sottolinea l'ortogonalità delle matrici A e V. Il video spiega anche la rappresentazione grafica del processo SVD e la decomposizione polare di una matrice. Infine, il video discute il processo di estrazione della parte più importante di una grande matrice di dati utilizzando SVD.

  • 00:00:00 In questa sezione, l'istruttore discute il concetto di Singular Value Decomposition (SVD) che è simile agli autovalori ma applicabile alle matrici rettangolari. Gli autovalori non sono fattibili per matrici rettangolari perché gli autovettori sono complessi o non ortogonali. SVD introduce due insiemi di vettori singolari e valori singolari al posto rispettivamente di autovettori e autovalori. La chiave di SVD è che una trasposta a è una grande matrice, che è quadrata e rappresenta il prodotto di matrici rettangolari. Il primo passo per eseguire SVD è mostrare che qualsiasi matrice può essere scomposta in u volte sigma volte V trasposizione.

  • 00:05:00 In questa sezione il relatore discute la fattorizzazione della matrice A trasposta A e introduce il concetto di autovettori e autovalori. La matrice ha autovalori definiti positivi, che vengono utilizzati per calcolare le loro radici quadrate. Gli autovettori di questa matrice sono quadrati, simmetrici e definiti positivamente. La matrice risultante ha gli stessi autovalori ma autovettori diversi. Il relatore parla poi della fattorizzazione di A, dove stiamo cercando un insieme di vettori ortogonali V che può essere moltiplicato per A per ottenere un insieme di vettori ortogonali U. Questi vettori saranno usati per calcolare la decomposizione al valore singolare (SVD ). L'obiettivo di SVD è trovare una fattorizzazione di A in tre matrici, dove quella centrale è diagonale e contiene i valori singolari di A.

  • 00:10:00 In questa sezione, il concetto di proprietà ortogonale delle V nello spazio di output viene esplorato nel quadro generale dell'algebra lineare in cui lo spazio è suddiviso in spazio colonna, spazio nullo e altri. Si dimostra che quando le V sono moltiplicate per a, anche gli usi risultanti sono ortogonali, rendendo le V speciali. Viene presentata una forma matriciale delle equazioni e viene rivelato che, osservando una trasposta a, il problema di trovare usi ortogonali e ortonormali può essere semplificato. Si conclude che una trasposta a è simmetrica, definita positiva e ha una forma diagonale, che ci dice le proprietà di V.

  • 00:15:00 In questa sezione, il relatore discute il concetto di Singular Value Decomposition (SVD). Le V nell'SVD sono gli autovettori della trasposizione di A. Il Sigma Transpose Sigma sono gli autovalori di A traspone A. L'SVD viene stabilito facendo il passo finale della comprensione degli autovettori per autovalori doppi o tripli. L'SVD aiuta a capire la relazione tra A, Sigma e V, che alla fine aiuterà a risolvere equazioni come A per A trasposta per X uguale a B.

  • 00:20:00 In questa sezione, il relatore spiega il passaggio finale del processo SVD (Singular Value Decomposition), che sta dimostrando che i vettori di base scelti U sono ortogonali. Per fare ciò, l'oratore mostra che il prodotto scalare di U1 e U2 è uguale a zero. Poiché U1 è AV1/Sigma1 e U2 è AV2/Sigma2, il denominatore della frazione viene cancellato, il che lascia V1 trasposto moltiplicato per la matrice moltiplicato per V2, che è Sigma2 trasposto V2. Poiché V2 è un autovettore di A trasposta A, il prodotto scalare tra U1 e U2 è uguale a zero, dimostrando così che i vettori di base U sono ortogonali.

  • 00:25:00 In questa sezione, il relatore discute l'ortogonalità delle matrici A e V nella Singular Value Decomposition (SVD) e la loro relazione con gli autovettori. Le matrici A e V sono mostrate ortogonali tra loro rispettivamente nello spazio delle colonne e delle righe. Il relatore discute quindi la storia della scoperta e l'importanza di questa relazione nelle matrici di dati. L'oratore mette in guardia dall'usare la trasposizione di A per calcolare l'SVD in quanto può essere computazionalmente costoso e vulnerabile agli errori di arrotondamento. Infine, l'oratore usa un diagramma per spiegare come i fattori SVD possano essere pensati come una serie di rotazioni e stiramenti.

  • 00:30:00 In questa sezione, il concetto di Singular Value Decomposition (SVD) viene spiegato attraverso una rappresentazione grafica del processo. Il video mostra come la matrice ortogonale ruota i vettori unitari e come Sigma li allunga, risultando in un'ellisse. Infine, viene applicata la matrice ortogonale U, che ruota l'ellisse. Se la matrice è definita positiva e simmetrica, allora U è uguale a V e la S originariamente data come input è la stessa dell'output A. Il video spiega anche come si possono contare i parametri nella fattorizzazione.

  • 00:35:00 In questa sezione, l'oratore spiega la corrispondenza dei numeri tra i lati sinistro e destro nella decomposizione del valore singolare (SVD) utilizzando un esempio due per due. La rotazione nell'SVD richiede due parametri, mentre lo stretching richiede due parametri, che si sommano a un totale di quattro parametri che corrispondono ai quattro numeri nell'SVD. Inoltre, l'oratore parla del calcolo dell'SVD per una matrice tre per tre e suggerisce che una rotazione nello spazio 3D richiede tre parametri, vale a dire rollio, beccheggio e imbardata. Infine, il relatore menziona che l'esempio per l'SVD presentato nel testo è per una matrice specifica e introduce alcuni fatti sugli autovalori e sui valori singolari.

  • 00:40:00 In questa sezione, il relatore spiega che il determinante del prodotto SVD è uguale al prodotto dei valori singolari. L'esempio utilizzato mostra che anche il prodotto dei Sigma è uguale al determinante. Tuttavia, gli esempi di calcolo dell'SVD richiedono più tempo poiché è necessario prendere le radici quadrate dell'argomento. Il relatore sottolinea che i pezzi più importanti dell'SVD saranno utilizzati nella prossima sessione, comprese le forme SVD più piccole e più grandi, che consistono rispettivamente di valori diversi da zero e rappresentano lo spazio nullo.

  • 00:45:00 In questa sezione, l'oratore introduce la decomposizione polare di una matrice, che scompone qualsiasi matrice in una matrice simmetrica moltiplicata per una matrice ortogonale. Questa è una famosa fattorizzazione in ingegneria e geometria e può essere ottenuta rapidamente dall'SVD. Inserendo l'identità e spostando leggermente le cose, S e Q possono essere lette dall'SVD per recuperare questa scomposizione di una matrice, che nel linguaggio dell'ingegneria meccanica ci dice che qualsiasi deformazione può essere descritta come un allungamento simmetrico e una torsione interna .

  • 00:50:00 In questa sezione, il relatore spiega il processo di estrazione della parte più importante di una grande matrice di dati, cosa che la scienza dei dati deve fare, poiché una parte della matrice è rumore e una parte è segnale. Per trovare la parte più significativa del segnale, il relatore esamina la u Sigma Vtranspose, individuando il numero più essenziale, Sigma 1. Questo numero, insieme alla sua colonna e riga, forma la parte più critica della matrice, in quanto ha quella di rango più consistente, ed è quindi la parte della matrice con la varianza più alta. Il passaggio successivo consiste nel calcolare questi tre elementi per comprendere i dati in modo più completo.
6. Singular Value Decomposition (SVD)
6. Singular Value Decomposition (SVD)
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 7. Eckart-Young: la matrice di rango k più vicina ad A



7. Eckart-Young: la matrice di rango k più vicina ad A

In questo video di YouTube, il docente spiega il concetto di analisi dei componenti principali (PCA), che viene utilizzato per comprendere una matrice di dati ed estrarne informazioni significative. Viene evidenziata l'importanza dei k valori singolari più grandi di una matrice, che contengono le informazioni più cruciali, e il teorema di Eckart-Young, che afferma che i primi k pezzi di una decomposizione di valori singolari forniscono la migliore approssimazione a una matrice di rango k , è introdotto. Il relatore discute anche diversi tipi di norme per vettori e matrici, comprese le norme l2, l1 e infinito. Viene evidenziata l'importanza della norma di Frobenius nella competizione Netflix e nelle scansioni MRI, insieme al concetto di matrice di rango k più vicina ad A. Il relatore discute anche l'uso di matrici ortogonali nel preservare le proprietà della matrice originale e introduce il concetto di Singular Value Decomposition (SVD) e come si collega alla PCA. Infine, viene discussa l'importanza di risolvere un sistema lineare di equazioni che coinvolgono la matrice rettangolare A e la sua trasposizione, insieme all'uso del metodo SVD per trovare il miglior rapporto tra età e altezza per un dato set di dati.

  • 00:00:00 In questa sezione, il docente spiega il concetto di analisi delle componenti principali (PCA), che è uno strumento utilizzato per comprendere una matrice di dati. Sottolinea l'importanza di estrarre informazioni significative dai dati piuttosto che copiarle tutte. Spiega che i k valori singolari più grandi della matrice contengono i fatti più importanti e un K è la migliore approssimazione a una matrice di rango K. Viene introdotto il teorema di Eckert-Young, che afferma che l'utilizzo dei primi K pezzi di una decomposizione a valori singolari è la migliore approssimazione a una matrice di rango K, e il docente spiega le diverse misure della norma di una matrice.

  • 00:05:00 In questa sezione, il relatore discute diversi tipi di norme per vettori e matrici. La norma l2, o il valore singolare più grande, è una norma importante per le matrici. L'oratore spiega che quando si riduce al minimo una funzione utilizzando la norma l1, il vettore vincente è sparso o costituito principalmente da 0 componenti, il che è utile nell'elaborazione e nel rilevamento del segnale. La norma l1 è anche nota come ricerca della base ed è importante perché consente l'interpretazione delle componenti del vettore vincente. Le norme l2 e l1 vengono confrontate e l'oratore introduce anche la norma dell'infinito.

  • 00:10:00 In questa sezione, il relatore spiega tre importanti norme di matrice. La prima è la norma dei due, che è simile alla lunghezza di un vettore e soddisfa la disuguaglianza triangolare. La seconda è la norma di Frobenius, che tratta gli elementi di una matrice come un lungo vettore e prende la radice quadrata della somma dei loro quadrati. La terza è la norma nucleare, che è la somma dei valori singolari di una matrice. Queste norme sono importanti perché soddisfano tutte l'affermazione di Eckart-Young secondo cui l'approssimazione di rango K più vicina a una matrice può essere trovata dai suoi primi K valori singolari.

  • 00:15:00 In questa sezione, il relatore discute come le norme L2 e Frobenius di una matrice dipendono solo dai suoi valori singolari. La norma Frobenius è stata utilizzata nella competizione Netflix in cui i partecipanti dovevano completare un'ampia matrice di classifiche di film con voci mancanti, e si è rivelata la norma giusta per il miglior completamento della norma nucleare della matrice. Questo metodo di completamento della matrice viene ora utilizzato per scansioni MRI con dati mancanti, dove può produrre un'immagine eccellente anche con dati incompleti.

  • 00:20:00 In questa sezione, il relatore discute il concetto della matrice di rango k più vicina ad A. Ciò comporta il completamento di una matrice inserendo ciò che la risonanza magnetica avrebbe visto nelle posizioni in cui non sembrava abbastanza a lungo, utilizzando la norma nucleare. L'esempio fornito è di una matrice di rango quattro e per trovare la migliore approssimazione del rango due, l'oratore sceglie 4 e 3 come i due valori più grandi. Qualsiasi altra matrice B sarebbe più lontana da A rispetto a questa matrice scelta, anche se non è ovvio perché dipende dalla norma. Il punto del teorema è che non è facile trovare la matrice di rango k più vicina ad A, ed è necessaria una dimostrazione.

  • 00:25:00 In questa sezione, il relatore discute di come le matrici diagonali non siano così speciali come sembrano e introduce il concetto di matrice ortogonale, che può essere utilizzata per moltiplicare su entrambi i lati di una data matrice. L'oratore pone la questione di cosa succede ai valori singolari di una matrice quando moltiplicati per una matrice ortogonale, e spiega che i valori singolari non cambieranno. Il relatore spiega inoltre che le norme dei vettori non vengono modificate dalle matrici ortogonali e conclude che le matrici ortogonali sono altrettanto valide delle matrici diagonali in termini di conservazione delle proprietà della matrice originale.

  • 00:30:00 In questa sezione, il concetto di Singular Value Decomposition (SVD) è stato spiegato nel contesto della matrice QA. L'SVD della matrice QA è composto da una matrice diagonale, Sigma, alla sua destra; V trasposizione a destra di Sigma; e Q u a sinistra di Sigma, dove Q u è una matrice ortogonale. Questa sezione ha introdotto il concetto di analisi dei componenti principali (PCA) e ha spiegato come estrarre informazioni significative dai punti dati. Il primo passaggio in PCA è stato ottenere la media zero sottraendo i valori medi dei punti dati per ciascun componente. La sezione ha inoltre spiegato come i valori risultanti potrebbero essere utilizzati per trovare la relazione lineare tra i componenti.

  • 00:35:00 In questa sezione, il relatore discute l'analisi delle componenti principali (PCA) e come differisce dai minimi quadrati. Mentre i minimi quadrati misurano gli errori tra punti e una linea, PCA misura la distanza perpendicolare dei punti da una linea e somma i loro quadrati per minimizzarli. Pertanto, la soluzione a questo problema coinvolge i Sigma SVD (Singular Value Decomposition) invece delle equazioni che si trovano nell'algebra lineare ordinaria. Il relatore distingue il problema di trovare la migliore relazione lineare in PCA dal trovare la soluzione dei minimi quadrati poiché il primo problema mira a modellare i dati non lineari in modo lineare.

  • 00:40:00 In questa sezione, il relatore discute l'importanza di risolvere un sistema lineare di equazioni che coinvolgono la matrice rettangolare A e la sua trasposta. Sebbene questa sia un'applicazione fondamentale nel 1806, il relatore osserva che non è la stessa dell'analisi delle componenti principali (PCA), che gli statistici applicano da molto tempo. Osserva che la matrice di covarianza o la matrice di covarianza campionaria, che coinvolge la media e la varianza, gioca un ruolo enorme in tali applicazioni statistiche. In particolare, la matrice di covarianza campionaria viene calcolata dai campioni e normalizzata dal numero di punti dati, ed è esattamente una trasposta train aa.

  • 00:45:00 In questa sezione, l'oratore introduce un problema che comporta la ricerca del miglior rapporto tra età e altezza per un dato set di dati. L'obiettivo è ridurre al minimo la distanza tra i dati forniti e la soluzione. Il relatore suggerisce che la risposta sta nel trovare il vettore che punta nella giusta direzione, che potrebbe essere una componente principale nella matrice definita positiva simmetrica. Il metodo SVD si propone come soluzione a questo problema.
7. Eckart-Young: The Closest Rank k Matrix to A
7. Eckart-Young: The Closest Rank k Matrix to A
  • 2019.07.18
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 8: Norme di vettori e matrici



Lezione 8: Norme di vettori e matrici

Questa conferenza discute il concetto di norme di vettori e matrici, comprese le norme L1 e max, e la loro applicazione in campi come il rilevamento della compressione e l'elaborazione del segnale. La lezione copre anche l'importanza della disuguaglianza triangolare nelle norme, la forma delle s-norme e la connessione tra la norma L2 di vettori e matrici. Inoltre, la conferenza esplora la norma di Frobenius e la norma nucleare, che rimane una congettura per l'ottimizzazione delle reti neurali, e sottolinea l'importanza dell'insegnamento e dell'apprendimento insieme agli studenti.

  • 00:00:00 In questa sezione, il relatore discute un'interessante osservazione fatta da un membro della facoltà della Sloan School del MIT su come le persone indovinano l'esito dei lanci di monete. Spiega che sebbene, in teoria, la strategia ottimale sarebbe quella di indovinare costantemente teste, persone e animali finiscono per indovinare croce circa un quarto delle volte, anche se le probabilità di ottenere teste sono molto più alte. La ragione di ciò non è spiegata in quanto l'oratore non ha avuto abbastanza tempo per ascoltare la spiegazione. Il relatore introduce anche brevemente il concetto di norme e la loro importanza nella misurazione della dimensione di vettori, matrici, tensori e funzioni.

  • 00:05:00 In questa sezione viene discusso il concetto di norme di vettori e matrici. Il docente introduce diversi tipi di norme come la norma L1 e la norma max che sono parte integrante nel campo del rilevamento della compressione e dell'elaborazione del segnale. Spiega che la norma P è uguale alla potenza P alla potenza P quassù P, dove prendendo le potenze P e le radici P produrrà la norma di due V per avere un fattore di due rispetto alla norma di V. Inoltre, lo zero viene introdotta la norma, il cui numero di componenti diverso da zero fornisce una misura della scarsità di matrici e vettori. Tuttavia, non è una norma perché viola la regola per lo stesso numero di componenti diversi da zero per avere la stessa norma, e vengono discussi i compiti di matematica tra uno e infinito in cui esistono norme appropriate.

  • 00:10:00 In questa sezione, il docente discute le norme di vettori e matrici. La palla unitaria per la norma è un cerchio con l'equazione v1 al quadrato più v2 al quadrato uguale a uno. La palla unitaria per la norma l1 è un diamante con il grafico a linea retta di v1 più v2 uguale a uno nel quadrante positivo. Anche la sfera unitaria per la norma massima è tracciata con i punti zero, +/- uno e +/- i uguali a max, e il resto del limite richiede un po' di riflessione per essere compreso. Quando il numero p cambia, la norma inizia con un diamante, si gonfia fino a diventare un cerchio in p uguale a due e diventa un quadrato in p uguale a infinito. Infine, la norma 0 non è inclusa ei punti con un solo diverso da zero sono sugli assi.

  • 00:15:00 In questa sezione, il docente discute diversi tipi di norme, come la norma L1 o Manhattan, L2 o norma euclidea e la norma s, che è una norma di matrici simmetriche definite positive. Il docente sottolinea l'importanza della disuguaglianza triangolare nelle norme, che in alcuni casi viene interrotta, come quando si usa la norma Lp con p minore di uno. Inoltre, si mostra che la s-norma ha una forma specifica che soddisfa la proprietà di convessità, che non è posseduta da certe norme che violano le regole di una norma.

  • 00:20:00 In questa sezione, il docente discute i diversi tipi di norme che possono essere applicate a vettori e matrici. La norma L2 viene utilizzata quando la matrice S è la matrice identità, ma l'utilizzo di una matrice S diversa cambierà la forma della norma. Un caso tipico è S uguale a 3, che crea una norma ponderata rappresentata da un'ellisse. Tutte le norme vettoriali sono variazioni della norma L2 con valori diversi per P. Il docente accenna anche brevemente al problema dell'inseguimento della base e alla regressione della cresta con le rispettive norme L1 e L2.

  • 00:25:00 In questa sezione, il docente discute il concetto di norme nell'ottimizzazione, in particolare le norme L1 e L2. Usando l'esempio di trovare il punto su una linea con la norma L2 più piccola e poi la norma L1 più piccola, il docente sottolinea che il punto con la norma L1 più piccola è il vincitore e ha il maggior numero di zeri, rendendolo un vettore sparso. Questo è un fatto importante che si estende a dimensioni superiori e rende speciale la norma L1. Nel complesso, la conferenza approfondisce le sfumature e le applicazioni delle norme nell'ottimizzazione delle reti neurali e della vita in generale.

  • 00:30:00 In questa sezione, l'oratore discute il vincitore della norma L1 e come non sia consigliabile salire ulteriormente sulla linea in quanto aumenta il diverso da zero rispetto al secondo componente. Introducono anche la nozione di due norme di matrici e come sia collegata alle due norme di vettori attraverso un fattore di ingrandimento, che è il rapporto massimo delle due norme di AX sulle due norme di X. La norma di matrice è definito come il massimo fattore di esplosione su tutte le X.

  • 00:35:00 In questa sezione, il docente discute le norme delle matrici e come trovare una buona norma di una matrice. Spiega che il valore massimo del rapporto ottenuto dalle due norme si chiama Sigma 1. Questo valore può essere utilizzato per determinare quale sia il vettore singolare senza trovarli effettivamente tutti. Inoltre, è possibile ottenere altre norme di matrice massimizzando quel fattore di esplosione in quella norma vettoriale. I vettori singolari sono un modo per trovare le norme, quindi gli autovettori potrebbero non funzionare quando si tratta di matrici che non sono simmetriche.

  • 00:40:00 In questa sezione, il docente discute la norma di Frobenius delle matrici, che è indicata con la F maiuscola ed è equivalente alla radice quadrata della somma di tutti gli elementi della matrice al quadrato. Questa norma è correlata ai Sigma, i quadrati dei valori singolari della SVD. Inoltre, la lezione esplora come la matrice ortogonale e la norma di Frobenius sono legate insieme e come la norma nucleare è correlata agli algoritmi di ottimizzazione del deep learning.

  • 00:45:00 In questa sezione, il docente discute la congettura che in una situazione modello, l'ottimizzazione per discesa del gradiente individua i pesi che minimizzano la norma nucleare. La norma nucleare è la somma dei valori singolari di una matrice, simile alla norma L1 per i vettori. Questa congettura rimane non dimostrata, ma l'idea ha potenziali applicazioni nell'apprendimento profondo e nel rilevamento compresso. Il conferenziere sottolinea che il suo compito non è valutare i suoi studenti, ma insegnare e imparare con loro. La lezione si conclude con l'annuncio del compito tre, che utilizzerà gli appunti delle sezioni otto e nove.
Lecture 8: Norms of Vectors and Matrices
Lecture 8: Norms of Vectors and Matrices
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 9. Quattro modi per risolvere i problemi dei minimi quadrati



9. Quattro modi per risolvere i problemi dei minimi quadrati

In questo video, l'istruttore discute il concetto di minimi quadrati e vari modi per affrontarlo. Sottolinea l'importanza dei minimi quadrati, poiché è un problema essenziale nell'algebra lineare e funge da collante che tiene insieme l'intero corso. Il video copre la pseudo-inversa delle matrici, SVD di matrici invertibili e non invertibili e diversi metodi per risolvere i problemi dei minimi quadrati, tra cui il piano di Gauss e le colonne ortogonali. Il video discute anche l'idea di ridurre al minimo la distanza tra ax + b e le misurazioni effettive utilizzando la norma L2 al quadrato e come si collega alla regressione lineare e alle statistiche. Inoltre, il video fornisce informazioni su un progetto che utilizza il materiale appreso durante il corso, concentrandosi su aree come il machine learning e il deep learning.

  • 00:00:00 In questa sezione, l'istruttore discute l'importanza dei minimi quadrati e come sia un problema essenziale nell'algebra lineare. Dice che ci sono vari modi per avvicinarsi ai minimi quadrati, e questo argomento è il collante che tiene insieme l'intero corso. Accenna anche al fatto che non ci saranno esami o test finali, ma piuttosto incoraggerà un progetto che utilizza il materiale appreso durante il corso. Il progetto includerà diverse aree come l'apprendimento automatico e il deep learning e manderà un messaggio sui dettagli del progetto man mano che sarà il momento.

  • 00:05:00 In questa sezione, il relatore spiega il concetto di pseudo-inverso di una matrice. L'inverso, quando esiste, ci permette di moltiplicarlo per esso e poi tornare al vettore originale, ma per una matrice senza inverso, ci rivolgiamo allo pseudo-inverso. Questo è rilevante nei casi in cui la matrice è rettangolare, ha zero autovalori o ha uno spazio nullo. L'oratore utilizza un'immagine dello spazio di righe e colonne per spiegare quali parti dell'immagine sono invertibili e quali sono senza speranza. La pseudo-inversa verrà utilizzata per risolvere problemi quando la matrice non è invertibile, fornendo una soluzione adeguata.

  • 00:10:00 In questa sezione, il relatore spiega come definire la pseudo-inversa di una matrice per situazioni in cui una matrice non può essere invertita. Discutono su come gestire lo spazio nullo di una matrice e cosa dovrebbe fare lo pseudo-inverso in quel caso. L'oratore fornisce un piano per ciò che dovrebbe fare lo pseudo-inverso nello spazio delle colonne e nello spazio ortogonale dove nessuno lo colpisce. Usando l'SVD, forniscono una formula per lo pseudo-inverso che comporta la proiezione di una matrice sulla matrice identità nella metà superiore e zero nella metà inferiore.

  • 00:15:00 In questa sezione, il video discute la SVD (singular value decomposition) di una matrice invertibile, dove la SVD riporta le V alle U o viceversa. Se una matrice non è invertibile, allora il suo SVD richiede che la sua matrice Sigma rettangolare sia sostituita con la sua pseudo-inversa. Il video mostra un esempio di una matrice con due colonne indipendenti in cui Sigma ha solo due diversi da zero e il resto sono zeri, che rappresentano una situazione singolare totale. Di conseguenza, l'opzione migliore è utilizzare lo pseudo-inverso di Sigma al posto di Sigma inverso.

  • 00:20:00 In questa sezione viene introdotto il concetto di Sigma plus, la pseudo-inversa di Sigma, come soluzione per matrici rettangolari che non possono essere invertite. Lo pseudo-inverso viene utilizzato per risolvere il problema dei minimi quadrati in cui esiste un'equazione ax uguale a B, ma a non è invertibile. Questo problema sorge quando ci sono troppe misurazioni o rumore. La matrice Sigma plus viene utilizzata per ottenere i vettori nello spazio delle colonne, mentre i vettori nello spazio ortogonale sono considerati irrisolvibili. Il primo modo per risolvere il problema dei minimi quadrati è utilizzare la matrice Sigma plus per fornire la soluzione.

  • 00:25:00 In questa sezione, il relatore discute il problema dei minimi quadrati dell'adattamento di una linea retta a misurazioni rumorose utilizzando un sistema lineare di equazioni. Spiegano che se le misure giacciono su una linea, allora il sistema lineare ha una soluzione, ma in generale no. Introducono quindi l'idea di minimizzare la distanza tra ax + b e le misurazioni effettive utilizzando la norma L2 al quadrato. Questa tecnica è stata proposta da Gauss e viene utilizzata per trovare i migliori valori di C e D nell'equazione Cx + D che rappresenta la retta più vicina alle misure.

  • 00:30:00 In questa sezione, il relatore spiega il concetto di minimi quadrati e come viene utilizzato per risolvere problemi irrisolvibili nella regressione lineare e nella statistica. Minimizzando la funzione di perdita quadratica, viene prodotto un sistema di equazioni lineari che alla fine fornisce la risposta migliore, seguendo il consiglio di Gauss. La migliore X si trova risolvendo l'equazione una trasposizione a per X è uguale a una trasposizione B, che porta al minimo. L'oratore disegna quindi un grafico per spiegare il concetto di spazio colonna di A e come B non si trova nello spazio colonna, e come i quadrati e le equazioni normali portano alla migliore AX.

  • 00:35:00 In questa sezione, il relatore discute diversi metodi per risolvere i problemi dei minimi quadrati. Il metodo 2 prevede la risoluzione delle equazioni normali utilizzando le matrici in MATLAB. Tuttavia, questo metodo potrebbe non funzionare se la matrice ha colonne quasi singolari. Il metodo 3 prevede l'utilizzo del piano di Gauss, che funziona solo se la matrice ha colonne indipendenti, il che significa che la matrice è invertibile. Il metodo pseudo-inverso può essere utilizzato anche quando la matrice non è invertibile ma ha colonne indipendenti. L'importanza dell'invertibilità della matrice è sottolineata in tutta la sezione.

  • 00:40:00 In questa sezione, l'oratore spiega che quando lo spazio nullo è zero, la risposta dal metodo pseudo-inverso è la stessa della risposta proveniente dal metodo di una trasposizione a inversa a trasposizione B. Tuttavia, il il relatore osserva che lo spazio nullo di una trasposizione non è invertibile, ma una trasposizione a è invertibile. Inoltre, l'oratore spiega che la trasposizione della matrice aa sta facendo del suo meglio per essere l'inverso, ma non è abbastanza vicina. Viene mostrato che lo pseudo-inverso funziona quando il rango è uguale.

  • 00:45:00 In questa sezione, il relatore discute altri due modi per risolvere i problemi dei minimi quadrati. Il terzo modo consiste nell'ottenere prima le colonne ortogonali, il che renderebbe il problema più semplice. La procedura di Gram-Schmidt è un modo per ottenere vettori ortogonali in modo naturale. Il quarto e ultimo modo per risolvere i problemi dei minimi quadrati non è discusso in dettaglio, ma implica sfruttare il fatto che i dati nella vita reale sono spesso scarsi. Il relatore conclude osservando che i minimi quadrati non sono un concetto nuovo e continuano ad essere utilizzati per una buona ragione.
9. Four Ways to Solve Least Squares Problems
9. Four Ways to Solve Least Squares Problems
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 10: Indagine sulle difficoltà con Ax = b



Lezione 10: Indagine sulle difficoltà con Ax = b

In questa lezione sull'algebra lineare numerica, vengono discusse le difficoltà nel risolvere equazioni lineari della forma Ax=b. Queste difficoltà sorgono quando la matrice A è quasi singolare, rendendo la sua inversa irragionevolmente grande, e quando il problema è troppo grande con una matrice gigante impossibile da risolvere in un tempo ammissibile. Il docente delinea diverse possibilità di soluzione del problema, che vanno dal facile caso normale al caso estremamente difficile di equazioni sottodeterminate. Vengono discussi l'uso dell'algebra lineare randomizzata, i metodi iterativi e l'SVD, insieme all'importanza di trovare soluzioni che funzionino sui dati di test, in particolare con il deep learning. Inoltre, il docente sottolinea che l'SVD è ancora lo strumento migliore per diagnosticare eventuali problemi di matrice.

  • 00:00:00 In questa sezione, il docente discute le difficoltà che possono sorgere quando si tenta di risolvere l'equazione Ax = B. Nota che il problema può verificarsi in varie dimensioni e ranghi e può essere quasi singolare o non quasi singolare. Egli delinea diverse possibilità per risolvere il problema, che vanno dal facile caso normale di una matrice quadrata con un numero di condizione ragionevole, al caso estremamente difficile di equazioni sottodeterminate. In quest'ultimo caso, il docente osserva che il problema è comune nel deep learning e che possono esistere molteplici soluzioni.

  • 00:05:00 In questa sezione, il docente discute problemi difficili con Ax = be come affrontarli. Questi problemi di solito sorgono quando le colonne della matrice sono quasi dipendenti, rendendo problematico accettare le colonne a1, a2, fino ad an della data matrice. La soluzione a questo è trovare vettori colonna ortonormali in quello spazio colonna usando Gram-Schmidt e fissando le colonne ortogonalizzandole. Il relatore salva la discussione di Gram-Schmidt alla lezione successiva ma anticipa l'importanza del pivoting delle colonne che consente il riordino delle colonne, concetto applicabile anche nell'eliminazione.

  • 00:10:00 In questa sezione, il docente discute le difficoltà nel risolvere equazioni lineari della forma Ax=b, inclusa la possibilità che la matrice possa essere quasi singolare, rendendo la sua inversa irragionevolmente grande. Il docente parla anche di problemi inversi, che in genere sono problemi in cui si conosce l'output del sistema, ma è necessario determinare la struttura o l'input della rete. Questi problemi spesso danno matrici quasi singolari, rendendo difficile risolvere accuratamente il sistema senza aggiungere un termine di penalità per minimizzare il problema. Vengono anche menzionati i mondi Leu e QR, gli scambi di righe e l'ortogonalizzazione di Gram-Schmidt.

  • 00:15:00 In questa sezione, apprendiamo alcune difficoltà legate alla risoluzione di equazioni lineari usando il metodo Ax=b. Una di queste difficoltà è quando la matrice A è mal condizionata, portando a vettori che si avvicinano allo zero e un inverso gigante di una trasposta a. Per contrastare questo, dobbiamo penalizzare A, il che lo rende più condizionato, ma sposta anche il problema di decidere quanto penalizzarlo. Un altro metodo sono i metodi iterativi, come il metodo del gradiente coniugato, in cui facciamo un passo sempre più vicino alla risposta esatta finché non è abbastanza vicina. Quando il problema è troppo grande con una matrice gigante impossibile da risolvere in un tempo fattibile, viene utilizzata l'algebra lineare randomizzata per campionare le colonne e le righe della matrice per fornire una risposta dal campione.

  • 00:20:00 In questa sezione, il docente discute l'uso dell'algebra lineare randomizzata per determinare soluzioni a problemi difficili nei casi in cui la matrice è ragionevole. Sebbene non vi sia alcuna garanzia che le soluzioni siano corrette, l'utilizzo delle probabilità delle disuguaglianze può fornire una buona soluzione al problema. Metodi iterativi e algoritmi randomizzati, insieme all'uso dell'SVD, sono discussi come metodi per trovare soluzioni. Il docente sottolinea l'importanza di trovare soluzioni che funzionino sui dati di test, in particolare con il deep learning, e discute le profonde questioni matematiche che sorgono con questo problema. L'SVD è spiegato come una potenziale soluzione quando la matrice è quasi singolare.

  • 00:25:00 In questa sezione, il professore discute un metodo per regolarizzare il problema di trovare la somma minima di ax meno B al quadrato in presenza di grandi inverse. Utilizzando un problema dei minimi quadrati con un termine di penalità aggiuntivo che include un delta positivo, anche quando questo valore va a zero o a fa cose folli, il problema sarà comunque risolvibile e la funzione è garantita per essere lontana dal singolare. Quando il delta va a zero, il comportamento del risultato cambia drasticamente e questo fattore può dipendere dal livello di rumore nel sistema.

  • 00:30:00 In questa sezione del video, l'oratore discute la soluzione per un dato Delta e analizza quando la soluzione esiste. L'obiettivo è risolvere un problema uno per uno, che comporta la ricerca del minimo di un problema dei minimi quadrati penalizzati. L'equazione viene risolta impostando la derivata su zero e il valore X risultante viene utilizzato per determinare il limite quando Delta va a zero. Le due possibilità sono che Sigma non sia zero e la soluzione si avvicini all'inverso di Sigma, oppure che Sigma sia zero e la soluzione non esista.

  • 00:35:00 In questa sezione del video, il relatore discute il comportamento dell'approccio delle case penalizzate quando il termine della penalità va a zero. Il relatore osserva che in questo caso il sistema si comporta in modo strano, con un'improvvisa biforcazione tra zero e un limite diverso da zero. Questo limite è identificato come pseudo-inverso, e man mano che Delta diventa sempre più piccolo, la soluzione del sistema si avvicina allo pseudo-inverso, che è la risposta sempre corretta per il sistema. Il relatore osserva che in un caso pratico, questo approccio sarebbe utile per trovare i parametri sconosciuti di un sistema, come le resistenze e le induttanze in un circuito elettrico.

  • 00:40:00 In questa sezione il docente spiega che la soluzione del problema Ax=b può essere raggiunta aggiungendo un termine di penalità per regolarizzare il problema. Il termine di penalizzazione può essere introdotto utilizzando la norma L1, che fornisce soluzioni sparse senza molte piccole componenti nella risposta. Discute anche l'importanza dei metodi iterativi nell'algebra lineare convenzionale e Gram-Schmidt con o senza pivoting. Tuttavia, decide di trattare questi argomenti nella lezione successiva.

  • 00:45:00 In questa sezione, il docente discute di come l'SVD sia uno strumento efficace per dimostrare cose sulle matrici; semplifica un problema disordinato in un problema su una matrice diagonale Sigma nel mezzo, motivo per cui è utile per diagnosticare eventuali problemi di matrice. Inoltre, il docente fornisce una formula per un caso speciale di un problema, con Sigma come matrice diagonale, il che implica che la comprensione del comportamento di Sigma, in particolare su ciascuna entrata diagonale, è vitale per perseguire tali casi. Il SVD, sottolinea il docente, è ancora lo strumento migliore per questo. Infine, il docente sottolinea che questa lezione è un'indagine su ciò di cui si occupa l'algebra lineare numerica e, sebbene non tutti gli argomenti siano stati ancora trattati, lo saranno nelle restanti sessioni.
Lecture 10: Survey of Difficulties with Ax = b
Lecture 10: Survey of Difficulties with Ax = b
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 11: Minimizzare ‖x‖ Soggetto ad Ax = b



Lezione 11: Minimizzare ‖x‖ Soggetto ad Ax = b

In questa conferenza, il relatore copre una serie di argomenti relativi all'algebra lineare numerica. Iniziano con la discussione dei problemi che possono sorgere quando si risolve per Ax=b, quindi passano al processo di Gram-Schmidt per trovare una base ortogonale per uno spazio e al metodo di Gram-Schmidt modificato per minimizzare ‖x‖ soggetto ad Ax = b . Il relatore introduce anche il concetto di scambio di colonne o rotazione di colonne in un algoritmo di Gram-Schmidt più professionale e discute un miglioramento del processo di Gram-Schmidt standard per l'ortonormalizzazione delle colonne di una matrice A. Toccano anche l'idea dello spazio di Krylov risolvere il problema Ax=b e l'importanza di avere una buona base per minimizzare ‖x‖ soggetto ad Ax = b. Infine, affermano di aver concluso con il problema di minimizzare x soggetto ad Ax=b e di passare ad affrontare il problema di trattare matrici molto grandi.

  • 00:00:00 In questa sezione, il docente menziona tre cose. In primo luogo, i problemi che possono sorgere quando si risolve per Ax=b, incluso dove A è troppo grande per entrare nel core ma dove sono disponibili altri metodi. In secondo luogo, mostra la prima bozza approssimativa di due pagine del suo libro e spiega il processo di due anni a cui è sottoposto per perfezionarlo e migliorarlo. In terzo luogo, discute la minimizzazione di norme diverse, come L1 o L2 o norma max L infinito, per la condizione di risoluzione con il vincolo di un'equazione soddisfatta, fornendo una rappresentazione visiva della differenza tra le norme L1, L2 e L infinito.

  • 00:05:00 In questa sezione, l'oratore discute il punto vincente per diverse sfere unitarie in diversi spazi normativi, inclusi L1, L2 e L infinito. Mostra come trovare il punto vincente, o il punto che tocca per primo la linea, in ogni caso. Quindi introduce l'argomento del giorno, Gram-Schmidt, che è un modo per rendere ortogonale una matrice non ortogonale trovando un diverso insieme di vettori che si estendono sullo stesso spazio pur essendo ortogonali. Delinea i fatti generali di Gram-Schmidt e afferma che si tratta di un argomento standard insegnato nei corsi di algebra lineare.

  • 00:10:00 In questa sezione, il professore spiega il processo di Gram-Schmidt, che apre l'immagine di una matrice per ottenere una matrice ortogonale con colonne Q1 a Qn che sono ortonormali. La matrice R è usata per dire di quali combinazioni sono fatte le Q o al contrario per dire in che modo A è correlata alla Q finale. L'equazione per R è Q trasposta moltiplicato per A, e le voci in R sono solo il prodotto interno delle Q con l'As. Il professore mostra che non c'è nulla di misterioso in R a causa della matrice ortogonale Q. Il comando MATLAB sarebbe QR di A invece di Lu di A.

  • 00:15:00 In questa sezione, la lezione spiega il processo di Gram-Schmidt per trovare una base ortogonale per uno spazio. La lezione inizia con un set di base non ortogonale e l'obiettivo è quello di costruire un set di base ortogonale. Il processo inizia con il primo vettore colonna come primo vettore base e quindi prendendo il secondo vettore e ortogonalizzandolo con il primo vettore. Il passo successivo è costruire il terzo vettore ortogonale ai primi due vettori. Questo continua fino a quando l'intero set di base è costruito ortogonalmente. Infine, dividiamo ogni vettore per la sua norma per rendere ogni vettore base un vettore unitario. Gram-Schmidt prende un insieme di basi non ortogonali e genera un insieme ortogonale adatto ai metodi di proiezione.

  • 00:20:00 In questa sezione, il relatore discute il metodo di Gram-Schmidt modificato per minimizzare ‖x‖ soggetto ad Ax = b. Spiegano il processo di sottrazione delle componenti di Q1 e Q2 dal vettore e controllano che il vettore risultante sia ortogonale. Affrontano anche il pericolo di prendere le righe in ordine durante l'eliminazione e suggeriscono di utilizzare il metodo Gram-Schmidt modificato per evitare errori di calcolo.

  • 00:25:00 In questa sezione della conferenza, il relatore discute l'idea dello scambio di colonne o del pivot di colonna in un algoritmo di gram-schmidt più professionale. Simile all'eliminazione, in gram-schmidt, se la nuova parte della colonna è troppo piccola, può creare errori di arrotondamento che non possono essere rimossi. Pertanto, è essenziale che l'algoritmo controlli la dimensione del pivot e scambi le righe se necessario. L'idea principale alla base dello scambio di colonne è confrontare la nuova parte della colonna con tutte le altre potenziali possibilità per trovare il componente più grande prima di decidere il passaggio successivo. Questo processo è fondamentale per evitare errori di arrotondamento che possono influire sulla precisione del risultato.

  • 00:30:00 In questa sezione, il relatore spiega un miglioramento del processo Gram-Schmidt standard per l'ortonormalizzazione delle colonne di una matrice A. Invece di considerare solo la colonna successiva in A, il miglioramento comporta la considerazione di tutte le colonne rimanenti in A quando ortonormalizzando ogni nuova colonna. L'oratore sostiene che questo non è più lavoro del metodo standard, poiché tutte le sottrazioni necessarie vengono calcolate prima a prescindere. Il miglioramento si basa sulla selezione della colonna rimanente più grande ed è simile alla selezione del perno più grande nell'eliminazione gaussiana.

  • 00:35:00 In questa sezione, il docente introduce l'idea dello spazio di Krylov per risolvere il grande problema della matrice, Ax=b. Lo spazio di Krylov è una combinazione di vettori che si estendono su uno spazio e il docente utilizza combinazioni di questi vettori per trovare la soluzione dei minimi quadrati in quello spazio, XJ. Lo spazio di Krylov è determinato moltiplicando i vettori A per J, fino a A^k-1B. Il docente cerca la migliore soluzione in questo spazio per risolvere il problema Ax=b. Tuttavia, c'è ancora un problema in questo metodo.

  • 00:40:00 In questa sezione, l'oratore discute l'importanza di avere una buona base per minimizzare ‖x‖ soggetto ad Ax = b. La base dovrebbe essere ortogonale per facilitare i calcoli, ed è qui che entrano in gioco i contributi dei nostri spettacoli nolde e Lan. Una base ortogonale è perfetta per una proiezione, e il relatore spiega l'equazione che rende i calcoli facili. Quando le Q sono ortogonali, i coefficienti C possono essere facilmente trovati calcolando il prodotto scalare del dato vettore X con ogni Q, e quindi applicando Q transpose. Ciò consente una soluzione efficiente al problema.

  • 00:45:00 In questa sezione della lezione, il relatore discute il concetto di base e come trovare una buona base usando i vettori di Gram-Schmidt o Krylov. Il relatore osserva che in questo caso è preferibile utilizzare il metodo di Gram-Schmidt, e cita anche la sezione 2.1 del libro sull'algebra lineare numerica, che riassume le tecniche comuni nel campo come Krylov, Arnoldi e Lanczos. Raccomanda "Numerical Linear Algebra" di Golub e van Loan come eccellente libro di testo per coloro che vogliono saperne di più sull'argomento.

  • 00:50:00 In questa sezione del video, l'oratore afferma di aver concluso con il problema di minimizzare x soggetto ad Ax=b e di passare ad affrontare il problema della gestione di matrici molto grandi.
Lecture 11: Minimizing ‖x‖ Subject to Ax = b
Lecture 11: Minimizing ‖x‖ Subject to Ax = b
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 12. Calcolo di autovalori e valori singolari



12. Calcolo di autovalori e valori singolari

In questo video viene introdotto il metodo QR per il calcolo di autovalori e valori singolari. Il processo prevede di iniziare con la matrice desiderata e di fattorizzarla in QR, creando una matrice triangolare superiore R che collega la base non ortogonale con la base ortogonale. Il processo viene iterato fino a quando le voci diagonali diventano piccole, a quel punto possono essere utilizzate per approssimare gli autovalori. L'oratore discute anche un metodo di spostamento per calcolare gli autovettori per accelerare il processo. Vengono inoltre evidenziati i vantaggi dell'utilizzo di MATLAB per matrici simmetriche. Il video tocca anche il concetto di vettori di Krylov per la risoluzione di problemi agli autovalori per matrici grandi.

  • 00:00:00 In questa sezione il docente introduce il metodo QR per il calcolo degli autovalori e dei valori singolari di una matrice. Il metodo QR prevede di iniziare con una matrice i cui autovalori sono desiderati e di fattorizzarla in QR. Le colonne della matrice vengono trasformate in una base ortogonale ortogonalizzandole e creando una matrice R che collega la base non ortogonale con la base ortogonale, che è triangolare superiore. Successivamente, il metodo prevede l'inversione dell'ordine e il ripetere la stessa operazione per produrre la matrice successiva. Il professore afferma che gli autovalori sono gli stessi prima e dopo la trasformazione e le matrici sono simili, il che è utile per calcolare i valori singolari della matrice.

  • 00:05:00 In questa sezione, il professore spiega il processo di calcolo degli autovalori utilizzando la fattorizzazione QR. Il processo prevede l'iterazione della fattorizzazione QR più volte fino a quando le voci diagonali della matrice risultante diventano molto piccole. A questo punto, le voci diagonali sono vicine agli effettivi autovalori della matrice originale e possono essere utilizzate per approssimarli. Il professore sottolinea anche la rapida convergenza del metodo, con le voci fuori diagonale che diventano cubiche e si avvicinano rapidamente allo zero, rendendo il metodo estremamente accurato.

  • 00:10:00 In questa sezione, il video discute un miglioramento dell'algoritmo per il calcolo degli autovettori, che comporta l'introduzione di uno spostamento. Invece di prendere la matrice A, prendono la matrice A - siI, dove si è un multiplo della matrice identità. Questo sposta tutti gli autovalori della matrice A di si. Quindi lavorano con questa matrice spostata, eseguono il processo di Gram-Schmidt e invertono l'ordine per ottenere una matrice il più vicino possibile ad A. Infine, annullano lo spostamento per ottenere una nuova matrice, A1. La speranza è che A1 sia ancora simile ad A ma con un tempo computazionale più veloce.

  • 00:15:00 In questa sezione, il professore discute il metodo QR per il calcolo degli autovalori di una matrice. Dimostra un esempio incompleto in cui utilizza il metodo QR per mostrare che la parte triangolare inferiore della matrice inizia a scomparire e gli autovalori iniziano a comparire sulla diagonale. Il professore discute quindi su come migliorare l'efficienza del metodo QR sfruttando eventuali zeri nella matrice originale. Se ci sono diagonali extra con zeri, il metodo può essere accelerato saltando alcuni passaggi nel processo di fattorizzazione QR.

  • 00:20:00 In questa sezione, il relatore discute come calcolare autovalori e valori singolari. Non è possibile ottenere tutti gli autovalori così come è impossibile ottenere una parte triangolare inferiore intera uguale a zero, che ci darebbe gli autovalori. Questo perché gli autovalori risolvono un'equazione all'ennesima potenza e secoli fa è stato dimostrato che è impossibile risolvere un'equazione istantanea con semplici passaggi. Inoltre, non esiste una formula semplice per trovare lambda o valori singolari. Tuttavia, è possibile avvicinarsi il più possibile continuando con il metodo QR e riducendo una matrice alla forma di Hessenberg con una triangolare più un'altra diagonale, ma molti zeri. MATLAB e altri sistemi di matrici usano la pack e Linpack per calcolare questi valori.

  • 00:25:00 In questa sezione del video, il relatore discute i vantaggi dell'utilizzo di MATLAB e fornisce informazioni sulle caratteristiche delle matrici simmetriche. Spiega che se una matrice è simmetrica, allora si può tranquillamente prevedere che avrà solo una diagonale sopra la diagonale principale, rendendola una matrice tridiagonale. Ciò riduce significativamente il tempo per eseguire il calcolo QR, poiché richiede solo di lavorare con 2n numeri invece di N^2. Il relatore tocca anche brevemente i valori singolari, affermando che sono gli autovalori di una matrice di trasposizione ma mette in guardia dal calcolarli usando determinanti, poiché è lento, mal condizionato e porta alla perdita di informazioni.

  • 00:30:00 In questa sezione, il relatore discute il concetto di utilizzo di matrici ortogonali per semplificare matrici simmetriche, rendendole tridiagonali in modo che i loro autovalori possano essere facilmente trovati. Quindi, il relatore pone la questione di cosa si può fare a una matrice generale per semplificarla in modo da lasciare invariati i suoi valori singolari. Il relatore collega questa domanda all'SVD e discute l'invarianza dei valori singolari rispetto a determinate operazioni, come la moltiplicazione per una matrice ortogonale. La questione di quali altre operazioni lascino invarianti i valori singolari è lasciata aperta alla considerazione del pubblico.

  • 00:35:00 In questa sezione, il docente discute l'effetto della moltiplicazione di una matrice ortogonale Q su una matrice diagonale con valori singolari. Si dimostra che la moltiplicazione di Q sulla matrice diagonale non modifica i valori singolari e che ciò può essere fatto su entrambi i lati dell'equazione utilizzando diverse matrici ortogonali. Questa maggiore flessibilità consente di ridurre la matrice da tridiagonale a bidiagonale, il che rende l'algoritmo più veloce man mano che procede attraverso ogni passaggio. Il docente discute anche l'utilità di una matrice bidiagonale per semplificare la moltiplicazione di matrici.

  • 00:40:00 In questa sezione, il relatore discute il calcolo di autovalori e valori singolari, in particolare per matrici di ordine fino a mille. L'SVD implica l'osservazione di una trasposizione di una matrice, che sarebbe tridiagonale. Per trovare valori singolari si può arrivare fino alla trasposizione di una matrice, ma trovarne gli autovalori richiederebbe che essa sia simmetrica e tridiagonale. Questo metodo è efficace per matrici fino a una certa dimensione, oltre la quale il metodo di Krylov può essere utilizzato per matrici sparse. Il metodo di Krylov limita la matrice a una certa dimensione, tipicamente cento per cento, e trova l'autovettore in quello spazio.

  • 00:45:00 In questa sezione, il relatore spiega un approccio chiamato vettori di Krylov che può essere utilizzato per risolvere problemi agli autovalori per matrici grandi. Applicando l'operazione di matrice ai vettori di Krylov, che hanno una dimensione minore della matrice originale, è possibile creare e risolvere un problema di autovalori più piccolo. Pur non fornendo autovalori esatti, i vettori di Krylov possono fornire buone approssimazioni per determinati problemi. Il relatore introduce anche l'idea del campionamento casuale per grandi matrici e menziona che questo sarà esplorato nella prossima lezione.
12. Computing Eigenvalues and Singular Values
12. Computing Eigenvalues and Singular Values
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Lezione 13: Moltiplicazione di matrici randomizzate



Lezione 13: Moltiplicazione di matrici randomizzate

Questa lezione video discute il concetto di moltiplicazione di matrici randomizzate, che prevede il campionamento delle colonne della matrice A e delle righe corrispondenti della matrice B con probabilità che sommate danno uno. Il valore medio dei campioni casuali può essere calcolato per ottenere la risposta corretta, ma ci sarà comunque varianza. La lezione prosegue discutendo i concetti di media e varianza e come scegliere le migliori probabilità che minimizzano la varianza. Il processo prevede l'introduzione di una variabile sconosciuta chiamata Lambda e l'adozione di derivate rispetto ad essa per trovare il miglior PJ. L'attenzione si sposta quindi sulla questione di come ponderare le probabilità quando si osservano quali colonne in una matrice sono più grandi o più piccole. Il docente suggerisce due possibilità: pesare le probabilità secondo la norma al quadrato o mischiare le colonne della matrice e usare probabilità uguali. Nel complesso, il video fornisce una spiegazione dettagliata della moltiplicazione di matrici randomizzate e del processo di ottimizzazione delle probabilità per ottenere la varianza minima.

  • 00:00:00 In questa sezione del video, l'oratore spiega il concetto di moltiplicazione di matrici randomizzate, che è un'idea che rientra nell'algebra lineare randomizzata. Questo metodo viene utilizzato per matrici di grandi dimensioni campionando le colonne della matrice A e le righe corrispondenti della matrice B, ma non tutte. Invece, diversi pezzi vengono campionati casualmente con probabilità che si sommano fino a uno. Calcolando il valore medio dei campioni casuali, si può ottenere la risposta corretta, ma ci sarà comunque varianza. L'obiettivo quindi è scegliere le migliori probabilità che minimizzino la varianza. La lezione prosegue discutendo i concetti di media e varianza e facendo pratica con un esempio.

  • 00:05:00 In questa sezione, il relatore descrive un processo di campionamento casuale per la moltiplicazione di matrici. Il processo prevede di prendere due colonne con probabilità della metà ciascuna, sommarle e quindi dividerle per il numero di volte in cui vengono campionate. La media della matrice randomizzata viene quindi calcolata utilizzando la formula per calcolare la media dei due campioni. La varianza viene calcolata utilizzando uno dei due metodi, uno dei quali prevede la somma delle probabilità di diversi valori di output al quadrato, mentre l'altro prevede la distanza media al quadrato dalla media.

  • 00:10:00 In questa sezione del video, il relatore discute i concetti di media e varianza in statistica e come si relazionano al loro attuale esempio di calcolo della varianza per la moltiplicazione di matrici randomizzate. Spiega che la varianza è una misura della somma dei quadrati tra i punti su entrambi i lati della media e che nel suo esempio sta sommando i quadrati delle differenze tra il suo output e la media. Quindi procede a calcolare la varianza per il suo esempio specifico, che implica due possibili risultati e probabilità per ciascuno.

  • 00:15:00 In questa sezione, il relatore discute il calcolo della varianza e introduce una nuova formula per la varianza utilizzando le probabilità e le distanze dalla media al quadrato. Il relatore solleva anche il concetto di campionamento randomizzato in algebra lineare e come l'aggiustamento delle probabilità può aiutare a diminuire la varianza quando B è molto più grande di A. La probabilità ottimale deriva dal quadrato della dimensione di B diviso per A, e il relatore pianifica per discuterne ulteriormente in futuro. Infine, l'oratore cita una seconda formula per la varianza che coinvolge la probabilità e la distanza dall'output al quadrato.

  • 00:20:00 In questa sezione, il relatore discute la media e la varianza nella probabilità e dimostra i due modi per calcolare la media al quadrato quando si sottrae la media. L'attenzione si sposta quindi sulla questione di come ponderare le probabilità quando si osservano quali colonne in una matrice sono più grandi o più piccole. Il relatore suggerisce due possibilità: ponderare le probabilità secondo la norma al quadrato o mescolare le colonne della matrice e utilizzare probabilità uguali. Il relatore è favorevole al primo approccio e spiega come utilizzare le probabilità proporzionali alla norma al quadrato.

  • 00:25:00 In questa sezione, il docente spiega come ridimensionare le probabilità in modo che la loro somma dia uno. Quindi discute il suo piano per scegliere la riga colonna e la riga colonna J con particolari probabilità e come le moltiplicherà. La sua approssimazione, l'approssimato aB, sarà la somma di tutti questi campioni su S campioni. Il docente menziona anche che il piano è scegliere i PJ per minimizzare la varianza totale e che la media è corretta.

  • 00:30:00 In questa sezione, il docente spiega come calcolare la varianza per un campione nella moltiplicazione di matrici randomizzate. La media della somma di tutti i campioni viene calcolata moltiplicando la media di un campione per il numero di campioni, il che porta alla parte difficile del calcolo della varianza. Il calcolo della varianza dipenderà dal pezzo, da P1 a PR che è stato scelto con probabilità dipendenti dalla dimensione. Ogni campione è sicuramente sbagliato perché è di rango uno, quindi quando calcoliamo la varianza, sicuramente non otterremo zero. La varianza per un campione risulta essere la somma della probabilità di trasposizione AJ AJ al quadrato. La media al quadrato viene sottratta da questo calcolo per ottenere la varianza completa.

  • 00:35:00 In questa sezione, l'oratore inserisce i valori per PJ e semplifica il denominatore in una somma di un JPG di una norma JP j bj. Sommando la prima potenza e ottenendo C, l'oratore ottiene l'espressione per la varianza. Dopo aver preso i campioni di s e averli combinati, la varianza è un numero fisso, che è C che vorrebbero rendere piccolo. Il relatore vuole dimostrare che questa è la scelta migliore scegliendo i pesi delle probabilità in base alla lunghezza di a moltiplicata per la lunghezza di B.

  • 00:40:00 In questa sezione, il relatore discute il passaggio finale dell'ottimizzazione delle probabilità da P1 a PR per le righe o le colonne della matrice A e le righe della matrice B, soggetto al vincolo che la loro somma dia 1. L'obiettivo è minimizzare l'espressione della varianza scegliendo i PJ ottimali. L'oratore introduce l'idea di Lagrange per costruire il vincolo nella funzione introducendo un numero sconosciuto, spesso chiamato lambda, per trovare il miglior PJ. Questa sezione conclude la discussione sul campionamento randomizzato e conduce al sottoproblema finale.

  • 00:45:00 In questa sezione, il docente discute il concetto dell'idea di Lagrange nell'ottimizzare le probabilità sotto la condizione che si sommano a uno. Il processo prevede la costruzione dell'equazione nella funzione e l'assunzione di derivate rispetto a lambda, una variabile sconosciuta. Dopo aver azzerato le derivate e risolto, si ottiene la risposta finale consigliata, che può essere convalidata prendendo la derivata rispetto a P. Il docente spiega inoltre che il moltiplicatore di Lagrange è il numero corretto per rendere l'equazione uguale a uno.

  • 00:50:00 In questa sezione, il professore spiega il processo di scelta delle probabilità per ottenere la minima varianza in un sistema randomizzato. Afferma che le probabilità ideali sono più alte quando la colonna è più grande, quindi trovare le lunghezze delle colonne è un prerequisito prima del campionamento randomizzato. Sebbene la varianza possa essere un po' difficile da calcolare, incoraggia gli studenti a leggere lentamente le note e a rivisitare le formule per una migliore comprensione, poiché in futuro useranno la probabilità più seriamente.
Lecture 13: Randomized Matrix Multiplication
Lecture 13: Randomized Matrix Multiplication
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...