Makine Öğrenimi ve Sinir Ağları - sayfa 26

 

Ders 5. Pozitif Belirli ve Yarı Belirli Matrisler



5. Pozitif Tanımlı ve Yarı Tanımlı Matrisler

Bu videoda konuşmacı, hepsi pozitif tanımlı matrisler için testler sağlayan özdeğerler, determinantlar ve pivotlar dahil olmak üzere doğrusal cebirdeki önceki derslerden önemli noktaları özetler. Konuşmacı daha sonra pozitif tanımlı ve belirsiz matrisler arasındaki ilişkiyi, bunların özdeğerler ve determinantlarla bağlantısını ve bir matris için X vektöründeki enerjinin nasıl hesaplanacağını açıklar. Konuşmacı ayrıca derin öğrenme, sinir ağları, makine öğrenimi ve bir enerjiyi en aza indirme kavramlarını da tartışıyor. Dışbükey fonksiyon kavramına değiniyor ve bunun derin öğrenmede nasıl kullanılabileceğini açıklıyorlar. Son olarak, konuşmacı pozitif tanımlı ve yarı tanımlı matrisler için alıştırmalar sunar ve yakında çıkacak olan tekil değer ayrıştırma konusundan kısaca bahseder.

  • 00:00:00 Bu bölümde, konuşmacı özdeğerler, a devrik a determinantları ve pivotlar dahil olmak üzere doğrusal cebirdeki önceki beş dersin önemli noktalarını özetler ve bunların tümü pozitif tanımlı matrisler için testler sağlar. Pozitif tanımlı matrislerin simetrik matrislerin en iyisi olduğunu ve pozitif özdeğerlere sahip olduğunu, ancak özdeğerlerin ötesinde ek testler olduğunu açıklıyor. Konuşmacı, pozitif özdeğerleri, pozitif determinantı, pozitif pivotları olup olmadığını veya belirli bir şekilde çarpanlara ayrılıp ayrılamayacağını sorarak ikiye-iki matrisin pozitif tanımlı olup olmadığının nasıl belirleneceğini gösterir.

  • 00:05:00 Bu bölümde, konuşmacı pozitif tanımlı ve belirsiz matrisleri ve bunların özdeğerler ve determinantlarla bağlantısını tartışıyor. Bir matrisin determinantı, özdeğerlerin çarpımı oldukları için özdeğerlerine bağlıdır ve determinant negatifse, o zaman en az bir negatif özdeğer vardır. Belirsiz matrisler, köşegen girişleri ayarlanarak pozitif tanımlı hale getirilebilir ve önde gelen belirleyiciler (sol üst köşedeki alt matrislerin belirleyicileri), pozitif kesinliği sağlamak için testleri geçmelidir. Konuşmacı ayrıca pivotları determinantlara ve elemeye bağlar. Nihayetinde, konuşmacı pozitif belirli matrisleri enerji testini geçenler olarak tanımlar.

  • 00:10:00 Bu bölümde, konuşmacı bir matris için X vektöründeki enerjinin nasıl hesaplanacağını gösterir ve pozitif tanımlı bir matrisin enerjisinin sıfırdan büyük olduğunu gösterir. Bu durumda enerji, eğitim verileri ile elde edilen sayı arasındaki farkı en aza indirmek için derin öğrenmede kullanılan bir kayıp işlevi olabilecek saf bir ikinci dereceden işlevdir. 3 ve 6 matrisinin köşegen sayıları köşegen parçaları verir ve negatif olabilen çapraz terimler 8 X Y'yi verir.

  • 00:15:00 Bu bölümde konuşmacı derin öğrenme, sinir ağları, makine öğrenimi ve bir enerjiyi en aza indirme arasındaki ilişkiyi açıklıyor. Konuşmacı, sinir ağlarının bir problem için minimum ikinci dereceden değeri bulmak için nasıl çalıştığını ve doğrusal olmayan terimlere sahip olmanın sorunu nasıl daha karmaşık hale getirebileceğini görsel olarak göstermek için bir kase analojisini kullanır. Daha sonra, 100.000'den fazla değişken içerebilen karmaşık işlevleri en aza indirmeyi içerdiğinden, büyük problemlerde makine öğreniminin nasıl bir haftadan uzun sürebileceğini açıklıyorlar. Konuşmacı ayrıca dışbükey fonksiyon fikrine de değiniyor ve bunun derin öğrenmede nasıl kullanılabileceğini açıklıyor.

  • 00:20:00 Bu bölümde konuşmacı, derin öğrenme, sinir ağları ve makine öğreniminde kullanılan birincil algoritma olan gradyan iniş kavramını tartışıyor. Algoritma, bir yüzey üzerindeki bir başlangıç noktasından başlayarak, en dik eğimin veya eğimin yönünü belirlemek için fonksiyonun türevlerini hesaplar ve ardından minimuma ulaşana veya yukarı doğru dönene kadar bu yolu izler. Algoritma, istenen doğruluk düzeyi elde edilene kadar her adımda gradyanın yeniden hesaplanmasını içerir.

  • 00:25:00 Bu bölümde, optimizasyon için makine öğreniminde yaygın olarak kullanılan gradyan iniş kavramı açıklanmaktadır. Çok sayıda değişken için ikinci türevlerin hesaplanması karmaşık olabileceğinden, optimizasyon için genellikle yalnızca birinci türevlerin hesaplandığından bahsedilir. Bununla birlikte, dar bir vadiden aşağı inerken olduğu gibi, eğimli inişin sınırlamaları vardır. Pozitif tanımlı matrisler, optimizasyon için çanak benzeri bir şekil verdikleri için önemlidir, ancak özdeğerler birbirinden uzaksa sorunlara neden olabilir. Son olarak, konuşma ev ödevine doğru kayar.

  • 00:30:00 Bu bölümde, konuşmacı pozitif tanımlı ve yarı tanımlı matrisler için alıştırmalar sunar. Konuşmacı, pozitif tanımlı S matrisi ve pozitif tanımlı T matrisi örneği verir ve bunların S + T toplamının pozitif tanımlı olup olmadığını sorar. Konuşmacı, bu soruyu cevaplamak için enerji testini kullanır ve denklemi gerçekten pozitif tanımlı olduğunu göstermek için iki parçaya ayırır. Konuşmacı ayrıca ilk testi kullanarak günahın tersinin pozitifliğini tartışır. Konuşmacı, bir matrisin gerçek özdeğerlere sahip olması ve daha fazla sorgulamaya tabi tutulabilmesi için simetrik olması gerektiğini belirtiyor.

  • 00:35:00 Bu bölümde, konuşmacı pozitif tanımlı matrisler kavramını tartışıyor ve yarı-belirli matrisler fikrini tanıtıyor. Pozitif tanımlı bir matris, tüm özdeğerlerin pozitif olduğu simetrik bir matristir. Konuşmacı, ortogonal bir matrisin pozitif tanımlı bir matris üzerindeki devriğini nasıl çarpıp simetrik bir matris verdiğini gösterir. Daha sonra benzer matrislerin nasıl aynı özdeğerlere sahip olduğunu ve bu yeni simetrik matrisin gerçekten de pozitif tanımlı olduğunu açıklarlar. Konuşmacı daha sonra özdeğerleri sıfırdan büyük veya sıfıra eşit olan yarı-belirli matrisler kavramını tanıtır. Yarı-belirli matrislerin nasıl sıfır determinantına sahip olduğunu ve bir sıfır özdeğere sahip olabileceğini, ancak iz değerlerinin pozitif bir sayı vereceğini açıklıyorlar.

  • 00:40:00 Bu bölümde, pozitif belirli matrisler kavramı, pozitif belirli matrislerin kenarında yer alan pozitif yarı belirli matrisleri içerecek şekilde genişletildi. Hepsinin bir matrisinin özdeğerleri 3, 0 ve 0 olarak hesaplanır, bu da onu pozitif yarı-belirli bir matris yapar. Özdeğerler ve 0'a eşit veya daha büyük olan enerjiler için yapılan testler aynı kalır, ancak artık bağımlı sütunlara izin verilir. Matris simetrik olmalıdır ve rankı sadece 1 ise pozitif tanımlı olamaz, ancak özdeğerler pozitif ise pozitif yarı tanımlıdır.

  • 00:45:00 Bu bölümde konuşmacı kısaca bir sonraki bölümün konusunun tekil değer ayrıştırması (SVD) olacağından bahseder. Ayrıca, artık pozitif tanımlı ve yarı tanımlı matrisleri ele aldıklarını ve lineer cebirde daha ileri konulara geçtiklerini belirtiyorlar.
5. Positive Definite and Semidefinite Matrices
5. Positive Definite and Semidefinite Matrices
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 6. Tekil Değer Ayrıştırması (SVD)



6. Tekil Değer Ayrışımı (SVD)

Bu video, bir matrisi ortadaki köşegen olan ve tekil değerleri içeren üç matrise çarpanlara ayırmak için kullanılan Tekil Değer Ayrıştırma (SVD) kavramını açıklamaktadır. SVD, A, Sigma ve V arasındaki ilişkinin anlaşılmasına yardımcı olur ve sonuç olarak denklemlerin çözülmesine yardımcı olur. Video, SVD'deki ortogonal vektörlerin, özvektörlerin ve özdeğerlerin önemini tartışıyor ve A ve V matrislerinin dikliğini vurguluyor. Video ayrıca SVD işleminin grafik gösterimini ve bir matrisin kutup ayrışmasını açıklar. Son olarak video, SVD kullanarak büyük bir veri matrisinin en önemli bölümünü çıkarma sürecini tartışıyor.

  • 00:00:00 Bu bölümde eğitmen, özdeğerlere benzeyen ancak dikdörtgen matrislere uygulanabilen Tekil Değer Ayrıştırma (SVD) kavramını tartışır. Özdeğerler, dikdörtgen matrisler için uygun değildir çünkü özvektörler ya karmaşıktır ya da ortogonal değildir. SVD, sırasıyla özvektörler ve özdeğerler yerine iki dizi tekil vektör ve tekil değer sunar. SVD'nin anahtarı, devrik a'nın kare olan ve dikdörtgen matrislerin çarpımını temsil eden büyük bir matris olmasıdır. SVD gerçekleştirmenin ilk adımı, herhangi bir matrisin u çarpı sigma çarpı V devrik olarak çarpanlara ayrılabileceğini göstermektir.

  • 00:05:00 Bu bölümde, konuşmacı A devrik A matrisinin çarpanlara ayrılmasını tartışıyor ve özvektörler ve özdeğerler kavramını tanıtıyor. Matris, kareköklerini hesaplamak için kullanılan pozitif tanımlı özdeğerlere sahiptir. Bu matrisin özvektörleri kare, simetrik ve pozitif tanımlıdır. Ortaya çıkan matris aynı özdeğerlere ancak farklı özvektörlere sahiptir. Konuşmacı daha sonra A'nın çarpanlara ayrılmasından bahseder; burada bir dizi dikey vektör V elde etmek için A ile çarpılabilecek bir dizi V ortogonal vektör arıyoruz. Bu vektörler, tekil değer ayrıştırmasını (SVD) hesaplamak için kullanılacaktır. ). SVD'nin amacı, A'nın ortadakinin köşegen olduğu ve A'nın tekil değerlerini içerdiği üç matris halinde çarpanlara ayırmasını bulmaktır.

  • 00:10:00 Bu bölümde, çıktı uzayındaki V'lerin ortogonal özelliği kavramı, uzayın sütun uzayına, sıfır uzayına ve diğerlerine bölündüğü lineer cebirin büyük resminde keşfedilir. V'ler a ile çarpıldığında, ortaya çıkan kullanımların da ortogonal olduğu ve V'lerin özel olduğu gösterilmiştir. Denklemlerin bir matris formu sunulur ve a devrik a'ya bakarak ortogonal ve ortonormal kullanımları bulma probleminin basitleştirilebileceği ortaya çıkar. Bir devrik a'nın simetrik, pozitif tanımlı olduğu ve bize V'lerin özelliklerini anlatan köşegen bir forma sahip olduğu sonucuna varıldı.

  • 00:15:00 Bu bölümde, konuşmacı Singular Value Decomposition (SVD) kavramını tartışıyor. SVD'deki V'ler, A'nın devriğinin özvektörleridir. Sigma Devriği Sigma, A devrik A'nın özdeğerleridir. SVD, ikili veya üçlü özdeğerler için özvektörleri anlamanın son adımı atılarak kurulur. SVD, A çarpı A devrik çarpı X eşittir B gibi denklemlerin nihayetinde çözülmesine yardımcı olacak olan A, Sigma ve V arasındaki ilişkiyi anlamaya yardımcı olur.

  • 00:20:00 Bu bölümde konuşmacı, seçilen temel vektörler U'nun ortogonal olduğunu kanıtlayan Tekil Değer Ayrıştırma (SVD) işleminin son adımını açıklıyor. Bunu yapmak için konuşmacı, U1 ve U2'nin iç çarpımının sıfıra eşit olduğunu gösterir. U1 AV1/Sigma1 ve U2 AV2/Sigma2 olduğundan, kesrin paydası iptal edilir, bu da geriye V1 devrik çarpı matris çarpı V2 kalır, bu da Sigma2 devrik V2'dir. V2, A devrik A'nın bir özvektörü olduğundan, U1 ve U2 arasındaki iç çarpım sıfıra eşittir, böylece U temel vektörlerinin dik olduğunu kanıtlar.

  • 00:25:00 Bu bölümde, konuşmacı A ve V matrislerinin Tekil Değer Ayrıştırmasında (SVD) dikliğini ve bunların özvektörlerle ilişkisini tartışır. A ve V matrisleri sırasıyla sütun ve satır uzayında birbirine dik olarak gösterilmiştir. Konuşmacı daha sonra veri matrislerinde bu ilişkinin keşfinin tarihini ve önemini tartışır. Konuşmacı, hesaplama açısından pahalı olabileceğinden ve yuvarlama hatalarına karşı savunmasız olabileceğinden, SVD'yi hesaplamak için A devrik A'nın kullanılmasına karşı uyarıda bulunur. Son olarak konuşmacı, SVD faktörlerinin nasıl bir dizi döndürme ve uzatma olarak düşünülebileceğini açıklamak için bir diyagram kullanır.

  • 00:30:00 Bu bölümde, Singular Value Decomposition (SVD) kavramı, sürecin grafiksel gösterimi üzerinden anlatılmaktadır. Video, ortogonal matrisin birim vektörleri nasıl döndürdüğünü ve Sigma'nın bunları bir elips oluşturacak şekilde nasıl esnettiğini gösterir. Son olarak, elipsi döndüren ortogonal matris U uygulanır. Matris pozitif tanımlı ve simetrik ise U, V ile aynıdır ve başlangıçta girdi olarak verilen S, A çıktısıyla aynıdır. Video ayrıca çarpanlara ayırmadaki parametrelerin nasıl sayılabileceğini de açıklıyor.

  • 00:35:00 Bu bölümde konuşmacı, tekil değer ayrıştırmasında (SVD) sol ve sağ taraflar arasındaki sayıların eşleşmesini ikiye iki örnek kullanarak açıklar. SVD'deki döndürme iki parametre gerektirirken, uzatma iki parametre gerektirir, bu da SVD'deki dört sayıyla eşleşen toplam dört parametreyi toplar. Ek olarak, konuşmacı üçe üç matris için SVD'nin hesaplanmasından bahsediyor ve 3B uzayda bir dönüşün üç parametre, yani yuvarlanma, eğim ve sapma gerektirdiğini öne sürüyor. Son olarak, konuşmacı metinde sunulan SVD örneğinin belirli bir matris için olduğundan bahseder ve özdeğerler ve tekil değerler hakkında birkaç gerçek sunar.

  • 00:40:00 Bu bölümde konuşmacı SVD çarpımının determinantının tekil değerlerin çarpımına eşit olduğunu açıklar. Kullanılan örnek, Sigma'ların çarpımının da determinant'a eşit olduğunu göstermektedir. Ancak, argümanın karekökünü almak gerektiğinden, SVD'nin hesaplama örnekleri daha fazla zaman alır. Konuşmacı, sırasıyla sıfır olmayan değerlerden oluşan ve sıfır uzayını açıklayan daha küçük ve daha büyük SVD şekilleri dahil olmak üzere SVD'nin en önemli parçalarının bir sonraki oturumda kullanılacağını vurgular.

  • 00:45:00 Bu bölümde, konuşmacı herhangi bir matrisi simetrik bir matris çarpı ortogonal bir matris olarak çarpanlara ayıran bir matrisin kutup ayrıştırmasını tanıtıyor. Bu, mühendislik ve geometride ünlü bir çarpanlara ayırmadır ve SVD'den hızlı bir şekilde elde edilebilir. Özdeşliği koyarak ve nesneleri hafifçe kaydırarak, S ve Q, bir matrisin bu ayrışmasını kurtarmak için SVD'den okunabilir; .

  • 00:50:00 Bu bölümde konuşmacı, matrisin bir kısmı gürültü ve bir kısmı sinyal olduğu için veri biliminin yapması gereken, büyük bir veri matrisinin en önemli kısmını çıkarma sürecini açıklıyor. Sinyalin en önemli bölümünü bulmak için, konuşmacı u Sigma Vtranspose'u inceler ve en temel sayı olan Sigma 1'i seçer. Bu sayı, sütunu ve satırıyla birlikte, matrisin en kritik bölümünü oluşturur; en önemli sıra bir ve bu nedenle matrisin en yüksek varyansa sahip kısmıdır. Bir sonraki adım, verileri daha iyi anlamak için bu üç unsuru hesaplamaktır.
6. Singular Value Decomposition (SVD)
6. Singular Value Decomposition (SVD)
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Anlatım 7. Eckart-Young: A'ya En Yakın Sıra k Matrisi



7. Eckart-Young: A'ya En Yakın Dereceli K Matrisi

Bu YouTube videosunda öğretim görevlisi, bir veri matrisini anlamak ve ondan anlamlı bilgiler çıkarmak için kullanılan temel bileşen analizi (PCA) kavramını açıklıyor. Bir matrisin en önemli bilgileri içeren en büyük k tekil değerlerinin önemi vurgulanır ve bir tekil değer ayrışımının ilk k parçasının k sıralı bir matrise en iyi yaklaşımı sağladığını belirten Eckart-Young teoremi vurgulanır. , tanıtıldı. Konuşmacı ayrıca l2, l1 ve sonsuz normları da dahil olmak üzere vektörler ve matrisler için farklı norm türlerini tartışır. Netflix yarışmasında ve MRI taramalarında Frobenius normunun önemi, A'ya en yakın k matrisi kavramıyla birlikte vurgulanır. Konuşmacı ayrıca orijinal matrisin özelliklerini korumada ortogonal matrislerin kullanımını tartışır ve kavramı tanıtır. Tekil Değer Ayrışımı (SVD) ve bunun PCA ile ilişkisi. Son olarak, dikdörtgen matris A ve onun devriğini içeren doğrusal bir denklem sistemini çözmenin önemi ve belirli bir veri kümesi için en iyi yaş-boy oranını bulmada SVD yönteminin kullanımı tartışılmıştır.

  • 00:00:00 Bu bölümde öğretim görevlisi, bir veri matrisini anlamak için kullanılan bir araç olan temel bileşen analizi (PCA) kavramını açıklar. Tümünü kopyalamak yerine verilerden anlamlı bilgiler çıkarmanın önemini vurguluyor. Matrisin en büyük k tekil değerlerinin en önemli gerçekleri içerdiğini ve bir K'nin K dereceli bir matrise en iyi yaklaşım olduğunu açıklıyor. Bir tekil değer ayrıştırmasının ilk K parçasını kullanmanın K dereceli bir matrise en iyi yaklaşım olduğunu belirten Eckert-Young teoremi tanıtılır ve öğretim görevlisi bir matris normunun farklı ölçülerini açıklar.

  • 00:05:00 Bu bölümde, konuşmacı vektörler ve matrisler için farklı norm türlerini tartışıyor. l2 normu veya en büyük tekil değer, matrisler için önemli bir normdur. Konuşmacı, l1 normunu kullanarak bir işlevi en aza indirirken, kazanan vektörün seyrek olduğunu veya çoğunlukla 0 bileşenden oluştuğunu, bunun sinyal işleme ve algılamada yararlı olduğunu açıklar. l1 normu aynı zamanda temel takip olarak da bilinir ve kazanan vektörün bileşenlerinin yorumlanmasına izin verdiği için önemlidir. l2 ve l1 normları karşılaştırılır ve konuşmacı ayrıca sonsuzluk normunu da tanıtır.

  • 00:10:00 Bu bölümde konuşmacı üç önemli matris normunu açıklıyor. Birincisi, bir vektörün uzunluğuna benzeyen ve üçgen eşitsizliğini sağlayan iki normdur. İkincisi, bir matrisin girişlerini uzun bir vektör gibi ele alan ve karelerinin toplamının karekökünü alan Frobenius normudur. Üçüncüsü, bir matrisin tekil değerlerinin toplamı olan nükleer normdur. Bu normlar önemlidir çünkü hepsi, bir matrise en yakın dereceli K yaklaşımının, onun ilk K tekil değerlerinden bulunabileceği şeklindeki Eckart-Young ifadesini karşılar.

  • 00:15:00 Bu bölümde, konuşmacı bir matrisin L2 ve Frobenius normlarının nasıl sadece tekil değerlerine bağlı olduğunu tartışıyor. Frobenius normu, katılımcıların eksik girişlerle büyük bir film sıralaması matrisini tamamlaması gereken Netflix yarışmasında kullanıldı ve matrisin en iyi nükleer norm tamamlaması için doğru norm olduğu ortaya çıktı. Bu matris tamamlama yöntemi, eksik verilerle bile mükemmel bir resim üretebildiği, eksik veriler içeren MRI taramaları için artık kullanılmaktadır.

  • 00:20:00 Bu bölümde, konuşmacı A'ya en yakın k sıralı matris kavramını tartışıyor. nükleer norm. Verilen örnek dördüncü dereceli bir matristir ve ikinci sıradaki en iyi yaklaşımı bulmak için konuşmacı en büyük iki değer olarak 4 ve 3'ü seçer. Başka herhangi bir B matrisi, norma bağlı olduğu için açık olmamasına rağmen, A'dan bu seçilen matristen daha uzakta olacaktır. Teoremin amacı, A'ya en yakın k sıralı matrisi bulmanın kolay olmaması ve bir ispata ihtiyaç duyulmasıdır.

  • 00:25:00 Bu bölümde, konuşmacı köşegen matrislerin göründüğü kadar özel olmadığını tartışıyor ve belirli bir matrisin her iki tarafını çarpmak için kullanılabilen dik matris kavramını tanıtıyor. Konuşmacı, bir matrisin tekil değerlerinin dik bir matrisle çarpıldığında ne olduğu sorusunu sorar ve tekil değerlerin değişmeyeceğini açıklar. Konuşmacı ayrıca vektörlerin normlarının ortogonal matrislerle değişmediğini açıklıyor ve ortogonal matrislerin orijinal matrisin özelliklerini korumak açısından köşegen matrisler kadar iyi olduğu sonucuna varıyor.

  • 00:30:00 Bu bölümde Singular Value Decomposition (SVD) kavramı matrix QA bağlamında anlatılmıştır. Matris QA'nın SVD'si, sağında köşegen bir matris olan Sigma'dan oluşur; Sigma'nın sağında V devrik; ve Sigma'nın solundaki Q u, burada Q u ortogonal bir matristir. Bu bölüm, Temel Bileşen Analizi (PCA) kavramını tanıtmış ve veri noktalarından anlamlı içgörülerin nasıl çıkarılacağını açıklamıştır. PCA'daki ilk adım, her bileşen için veri noktalarının ortalama değerlerini çıkararak ortalama sıfır elde etmekti. Bu bölüm ayrıca, elde edilen değerlerin bileşenler arasındaki doğrusal ilişkiyi bulmak için nasıl kullanılabileceğini açıkladı.

  • 00:35:00 Bu bölümde, konuşmacı Temel Bileşen Analizini (PCA) ve bunun en küçük karelerden nasıl farklı olduğunu tartışıyor. En küçük kareler, noktalar ve bir doğru arasındaki hataları ölçerken, PCA noktaların bir hatta olan dikey uzaklığını ölçer ve bunları en aza indirmek için karelerini toplar. Bu nedenle, bu sorunun çözümü, sıradan lineer cebirde bulunan denklemler yerine Singular Value Decomposition (SVD) Sigmalarını içerir. Konuşmacı, PCA'daki en iyi doğrusal ilişkiyi bulma problemini en küçük kareler çözümünü bulma probleminden ayırır, çünkü önceki problem lineer olmayan verileri lineer bir şekilde modellemeyi amaçlar.

  • 00:40:00 Bu bölümde, konuşmacı A matrisini ve devriğini içeren lineer bir denklem sistemini çözmenin önemini tartışıyor. Bu 1806'da temel bir uygulama olsa da, konuşmacı bunun istatistikçilerin uzun süredir uyguladığı ilke bileşen analizi (PCA) ile aynı olmadığını belirtiyor. Ortalama ve varyansı içeren kovaryans matrisinin veya örnek kovaryans matrisinin bu tür istatistiksel uygulamalarda çok büyük bir rol oynadığını belirtiyor. Özellikle, örnek kovaryans matrisi örneklerden hesaplanır ve veri noktalarının sayısıyla normalleştirilir ve tam olarak bir tren aa devriktir.

  • 00:45:00 Bu bölümde konuşmacı, belirli bir veri kümesi için en iyi yaş-boy oranını bulmayı içeren bir problem sunuyor. Amaç, verilen veri ile çözüm arasındaki mesafeyi en aza indirmektir. Konuşmacı, cevabın, simetrik pozitif tanımlı matrisin ana bileşeni olabilecek doğru yönü gösteren vektörü bulmakta yattığını öne sürüyor. SVD yöntemi bu soruna bir çözüm olarak önerilmiştir.
7. Eckart-Young: The Closest Rank k Matrix to A
7. Eckart-Young: The Closest Rank k Matrix to A
  • 2019.07.18
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 8: Vektörlerin ve Matrislerin Normları



Ders 8: Vektörlerin ve Matrislerin Normları

Bu ders, L1 ve maksimum normları dahil olmak üzere vektörlerin ve matrislerin normları kavramını ve bunların sıkıştırma algılama ve sinyal işleme gibi alanlardaki uygulamalarını tartışır. Ders ayrıca normlarda üçgen eşitsizliğinin önemini, s-normların şeklini ve vektörler ile matrislerin L2 normu arasındaki bağlantıyı da kapsar. Ayrıca ders, sinir ağlarını optimize etmek için bir varsayım olarak kalan Frobenius normunu ve nükleer normu araştırıyor ve öğrencilerle birlikte öğretme ve öğrenmenin önemini vurguluyor.

  • 00:00:00 Bu bölümde konuşmacı, insanların yazı tura atmanın sonucunu nasıl tahmin ettiklerine ilişkin MIT Sloan Okulu'ndaki bir öğretim üyesinin yaptığı ilginç bir gözlemi tartışıyor. Teoride en uygun stratejinin tutarlı bir şekilde tura tahmin etmek olmasına rağmen, insanların ve hayvanların tura gelme ihtimali çok daha yüksek olmasına rağmen, zamanın yaklaşık dörtte birinde yazı tahmin ettiğini açıklıyor. Konuşmacının açıklamayı dinlemek için yeterli zamanı olmadığı için bunun nedeni açıklanmıyor. Konuşmacı ayrıca norm kavramını ve bunların vektörlerin, matrislerin, tensörlerin ve fonksiyonların boyutunu ölçmedeki önemini kısaca tanıtıyor.

  • 00:05:00 Bu bölümde vektörlerin ve matrislerin normları kavramı tartışılmaktadır. Öğretim görevlisi, sıkıştırma algılama ve sinyal işleme alanında ayrılmaz olan L1 normu ve maksimum norm gibi farklı norm türlerini tanıtır. P-normunun burada P gücüne P gücüne eşit olduğunu açıklar; burada P güçleri ve P kökleri almanın, V normuna kıyasla iki faktörüne sahip olmak için iki V normunu vereceğini açıklar. Ek olarak, sıfır sıfır olmayan bileşenlerin sayısı matrislerin ve vektörlerin seyrekliğinin bir ölçüsünü veren norm tanıtıldı. Ancak, aynı sayıda sıfır olmayan bileşenin aynı norma sahip olması kuralını ihlal ettiği için bir norm değildir ve uygun normların olduğu bir ile sonsuz arasındaki matematik kağıtları tartışılır.

  • 00:10:00 Bu bölümde öğretim görevlisi vektörlerin ve matrislerin normlarını tartışır. Norm için birim top, v1 kare artı v2 kare eşittir bir denklemi olan bir dairedir. l1 normu için birim top, pozitif kadranda v1 artı v2'nin bire eşit düz çizgi grafiğine sahip bir elmastır. Maksimum norm için birim top da sıfır, +/- bir ve +/- i noktaları maksimuma eşit olacak şekilde çizilir ve sınırın geri kalanının anlaşılması biraz düşünülür. p sayısı değiştikçe, norm bir baklava ile başlar, p eşittir ikiye bir daire olmak üzere genişler ve p eşittir sonsuzda bir kare olur. Son olarak, 0 normu dahil edilmemiştir ve sadece bir sıfır olmayan noktalar eksenler üzerindedir.

  • 00:15:00 Bu bölümde öğretim görevlisi, L1 veya Manhattan normu, L2 veya Öklid normu ve pozitif belirli simetrik matrislerin bir normu olan s-norm gibi farklı norm türlerini tartışır. Öğretim görevlisi, Lp normunun birden az p ile kullanılması gibi belirli durumlarda kırılan normlardaki üçgen eşitsizliğinin önemine dikkat çeker. Ek olarak, s-normun, bir normun kurallarını ihlal eden belirli normların sahip olmadığı dışbükeylik özelliğini karşılayan belirli bir şekle sahip olduğu gösterilmiştir.

  • 00:20:00 Bu bölümde, öğretim görevlisi vektörlere ve matrislere uygulanabilecek farklı norm türlerini tartışır. L2 normu, S matrisi birim matris olduğunda kullanılır, ancak farklı bir S matrisi kullanmak normun şeklini değiştirir. Tipik bir durum, bir elips ile temsil edilen ağırlıklı bir norm oluşturan S eşittir 3'tür. Tüm vektör normları, P için farklı değerlerle L2 normunun varyasyonlarıdır. Öğretim görevlisi ayrıca temel takip probleminden ve Ridge Regresyondan ilgili L1 ve L2 normlarıyla kısaca bahseder.

  • 00:25:00 Bu bölümde öğretim görevlisi optimizasyonda norm kavramını, özellikle L1 ve L2 normlarını tartışır. Öğretim görevlisi, L2 normu en küçük ve ardından en küçük L1 normuna sahip bir doğru üzerindeki noktayı bulma örneğini kullanarak, en küçük L1 normuna sahip noktanın kazanan olduğunu ve en fazla sıfıra sahip olduğunu ve onu seyrek bir vektör haline getirdiğini vurgular. Bu daha üst boyutlara uzanan ve L1 normunu özel kılan önemli bir olgudur. Genel olarak ders, sinir ağlarını ve genel olarak yaşamı optimize etmedeki normların nüanslarını ve uygulamalarını derinlemesine araştırır.

  • 00:30:00 Bu bölümde, konuşmacı L1 norm galibini tartışıyor ve ikinci bileşene göre sıfır olmayanı arttırdığı için çizginin yukarısına çıkmanın nasıl tavsiye edilmediğini tartışıyor. Ayrıca, matrislerin iki normu kavramını ve AX'in iki normunun X'in iki normuna maksimum oranı olan bir patlama faktörü aracılığıyla iki vektör normuna nasıl bağlandığını da tanıtıyorlar. Matris normu tüm X'ler üzerindeki maksimum patlama faktörü olarak tanımlanır.

  • 00:35:00 Bu bölümde öğretim görevlisi matrislerin normlarını ve iyi bir matris normunun nasıl bulunacağını tartışır. İki norm tarafından elde edilen oranın maksimum değerine Sigma 1 dendiğini açıklıyor. Bu değer, aslında hepsini bulmadan tekil vektörün ne olduğunu belirlemek için kullanılabilir. Ek olarak, diğer matris normları, o vektör normundaki patlama faktörünü maksimize ederek elde edilebilir. Tekil vektörler, normları bulmanın bir yoludur, bu nedenle, simetrik olmayan matrislerle uğraşırken özvektörler çalışmayabilir.

  • 00:40:00 Bu bölümde öğretim görevlisi, büyük F ile gösterilen ve tüm matris elemanlarının toplamının kareköküne eşdeğer olan matrislerin Frobenius normunu tartışır. Bu norm, SVD'nin tekil değerlerinin kareleri olan Sigma'larla ilgilidir. Ayrıca ders, ortogonal matris ve Frobenius normunun nasıl birbirine bağlandığını ve nükleer normun derin öğrenme optimizasyon algoritmalarıyla nasıl ilişkili olduğunu araştırır.

  • 00:45:00 Bu bölümde öğretim görevlisi, bir model durumunda gradyan inişiyle optimizasyonun nükleer normu en aza indiren ağırlıkları seçtiği varsayımını tartışıyor. Nükleer norm, vektörler için L1 normuna benzer şekilde, bir matrisin tekil değerlerinin toplamıdır. Bu varsayım kanıtlanmamıştır, ancak fikrin derin öğrenme ve sıkıştırılmış algılamada potansiyel uygulamaları vardır. Öğretim görevlisi, işinin öğrencilerine not vermek değil, onlarla birlikte öğretmek ve öğrenmek olduğunu vurgular. Ders, sekizinci ve dokuzuncu bölümlerdeki notların kullanılacağı üçüncü ev ödevinin duyurulması ile sona erer.
Lecture 8: Norms of Vectors and Matrices
Lecture 8: Norms of Vectors and Matrices
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 9. En Küçük Kareler Problemlerini Çözmenin Dört Yolu



9. En Küçük Kareler Problemlerini Çözmenin Dört Yolu

Bu videoda, eğitmen en küçük kareler kavramını ve ona yaklaşmanın çeşitli yollarını tartışıyor. Doğrusal cebirde temel bir problem olduğu ve tüm kursu bir arada tutan yapıştırıcı görevi gördüğü için en küçük karelerin önemini vurguluyor. Video, matrislerin sözde tersini, tersinir ve tersinmez matrislerin SVD'sini ve en küçük kareler problemlerini çözmek için Gauss'un planı ve ortogonal sütunlar dahil olmak üzere farklı yöntemleri kapsar. Video ayrıca L2 norm karesini kullanarak ax + b ile gerçek ölçümler arasındaki mesafeyi en aza indirme fikrini ve bunun doğrusal regresyon ve istatistikle nasıl ilişkili olduğunu tartışıyor. Ayrıca video, kursta öğrenilen materyalleri kullanan, makine öğrenimi ve derin öğrenme gibi alanlara odaklanan bir proje hakkında fikir veriyor.

  • 00:00:00 Bu bölümde, eğitmen en küçük karelerin önemini ve lineer cebirin nasıl önemli bir problem olduğunu tartışır. En küçük karelere yaklaşmanın çeşitli yollarından bahseder ve bu konu tüm rotayı bir arada tutan yapıştırıcıdır. Ayrıca herhangi bir final sınavı veya testi olmayacağından, bunun yerine kursta öğrenilen materyalleri kullanan bir projeyi teşvik edeceğinden bahseder. Proje, makine öğrenmesi ve derin öğrenme gibi farklı alanları içerecek ve zamanı geldiğinde projenin detayları hakkında bir mesaj gönderecek.

  • 00:05:00 Bu bölümde konuşmacı bir matrisin sözde tersi kavramını açıklıyor. Tersi, var olduğunda, onunla çarpmamıza ve sonra orijinal vektöre geri dönmemize izin verir, ancak tersi olmayan bir matris için sözde tersine döneriz. Bu, matrisin dikdörtgen olduğu, sıfır özdeğere sahip olduğu veya sıfır uzayına sahip olduğu durumlarda geçerlidir. Konuşmacı, görüntünün hangi bölümlerinin tersine çevrilebilir ve hangilerinin umutsuz olduğunu açıklamak için satır ve sütun uzayının bir resmini kullanır. Sözde ters, matris tersinir olmadığında problemleri çözmek için kullanılacak ve yeterli bir çözüm sağlayacaktır.

  • 00:10:00 Bu bölümde, konuşmacı bir matrisin tersinin alınamadığı durumlar için bir matrisin sözde tersinin nasıl tanımlanacağını açıklar. Bir matrisin sıfır uzayının nasıl ele alınacağını ve sözde tersinin bu durumda ne yapması gerektiğini tartışıyorlar. Konuşmacı, sözde tersinin sütun uzayında ve kimsenin ona çarpmadığı ortogonal uzayda ne yapması gerektiğine dair bir plan sağlar. SVD'yi kullanarak, üst yarıda birim matrise ve alt yarıda sıfıra bir matris yansıtmayı içeren sözde ters için bir formül sağlarlar.

  • 00:15:00 Bu bölümde video, SVD'nin V'leri U'lara geri götürdüğü veya tersini yaptığı ters çevrilebilir bir matrisin SVD'sini (tekil değer ayrışımı) tartışıyor. Bir matris tersine çevrilemezse, SVD'si dikdörtgen Sigma matrisinin sözde tersi ile değiştirilmesini gerektirir. Video, Sigma'nın yalnızca iki sıfır olmayana sahip olduğu ve geri kalanının sıfır olduğu, toplam tekil bir durumu temsil eden iki bağımsız sütuna sahip bir matris örneğini gösterir. Sonuç olarak, en iyi seçenek, Sigma tersinin yerine Sigma'nın sözde tersini kullanmaktır.

  • 00:20:00 Bu bölümde, Sigma'nın sözde tersi olan Sigma plus kavramı, ters çevrilemeyen dikdörtgen matrisler için bir çözüm olarak tanıtılmaktadır. Sözde ters, ax B'ye eşit bir denklemin olduğu, ancak a'nın tersinin olmadığı en küçük kareler problemini çözmek için kullanılır. Bu sorun, çok fazla ölçüm veya gürültü olduğunda ortaya çıkar. Sütun uzayındaki vektörleri elde etmek için Sigma plus matrisi kullanılırken ortogonal uzaydaki vektörler çözülemez kabul edilir. En küçük kareler problemini çözmenin ilk yolu, çözümü vermek için Sigma artı matrisini kullanmaktır.

  • 00:25:00 Bu bölümde, konuşmacı doğrusal bir denklem sistemi kullanarak gürültülü ölçümlere düz bir çizgi uydurmanın en küçük kareler problemini tartışıyor. Ölçümler bir doğru üzerindeyse, o zaman doğrusal sistemin bir çözümü olduğunu, ancak genel olarak olmadığını açıklarlar. Daha sonra ax + b ile gerçek ölçümler arasındaki mesafeyi L2 norm karesini kullanarak en aza indirme fikrini ortaya koyarlar. Bu teknik Gauss tarafından önerilmiştir ve ölçümlere en yakın düz çizgiyi temsil eden Cx + D denklemindeki C ve D'nin en iyi değerlerini bulmak için kullanılır.

  • 00:30:00 Bu bölümde konuşmacı en küçük kareler kavramını ve doğrusal regresyon ve istatistikte çözülemeyen problemleri çözmek için nasıl kullanıldığını açıklar. İkinci dereceden kayıp fonksiyonunu en aza indirerek, Gauss'un tavsiyesine uyarak en sonunda en iyi cevabı veren bir doğrusal denklem sistemi üretilir. En iyi X, a devrik a çarpı X eşittir a devrik B denklemini çözerek bulunur, bu da minimuma götürür. Konuşmacı daha sonra A'nın sütun uzayı kavramını ve B'nin nasıl sütun uzayında olmadığını ve kareler ile normal denklemlerin nasıl en iyi AX'e götürdüğünü açıklamak için bir grafik çizer.

  • 00:35:00 Bu bölümde konuşmacı, en küçük kareler problemlerini çözmek için farklı yöntemleri tartışıyor. Yöntem 2, MATLAB'da matrisleri kullanarak normal denklemleri çözmeyi içerir. Ancak, matris neredeyse tekil sütunlara sahipse bu yöntem çalışmayabilir. Yöntem 3, yalnızca matrisin bağımsız sütunları varsa işe yarayan, yani matrisin ters çevrilebilir olduğu anlamına gelen Gauss planını kullanmayı içerir. Psödo-ters yöntem, matris tersinmez ancak bağımsız sütunlara sahip olduğunda da kullanılabilir. Matrisin terslenebilirliğinin önemi bölüm boyunca vurgulanmıştır.

  • 00:40:00 Bu bölümde konuşmacı, sıfır uzayı sıfır olduğunda sözde ters yönteminden gelen yanıtın a devrik a ters a devrik B yönteminden gelen yanıtla aynı olduğunu açıklar. konuşmacı, bir devriğin sıfır uzayının tersinmez olduğunu, ancak bir devrik a'nın tersinebilir olduğunu not eder. Ayrıca, konuşmacı aa devrik matrisinin tersi olmak için elinden gelenin en iyisini yaptığını, ancak yeterince yakın olmadığını açıklıyor. Sözde tersin, sıra eşit olduğunda çalıştığı gösterilmiştir.

  • 00:45:00 Bu bölümde, konuşmacı en küçük kareler problemlerini çözmenin iki yolunu daha tartışıyor. Üçüncü yol, önce ortogonal sütunlar almayı içerir, bu da sorunu kolaylaştırır. Gram-Schmidt prosedürü, ortogonal vektörleri doğal bir şekilde elde etmenin bir yoludur. En küçük kareler problemlerini çözmenin dördüncü ve son yolu ayrıntılı olarak ele alınmamıştır, ancak gerçek hayatta verilerin genellikle seyrek olduğu gerçeğinden yararlanmayı içerir. Konuşmacı, en küçük kareler kavramının yeni bir kavram olmadığını ve haklı olarak kullanılmaya devam ettiğini belirterek sözlerini bitiriyor.
9. Four Ways to Solve Least Squares Problems
9. Four Ways to Solve Least Squares Problems
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 10: Ax = b ile Zorlukların İncelenmesi



Ders 10: Ax = b ile Zorlukların İncelenmesi

Sayısal lineer cebir hakkındaki bu derste, Ax=b formundaki lineer denklemleri çözmenin zorlukları tartışılıyor. Bu zorluklar, A matrisi neredeyse tekil olduğunda, tersini makul olmayan bir şekilde büyük yaptığında ve uygun bir zamanda çözülmesi imkansız olan dev bir matrisle problem çok büyük olduğunda ortaya çıkar. Öğretim görevlisi, sorunu çözmek için, kolay normal durumdan son derece zor, az belirlenmiş denklemlere kadar çeşitli olasılıkları ana hatlarıyla belirtir. Rastgele doğrusal cebir, yinelemeli yöntemler ve SVD'nin kullanımı, özellikle derin öğrenme ile test verileri üzerinde çalışan çözümler bulmanın önemi ile birlikte tartışılır. Ek olarak öğretim görevlisi, herhangi bir matris sorununu teşhis etmek için SVD'nin hala en iyi araç olduğunu vurguluyor.

  • 00:00:00 Bu bölümde öğretim görevlisi Ax = B denklemini çözmeye çalışırken ortaya çıkabilecek zorlukları tartışıyor. Sorunun çeşitli boyutlarda ve sıralarda ortaya çıkabileceğini ve neredeyse tekil veya neredeyse tekil olmayabileceğini belirtiyor. Makul bir koşul numarasına sahip bir kare matrisin kolay normal durumundan, aşırı derecede zor, az belirlenmiş denklemlerin durumuna kadar, sorunu çözmek için çeşitli olasılıkların ana hatlarını çiziyor. İkinci durumda öğretim görevlisi, sorunun derin öğrenmede yaygın olduğunu ve birden fazla çözümün olabileceğini not eder.

  • 00:05:00 Bu bölümde, öğretim görevlisi Ax = b ile zor problemleri ve bunlara nasıl yaklaşılacağını tartışır. Bu problemler genellikle matrisin sütunları neredeyse bağımlı olduğunda ortaya çıkar ve verilen matrisin a1, a2 sütunlarının kabul edilmesini sorunlu hale getirir. Bunun çözümü Gram-Schmidt kullanarak o kolon uzayında ortonormal kolon vektörlerini bulmak ve kolonları ortogonalleştirerek sabitlemektir. Öğretim görevlisi, Gram-Schmidt tartışmasını bir sonraki derse kaydeder, ancak eleme işleminde de geçerli olan bir kavram olan sütunların yeniden sıralanmasına izin veren sütun döndürmenin önemini önizler.

  • 00:10:00 Bu bölümde öğretim görevlisi, Ax=b formundaki lineer denklemleri çözmenin zorluklarını tartışıyor, matrisin neredeyse tekil olması ve bunun tersinin makul olmayan bir şekilde büyük olması olasılığı da dahil. Öğretim görevlisi ayrıca, tipik olarak sistemin çıktısını bildiğiniz, ancak ağın yapısını veya girdisini belirlemeniz gereken problemler olan ters problemlerden de bahseder. Bu problemler genellikle neredeyse tekil matrisler verir ve sorunu en aza indirmek için bir ceza terimi eklemeden sistemin doğru bir şekilde çözülmesini zorlaştırır. Leu ve QR dünyaları, satır değişimleri ve Gram-Schmidt ortogonalizasyonundan da bahsedilmektedir.

  • 00:15:00 Bu bölümde, Ax=b yöntemini kullanarak doğrusal denklemleri çözmeyle ilgili bazı zorlukları öğreneceğiz. Böyle bir zorluk, A matrisinin kötü bir şekilde şartlandırılmış olması, sıfıra yaklaşan vektörlere ve a devrik a'nın dev bir tersine yol açmasıdır. Buna karşı koymak için, A'yı daha iyi koşullandıran ama aynı zamanda sorunu ne kadar cezalandırılacağına karar vermeye kaydıran A'yı cezalandırmamız gerekiyor. Başka bir yöntem, eşlenik gradyan yöntemi gibi yinelemeli yöntemlerdir; burada, yeterince yakın olana kadar kesin cevaba bir adım daha yaklaşırız. Sorun, uygun bir zamanda çözülmesi imkansız olan dev bir matrisle çok büyük olduğunda, örnekten bir yanıt sağlamak için matrisin sütunlarını ve satırlarını örneklemek için rasgele doğrusal cebir kullanılır.

  • 00:20:00 Bu bölümde öğretim görevlisi, matrisin makul olduğu durumlarda zor problemlerin çözümlerini belirlemek için rastgele doğrusal cebirin kullanımını tartışır. Çözümlerin doğru olacağına dair bir garanti olmamakla birlikte, eşitsizliklerin olasılıklarını kullanmak soruna iyi bir çözüm getirebilir. SVD'nin kullanımı ile birlikte yinelemeli yöntemler ve rastgele algoritmalar, çözüm bulma yöntemleri olarak tartışılmaktadır. Öğretim görevlisi, özellikle derin öğrenme ile test verileri üzerinde çalışan çözümler bulmanın önemini vurgular ve bu problemle ortaya çıkan derin matematiksel soruları tartışır. SVD, matris neredeyse tekil olduğunda potansiyel bir çözüm olarak açıklanır.

  • 00:25:00 Bu bölümde profesör, büyük terslerin varlığında ax eksi B karenin minimum toplamını bulma problemini düzenli hale getirmek için bir yöntemi tartışıyor. Pozitif bir delta içeren ek bir ceza terimli bir en küçük kareler problemi kullanarak, bu değer sıfıra gitse veya a çılgınca şeyler yapsa bile, problem çözülebilir olacak ve fonksiyonun tekillikten uzak olması garanti edilecektir. Delta sıfıra gittiğinde sonucun davranışı büyük ölçüde değişir ve bu faktör sistemdeki gürültü düzeyine bağlı olabilir.

  • 00:30:00 Videonun bu bölümünde, konuşmacı belirli bir Delta için çözümü tartışıyor ve çözümün ne zaman var olduğunu analiz ediyor. Odak noktası, cezalandırılmış bir en küçük kareler probleminin minimumunu bulmayı içeren birer birer problem çözmektir. Denklem, türevi sıfıra ayarlayarak çözülür ve elde edilen X değeri, Delta sıfıra giderken limiti belirlemek için kullanılır. İki olasılık, Sigma'nın sıfır olmaması ve çözümün Sigma'nın tersine yaklaşması veya Sigma'nın sıfır olması ve çözümün olmamasıdır.

  • 00:35:00 Videonun bu bölümünde, konuşmacı cezalı kareler yaklaşımının ceza süresi sıfıra gittiğindeki davranışını tartışıyor. Konuşmacı, bu durumda, sistemin sıfır ile sıfır olmayan bir sınır arasında ani bir çatallanma ile garip bir şekilde davrandığını belirtiyor. Bu limit sözde ters olarak tanımlanır ve Delta küçüldükçe, sistemin çözümü sözde tersine yaklaşır ki bu sistem için her zaman doğru olan cevaptır. Konuşmacı, pratik bir durumda, bu yaklaşımın bir elektrik devresindeki dirençler ve endüktanslar gibi bir sistemin bilinmeyen parametrelerini bulmak için yararlı olacağını belirtiyor.

  • 00:40:00 Bu bölümde öğretim elemanı, Ax=b probleminin çözümüne, problemi düzenli hale getirmek için bir ceza terimi ekleyerek ulaşılabileceğini açıklar. Ceza terimi, cevapta pek çok küçük bileşen olmaksızın seyrek çözümler veren L1 normu kullanılarak getirilebilir. Ayrıca geleneksel lineer cebirde ve Gram-Schmidt'te pivotlu veya pivotsuz yinelemeli yöntemlerin önemini tartışıyor. Ancak, bu konuları bir sonraki derste ele almaya karar verir.

  • 00:45:00 Bu bölümde öğretim görevlisi, SVD'nin matrislerle ilgili şeyleri kanıtlamak için nasıl etkili bir araç olduğunu tartışıyor; dağınık bir problemi basitleştirerek ortadaki diyagonal matris Sigma ile ilgili bir probleme dönüştürür, bu nedenle herhangi bir matris sorununu teşhis etmede yararlıdır. Ek olarak, öğretim görevlisi, Sigma'nın köşegen bir matris olduğu özel bir problem durumu için bir formül sağlar ve bu, özellikle her köşegen girişte Sigma'nın davranışını anlamanın bu tür durumları takip etmek için hayati önem taşıdığını ima eder. Öğretim görevlisi, SVD'nin bunun için hala en iyi araç olduğunu vurguluyor. Son olarak öğretim görevlisi, bu dersin sayısal lineer cebirin neyle uğraştığına dair bir inceleme olduğunu ve henüz her konu ele alınmasa da kalan oturumlarda ele alınacağını vurgular.
Lecture 10: Survey of Difficulties with Ax = b
Lecture 10: Survey of Difficulties with Ax = b
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 11: Ax = b'ye Göre ‖x'i Minimize Etmek



Ders 11: Ax = b'ye Göre ‖x'i Minimize Etmek

Bu derste, konuşmacı sayısal lineer cebir ile ilgili bir dizi konuyu kapsar. Ax=b'yi çözerken ortaya çıkabilecek sorunları tartışmakla başlarlar, ardından bir uzay için ortogonal bir taban bulmak için Gram-Schmidt sürecine ve Ax = b'ye tabi ‖x'i en aza indirmek için değiştirilmiş Gram-Schmidt yöntemine geçerler. . Konuşmacı ayrıca sütun değişimi veya daha profesyonel bir Gram-Schmidt algoritmasında sütun döndürme kavramını tanıtıyor ve bir A matrisinin sütunlarını ortonormalize etmek için standart Gram-Schmidt işlemindeki bir gelişmeyi tartışıyor. Ayrıca Krylov uzayı fikrine de değiniyorlar. Ax=b problemini çözmek ve Ax=b'ye tabi ‖x‖'i en aza indirmek için iyi bir temele sahip olmanın önemi. Son olarak, Ax=b'ye göre x öznesini en aza indirme problemini bitirdiklerini ve çok büyük matrislerle uğraşma konusuna geçtiklerini belirtiyorlar.

  • 00:00:00 Bu bölümde öğretim görevlisi üç şeyden bahsediyor. İlk olarak, Ax=b'yi çözerken ortaya çıkabilecek sorunlar, A'nın çekirdeğe sığamayacak kadar büyük olduğu ancak başka yöntemlerin mevcut olduğu durumlar dahil. İkinci olarak, kitabının iki sayfasının kabataslak ilk taslağını gösteriyor ve onu mükemmelleştirmek ve geliştirmek için geçirdiği iki yıllık süreci anlatıyor. Üçüncü olarak, L1, L2 ve L sonsuz normları arasındaki farkın görsel bir temsilini sağlayarak, tatmin edici bir denklemin kısıtlamasıyla çözme koşulu için L1 veya L2 veya maksimum L sonsuz normu gibi farklı normları en aza indirmeyi tartışır.

  • 00:05:00 Bu bölümde, konuşmacı L1, L2 ve L sonsuz da dahil olmak üzere farklı norm uzaylarındaki farklı birim toplar için kazanma noktasını tartışır. Her durumda kazanan noktanın veya çizgiye ilk temas eden noktanın nasıl bulunacağını gösterir. Daha sonra, ortogonalken aynı uzayı kapsayan farklı bir vektör seti bularak ortogonal olmayan bir matrisi ortogonal yapmanın bir yolu olan günün konusu Gram-Schmidt'i tanıtıyor. Gram-Schmidt'in genel gerçeklerini özetliyor ve bunun lineer cebir derslerinde öğretilen standart bir konu olduğundan bahsediyor.

  • 00:10:00 Bu bölümde profesör, Q1 ila Qn sütunları ortonormal olan bir ortogonal matris elde etmek için bir matrisin resmini açan Gram-Schmidt sürecini açıklıyor. R matrisi, Q'ların hangi kombinasyonlardan yapıldığını söylemek için veya A'nın son Q ile nasıl ilişkili olduğunu söylemek için geriye doğru kullanılır. R denklemi Q devrik çarpı A'dır ve R'deki girişler, Q'ların yalnızca iç çarpımıdır. As ile. Profesör, ortogonal Q matrisi nedeniyle R hakkında gizemli hiçbir şey olmadığını gösteriyor. MATLAB komutu A yerine Lu yerine A'nın QR'si olacaktır.

  • 00:15:00 Bu bölümde ders, Gram-Schmidt'in bir uzay için ortogonal bir taban bulma sürecini açıklıyor. Ders ortogonal olmayan bir baz seti ile başlar ve amaç ortogonal bir baz seti oluşturmaktır. İşlem, birinci sütun vektörünün birinci temel vektör olması ve ardından ikinci vektörün alınması ve bunu birinci vektörle ortogonalleştirmesi ile başlar. Bir sonraki adım, ilk iki vektöre ortogonal olan üçüncü vektörü oluşturmaktır. Bu, tüm temel set ortogonal olarak inşa edilene kadar devam eder. Son olarak, her temel vektörü bir birim vektör yapmak için her vektörü normuna böleriz. Gram-Schmidt ortogonal olmayan bir temel set alır ve izdüşüm yöntemlerine uygun bir ortogonal set oluşturur.

  • 00:20:00 Bu bölümde, konuşmacı Ax = b'ye göre "x" öznesini en aza indirmek için değiştirilmiş Gram-Schmidt yöntemini tartışıyor. Q1 ve Q2'nin bileşenlerini vektörden çıkarma ve ortaya çıkan vektörün ortogonal olup olmadığını kontrol etme sürecini açıklarlar. Ayrıca, eleme sırasında sırayla sıra alma tehlikesini ele alıyorlar ve hesaplama hatalarını önlemek için değiştirilmiş Gram-Schmidt yönteminin kullanılmasını öneriyorlar.

  • 00:25:00 Dersin bu bölümünde, konuşmacı daha profesyonel bir gram-schmidt algoritmasında sütun değiştirme veya sütun döndürme fikrini tartışıyor. Yok etmeye benzer şekilde, gram-schmidt'te, sütunun yeni kısmı çok küçükse, giderilemeyecek yuvarlama hataları oluşturabilir. Bu nedenle, algoritmanın pivot boyutunu kontrol etmesi ve gerekirse satırları değiştirmesi önemlidir. Sütun değişiminin arkasındaki ana fikir, bir sonraki adıma karar vermeden önce en büyük bileşeni bulmak için sütunun yeni bölümünü diğer tüm potansiyel olasılıklarla karşılaştırmaktır. Bu süreç, sonucun doğruluğunu etkileyebilecek yuvarlama hatalarından kaçınmak için çok önemlidir.

  • 00:30:00 Bu bölümde, konuşmacı bir A matrisinin sütunlarını ortonormalleştirmeye yönelik standart Gram-Schmidt işlemindeki bir iyileştirmeyi açıklıyor. her yeni sütunu ortonormalleştirme. Konuşmacı, gerekli tüm çıkarmalar ne olursa olsun daha erken hesaplandığından, bunun standart yöntemden daha fazla iş olmadığını savunuyor. İyileştirme, kalan en büyük sütunun seçilmesine dayanır ve Gauss elemesinde en büyük pivotun seçilmesine benzer.

  • 00:35:00 Bu bölümde, öğretim görevlisi büyük matris problemi Ax=b'yi çözmek için Krylov uzayı fikrini tanıtıyor. Krylov uzayı, bir uzayı kapsayan vektörlerin bir kombinasyonudur ve öğretim görevlisi, XJ uzayındaki en küçük kareler çözümünü bulmak için bu vektörlerin kombinasyonlarını kullanır. Krylov uzayı, A^k-1B'ye kadar A ile J vektörlerinin çarpılmasıyla belirlenir. Öğretim elemanı Ax=b problemini çözmek için bu uzayda en iyi çözümü arar. Ancak, bu yöntemde hala bir püf noktası var.

  • 00:40:00 Bu bölümde, konuşmacı Ax = b'ye göre "x" öznesini en aza indirmek için iyi bir temele sahip olmanın önemini tartışıyor. Hesaplamaları kolaylaştırmak için taban ortogonalleştirilmelidir ve nolde ve Lan gösterilerimizin katkılarının geldiği yer burasıdır. Ortogonal bir taban bir izdüşüm için mükemmeldir ve konuşmacı hesaplamaları kolaylaştıran denklemi açıklar. Q'lar ortogonal olduğunda, C katsayıları, verilen X vektörünün nokta çarpımını her bir Q ile hesaplayarak ve ardından Q devriğini uygulayarak kolayca bulunabilir. Bu, soruna etkili bir çözüm sağlar.

  • 00:45:00 Dersin bu bölümünde, konuşmacı taban kavramını ve Gram-Schmidt veya Krylov vektörlerini kullanarak iyi bir temelin nasıl bulunacağını tartışır. Konuşmacı, bu durumda Gram-Schmidt yönteminin kullanılmasının tercih edilebilir olduğunu belirtiyor ve ayrıca, Krylov, Arnoldi ve Lanczos gibi alandaki yaygın teknikleri özetleyen, sayısal lineer cebir hakkındaki kitabın 2.1 bölümünden bahsediyor. Konu hakkında daha fazla bilgi edinmek isteyenler için mükemmel bir ders kitabı olarak Golub ve van Loan'ın 'Numerical Linear Algebra' kitabını tavsiye ediyor.

  • 00:50:00 Videonun bu bölümünde konuşmacı, x öznesini Ax=b'ye göre en aza indirme problemini bitirdiklerini ve çok büyük matrislerle uğraşma konusuna geçtiklerinden bahsediyor.
Lecture 11: Minimizing ‖x‖ Subject to Ax = b
Lecture 11: Minimizing ‖x‖ Subject to Ax = b
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 12. Özdeğerlerin ve Tekil Değerlerin Hesaplanması



12. Özdeğerlerin ve Tekil Değerlerin Hesaplanması

Bu videoda, özdeğerleri ve tekil değerleri hesaplamak için QR yöntemi tanıtılmaktadır. Süreç, istenen matrisle başlamayı ve onu QR'ye çarpanlara ayırmayı, ortogonal olmayan tabanı ortogonal tabana bağlayan bir üst üçgensel R matrisi oluşturmayı içerir. İşlem, köşegen girişler küçülene kadar yinelenir, bu noktada özdeğerlere yaklaşmak için kullanılabilirler. Konuşmacı ayrıca süreci hızlandırmak için özvektörleri hesaplamak için bir kaydırma yöntemini tartışıyor. Simetrik matrisler için MATLAB kullanmanın faydaları da vurgulanmıştır. Video ayrıca büyük matrisler için özdeğer problemlerini çözmek için Krylov vektörleri kavramına da değiniyor.

  • 00:00:00 Bu bölümde, profesör bir matrisin özdeğerlerini ve tekil değerlerini hesaplamak için QR yöntemini tanıtıyor. QR yöntemi, özdeğerleri istenen bir matrisle başlamayı ve onu QR'ye çarpanlara ayırmayı içerir. Matrisin sütunları ortogonalleştirilerek ortogonal baza dönüştürülür ve ortogonal olmayan tabanı üst üçgen olan ortogonal tabana bağlayan bir R matrisi oluşturulur. Daha sonra, yöntem sırayı tersine çevirmeyi ve bir sonraki matrisi üretmek için aynı şeyi tekrar yapmayı içerir. Profesör, özdeğerlerin dönüşümden önce ve sonra aynı olduğunu ve matrislerin benzer olduğunu iddia ediyor, bu da matrisin tekil değerlerini hesaplamak için kullanışlıdır.

  • 00:05:00 Bu bölümde, profesör QR çarpanlarına ayırmayı kullanarak özdeğerleri hesaplama sürecini açıklıyor. Süreç, ortaya çıkan matrisin köşegen girişleri çok küçük hale gelene kadar QR çarpanlarına ayırmanın birçok kez yinelenmesini içerir. Bu noktada, köşegen girdiler, orijinal matrisin gerçek özdeğerlerine yakındır ve bunlara yaklaşmak için kullanılabilir. Profesör ayrıca, köşegen dışı girişlerin küp haline gelmesi ve hızla sıfıra yaklaşması ile yöntemin hızlı yakınsamasını vurgulayarak yöntemi son derece doğru hale getiriyor.

  • 00:10:00 Bu bölümde video, özvektörlerin hesaplanması için algoritmada bir kaymanın tanıtılmasını içeren bir iyileştirmeyi tartışıyor. A matrisini almak yerine, si'nin birim matrisin bazı katları olduğu A - siI matrisini alırlar. Bu, A matrisinin tüm özdeğerlerini si kaydırır. Daha sonra bu kaydırılmış matrisle çalışırlar, Gram-Schmidt işlemini gerçekleştirirler ve A'ya olabildiğince yakın bir matris elde etmek için sırayı tersine çevirirler. Son olarak, yeni bir A1 matrisi elde etmek için kaydırmayı geri alırlar. Umut, A1'in hala A'ya benzer olması, ancak daha hızlı bir hesaplama süresine sahip olmasıdır.

  • 00:15:00 Bu bölümde, profesör bir matrisin özdeğerlerini hesaplamak için QR yöntemini tartışıyor. Matrisin alt üçgen kısmının kaybolmaya başladığını ve özdeğerlerin köşegen üzerinde belirmeye başladığını göstermek için QR yöntemini kullandığı tamamlanmamış bir örnek gösteriyor. Profesör daha sonra orijinal matristeki herhangi bir sıfırdan yararlanarak QR yönteminin verimliliğinin nasıl artırılacağını tartışır. Sıfırlı ekstra köşegenler varsa, QR çarpanlara ayırma sürecindeki bazı adımlar atlanarak yöntem hızlandırılabilir.

  • 00:20:00 Bu bölümde, konuşmacı özdeğerlerin ve tekil değerlerin nasıl hesaplanacağını tartışır. Tüm özdeğerleri elde etmek mümkün değildir, çünkü bize özdeğerleri verecek olan sıfıra eşit bir alt üçgen parçanın tamamını elde etmek imkansızdır. Bunun nedeni, özdeğerlerin n'inci dereceden bir denklemi çözmesidir ve yüzyıllar önce, anlık bir denklemi basit adımlarla çözmenin imkansız olduğu kanıtlanmıştır. Ek olarak, lambdaları veya tekil değerleri bulmak için basit bir formül yoktur. Ancak, QR yöntemiyle devam edip bir matrisi bir üçgen artı bir köşegen daha ama çok sayıda sıfır içeren Hessenberg formuna indirgeyerek istediğimiz kadar yakınlaştırmak mümkündür. MATLAB ve diğer matris sistemleri bu değerleri hesaplamak için la pack ve Linpack kullanır.

  • 00:25:00 Videonun bu bölümünde konuşmacı MATLAB kullanmanın yararlarını tartışıyor ve simetrik matrislerin özellikleri hakkında fikir veriyor. Bir matris simetrik ise, o zaman ana köşegenin üzerinde yalnızca bir köşegen olacağının güvenli bir şekilde tahmin edilebileceğini ve bu da onu üç köşegen bir matris haline getirdiğini açıklıyor. Bu, N^2 yerine yalnızca 2n sayılarla çalışmayı gerektirdiğinden, QR hesaplaması yapma süresini önemli ölçüde azaltır. Konuşmacı ayrıca tekil değerlere kısaca değinerek, bunların bir devrik matrisin özdeğerleri olduğunu, ancak yavaş, koşulsuz ve bilgi kaybına yol açacağı için determinantlar kullanılarak hesaplanmasına karşı uyarıda bulunur.

  • 00:30:00 Bu bölümde, konuşmacı simetrik matrisleri basitleştirmek için ortogonal matrisleri kullanma kavramını tartışıyor ve özdeğerlerinin kolayca bulunabilmesi için onları üç köşegen yapıyor. Daha sonra konuşmacı, tekil değerlerini değiştirmeden bırakacak şekilde basitleştirmek için genel bir matrise ne yapılabileceği sorusunu sorar. Konuşmacı bu soruyu SVD'ye bağlar ve ortogonal bir matrisle çarpmak gibi belirli işlemler altında tekil değerlerin değişmezliğini tartışır. Başka hangi işlemlerin tekil değerleri değişmez bıraktığı sorusu, izleyicinin dikkate alması için açık bırakılmıştır.

  • 00:35:00 Bu bölümde öğretim görevlisi, ortogonal Q matrisini tekil değerlere sahip köşegen matrisle çarpmanın etkisini tartışıyor. Q'nun köşegen matris üzerinde çarpılmasının tekil değerleri değiştirmediği ve bunun denklemin her iki tarafında farklı ortogonal matrisler kullanılarak yapılabileceği gösterilmiştir. Bu artan esneklik, matrisin üç köşegenden iki köşegene indirgenmesine izin verir, bu da her adımda ilerledikçe algoritmayı daha hızlı hale getirir. Öğretim görevlisi ayrıca, matris çarpımını basitleştirmede iki köşegen matrisin kullanışlılığını tartışır.

  • 00:40:00 Bu bölümde konuşmacı, özellikle bin mertebesinden matrisler için hesaplama özdeğerlerini ve tekil değerleri tartışıyor. SVD, üç köşegen olacak bir matrisin devrikine bakmayı içerir. Tekil değerleri bulmak için, bir matrisin devrik durumuna geçilebilir, ancak özdeğerlerini bulmak, onun simetrik ve üç köşegen olmasını gerektirir. Bu yöntem, belirli bir boyuta kadar olan matrisler için etkilidir, bunun ötesinde seyrek matrisler için Krylov yöntemi kullanılabilir. Krylov'un yöntemi, matrisi belirli bir boyuta, tipik olarak yüze yüze sınırlar ve bu uzayda özvektörü bulur.

  • 00:45:00 Bu bölümde konuşmacı, büyük matrisler için özdeğer problemlerini çözmek için kullanılabilecek Krylov vektörleri adlı bir yaklaşımı açıklıyor. Orijinal matristen daha küçük bir boyuta sahip olan Krylov vektörlerine matris işlemi uygulanarak daha küçük bir özdeğer problemi oluşturulabilir ve çözülebilir. Krylov vektörleri kesin özdeğerler sağlamamakla birlikte belirli problemler için iyi tahminler verebilir. Konuşmacı ayrıca büyük matrisler için rastgele örnekleme fikrini de tanıtıyor ve bunun bir sonraki derste inceleneceğinden bahsediyor.
12. Computing Eigenvalues and Singular Values
12. Computing Eigenvalues and Singular Values
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Ders 13: Rastgele Matris Çarpımı



Ders 13: Rastgele Matris Çarpımı

Bu video ders, matris A'nın sütunlarını ve matris B'nin karşılık gelen satırlarını, toplamı bir olan olasılıklarla örneklemeyi içeren rastgele matris çarpımı kavramını tartışır. Rastgele örneklerin ortalama değeri, doğru cevabı elde etmek için hesaplanabilir, ancak yine de varyans olacaktır. Ders, ortalama ve varyans kavramlarını ve varyansı en aza indiren en iyi olasılıkların nasıl seçileceğini tartışarak devam eder. Süreç, Lambda adı verilen bilinmeyen bir değişkenin tanıtılmasını ve en iyi PJ'yi bulmak için buna göre türevlerin alınmasını içerir. Daha sonra odak, bir matristeki hangi sütunların daha büyük veya daha küçük olduğuna bakarken olasılıkların nasıl ağırlıklandırılacağı sorusuna kayar. Öğretim görevlisi iki olasılık önerir: olasılıkları norm kareye göre ağırlıklandırın veya matrisin sütunlarını karıştırın ve eşit olasılıkları kullanın. Genel olarak video, rastgele matris çarpımı ve en küçük varyansı elde etmek için olasılıkları optimize etme süreci hakkında ayrıntılı bir açıklama sağlar.

  • 00:00:00 Videonun bu bölümünde konuşmacı, randomize lineer cebirin kapsamına giren bir fikir olan randomize matris çarpımı kavramını açıklıyor. Bu yöntem, A matrisinin sütunlarını ve B matrisinin karşılık gelen satırlarını örnekleyerek büyük matrisler için kullanılır, ancak hepsini değil. Bunun yerine, farklı parçalar, toplamı bir olan olasılıklarla rastgele örneklenir. Rastgele örneklerin ortalama değerini hesaplayarak doğru cevap elde edilebilir, ancak yine de varyans olacaktır. O halde amaç, varyansı en aza indiren en iyi olasılıkları seçmektir. Ders, ortalama ve varyans kavramlarını tartışarak ve bir örnekle uygulayarak devam eder.

  • 00:05:00 Bu bölümde, konuşmacı matris çarpımı için rastgele bir örnekleme sürecini anlatıyor. İşlem, her birinin olasılığı yarım olan iki sütun almayı, bunları toplamayı ve ardından örneklenme sayısına bölmeyi içerir. Daha sonra rasgele matrisin ortalaması, iki numunenin ortalamasını hesaplamak için formül kullanılarak hesaplanır. Varyans, iki yöntemden biri kullanılarak hesaplanır; bunlardan biri, farklı çıktı değerlerinin olasılıklarının karelerinin eklenmesini içerirken, diğeri ortalama uzaklığın karesinin ortalamadan alınmasını içerir.

  • 00:10:00 Videonun bu bölümünde, konuşmacı istatistikteki ortalama ve varyans kavramlarını ve bunların rastgele matris çarpımı için mevcut hesaplama varyansı örnekleriyle nasıl ilişkili olduğunu tartışıyor. Varyansın, ortalamanın her iki tarafındaki noktalar arasındaki karelerin toplamının bir ölçümü olduğunu ve örneğinde, çıktısı ile ortalama arasındaki farkların karelerini topladığını açıklıyor. Daha sonra, her biri için iki olası sonuç ve olasılık içeren kendi özel örneği için varyansı hesaplamaya devam ediyor.

  • 00:15:00 Bu bölümde, konuşmacı varyansın hesaplanmasını tartışıyor ve olasılıkları ve ortalama kareden uzaklıkları kullanarak varyans için yeni bir formül sunuyor. Konuşmacı ayrıca lineer cebirde rasgele örnekleme kavramını ve B A'dan çok daha büyük olduğunda olasılıkları ayarlamanın varyansı azaltmaya nasıl yardımcı olabileceğini gündeme getiriyor. Bunu gelecekte daha fazla tartışmak için. Son olarak konuşmacı, olasılığı ve çıktının karesinden uzaklığı içeren ikinci bir varyans formülünden bahseder.

  • 00:20:00 Bu bölümde, konuşmacı olasılıktaki ortalama ve varyansı tartışır ve ortalamayı çıkarırken ortalamanın karesini hesaplamanın iki yolunu gösterir. Daha sonra odak, bir matristeki hangi sütunların daha büyük veya daha küçük olduğuna bakarken olasılıkların nasıl ağırlıklandırılacağı sorusuna kayar. Konuşmacı iki olasılık önerir: olasılıkların kare normuna göre ağırlıklandırılması veya matrisin sütunlarının karıştırılması ve eşit olasılıkların kullanılması. Konuşmacı ilk yaklaşımı destekliyor ve norm karesiyle orantılı olasılıkların nasıl kullanılacağını açıklıyor.

  • 00:25:00 Bu bölümde öğretim görevlisi, olasılıkların toplamı bir olacak şekilde nasıl yeniden ölçeklendirileceğini açıklıyor. Daha sonra belirli olasılıklarla satır sütunu ve sütun satırı J'yi seçme planını ve bunları nasıl çarpacağını tartışır. Onun yaklaşımı, yaklaşık aB, tüm bu örneklerin S örnekleri üzerinden toplamı olacaktır. Öğretim üyesi ayrıca planın, toplam varyansı en aza indirmek için PJ'leri seçmek olduğundan ve ortalamanın doğru olduğundan bahseder.

  • 00:30:00 Bu bölümde öğretim görevlisi, rastgele matris çarpımında bir örnek için varyansın nasıl hesaplanacağını açıklar. Tüm örneklerin toplamının ortalaması, bir örneğin ortalamasının örnek sayısıyla çarpılmasıyla hesaplanır, bu da varyansın hesaplanmasının zor kısmına yol açar. Varyans hesaplaması, boyuta bağlı olasılıklarla seçilen P1 ila PR parçasına bağlı olacaktır. Her örnek birinci dereceden olduğu için kesinlikle yanlıştır, dolayısıyla varyansı hesaplarken kesinlikle sıfır alamayacağız. Bir örneklem için varyans, AJ AJ devrik olasılığının karesinin toplamı olarak ortaya çıkıyor. Tam varyansı elde etmek için ortalama kare bu hesaplamadan çıkarılır.

  • 00:35:00 Bu bölümde, konuşmacı PJ için değerleri girer ve paydayı JP j bj normlarının bir JPG toplamına sadeleştirir. Birinci kuvveti toplayıp C'yi elde ederek, konuşmacı varyansın ifadesini elde eder. s örnekleri alıp birleştirdikten sonra, varyans sabit bir sayıdır, bu da onların küçük yapmak istedikleri C'dir. Konuşmacı, a'nın uzunluğu ile B'nin uzunluğunun uzunluğuna dayanan olasılık ağırlıklarını seçerek bunun en iyi seçim olduğunu göstermek istiyor.

  • 00:40:00 Bu bölümde konuşmacı, A matrisinin satırları veya sütunları ve B matrisinin satırları için P1'den PR'ye kadar olan olasılıkları, bunların toplamı 1 olan kısıtlamaya tabi olarak optimize etmenin son adımını tartışıyor. Amaç optimum PJ'leri seçerek varyans ifadesini en aza indirmektir. Konuşmacı, en iyi PJ'yi bulmak için genellikle lambda olarak adlandırılan bilinmeyen bir sayıyı tanıtarak işleve kısıtlama oluşturmak için Lagrange fikrini sunar. Bu bölüm, rasgele örnekleme tartışmasını sonlandırır ve son alt probleme götürür.

  • 00:45:00 Bu bölümde öğretim görevlisi, Lagrange'ın olasılıkları bire eklemeleri koşuluyla optimize etme fikri kavramını tartışıyor. İşlem, denklemi fonksiyona dönüştürmeyi ve bilinmeyen bir değişken olan lambdaya göre türev almayı içerir. Türevleri sıfıra ayarlayıp çözdükten sonra, P'ye göre türev alınarak doğrulanabilecek son önerilen cevabı alırsınız. Öğretim görevlisi ayrıca denklemi bire eşitlemek için Lagrange çarpanının doğru sayı olduğunu açıklar.

  • 00:50:00 Bu bölümde profesör, rastgele bir sistemdeki en küçük varyansı elde etmek için olasılıkları seçme sürecini açıklıyor. Sütun daha büyük olduğunda ideal olasılıkların daha yüksek olduğundan, bu nedenle rastgele örneklemeden önce sütunların uzunluklarını bulmanın bir ön koşul olduğundan bahseder. Varyansın hesaplanması biraz zor olsa da, gelecekte olasılığı daha ciddiye kullanacaklarından öğrencileri notları yavaşça gözden geçirmeye ve formülleri daha iyi anlamak için tekrar gözden geçirmeye teşvik ediyor.
Lecture 13: Randomized Matrix Multiplication
Lecture 13: Randomized Matrix Multiplication
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Anlatım 14. A ve Tersinde Düşük Sıra Değişimleri



14. A ve Tersinde Düşük Sıra Değişiklikleri

Video, düşük dereceli matrisler kavramını ve bunların fonksiyon matrislerindeki önemini, özellikle daha basit 1'e 1 matris cinsinden N'ye n matrisin tersini bulan matris ters çevirme formülünü tartışıyor. Formül, düşük dereceli pertürbasyonlara sahip matrislerin tersini bulmada kullanışlıdır ve ters bulma sürecini basitleştirebilir. Konuşmacı, ikinci matrisin formülünü sunarak formülün nasıl çalıştığını gösterir ve cevaba ulaşmak için aynı mantığın nasıl uygulandığını gösterir. Video ayrıca bu formülün pratik uygulamalarını, özellikle en küçük kareler problemlerinde ve Kalman filtresini tartışıyor.

  • 00:00:00 Bu bölümde, profesör düşük dereceli matrisler kavramını ve bunların fonksiyon matrislerindeki önemini tartışıyor. Odak konusu, A'daki düşük dereceli değişimler ve tersi olarak da bilinen, matris ters çevirme formülü adı verilen ünlü bir formül üzerindedir. Formül, bir N'ye n matrisinin tersini, bir UV devriğini kullanarak ve bunu 1 eksi V çarpı U'nun devriğini 1'e bölerek daha basit bir 1'e 1 matris cinsinden bulur. Formül, düşük olan matrislerin tersini bulmakta kullanışlıdır. sıralama pertürbasyonları ve ters bulma sürecini basitleştirmek için kullanılabilir. Profesör bu formülün nasıl çalıştığını ve pratik uygulamalarını açıklıyor.

  • 00:05:00 Bu bölümde, konuşmacı bir matrisi 1. mertebeye göre değiştirmenin, onun tersinin 1. mertebeye göre nasıl değişeceğini tartışıyor. Sunduğu formül, N'ye n'nin tersini 1'e 1 ters cinsinden hesaplar ki bu çok kullanışlıdır. Konuşmacı daha sonra iddia edilen tersi orijinal matrisle çarparak ve bir birim matris elde etmeyi umarak formülün nasıl kontrol edileceğini gösterir. Konuşmacı, ikinci matrisin formülünü sunarak formülün nasıl çalıştığını gösterir ve cevaba ulaşmak için aynı mantığın nasıl uygulandığını gösterir.

  • 00:10:00, A matrisinde düşük sıra değişimi ve tersi için bir formül. Formül, N'ye n matrisinin tersinin alınmasını içerir, ancak birim matrisin daha küçük bir pertürbasyonu olan K'ye K matrisine dönüştürülebilir. Formülün doğru olduğu bir kontrolle gösterilir ve A matrisini bozmak için yararlı olabilir. Bu formülü keşfeden kişilerin adları da listelenir.

  • 00:15:00 Bu bölümde, konuşmacı düşük dereceli bir A matrisinin tersi alınırken meydana gelen değişiklikleri tartışıyor. A'nın tersi alınırken bazı terimlerin alınabileceğini göstermek için cebirsel manipülasyonlar kullanıyorlar. ortadan kaldırılarak basitleştirilmiş bir ifadeye yol açar. Konuşmacı, formülün birim matrisi ürettiğini kontrol ederek ispatlayabilseler de, ilk etapta formülün nasıl türetilebileceğini düşünmenin önemli olduğunu belirtiyor. En küçük kareler yönteminde yeni bir ölçüm veya gözlem ile doğrusal bir sistemi çözmek için formülü kullanmayı önerirler.

  • 00:20:00 Bu bölümde konuşmacı, en küçük kareler problemlerini çözerken yeni ölçümlerle nasıl başa çıkılacağını açıklar. Dikdörtgen bir matris A ile, çözüme bir ölçüm veya veri noktası daha eklemek, yeni bir matris ve çözülecek sağ tarafla sonuçlanır. Bununla birlikte, A^TA matris çarpımını yeniden hesaplamak yerine, konuşmacı matrisin yeni ölçümle nasıl genişletileceğini, transpoze edileceğini ve güncellenmiş çözümü hesaplamak için nasıl kullanılacağını açıklar. Halihazırda hesaplanmış olanı kullanarak, bu, en küçük kareler problemlerinin hesaplama açısından daha verimli çözülmesine izin verir.

  • 00:25:00 Bu bölümde konuşmacı, A devrik A'da 1. sıra değişikliği sağlayan yeni verilerle A'yı ve tersini tartışıyor. Bu kavram en küçük kareler problemlerine uygulanabilir ve Kalman filtresi bir örnektir. Bu yaklaşımı kullanan yinelemeli en küçük kareler yöntemi. Kalman filtresi, bu kavramın pratikte önemli bir uygulaması olan yeni verileri izleyerek ve çözümü güncelleyerek füze ve uyduları yönlendirmede kullanılmaktadır.

  • 00:30:00 Videonun bu bölümünde, konuşmacı A ve onun tersindeki düşük dereceli değişimleri hesaplamak için Sherman-Morrison-Woodbury formülünün nasıl uygulanacağını açıklıyor. Dinamik en küçük kareler için kullanılan Kalman filtresinin dikkate alınan iki ek faktöre sahip olduğundan bahsediyorlar - kovaryans matrisi ve durum denklemi. Kovaryans matrisi, hataların nasıl ilişkilendirildiğiyle ilgilenir ve durum denklemi, uydunun (örnekte) ne kadar hareket etmesi gerektiğini söyler. Kalman filtresi, büyük bir kısmı değiştirmeden değişen ölçümlerle ilgilenen yinelemeli karelerin geliştirilmiş bir versiyonudur.

  • 00:35:00 Bu bölümde konuşmacı, lineer sistemlerin çözümünde düşük dereceli güncelleme formülünün kullanımını tartışır. Formül, çözülmüş bir problemin matrisini birinci sıraya göre bozmayı ve yeni problemi hızlı bir şekilde çözmek için orijinal matrisin tersini kullanmayı içerir. Bu yaklaşım, yeni bir sorunu çözmek için gereken süreyi önemli ölçüde azaltabilir ve özellikle geleneksel eleme yöntemlerinin zaman alıcı olacağı büyük matrisler için kullanışlıdır.

  • 00:40:00 Bu bölümde konuşmacı, farklı problemlerin çözümlerini birleştirerek bir matrisin tersinin nasıl bulunacağını açıklar. A matrisini Lu'ya çarpanlara ayırarak, tüm zor iş sol tarafta yapılır ve farklı sağ taraflara çözüm bulmak için yalnızca geri ikame gerekir. Sherman-Morrison-Woodbury formülünü kullanarak, W ve Z çözümlerini birleştirerek X yanıtına ulaşılabilir. Formül, W çözümünü Sherman-Morrison Woodbury'den gelen bir terimle değiştirir ve paydaki terim, Z çarpı X

  • 00:45:00 Bu bölümde, konuşmacı bir A matrisindeki düşük sıra değişikliklerinin onun tersini nasıl etkileyebileceğini tartışır ve bir K'ye K matrisini değiştirip ters çevirerek bir N'ye N matrisini ters çevirmek için bir formül sağlar. Formül, tersinin bir kopyasını çıkarmayı ve birkaç başka parçayı eklemeyi içerir ve sonuçta orijinal tersine K dereceli bir değişiklikle sonuçlanır. Konuşmacı, bu formülün pratik uygulamalara sahip olduğunu belirtiyor ve izleyicileri ileride başvurmak üzere onu yazmaya teşvik ediyor.

  • 00:50:00 Bu bölümde, konuşmacı K'ye K matrisinin tersini tartışıyor ve önceki saat 50 dakikada işlenen formüllerin bolluğunu kabul ediyor. Bölüm, notların bazı uygulamaları kapsadığını ve düşük dereceli diğer yönleri ele almaya devam edeceğini belirterek sona ermektedir.
14. Low Rank Changes in A and Its Inverse
14. Low Rank Changes in A and Its Inverse
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...