Makine Öğrenimi ve Sinir Ağları - sayfa 41

 

2022/23 Kış Döneminde Tübingen Üniversitesi'nde Makine Öğrenimi Sayısalları. Ders 1 - Giriş -- Philipp Hennig



ML 1 Sayısalları -- Giriş -- Philipp Hennig

Bu videoda Philipp Hennig, makine öğreniminde sayısal algoritmaları anlamanın önemini tartışıyor ve dönem için ders içeriğini tanıtıyor. Kapsanan ilk sayısal algoritma, Gauss Proses Regresyonunda bir uygulama ile Lineer Cebir'dir. Hennig ayrıca makine öğreniminde simülasyon, diferansiyel denklemler, entegrasyon ve optimizasyonun rolünü tartışıyor. Algoritmik omurgalar, gözlemlenebilirler ve olasılıksal sayısal algoritmalar gibi sayısal algoritmalarda yeni gelişmeler sunar. Video boyunca Hennig, karmaşık sorunları çözmek için makine öğreniminde kullanılan klasik algoritmaları güncellemenin önemini vurguluyor ve bu bilgisayar bilimi dersinde kod yazmanın rolünü vurguluyor.

Philipp Hennig, makine öğrenimi algoritmalarının kutunun içinde nasıl çalıştığını ve öğrenim makinelerini geliştirmek için nasıl uyarlanabileceğini veya değiştirilebileceğini keşfetmeyi amaçlayan Makine Öğrenimi Sayısalları konulu kursunu tanıtıyor. Sayısal algoritmalar ve makine öğrenimi algoritmalarındaki son derece teknik bilgi, araştırmacılar ve endüstri profesyonelleri tarafından oldukça rağbet görmektedir. Kurs, ikili sistemde derecelendirilen ödevlerle teori ve kodlama çalışmasından oluşacaktır. Hennig, makine öğreniminde sayısal algoritmaların önemini vurguluyor ve öğrencileri dokuz farklı eğitmenle bu benzersiz öğretim deneyine katılmaya davet ediyor.

  • 00:00:00 Bu bölümde Philipp Hennig, makine öğreniminde sayısal algoritmaları anlamanın önemini tanıtıyor. Makine öğrenimi algoritmaları verileri girdi olarak alıp dünyada tahminde bulunan veya hareket eden modeller üretirken, gerçek öğrenme süreci sayısal hesaplamayı içerir. Klasik AI algoritmalarından farklı olarak, çağdaş makine öğrenimi algoritmaları, bu hesaplamalar için ilkel olarak lineer cebir, simülasyon, entegrasyon ve optimizasyon yöntemleri gibi sayısal algoritmalar kullanır. Philipp, sayısal algoritmaları, her zaman çalışan atomik işlemlerden farklı olarak, kapalı formda bir çözümü olmayan ve yanlış gidebilen matematiksel bir niceliği tahmin eden yöntemler olarak tanımlar. Sayısal algoritmalar makine öğreniminin merkezinde yer aldığından, doğru çalıştıklarından emin olmak için onları anlamak önemlidir.

  • 00:05:00 Bu bölümde, konuşmacı normal işlevler ile sayısal algoritmalar arasındaki farkı tartışıyor ve ikincisinin kendi kitaplıklarına ve aralarından seçim yapabileceğiniz çeşitli alt programlara sahip olma eğiliminde olduğuna dikkat çekiyor. Daha sonra, 1975'te iki matematikçi tarafından icat edilen bir algoritmayı uygulayan, 1993'te Forth dilinde yazılmış bir prototipik sayısal algoritmanın bir örneğini veriyor. Makine öğrenimi mühendisleri sıklıkla sayısal görevlerle karşılaşırlar ve diğer alanlar tarafından geliştirilen bu eski algoritmaları kullanabilirler, ancak eldeki görev yöntemin yetenekleriyle tam olarak uyuşmuyorsa bu sorunlu olabilir. Konuşmacı, mevcut sayısal yöntemlerin yeterli olmadığı sorunları çözmeye çalışırken bunun makine öğreniminde bir sorun haline gelebileceğini öne sürüyor.

  • 00:10:00 Bu bölümde, Philipp Hennig sayısal algoritmalar konusunu ve dönemin ders içeriğini tanıtıyor. Makine öğreniminin temel katmanı olan Doğrusal Cebir, kapsadıkları ilk sayısal algoritmadır. Uygulamasına bir örnek, çıkarım için iki fonksiyonun kullanıldığı Gauss Süreç Regresyonudur: Arka ortalama ve Arka Kovaryans Fonksiyonu. Bu işlevler, çekirdek yöntemleri kullanılarak tanımlanır ve bunların uygulanması, bir matrisin tersini hesaplamak yerine Cholesky ayrıştırma yöntemini içerir. Hennig ayrıca bir Python kod parçacığını tanıtıyor ve bir matrisin tersini hesaplamak yerine neden Cholesky ayrıştırmasının kullanılması gerektiğini açıklıyor.

  • 00:15:00 Videonun bu bölümünde, konuşmacı Philipp Hennig çekirdek makineleriyle ilgili sorunu, özellikle de büyük miktarda veriye iyi ölçeklenememeleriyle ilgili olarak tartışıyor. Çekirdek makineleri için gereken pahalı hesaplamaların, onları çağdaş makine öğreniminde kullanmayı zorlaştırdığını açıklıyor. Bununla birlikte Hennig, veri seti yapısından ve yaklaşımlardan yararlanarak hesaplamaları hızlandırmak için kullanılabilecek ve nihayetinde büyük veri setlerine ölçeklenen gauss süreci regresyonuna sahip Çözümlere yol açabilecek başka doğrusal cebir algoritmaları olduğunu da öne sürüyor.

  • 00:20:00 Bu bölümde, Philipp Hennig simülasyon algoritmalarını ve bunların makine öğrenimindeki rolünü tanıtıyor. Simülasyon yöntemleri, dinamik bir sistemin zaman içindeki yörüngesini simüle eder ve X'i tahmin edebilir. Kendi kendini süren bir araba gibi aracılar oluştururken veya bilimsel gibi fiziksel İçgörüden yararlanan bir makine öğrenimi algoritması oluştururken makine öğreniminde ortaya çıkarlar. makine öğrenme. Schrödinger denklemi gibi diferansiyel denklemler tipik olarak doğa bilgisini kodlamak için kullanılır. Ayrıca Hennig, derin sinir ağlarının ve Gauss süreçlerinin bu sorunu çözmede neden işe yaramadığını açıklamak için Almanya'daki bir buçuk yıldaki COVID-19 vakalarının basit bir tahmin problemine bir örnek sunuyor.

  • 00:25:00 Bu bölümde Philipp Hennig, modelleme sistemlerinde diferansiyel denklemlerin kullanımını, özellikle simülasyonlarda yaygın olarak kullanılan SIR modellerini ve bu modellere kilitlenmeler gibi gerçek dünya dinamiklerini dahil etmenin zorluğunu tartışıyor. Beta katsayısını zamana bağlı hale getirmek için bir sinir ağı kullanmayı önerir, ancak kodda türevlerin olmaması nedeniyle bunu yapmanın zorluğunu not eder. Ancak, Jax'te bu sorunu çözen bir algoritmanın yakın zamanda geliştirildiğini vurguluyor.

  • 00:30:00 Bu bölümde Philipp Hennig, karmaşık sorunları çözmenin güncel bir yolu olan simülasyon tabanlı çıkarım adlı bir algoritmayı tartışıyor. Bu algoritma, f işlevini birden çok kez değerlendiren ve gradyanı döndüren ve bir gradyan iniş adımı gerçekleştiren iç içe geçmiş bir for döngüsü içerir. Hennig, bu ilkel koddan daha esnek ve daha hızlı bir algoritma oluşturmak için, foton kodunun içinde prosedürel bir şekilde bir sayı listesi oluşturan ve bunları uyarlayan kendi yöntemimizi oluşturabileceğimizi açıklıyor. Bu yöntem, algoritmayı bilinmeyen faktörler hakkında bilgilendirmek için olasılık dağılımı ve bilgi operatörleri gibi operatörleri üzerine asabilen bir Markov zinciri omurgasını içerir. Bunu yaparak, zaman alıcı olacak bir dış döngüde tekrar tekrar for döngüsü çağırmadan bu sorunları çözebiliriz.

  • 00:35:00 Bu bölümde Philipp Hennig, makine öğreniminde kullanılan ve 100 yıldan daha eski olan klasik algoritmaları güncellemenin önemini tartışıyor. Farklı bilgi operatörleri üzerinde çalışabilen ve yeni işlevsellik yaratabilen algoritmik dikenler fikrini ortaya koyuyor. Hennig daha sonra hasta çıkarımının temel bir işlemi olan makine öğreniminde entegrasyonun rolünü tartışmaya devam ediyor. Olasılığa dayalı makine öğrenimi için temel işlem, ortak bir dağılım alarak ve entegrasyonu içeren bir marjinal ile bölerek sonsal bir dağılımı hesaplamaktır. Son olarak Hennig, kayıp fonksiyonlarını en aza indiren bilgi işlem değerlerini içeren, makine öğrenimindeki temel işlem olan optimizasyonun önemini tartışıyor. Bu algoritmalar, fonksiyonun gradyanının otomatik olarak hesaplanabildiği türevlenebilir programların temelini oluşturur.

  • 00:40:00 Bu bölümde, Philipp Hennig optimizasyon algoritmalarını ve bunların makine öğrenimindeki önemini tartışıyor. BFGS ve minimize gibi klasik yöntemler scipy.optimize'de depolanırken, SGD ve Adam gibi yeni yöntemler artık makine öğreniminde norm haline geldi. Bununla birlikte, bu yöntemler, minimuma yaklaşabilen ve farklılaştırılabilir herhangi bir sorun üzerinde çalışabilen eski yöntemlerin aksine, genellikle bir öğrenme oranı ve çok sayıda denetim gerektirir. Milyonlarca veri noktasına sahip büyük veri kümelerindeki bu yeni yöntemlerin sınırlamalarıyla başa çıkmak için, ilgilendiğimiz şeyin yansız bir tahmincisi olan çok daha küçük bir toplamı hesaplamak için toplu gradyan iniş kullanılır. daha verimli ve etkili olsalar da, eski algoritmalarla aynı prensiplere dayalıdırlar ve bu da bazı uygulamalarda sorunlara neden olabilir.

  • 00:45:00 Videonun bu bölümünde, konuşmacı derin öğrenme algoritmalarında gradyana ek olarak varyans hesaplama olasılığını tartışıyor. Varyans hesaplamasının optimizasyon sürecinden çıkarılmasının, optimizasyonun iyi genelleme yapan noktaları bulmak için rastgele değişkenleri kullanma sorunu yerine hala bir gradyan hesaplama sorunu olarak görülmesinden kaynaklandığını savunuyor. Bununla birlikte, derin sinir ağları için daha iyi eğitim kurulumları oluşturmanın gerekli olduğuna dikkat çekerek, hesaplamalarda rastgelelikten kaynaklanan belirsizliği dahil etmenin önemini vurguluyor. Bu konuyu daha derine inecek gelecek derslerden bahsederek sözlerini bitiriyor.

  • 00:50:00 Bu bölümde Philipp Hennig, derin sinir ağlarına belirsizlik gibi yeni işlevler eklemek veya onları pahalı Markov zinciri Monte Carlo algoritmalarını kullanmadan Bayes derin sinir ağına dönüştürmek için gözlemlenebilirlerin kullanımını tartışıyor. Ayrıca, makine öğrenimi algoritmalarını eğitmek için kullanılan sayısal algoritmaların, izlenebilir, gözlemlenebilir verileri gözlemlerken bilinmeyen bir miktarı veya gizli değişkeni tahmin ettikleri için aslında makine öğrenimi algoritmaları olduklarını açıklıyor. Bu, bir hesaplamadan gözlemlenen sonuçlara dayalı olarak gizli bir miktarın tahmin edildiği çıkarım sürecine benzer.

  • 00:55:00 Bu bölümde Philipp Hennig, öğrenen makineler olarak sayısal algoritmalar kavramını tanıtıyor ve olasılıksal sayısal algoritmalar olarak sıfırdan sayısal algoritmalar oluşturmanın ardındaki fikri tartışıyor. Bunlar, görevlerini tanımlayan bir olasılık dağılımı alan ve sayısal görevin çözümünün ne olduğuna ilişkin tahminlerini iyileştirmek için bir veri kaynağı olarak CPU veya GPU'yu kullanan algoritmalardır. Hennig, sınıfın tipik bir sayısal analiz dersi olmadığını vurguluyor, çünkü odak noktası makinelerin içindekileri öğrenen makineler olarak anlamak ve makine öğrenimi dilinde yeni algoritmalar oluşturmak. Öğrenciler bu bilgisayar bilimi dersinde çok fazla kod yazmayı bekleyebilirler.

  • 01:00:00 Bu bölümde Philipp Hennig, dünyada türünün ilk özel kursu olduğunu iddia ettiği Makine Öğreniminin Sayısalları kursunu tanıtıyor. Kurs, makine öğrenimi algoritmalarının işleyişini, özellikle bunların kutunun içinde nasıl işlediğini ve öğrenen makineleri geliştirmek için nasıl değiştirilebileceğini veya uyarlanabileceğini incelemeyi amaçlamaktadır. Sayısal algoritmaların ve makine öğrenimi algoritmalarının son derece teknik doğası, bu alandaki bilginin hem araştırmacılar hem de endüstri profesyonelleri tarafından çok arandığı anlamına gelir. Dersler, bu algoritmaların iç işleyişini araştırmak ve düşünmek için yıllarını harcayan ve bu nedenle daha ince teknik detayları tartışmak için bir profesörden daha donanımlı olan, son derece deneyimli doktora öğrencilerinden oluşan ekibi tarafından verilecek.

  • 01:05:00 Bu bölümde, Philipp Hennig kursun yapısını ve kurs gerekliliklerini tartışıyor. Öğrencilerden Python veya Julia kodunu kullanarak sayısal problemleri çözmeleri bekleneceğinden, kurs hem teorik hem de kodlama çalışmalarını içerecektir. Alıştırmalar, ikili olarak derecelendirilen çözümlerle bir PDF olarak sunulacaktır - iyi bir çözüm için bir onay işareti ve tatmin edici olmayan bir çözüm için bir çarpı işareti verilecektir. Öğrenciler, final sınavı sonucuna sayılacak olan her bir onay işareti için bir bonus puan alacaklardır. Sınav gelecek yıl 13 Şubat'ta veya 31 Mart'ta yapılacak ve sıfırlama mümkün olmayabileceğinden ilk sınavı geçmek teşvik ediliyor. Son olarak, makine öğrenimi veya veri merkezli hesaplamada sayısal algoritmalarda daha yüksek bir derece elde etmekle ilgilenen öğrenciler, çeşitli alanlarda uygulamalı araştırma için geniş fırsatlar sunduğu için bu kursu almaya teşvik edilir.

  • 01:10:00 Bu bölümde Philipp Hennig, öğrenen makineyi çalıştıran motorlar olduklarını belirterek, makine öğrenimindeki sayısal algoritmaların önemini vurguluyor. Bu algoritmaları ve Bayesci çıkarım dilini anlamanın nasıl daha hızlı, daha güvenilir ve kullanımı kolay makine öğrenimi çözümlerine yol açabileceğini açıklıyor. Hennig, klasik sayısal algoritmalar önemli olmakla birlikte, simülasyon ve derin öğrenmeyi daha bütünsel bir şekilde entegre etmenin bir yolu olarak öğrenen makinelerin bakış açısını benimseyerek, makine öğrenimi merceğinden bakılması gerektiğini vurguluyor. Öğrencileri, dokuz farklı eğitmenden oluşan benzersiz bir kurulumla makine öğrenimini öğretmeye yönelik bu heyecan verici deneye katılmaya davet ediyor.
Numerics of ML 1 -- Introduction -- Philipp Hennig
Numerics of ML 1 -- Introduction -- Philipp Hennig
  • 2023.01.16
  • www.youtube.com
The first lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

Ders 2 -- Sayısal Doğrusal Cebir -- Marvin Pförtner



ML'nin Sayısalları 2 -- Sayısal Doğrusal Cebir -- Marvin Pförtner

Sayısal doğrusal cebir, makine öğrenimi, Gauss süreçleri ve diğer parametrik olmayan regresyon yöntemleri için temeldir. Ders, daha verimli çarpma için bir matrisin yapısını anlamanın önemi, hiperparametre seçim problemlerini çözerek ve çekirdek matrislerini hesaplayarak makine öğrenimi algoritmalarının optimizasyonu ve kullanarak doğrusal bir sistemin çözümü dahil olmak üzere sayısal doğrusal cebirin çeşitli yönlerini kapsar. LU ayrıştırması, diğerleri arasında. Matematiksel işlemler için kullanılan algoritmanın performans, kararlılık ve bellek tüketimi üzerinde önemli bir etkisi olduğundan, ders ayrıca algoritmaları düzgün bir şekilde uygulamanın önemini vurgular.

Videonun ikinci bölümünde Marvin Pförtner, makine öğrenimi algoritmalarında sayısal lineer cebirin önemini tartışıyor. LU ayrışımı, Cholesky ayrışımı, matris ters çevirme lemması ve Gauss süreç regresyonu gibi çeşitli konuları kapsar. Pförtner, algoritmaları daha verimli hale getirmek için yapı kullanmanın önemini vurgular ve Gauss süreç regresyonunda büyük denklem sistemlerini çözmede sayısal kararlılığın önemini vurgular. Ayrıca aktif öğrenme ve büyük veri kümelerini işlemek için düşük dereceli yaklaşımlar gibi teknikleri ve çekirdek matrislerinin potansiyel bellek sınırlamalarını tartışıyor. Genel olarak video, sayısal lineer cebirin makine öğreniminin birçok yönünde oynadığı önemli rolü gösteriyor.

  • 00:00:00 Bu bölümde, bir doktora öğrencisi makine öğrenimi ve Gauss süreçlerinde sayısal lineer cebirin önemini tartışıyor. Sayısal doğrusal cebir, makine öğrenimi için temeldir ve algoritmaları uygulamak için gereken bir dizi araçtır. Ders, makine öğrenimi için önemli olan sayısal doğrusal cebirdeki temel görevleri, sayısal doğrusal cebir algoritmalarını hızlı ve güvenilir hale getirmek için yapıyı keşfetmeyi ve Gauss süreç regresyonunu düzgün bir şekilde uygulamayı kapsar. Ders ayrıca, temel olasılık teorisi, genel doğrusal modeller, temel bileşen analizi ve boyutluluk indirgemesi yapan matris-vektör ürünleri gibi sayısal doğrusal cebir uygulamalarından örnekler verir.

  • 00:05:00 Bu bölümde, konuşmacı sayısal lineer cebiri makine öğrenimi bağlamında tartışıyor. Makine öğreniminde parametrik olmayan bir regresyon yöntemi olan Gauss süreçlerinin, simetrik ve pozitif tanımlı bir çekirdek Gram matrisi oluşturan bir Gauss süreci olan önceki bir olasılık ölçüsüne nasıl dayandığını açıklıyor. Bu matristeki üretken bilgi, verimli ve güvenilir algoritmalara izin verir. Konuşmacı ayrıca benzer denklemlerin, çekirdek yöntemleri ve Ridge regresyonu da dahil olmak üzere daha geniş bir model sınıfına nasıl uygulandığından bahseder. Ayrıca, doğrusal kısmi diferansiyel denklemleri çözmek için sayısal doğrusal cebirin nasıl kullanıldığını ve kayıp fonksiyonlarının yerel optimizasyonu için optimizasyon yöntemlerinde kısaca tartışır.

  • 00:10:00 Bu bölümde, konuşmacı lineer cebirin makine öğrenimindeki önemini tartışıyor ve bu önemi göstermek için örnekler veriyor. Matris Vektör Çarpımı, doğrusal sistem çözümleri ve matris ayrışımı gibi doğrusal cebir işlemleri, birçok makine öğrenimi modelinin temelidir. Ayrıca, birçok makine öğrenimi modelinin, doğrusal sistemleri çözmeyi amaçladıkları matrisin gürültülü bir tahminini kullandıkları için aslında gürültülü olduğunu belirtiyor. Son olarak, Gauss yoğunluğu durumunda ve GP regresyonunda maksimum arka tahminler elde etmek için logaritmik belirleyicilerin gerekli olduğunu vurgular.

  • 00:15:00 Bu bölümde konuşmacı, sayısal doğrusal cebir ve makine öğreniminde verimli Matris Vektör çarpımının önemini vurgular. Matematiksel ifade düzgün bir şekilde bir algoritmaya dönüştürülmezse, basit görevlerin bile hesaplama açısından nasıl imkansız hale gelebileceğine dair bir örnek veriyorlar. Konuşmacı ayrıca daha verimli çarpma için Matrix'teki yapıyı belirlemenin önemini vurguluyor. Matematiksel bir işlemi uygulayan algoritmanın performans, kararlılık ve bellek tüketimi üzerinde önemli bir etkisi olduğunu belirterek sonuca varırlar.

  • 00:20:00 Bu bölümde konuşmacı, makine öğrenimi algoritmalarını optimize etmek için bir matrisin yapısını anlamanın önemini vurguluyor. Bir matris içinde daha düşük dereceli bir yapı olduğunu biliyorsanız, o zaman tüm matrisi çarpmak yerine onu çarpanlarına ayırmak için alt matrislere özel yöntemler kullanmanız gerektiğini açıklıyor. Düşürmenin sadece bir yapı türü olduğunu ve sıfır olmayan girişlere ve regresörün giriş boyutlarına da bağlı olan seyrek matrisler ve çekirdek matrisleri gibi çeşitli matris yapıları olduğunu açıklıyor. Konuşmacı ayrıca bellek tasarrufu elde etmek için çekirdek matrislerinin nasıl saklanacağına da değiniyor.

  • 00:25:00 Bu bölümde konuşmacı, Gauss süreçleri için çekirdek matrislerinin verimli bir şekilde nasıl saklanacağını ve değerlendirileceğini tartışıyor. Veri noktaları belirli bir sınırı aşarsa, bellek sorunları nedeniyle bunları depolamaya yönelik saf yaklaşım artık mümkün değildir. Yüzbinlerce veri noktası kullanan bir dizüstü bilgisayarda Gauss süreçlerini hesaplamak için çok verimli CUDA çekirdekleri yazan ve GPU'ları kullanan kitaplıklar mevcuttur. Konuşmacı aynı zamanda, aynı zaman ve alan gereksinimleri gerektiren otomatik fark grafikleri gibi genel bir fonksiyonel forma sahip matrislerden de bahseder. Son olarak konuşmacı, Gauss ölçüsünün çekirdeğinin bilinmeyen fonksiyonun kovaryansı olduğu Bayes regresyonunu Gauss süreçlerine uygulamak için somut bir algoritmayı derinlemesine araştırır. Konuşmacı, gözlemlenen veriler ve belirsizlik ölçümünün nasıl iyi çalıştığı ile bağlantılı olarak fonksiyon üzerindeki sonsal ölçümün bir grafiğini sunar. Bununla birlikte, sorun, oldukça engelleyici bir şekilde ölçeklenen ve n veri noktasından bir çekirdek gram matrisi hesaplamaya yönelik saf yaklaşımı büyük n için uygulanamaz hale getiren tersi hesaplanırken ortaya çıkar.

  • 00:30:00 Bu bölümde konuşmacı, aşırı derecede pahalı olabilen Gauss süreçlerinde çekirdek matrislerini hesaplamanın sayısal karmaşıklığını tartışıyor. Ek olarak, gözlemlenen veri setini açıklamadan öncesini optimize etmek için çıktı ölçeği ve uzunluk ölçeği gibi çekirdek için ayarlanması gereken hiperparametreler vardır. Konuşmacı, log marjinal olasılığı hesaplayarak ve model uyumu ile Gauss dağılımının normalleştirme faktörü tarafından temsil edilen karmaşıklık arasındaki bir değiş tokuştan oluşan bir kayıp fonksiyonunu en aza indirerek bu model seçim problemini çözmek için Bayesci bir yaklaşımı açıklar. Konuşmacı ciddi yetersiz uyum ve fazla uyum örneklerini gösteriyor ve en iyi model performansını elde etmek için bu iki terim arasındaki dengenin nasıl bulunabileceğini açıklıyor.

  • 00:35:00 Bu bölümde, Marvin Pförtner doğrusal bir sistemin çözümünü tartışıyor. Çözüm, M artı bir çözüm gerektirir; burada M, regresörümüzü değerlendirmek istediğimiz veri noktalarının sayısıdır. Sistem simetriktir ve en genel durumda pozitif tanımlıdır, ancak sistem tipik olarak çok büyük olduğundan yararlanılacak ek yapılar olabilir ve genellikle bunu çok büyük veri kümeleri için çözemeyiz. Çok önemli bir matris ayrıştırması, Lu ayrıştırmasıdır. Daha düşük bir üçgen sistemi çözmek için kullanılan algoritma, matrisi dört parçaya ayıran ileri ikamedir: sağ alt köşede skaler, üstündeki sütun sıfır, solda bir satır vektörü ve L eksi li adı verilen başka bir üçgen kısım. eksi bir yukarıda, bu da daha düşük üçgen.

  • 00:40:00 Bu bölümde, Marvin Pförtner, sistem matrisinin n eksi bir boyutunda alt üçgen olduğu sistemlerin nasıl çözüleceğini tartışıyor. Son satırı bölerek, sistem basit bir algoritma kullanılarak çözülebilir. Özyinelemeli yöntemler daha sonra herhangi bir boyut için bir sistemi çözmek için kullanılır. Pförtner ayrıca, böl ve fethet tekniklerini kullanan özyinelemeli bir tanım olan Lu ayrışımı adını verdiği şeyi kullanarak matrisin alt ve üst üçgen parçalara nasıl bölüneceğini açıklıyor. Bu teknik, matrisleri tersine çevirmek ve doğrusal sistemlerin çözümünü O(N^3) yerine O(N^2) olmak üzere daha ucuz hale getirmek için kullanışlıdır.

  • 00:45:00 Bu bölümde lineer denklem sistemlerini çözmek için Lu ayrışımı yöntemi açıklanmaktadır. Bu yöntem, bir matrisi bir alt üçgen matrise ve bir üst üçgen matrise ayrıştırarak lineer sistemlerde çözümlerin daha hızlı hesaplanmasını sağlar. İşlem, alt üçgen matrisin sol kısmının köşegen girişlerini bire ayarlamayı ve stabilite ve sağlamlığı sağlamak için kısmi döndürmeyi kullanmayı içerir. Yöntemin verimliliğine rağmen, O(n^3) olan hesaplama maliyeti dikkate alınmalıdır.

  • 00:50:00 Bu bölümde Marvin Pförtner, UD ayrışımının hesaplama süresini tartışıyor ve yerinde nasıl uygulanacağını gösteriyor. Her yineleme adımının en büyük kısmının, dış çarpımın ve iki çarpı (n-1) kare üzerinden bir toplamla sonuçlanan çıkarma işleminin hesaplanması olduğunu açıklıyor. Gauss yok etme olarak bilinen bir strateji kullanan algoritma, üst üçgen matrisi verimli bir şekilde hesaplar. Pförtner, küçük bir matrisle örnek bir hesaplamanın nasıl gerçekleştirileceğini göstererek, L'nin önemsiz olmayan kısmının köşegenin altındaki üç girişte yer aldığını ve üst üçgen kısmın U'nun sıfır olmayan kısımlarını içereceğini gösteriyor. bellekte, Pförtner L ve U'yu aynı matriste akıllıca depolayan bir uygulama sunuyor.

  • 00:55:00 Bu bölümde konuşmacı, sayısal lineer cebirde LU ayrışımı sürecini açıklar. Algoritmanın adım adım nasıl hesaplanacağını ve doğrusal sistemleri çözmek için nasıl kullanılacağını gösteriyor. Bir matrisin LU ayrışımına sahip olduğumuzda, bunu, bir kez ileri ve geri ikame için yalnızca 2N kareye mal olan, birden çok sağ tarafı olan birden çok doğrusal sistemi verimli bir şekilde çözmek için uygulayabiliriz. Bir permütasyon matrisinin tersi, hesaplaması ucuz olan devriktir ve Gauss süreç regresyonunda aynı sistem matrisiyle K çözmeyi mümkün kılar.

  • 01:00:00 Bu bölümde konuşmacı, hesaplama açısından verimli olan bir LU ayrışımı kullanarak aynı matrise sahip birden çok doğrusal sistemin nasıl verimli bir şekilde çözüleceğini tartışıyor. Ek olarak, log determinantını bir LU ayrışımıyla hesaplamak için bir yöntem sunulur; bu, lineer bir sistemin verimli bir şekilde temsil edilmesini ve bununla çeşitli lineer cebir görevlerinin gerçekleştirilmesini sağlar. Konuşmacı, algoritmaları daha verimli hale getirmek için yapı kullanmanın önemini vurguluyor ve Cholesky ayrıştırmasının, çekirdek gram matrisinin simetrik ve pozitif-belirli doğasından yararlanan LU ayrıştırmasının özel bir versiyonu olduğuna dikkat çekiyor.

  • 01:05:00 Bu bölümde konuşmacı, Gauss süreçlerinde sonsal ortalama ve kovaryansın hesaplanmasını tartışıyor. Arka ortalamayı elde etmek için, bir sistemi ileri ikame ile ve diğerini geriye doğru ikame ile çözmeniz gerekir. Konuşmacı, kovaryans matrisinin cholesky faktörlerinin yapısıyla, matrise iyi bir alçaltma yaklaşımı elde edilebileceğini belirtiyor. Ayrıca, potansiyel olarak büyük çekirdek matrisini belleğe sığdıramama sorunundan bahsediyor ve bu sorunu çözmek için iki yaklaşım sunuyor; kullanılan çekirdeklerdeki yapıyı kullanma veya seyrek yaklaşımlar kullanma.

  • 01:10:00 Bu bölümde konuşmacı, makine öğrenimi algoritmalarında matrislerin verimli bir şekilde nasıl ters çevrileceğini tartışıyor. Örnek olarak sinüzoidal bir fonksiyondan üretilmiş bir veri setini kullanır ve veri setinin üretken yapısını bilerek kişinin bu bilgiyi yansıtan ve hesaplama açısından verimli olan çekirdekleri seçebileceğini gösterir. Matris Tersine Çevirme Lemması, matrisleri az sayıda alt uzayla bozarak verimli bir şekilde ters çevirmek için kullanılabilen bir araçtır. Bu önermeyi kullanarak, ifadeler çok verimli bir şekilde hesaplanabilir ve hatta tüm matrisin bellekte oluşturulmasına gerek yoktur. Konuşmacı, makine öğrenimi algoritmalarında yapı kullanımına yönelik birçok farklı yaklaşımın olduğunu vurguluyor.

  • 01:15:00 Bu bölümde öğretim görevlisi, Gauss çıkarımlarında kullanılan sayısal lineer cebir yöntemlerini ve makine öğrenimindeki hiperparametre optimizasyonunu tartışır. GP (Gauss süreci) regresyonunu büyük veri kümelerine ölçeklendirmenin bir yöntemi, çekirdek matrisinde temsil edilen sistem matrisine düşük dereceli yaklaşımların yinelemeli inşasını içeren yaklaşık ters çevirmedir. Öğretim görevlisi, örnek olarak Cholesky algoritmasını kullanarak bu yöntemi gösterir ve matrisin düşük dereceli yaklaşıklayıcısının, tüm Cholesky çarpanlarına ayırmayı hesaplamadan anında nasıl elde edilebileceğini gösterir. Yaklaşımın kalitesi, çekirdek matrisine ve veri noktalarının işlenme sırasına bağlıdır. Genel olarak bu bölüm, makine öğreniminin çeşitli yönlerinde sayısal doğrusal cebirin önemini vurgulamaktadır.

  • 01:20:00 Bu bölümde, Marvin Pförtner, çekirdek Matrisine yaklaşmak için Cholesky'nin bunlarla ilgilendiği veri noktalarının sırasının nasıl seçileceğini tartışıyor. Tam pivotlama veya pivotlu Cholesky ayrışımı olarak da bilinen permütasyon Matrix ile gram Matrix'in önceden çarpılmasının, daha az yinelemeyle daha düşük bir yaklaşıma yol açabileceğini açıklıyor. Fikir, Todeschini'nin bir yinelemesinden sonra veri noktaları için öngörücüyü gözlemlemek ve ardından toplanan bilgileri bir sonraki yinelemede gözlemlenecek veri noktasını seçmek için kullanmaktır. Bu teknik, aktif bir öğrenme problemi olarak kabul edilir ve satırları ve sütunları aynı anda işlemek için akıllı bir yol sağlayabilir ve böylece Matrix'in üretken yapısını çevrimiçi bir tarzda keşfedebilir.

  • 01:25:00 Bu bölümde, konuşmacı tekil değer ayrışmasını (SVD) ve bir matris yaklaşımı için en iyi faktörleri elde etmek üzere bir optimizasyon problemini nasıl çözdüğünü tartışıyor. Bununla birlikte, bir SVD'yi kısaltmak keyfi olarak kötü olabilir, bu nedenle SVD'ye yaklaşmak ve bir öz ayrıştırmayı hesaplamak için buluşsal bir yaklaşım kullanılır. Cholesky ayrışımı yoluyla elde edilebilecek bir matris kareköküne de ihtiyaç vardır. Uygulamada sayısal doğrusal cebir algoritmalarını uygularken yapıyı hesaba katmak önemlidir, çünkü bu süreci önemli ölçüde hızlandırabilir.

  • 01:30:00 Bu bölümde Marvin Pförtner, sayısal lineer cebirin yapısının Gauss süreç regresyonunu nasıl etkilediğini tartışıyor. Gauss süreci regresyonu hesaplama açısından yoğundur ve sayısal lineer cebir teknikleri kullanılarak yapılabilen büyük denklem sistemlerinin çözülmesini gerektirir. Konuşmacı, nihai sonuçlarda doğruluğu kaybetmemek için bu denklem sistemlerini çözmede sayısal kararlılığın önemini vurgular.
Numerics of ML 2 -- Numerical Linear Algebra -- Marvin Pförtner
Numerics of ML 2 -- Numerical Linear Algebra -- Marvin Pförtner
  • 2023.01.16
  • www.youtube.com
The second lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both...
 

Ders 3 -- Gauss Süreçlerini Ölçeklendirme -- Jonathan Wenger



ML 3 Sayısalları -- Gauss Süreçlerini Ölçeklendirme -- Jonathan Wenger

Jonathan Wenger, "Numerics of ML 3" videosunda büyük veri kümeleri için Gauss süreçlerini ölçeklendirme tekniklerini tartışıyor. Temel hedefi genelleme, basitlik/yorumlanabilirlik, belirsizlik tahminleri ve hız elde etmek olan lineer sistemleri çözmek ve matris tersini öğrenmek için yinelemeli yöntemleri araştırıyor. Wenger, yinelemeli Cholesky ayrışımı, kısmi Cholesky ve eşlenik gradyan yöntemleri gibi çekirdek matrisine düşük dereceli yaklaşımlar getirir. Ayrıca, büyük veri kümeleriyle uğraşırken yakınsamayı hızlandırmak ve kararlılığı geliştirmek için önkoşullamayı tartışıyor. Son olarak, bir matrisin izini yeniden yazmak için ortogonal bir Z matrisi kullanmayı önerir; bu, potansiyel olarak Gauss süreçlerini ölçeklendirmek için ikinci dereceden zamana yol açabilir.

Dersin ikinci bölümünde Jonathan Wenger, bu videodaki büyük veri kümeleri için Gauss Süreçlerini (GP) ölçeklendirmeyi tartışıyor. GP regresyonu için Monte Carlo tahminlerinin yakınsama oranını iyileştirmek için, çekirdek matrisini ve bunun tersini tahmin etmek için doğrusal sistem çözümü için mevcut önkoşullayıcıları kullanmak da dahil olmak üzere çeşitli stratejiler sunar. Ayrıca değişken yaklaşım yoluyla doğrusal zaman GP fikrini ve indükleme noktası yöntemini kullanarak belirsizliğin ölçülmesini ele alıyor. Bu stratejileri kullanarak, GPU ile bir milyona kadar veri noktasına sahip veri kümelerine ölçek büyütme mümkündür, bu da hiperparametrelerin hızlı bir şekilde optimize edilmesini kolaylaştırır.

  • 00:00:00 Videonun bu bölümünde Jonathan Wenger, doğrusal sistemleri çözmek için yinelemeli yöntemler kullanarak büyük veri kümeleri için Gauss süreçlerinin nasıl ölçeklendirileceğini tartışıyor. Bu yöntemlerin, GP posteriorunu hesaplamak için gereken birincil nesne olan matris tersi için öğrenme algoritmaları olarak görülebileceğini açıklıyor. Wenger ayrıca genelleme, basitlik/yorumlanabilirlik, belirsizlik tahminleri ve hız dahil olmak üzere regresyon için ana hedeflerin ana hatlarını çiziyor. GP'lerin tüm bu hedeflere ulaşabilen modellerin başlıca örnekleri olduğunu, ancak eğitilmesinin ve çıkarım yapmanın pahalı olduğunu belirtiyor. Bununla birlikte, lineer sistemleri çekirdek matrislerle çözmek için modern yöntemler geliştirilerek, GPS için ikinci dereceden zaman çıkarımı, kübik zamandan daha hızlı yapılabilir. Wenger ayrıca bunu doğrusal zamanda daha da hızlı yapmanın bir yolu olduğunu ima ediyor, ancak bir sonraki derste daha ayrıntılı tartışacağı bazı dezavantajlar olabileceğini kabul ediyor.

  • 00:05:00 Bu bölümde konuşmacı, zaman ve mekan karmaşıklığı açısından engelleyici hale geldiğinden, büyük veri kümeleriyle uğraşırken Gauss Süreçleri için Scholesky ayrıştırmasının sınırlamalarını tartışıyor. Cholesky'nin çekirdek Matrisinin düşük dereceli yaklaşımı için nasıl yinelemeli kullanıldığını göstererek, karmaşıklığı veri noktalarının sayısında kareye indirgemek için yinelemeli yöntemler önerir. Bununla birlikte, GP regresyonu, çekirdek Matrisinin veya Kesinlik Matrisinin tersinin bir yaklaşımını gerektirdiğinden, sorun çekirdek Matrisinin kendisine yaklaşmak değildir, bu nedenle soru, Cholesky'nin yinelemeli formülasyonunun Kesinliğe bir yaklaşım olarak yorumlanıp yorumlanamayacağıdır. Doğrusal çözümler için matris.

  • 00:10:00 Bu bölümde konuşmacı, çekirdek matrislerine düşük dereceli yaklaşımlar için kullanılabilen Cholesky ayrıştırmasının yinelemeli bir biçimini keşfediyor. Ek miktarları takip ederek, Cholesky'ye benzer şekilde yine düşük dereceli olan matrise ters bir yaklaşım elde etmek mümkündür. Konuşmacı, Cholesky çarpanları ve kalıntı açısından bu ters yaklaşımın özyinelemeli olarak nasıl hesaplanacağını gösterir. Bu yinelemeli yöntem, çekirdek matrisleri gibi pozitif tanımlı matrisler için yaklaşık bir matris ters çevirme algoritması olarak kullanılabilir ve Gauss süreçlerini ölçeklendirmek için yararlı bir araçtır.

  • 00:15:00 Bu bölümde konuşmacı, Gauss süreçlerini ölçeklendirmek için kısmi Cholesky yönteminin kullanımını tartışıyor. Yöntem, Cholesky ayrıştırmasını bir faktörle değiştirmeyi ve onu bir vektörle çarpmayı içerir. Bu, vektörlerin dış çarpımlarını ekleyerek ters bir yaklaşım üreten yinelemeli bir süreçle sonuçlanır. Karmaşıklık analizi, matrisin kendisine yaklaşmanın eşit derecede pahalı olduğunu göstermektedir. Konuşmacı ayrıca kısmi Cholesky yöntemini GP regresyonu ile karşılaştırır ve öğrenme sürecini iyileştirmek için doğru veri noktalarını veya birim vektörleri seçmenin önemini vurgular.

  • 00:20:00 Bu bölümde Jonathan Wenger, Gauss Süreçleri (GP) için çekirdek matrisine yaklaşırken doğru veri noktalarını seçmenin önemini tartışıyor. Rastgele bir veri noktası seçiminin nasıl daha yavaş bir öğrenme süreciyle sonuçlanabileceğini gösteriyor. Başlangıçta GP regresyonunda doğrusal sistemleri çözmek için tasarlanmış olan "eşlenik gradyanlar yöntemini" tanıtıyor. Bu yöntem, a'nın bir çekirdek matrisi olduğu ve B'nin n boyutunda bir vektör olduğu ax=B problemini ikinci dereceden bir optimizasyon problemi olarak yeniden ifade eder ve bu, ax=B doğrusal sistemini çözmeye eşdeğerdir. İkinci dereceden fonksiyonun gradyanını alıp sıfıra ayarlayarak, ax sütunu B'ye eşittir ve artık, B eksi ax olarak tanımlanabilir; bu, hızlanacak veri noktalarını seçmenin daha iyi ve daha verimli bir yolunu bulmak için kullanılabilir öğrenme sürecini yükseltin.

  • 00:25:00 Bu bölümde Jonathan Wenger, Gauss Süreçlerinde optimizasyon için eşlenik yönlerin kullanımını tartışıyor. Yürüdüğümüz yönü değiştirerek eşlenik yönleri kullanırken en fazla n adımda yakınsayabileceğimizi açıklıyor. Başlamak için, en dik iniş yönündeki ilk adım olarak negatif gradyanı kullanır ve eşlenik koşulunu sağlamak için adımları değiştirir. Algoritmayı sunar ve gradyan normuna dayalı durdurma kriteri de dahil olmak üzere üst düzey kısımlarını açıklar.

  • 00:30:00 Bu bölümde, Jonathan Wenger, arka kovaryans için çoklu lineer sistemleri çözerken tersine yaklaşmak için bir yöntem olan eşlenik gradyanlar yöntemini tartışıyor. Eşlenik gradyanlar yöntemi, kısmi Swarovski ile aynı şekilde düşük dereceli olan tersi için bir yaklaşım oluşturur. Çözüm tahmini için güncelleme, eşlenik bir yön di içerir ve matris CI, sütunlar halinde yığılmış önceki tüm arama yönlerinin formuyla tersine yaklaşır. Bu yöntem, senaryo sisteminin hızlı bir şekilde çözülmesini sağlar ve düşük dereceli yapısı, onu gauss süreçlerini ölçeklendirmek için verimli bir yöntem haline getirir.

  • 00:35:00 Bu bölümde, konuşmacı kısmi Skolastik yöntemi Gauss süreci çıkarımı için eşlenik gradyan yöntemiyle karşılaştırır. Eşlenik gradyan yöntemi çok daha hızlı birleşir ve konuşmacı, eşlenik gradyan yönteminde kullanılan "eylemlerin" matrisi farklı bir şekilde inceleyerek daha iyi yakınsama sağladığını açıklar. Bununla birlikte, konuşmacı, yöntemin ne kadar hızlı yakınsadığını analiz etmenin önemli olduğunu, bunun da nümeriklerin, özellikle makine kesinliğinin ve koşul sayısının anlaşılmasını gerektirdiğini belirtiyor. Koşul numarası, mutlak terimlerle minimum özdeğere bölünen maksimum özdeğerdir ve tersine çevirme algoritmalarını uygularken kaçınılmaz hata büyütmesini ölçer.

  • 00:40:00 Bu bölümde Jonathan Wenger, eşlenik gradyan yöntemi veya Cholesky ayrışımı gibi çekirdek matrisli doğrusal sistemleri çözmek için yöntemlerin kararlılığını ve yakınsama davranışını tartışıyor. Kararlılık, matrisin özdeğerlerine bağlı olan koşul sayısı tarafından belirlenir ve koşul sayısı ne kadar büyükse, yöntem o kadar kararsızdır. Yakınsama davranışı, matrisin koşul sayısı ve en büyüğün en küçük özdeğere bölünmesiyle belirlenir. Koşul sayısı bire ne kadar yakınsa, yakınsama o kadar yavaş olur. Bin veri noktasına sahip çekirdek matrisinin orta derecede büyük koşul sayısına rağmen Wenger, eşlenik gradyan yönteminin problem boyutuna göre birkaç yüz yinelemede hala hızlı bir şekilde yakınsadığını gösteriyor.

  • 00:45:00 Bu bölümde Jonathan Wenger, Gauss süreçlerini ölçeklendirmeyi ve gözlem gürültüsünün yakınsama üzerindeki etkisini tartışıyor. Gözlem gürültüsü azaldıkça, çekirdek matrisinin koşul sayısının patlaması nedeniyle CG'nin yakınsaması yavaşlar. Koşul numarası, en büyük özdeğerin en küçük özdeğere bölümüdür ve veri noktaları birbirine yaklaştıkça koşul numarası artar. Bu sorunu çözmek için, matrisin saklanmasının gerçek matrisin saklanmasına göre oldukça ucuz olduğu varsayılarak, çekirdek matrisine yaklaşmak için önkoşullama kullanılabilir. Yaklaşımın tersini verimli bir şekilde değerlendirerek önkoşullayıcı, orijinal sorunu çözmesi daha kolay bir sorunla değiştirebilir ve bu da CG'nin daha hızlı yakınsamasına neden olur.

  • 00:50:00 Bu bölümde Jonathan Wenger, daha verimli lineer sistem çözümü için Gauss süreçlerini ölçeklendirmede önkoşullama kavramını tartışıyor. Bir problemin önceden bilinmesinin çözmeyi nasıl kolaylaştırabileceğini açıklamak için olasılıksal öğrenme yöntemleri örneğini kullanır ve benzer şekilde, önkoşullama bir problemi kimlik matrisine daha yakın ve dolayısıyla çözülmesini kolaylaştıracak şekilde dönüştürür. Bir önkoşullayıcı kullanılarak, sistemin durum numarası düşürülür, bu da CG'yi hızlandırır ve daha kararlı hale getirir. Wenger, yedi dakikada 100.000 veri noktasına sahip büyük ölçekli bir doğrusal sistemi çözmek için düşük dereceli artı diyagonal bir ön koşullayıcı ve kısmi SVD kullanarak ön koşullamanın etkinliğini gösteriyor.

  • 00:55:00 Bu bölümde, konuşmacı, Cholesky için hiper parametre optimizasyonu sırasında lineer sistemleri çözmek için önkoşullu eşlenik gradyan (CG) kullanımını tartışıyor. Kaybı değerlendirmek ve gradyanını hesaplamak için doğrusal sistemleri çözmemiz ve izleri hesaplamamız gerekir. Bununla birlikte, izlemenin hesaplanması, büyük veri kümeleri için çok pahalı olan n matris-vektör çarpmasını içerir. Bunu çözmek için, konuşmacı, a'nın izini Z(devrik) xax Z'nin izi olarak yeniden yazmamıza izin verecek şekilde cx Z(devrik) = birim matris olacak şekilde ortogonal bir Z matrisi kullanmayı önerir. Bu yaklaşım yöntemi potansiyel olarak ikinci dereceden matrise yol açabilir Gauss süreçlerini ölçeklendirme zamanı.

  • 01:00:00 Bu bölümde sunum yapan kişi, birkaç matris-vektör çarpımını gerçekleştirmeyi içeren çekirdek matrisinin izinin hesaplanmasını ölçeklendirmenin zorluğunu tartışıyor. Potansiyel bir çözüm, boyutun karekökü ile ölçeklenmiş rastgele vektörler çizerek ve ardından özdeş kovaryansı hesaplayarak hesaplamayı rastgele hale getirmektir. Rastgele vektörün kovaryansına yaklaşıldığında, iz hesaplanabilir; bu, orijinal problemi rastgele vektörler olmadan çözmekle aynıdır. Ancak bu yöntemde Monte Carlo tahmincilerinin kullanılması, onbinlerce rasgele vektör gerektirdiğinden, hiperparametre optimizasyonunu yavaşlattığı için büyük veri kümeleri için yetersizdir.

  • 01:05:00 Bu bölümde Jonathan Wenger, büyük veri kümeleri için Gauss Süreçlerini (GP) ölçeklendirmeyi tartışıyor. Doğrusal sistem çözümü için mevcut önkoşulların çekirdek matrisini tahmin etmek için kullanılabileceğini ve bunun tersinin veri ölçeklendirme sorunuyla başa çıkmak için kullanılabileceğini açıklıyor. Kısmi Cholesky veya stokastik iz tahmini ile önkoşullayıcının kullanılması, geri izlemeyi tahmin etmeye yardımcı olur. Aynı bilgiyi kullanarak log determinantının gradyanı da tahmin edilebilir. Bu stratejileri kullanarak, GPU ile bir milyona kadar veri noktasına sahip veri kümelerine ölçeklendirme yapmak mümkündür. Wenger, ön eğitimin hibrit parametreleri optimize etmek için sıçrama tahtası olarak küçük bir veri kümesi kullanmayı içerdiğini belirtiyor.

  • 01:10:00 Bu bölümde konuşmacı, Gauss süreci regresyonu için Monte Carlo tahminlerinin yakınsama oranını iyileştirmek için farklı stratejileri tartışıyor. Önkoşul yakınsama oranını miras alarak, üstel veya polinom olarak gerçek değere daha hızlı yakınsamak mümkündür. Çekirdek matrisini matris vektör çarpması yoluyla gözlemlemek için yapılacak eylemlerin seçimi, yakınsamanın ne kadar hızlı elde edilebileceğini de etkileyebilir. Bu nedenle, Gauss süreci için hızlı sayısal algoritmalar geliştirmek için, önkoşullar veya hızlı yakınsama eylemlerinin seçimi yoluyla sağlanabilen alan uzmanlığına ihtiyaç vardır. Ek olarak, daha etkili bir şekilde özetlemek için yüksek boyutlu verileri daha küçük bir eğitim veri kümesine sıkıştırmayı içeren, varyasyonel yaklaşım yoluyla doğrusal zaman GP fikri tanıtıldı.

  • 01:15:00 Bu bölümde Wenger, Gauss süreçlerinin kullanımını ve bunların nasıl etkili bir şekilde ölçeklenebileceğini tartışıyor. Buradaki fikir, yalnızca I'in karesini alan n'yi alan posterior'a doğrudan bir yaklaşım sağlamak için eğitim verilerini özetlemektir; burada I, tetikleyici girdilerin sayısıdır ve n, eğitim verilerinin boyutudur. Ancak yinelemeli yöntemler, dikkate alınması gereken hiper parametre optimizasyonu gerektirir. Bu durumda, tercih edilen bir optimize edici kullanılarak hızlı bir şekilde optimize edilebilen toplu optimizasyon veya sdd gibi stokastik yöntemler kullanılabilir. En maliyetli işlem olan çekirdek matrisinin değerlendirilmesi dışında, tüm temel işlemler I küp veya I kare çarpı n'dir.

  • 01:20:00 Bu bölümde konuşmacı, veri seti için tetikleme noktalarının sayısının önceden ayarlanmasını gerektiren başlatma noktası yöntemini kullanarak Gauss süreçlerini ölçeklendirmeyle belirsizlik miktarının belirlenmesi konusunu tartışıyor. Optimize edici daha iyi özet veri noktaları aradıkça, ortaya çıkan belirsizlik ölçümü, gerçek Gauss sürecinden önemli ölçüde farklı hale gelir. Yinelemeli yöntemler, süre dolana kadar yaklaşımın doğruluğunu kontrol edebilirken, indükleme noktası yöntemi, optimizasyondan önce yaklaşımın aslına uygunluğunu kontrol etmeyi gerektirir. Konuşmacı, hesaplama süresinden bağımsız olarak, yaklaşımın herhangi bir noktasında belirsizlik ölçümüne güvenilebilecek bir yöntemin tasarlanıp tasarlanamayacağı sorusunu sorar.
Numerics of ML 3 -- Scaling Gaussian Processes -- Jonathan Wenger
Numerics of ML 3 -- Scaling Gaussian Processes -- Jonathan Wenger
  • 2023.01.17
  • www.youtube.com
The third lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

Ders 4 -- Hesaplamaya Duyarlı Gauss Süreçleri -- Jonathan Wenger



ML 4'ün Nümerikleri -- Hesaplamaya Duyarlı Gauss Süreçleri -- Jonathan Wenger

Numerics of ML hakkındaki bu videoda Jonathan Wenger, hesaplamaya duyarlı Gauss süreçlerini ve bunların tahminlerdeki yaklaşıklık hatasını ve belirsizliği ölçme becerilerini tartışıyor. Doğru eylemleri seçmenin önemini ve eşlenik gradyanların belirsizliği nasıl önemli ölçüde azaltabileceğini ve öğrenmeyi hızlandırabileceğini araştırıyor. Wenger ayrıca, tetikleme noktalarına dayalı doğrusal zaman GP yaklaşımlarını kullanmaktan bahsediyor, ancak bu tür yaklaşımlardan kaynaklanan sorunları vurguluyor. Son olarak, temsili ağırlıklar hakkındaki inançların güncellenmesi ve temsili ağırlıklardaki hatayı çözmek için olasılıksal öğrenme algoritmalarının kullanılması tartışılmıştır. Genel olarak video, hesaplamaya duyarlı Gauss süreçlerinin, hesaplama belirsizliklerini hesaba katarak tahminlerin doğruluğunu artırmadaki etkinliğini gösterir.

Jonathan Wenger ayrıca bu videoda hesaplamaya duyarlı Gauss sürecini ve karmaşıklığını tartışıyor. Çekirdek matrisinin yalnızca üst çeyreğinin hesaplanması ve saklanmasının gerekli olduğunu ve algoritmanın hesaplama maliyetinin bu çeyreğin boyutuyla orantılı olduğunu açıklıyor. Gauss süreci, hesaplamalar yalnızca belirli veri noktalarını hedeflediği ve veri ile hesaplama arasındaki çizgiyi bulanıklaştırdığı sürece, rastgele boyuttaki veri kümelerinde kullanılabilir. Wenger, GP'nin bu durumu hesaba katmak için öngörülen verilere koşullandırılarak modellenebileceğini savunuyor. Yaklaşık bir modelle kesin belirsizliğin ölçülmesine izin veren yeni bir teorem sunuyor. Son olarak, GP modelini bir fizik yasasının öğrenilen işlevi kısmen yönettiği durumlara genişletme konusundaki gelecek haftaki dersinin önizlemesini yapıyor.

  • 00:00:00 Bu bölümde Jonathan Wenger, Gauss süreçleri derslerinin nihai doruk noktasından bahsediyor ve burada rastgele bir zamanda kesin belirsizlik miktarının nasıl belirleneceğini gösteriyor. Bu yaklaşımın, ne kadar hesaplama yaparlarsa yapsınlar veya bütçeleri ne olursa olsun, kullanıcıların öğrenmeye çalıştıkları işlevden ne kadar uzakta olduklarını her zaman ölçmelerine olanak tanıdığını açıklıyor. Önceki derslerdeki algoritmaları öğrenme aracıları olarak yeniden yorumlayarak, arka tahmine dahil edilen yaklaşım hatasını ölçebilirler. Ek olarak, verileri bir bilgisayar aracılığıyla gözlemlemenin ne anlama geldiğini ve onu çevreleyen felsefi tartışmayı tartışırlar.

  • 00:05:00 Bu bölümde Jonathan Wenger, Hesaplamaya Duyarlı Gauss Süreçleriyle uğraşırken doğru eylemleri seçmenin önemini tartışıyor. Eylem seçiminin belirsizliği önemli ölçüde azaltabileceğini ve tahmin edilen fenomen hakkında öğrenme sürecini hızlandırabileceğini gösteriyor. Ayrıca, doğrusal sistemleri çözerken veya ikinci dereceden fonksiyonları en aza indirirken daha iyi eylemler bulmanın bir yolu olarak eşlenik gradyanlar yöntemini araştırıyor. Problemin geometrisini hesaba katarak, eşlenik gradyanlar az sayıda adımda bir çözüme yakınsayabilir.

  • 00:10:00 Videonun bu bölümünde Jonathan Wenger, hesaplamaya duyarlı Gauss süreçlerini ve bunların diğer yaklaşım yöntemlerinden nasıl farklı olduğunu tartışıyor. Hem kısmen eşlenik gradyan hem de kısmi gökyüzü ters yaklaşım yöntemlerinde en pahalı işlemin matris-vektör çarpımı olduğundan bahsediyor. Daha sonra, noktaları özet veri noktaları olarak indüklemeye dayanan doğrusal zaman GP yaklaşımları fikriyle dalga geçiyor ve doğrusal zaman yaklaşımından kaynaklanan sorunları tartışıyor. Wenger daha sonra, tam belirsizliğin nicelleştirilmesi konularını ele alan ve bunun bu yıl NURBS'de sunulacak olan en son araştırma olduğunu söyleyen hesaplamaya duyarlı GP çıkarımını sunuyor.

  • 00:15:00 Bu bölümde Jonathan Wenger, hesaplamaya duyarlı Gauss sürecini ve temsili ağırlıklardan oluşan doğrusal bir sistemi çözmek için yinelemeli yöntemler kullanmaktan kaynaklanan yaklaşım hatasının nasıl ölçüleceğini tartışıyor. GP modelindeki çekirdek fonksiyonlarının, gerçek fonksiyonun neye benzediğiyle ilgili varsayımları kodladığını ve yinelemeli çözücülerin, bir arka ortalama tahmini oluşturmak için bu ağırlıklara yaklaştığını açıklıyor. Bu yaklaşım hatasını olasılıksal olarak ölçerek, modelin doğruluğunu artırabilen tahmine ek belirsizlik eklemek mümkündür. Wenger ayrıca Gauss dağılımlarının lineer cebirinin kısa bir özetini ve özellikle koşullandırma ve gözlemler söz konusu olduğunda olasılık teorisinde hesaplamaları nasıl kolaylaştırdıklarını anlatıyor.

  • 00:20:00 Bu bölümde Jonathan Wenger, Gauss dağılımlarının özelliklerini ve bunların Y gözlemleri verilen bir X değişkeni üzerindeki sonsal dağılımı belirlemek için nasıl kullanılabileceğini tartışıyor. Ölçeklendirme ve marjinalleştirme özelliklerini birleştirerek, Gauss süreçleri kullanılabilir temsili ağırlıkların tahminlerindeki yaklaşım hatasını ölçmek için. Wenger, önceki bir Gauss dağılımının nasıl güncellenebileceğini ve doğrudan gözlemlenemeyen gerçek temsili ağırlıkları öğrenmek için nasıl kullanılabileceğini açıklıyor. Bir Gauss çan eğrisinin yayılması ve yönü, gerçek temsili ağırlıkların aranacağı yönü belirlemek için kullanılabilir.

  • 00:25:00 Bu bölümde Jonathan Wenger, bir artık ve bir vektör dönüşümü kullanarak hesaplamaya duyarlı bir Gauss sürecinde bir siyah noktanın dolaylı olarak nasıl gözlemlenebileceğini açıklıyor. Gösterimler ve tahmini ağırlıklar arasındaki mesafeyi hesaplamak için afin Gauss çıkarım teoreminin nasıl uygulanacağını gösterir. Süreç, inancı dik bir çizgi üzerine çökertmeyi ve temsil edilen ağırlıkları bulmak için kullanılan tek boyutlu bir olasılık inancı geliştirmeyi içerir. Wenger ayrıca daha doğru bir çözüme ulaşmak için önceki inançla uyumlu daha bilgilendirici bir kırmızı çizginin nasıl seçileceğini de tartışıyor.

  • 00:30:00 Bu bölümde, Jonathan Wenger, bir eylem çarpı bir kalıntı tarafından yapılan bir gözlem yoluyla, hesaplamaya duyarlı Gauss süreçlerinde temsili ağırlıklar hakkındaki bir inancı güncellemek için bir algoritmayı tartışıyor. Güncellemenin benzer bir Gauss çıkarımı içerdiğini açıklıyor ve güncelleme sürecindeki temel unsurlara dikkat çekiyor. Algoritma CG ve kısmi Cholesky'ye benzer olsa da, iyi bir hata tahmini elde etmek için gerçek temsili ağırlıkların nerede olduğuyla ilgili olması gerektiğinden, önceki seçiminin hala ele alınması gereken bir konu olduğunu belirtiyor. Wenger, önceki GP'nin ve yapılan varsayımların, çekirdek matrisinin tersine dahil oldukları için temsili ağırlıklarla ilişkili olduğunu ve onları önceki GP'de önemli kıldığını öne sürüyor.

  • 00:35:00 Bu bölümde Jonathan Wenger, bir Gauss Süreci (GP) ile herhangi bir gözlem yapmadan önce hangi dağılım verilerinin üretildiğini nasıl anlayacağını tartışıyor. Wenger, f üzerinde bir dağılım varsayarak, etiketlerin sıfır ortalamalı bir Gauss öncesi kullanılırken sıfır ortalamaya göre dağıldığını ve gözlem modelinin bir parçası olan çekirdek matrisi artı bağımsız gürültüye göre değiştiğini açıklıyor. Wenger daha sonra, eylemleri yansıtarak öncekini güncelleyen olasılıksal bir öğrenme algoritması kullanarak temsilcileri bulmayı tartışıyor. Son olarak Wenger, V yıldızının lineer bir fonksiyonu olan bir veri noktasında değerlendirilen bir mu yıldızı dağılımını hesaplayarak önceden kalibre edilmiş K hat tersine ihtiyaç duyma sorununun nasıl çözüleceğini açıklıyor.

  • 00:40:00 Bu bölümde, Jonathan Wenger hesaplamaya duyarlı Gauss süreçlerini ve hesaplama belirsizliklerinin nasıl açıklanacağını açıklıyor. Rastgele bir değişken için birden fazla seçeneğin dikkate alındığı ve olası tüm temsili ağırlık tahminlerini hesaba katan bir arka ortalama tahmininin hesaplandığı marjinalleştirme fikrini tartışıyor. Doğrusal marjinalleştirmenin nasıl çalıştığını ve kovaryansa nasıl ek belirsizlik eklediğini açıklıyor. Wenger daha sonra bir GP'nin belirsizliğinin ortalama bir hata tahmini olarak yorumlanmasını ve hesaplama belirsizliğinin nasıl bir hata tahmini olarak kabul edilebileceğini tartışmaya devam ediyor. Genel olarak, bölüm, gerçek fonksiyondaki hatayı ve temsili ağırlıklardaki hatayı tek bir tahminde içeren birleşik belirsizliğin hesaplanmasını açıklar.

  • 00:45:00 Bu bölümde, konuşmacı, tahmini öğrenmek için yeterli hesaplama yapmamaktan kaynaklanan hata ile yeterli gözlemlenmiş veri olmamasından kaynaklanan hatayı birleştiren, hesaplamaya duyarlı Gauss süreçlerini tartışıyor. Konuşmacı, bu sürecin iki örneğini Ed Cholesky ve CG eylemleriyle birlikte gösteriyor. GP olarak adlandırılan önerilen yöntem, posterioru hesaplar ve belirsizliği izleyerek daha doğru tahminler elde etmek için temsili bir inancı başlatma ile birleştirir. Azaltılmış hesaplama belirsizliğinde ve çizilen grafiklerde gerçek arka ortalamaya daha yakın yaklaşımda görüldüğü gibi, yöntem basit ve etkilidir.

  • 00:50:00 Bu bölümde konuşmacı, çekirdek matrisini ters çevirmeye gerek kalmadan hesaplama bilinçli Gauss süreçlerini ve inancın kullanımını tartışıyor. Belirli bir yönde bir eylem seçerler ve seçilen alt uzayda temsil edilen iki ağırlığa ne kadar yakın olduklarını gözlemlerler, bu da temsil edilen ağırlıklara ne kadar hızlı yakınsadıklarını etkiler. Temsili ağırlıkların tahminini güncellemek için, öngörülen kalıntıyı gözlemlerler ve izlenecek yönü hesaplarlar. Ayrıca düşük dereceli bir yaklaşım hesaplarlar ve temsilciler ve Kesinlik Matrisi tahminlerini güncellerler. Kısmi Alaska ve CG kullanarak aynı miktarları uygularlar, belirli eylemleri kurtarmak için birim vektör eylemlerini seçerler ve veri noktalarını bir tetikleme noktasında merkezlenmiş çekirdek işlevine göre ağırlıklandıran doğrusal-zaman yöntemi gibi bir yöntem tasarlarlar.

  • 00:55:00 Bu bölümde Jonathan Wenger, hesaplamaya duyarlı Gauss Süreçlerini (GP) tartışıyor ve bunları tamamen bağımsız eğitim koşullu GP (FITC-GP) ile karşılaştırıyor. FITC-GP ile ilgili bazı sorunları çözen, ancak yoğun olan, N karenin karmaşıklığına neden olan Çekirdek Vektör Eylemlerini tanıtıyor ve bu nedenle uygun maliyetli değiller. Wenger, veri noktalarının yalnızca bir kısmını hedefleyen belirli eylemler alarak, çekirdek matrisinin hesaplanması için gereken karmaşıklığı azaltabileceğini gösteriyor. Sonunda, hesaplamalı GP daha iyi performansa sahiptir ve bu tür eylemler, yüksek doğrulukla ölçeklenebilir hesaplama için yararlı bir yaklaşım olduğunu kanıtlamaktadır.

  • 01:00:00 Bu bölümde, Jonathan Wenger hesaplamanın farkında olan Gauss sürecini ve karmaşıklığını tartışıyor. Çekirdek matrisinin yalnızca üst çeyreğini hesaplamanın ve depolamanın gerekli olduğunu ve sonuç olarak algoritmanın hesaplama maliyetinin yalnızca bu çeyreğin boyutuyla orantılı olduğunu gösteriyor. Ek olarak, alt kadranda sıfır bulunan eylemler, hesaplama ile yalnızca belirli veri noktalarını hedeflemek üzere seçildiği sürece, algoritmanın keyfi boyuttaki veri kümelerinde kullanılabileceğinin altını çiziyor. Wenger, bunun veri ve hesaplama arasındaki ayrımı bulanıklaştırdığını, çünkü yalnızca hesaplama için hedeflenen gözlemlerin veri olarak kabul edildiğini savunuyor. Son olarak, Gauss sürecinin, bu durumu hesaba katmak için, öngörülen verilere koşullandırılarak modellenebileceğini belirtiyor.

  • 01:05:00 Bu bölümde Jonathan Wenger, Gauss Süreçlerinin (GP'ler) iki şekilde düşünülebileceğini açıklıyor: neler olup bittiğine dair daha doğru bir model olarak veya yaklaşıklık yoluyla ortaya çıkan hatayı ölçen ve tahminlerde dikkate alınır. Daha sonra olasılık ölçütleri olarak karesel hataların yorumlanmasını ve birleştirilmiş sonsalın bir tahmin aracı olarak nasıl kullanılabileceğini tartışmaya devam ediyor. Wenger ayrıca, yaklaşık bir modelle tam belirsizlik ölçümüne izin veren yeni bir teorem sunarak, kullanıcıların belirsizlik ölçümlerine Gauss süreçlerine güvendikleri gibi güvenmelerini sağlar.

  • 01:10:00 Bu bölümde Jonathan Wenger, Gauss Süreçlerinin (GP'ler), algoritmanın hatasını olasılıksal olarak ölçebilen ve hatayı tahminler yapmak için kullanılan GP posterior'a gönderebilen bir öğrenme algoritması geliştirerek yaklaşık olarak hesaplanabileceğini açıklıyor. kullanılan hesaplama gücünden bağımsız olarak kesin belirsizlik ölçümü için. Wenger ayrıca, yöntemin farklı varyantları mevcut olsa da, bunların eylemler doğrusal olarak bağımsız olduğu sürece kesin belirsizlik nicelleştirmesi sağladığını not eder. Son olarak Wenger, Jonathan'ın GP modelini bir fizik yasasının öğrenilen işlevi kısmen yönettiği durumlara genişletmeyi tartışacağı gelecek haftaki dersinin ön izlemesini yapıyor.
Numerics of ML 4 -- Computation-Aware Gaussian Processes -- Jonathan Wenger
Numerics of ML 4 -- Computation-Aware Gaussian Processes -- Jonathan Wenger
  • 2023.01.17
  • www.youtube.com
The fourth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both...
 

Ders 5 -- Durum Uzayı Modelleri -- Jonathan Schmidt



ML'nin Nümerikleri 5 -- Durum Uzayı Modelleri -- Jonathan Schmidt

Bu bölümde Jonathan Schmidt, durum uzayı modellerini ve bunların makine öğrenimine uygulanmasını tanıtıyor. Durum uzayı modellerinin, yalnızca kısmen gözlemlenebilen ve yüksek düzeyde doğrusal olmayan etkileşimler içeren karmaşık dinamik sistemleri modellemek için kullanıldığını açıklıyor. Ders, durum uzayı modellerinin grafik gösterimini ve Markov özelliğinin önemli özelliklerini ve koşullu bağımsız ölçümleri kapsar. Schmidt, zamanın farklı noktalarında elde edilen ölçümleri kullanarak bir sistemin durumunu tahmin etmek için kullanılan tahmin, filtreleme ve yumuşatma dağılımları gibi çeşitli dağılımları hesaplamak için farklı algoritmalar sunar. Ders ayrıca Julia'da Kalman filtre algoritmalarının uygulanmasını ve doğrusal Gauss durum uzayı modellerinde yumuşatma tahminlerinin hesaplanmasını da kapsar. Son olarak Schmidt, durum uzayı modellerinde doğrusal olmayan dinamiklerin ve ölçümlerin tahminine izin veren genişletilmiş Kalman filtresini tartışıyor.

Jonathan Schmidt ayrıca, özellikle doğrusal olmayan dinamiklere ve genişletilmiş Kalman filtresine odaklanarak durum uzayı modellerini ve bunların kod kullanarak uygulanmasını tartışıyor. Ayrıca yumuşatma algoritmalarını ve alternatif Bayesian filtreleme yöntemlerini göstererek artılarını ve eksilerini vurguluyor. Ders, Nathaniel'in dinamik sistemleri simüle etmek için olasılıksal sayısalları tanıtacağı bir sonraki ders için daha fazla öğrenme ve beklenti için bir öneri ile sona eriyor.

  • 00:00:00 Bu bölümde Jonathan Schmidt, makine öğrenimi ders dersinin sayısalları için yeni bir odak noktası olarak durum uzayı modellerini ve dinamik sistemleri tanıtıyor. Dinamik sistemlerin zaman içinde geliştiğini ve yalnızca kısmen gözlemlenebildiğini, bu da onları modellemeyi zorlaştırdığını açıklıyor. Schmidt, dinamik sistemlerin geçici yapısını ve gizli bileşenlerini göstermek için COVID-19 vaka sayıları ve akıllı telefon yönlendirme tahmini gibi örnekler sunar. Nihai hedef, bu sistemleri simüle etmek için olasılıksal yöntemleri kullanmaktır, ancak önce, gözlemlenebilir verilerden gizli bileşenleri keşfetmek için bir dil ve algoritmik çerçeve oluşturulmalıdır.

  • 00:05:00 Bu bölümde konuşmacı, yeni veriler geldikçe karmaşık bir dinamik sistemin tahminini hızlı bir şekilde güncellemenin amaçlandığı çevrimiçi bir tahmin görevi içeren durum-uzayı modellerini tartışıyor. Bu modeller genellikle yalnızca kısmen gözlemlenebilir. ve yüksek oranda doğrusal olmayan işlevler ve etkileşimler içerir. Bunu başarmak için, inancı buna göre güncellemek için algoritmik bir çerçeveye ihtiyaç vardır. Konuşmacı, beyaz düğüm dizisinin sistem durumunu modelleyen rastgele değişkenleri temsil ettiği ve kırmızı kutunun gözlemlenen verileri temsil ettiği durum uzayı modellerinde kullanılan modelleme dilinin grafik temsilini tartışır. Dinamik bir sistemin durumu, sistemin gelişimini belirleyen, izlenen ve birbiriyle etkileşime giren bir dizi fiziksel niceliktir. Gözlemlenen veriler, y, mevcut duruma bağlıdır ve genellikle yörüngedeki yalnızca bazı durumlar için mevcuttur, diğerleri için mevcut değildir.

  • 00:10:00 Bu bölümde Jonathan Schmidt, dinamik sistemleri modellemek için olasılıksal bir çerçeve olarak durum uzayı modellerini tanıtıyor. Durum uzayı modellerinin iki önemli özelliğini vurgular: Markov özelliği ve koşullu bağımsız ölçümler. Bu özellikleri kullanarak, bir durum uzayı modelini, ilk durum için bir başlangıç dağılımı, sonraki durumlar için bir dinamik model ve gözlemler için bir ölçüm modeli içeren bir Bayes modeli olarak tanımlar. Schmidt, bu damıtılmış bileşenlerin ders serisinin geri kalanı için temel oluşturacağını belirtiyor.

  • 00:15:00 Bu bölümde konuşmacı, durum uzayı modellerini kullanarak sistemlerin nasıl analiz edileceğini ve dört farklı koşullu olasılık dağılımının nasıl hesaplanacağını açıklıyor. Bunlar, devam eden bir dizideki her adım için hesaplanan tahmin dağılımını, filtreleme dağılımını, veri olasılığını ve yumuşatma dağılımını içerir. Türetme, hesaplanan miktarı tanıtmayı ve halihazırda bilinenlere dayalı olarak ortak bir dağıtım oluşturmayı içerir. Chapman Kolmogorov denklemi, geçmiş ölçümler verildiğinde geleceği tahmin etmek için kullanılır ve Bayes teoremini kullanan düzeltme adımı, yeni verileri tahmine entegre etmek için kullanılır.

  • 00:20:00 Bu bölümde konuşmacı, durum uzayı modeli kavramını ve bu modelde kullanılan tahmin ve güncelleme şemasını açıklar. Tahmin edilen dağılımı Chapman-Homograph denklemi aracılığıyla hesaplayarak model, tahmini Bayes teoremi aracılığıyla günceller. Ardından konuşmacı, geriye gitmeden doğrusal bir zaman döngüsünde çalışan algoritma için sözde kod sunar. Konuşmacı, önceki tüm ölçümler göz önüne alındığında mevcut durumlar için bir dizi dağılım üretmenin önemini vurgular. Son olarak, konuşmacı doğrusal bir Gauss durum uzayı modelini ve onun dağılımları nasıl ürettiğini tanıtıyor.

  • 00:25:00 Bu bölümde konuşmacı, süreç gürültüsü kovaryans matrisi Q olan doğrusal bir Gauss sistemi ve H ölçüm matrisi ve R ölçüm kovaryans matrisi R içeren bir ölçüm modeli için durum uzayı modellerini tanıtıyor. ve modelin filtreleme anları, Gauss çıkarımı kullanılarak hesaplanabilir, sonsal dağılım karmaşık bir terimler koleksiyonudur. Konuşmacı daha sonra adını Macar bilim adamı Rudolph Kalman'dan alan ve kapalı biçimde tahmin ve filtreleme anlarının hesaplanmasına izin veren Kalman filtresini tanıtıyor. Kalman filtresinin tahmin ve düzeltme denklemleri, ölçüm uzayında kazanılan bilgiyi filtreleme ortalamasını güncellemek için durum uzayına çeviren önemli bir nicelik olan Kalman kazancı ile sunulmaktadır.

  • 00:30:00 Videonun bu bölümünde, Jonathan Schmidt durum uzayı modellerini tanıtıyor ve gürültülü ölçümlere dayalı yörüngeleri filtrelemek için bunların nasıl kullanılacağını açıklıyor. GPS ölçümlerini kullanarak 2 boyutlu bir uçakta bir arabayı izlemenin bir örneğini veriyor ve kodu Julia'ya yazıyor. Schmidt, dinamik modelinin doğrusal bir Gauss modeli olduğunu ve süreç gürültüsü kovaryansının zaman adımının polinom terimlerini içerdiğini açıklıyor. Ayrıca, filtreleme yörüngesinin yalnızca önceki ve şimdiki veri noktalarını kullandığını ve gelecekten haberdar olmadığını vurguluyor.

  • 00:35:00 Bu bölümde, konuşmacı, Julia kodunu kullanarak durum uzayı modelleri için Kalman filtresinin uygulanmasını açıklamaktadır. Geçiş ve ölçüm modellerinin nasıl kurulacağını, ortalama ve kovaryansın nasıl tahmin edileceğini ve ölçüm modeli kullanılarak tahminin nasıl düzeltileceğini açıklıyor. Konuşmacı daha sonra Kalman filtresinin nasıl çalıştırılacağını gösterir ve elde edilen tahminin ve karşılık gelen belirsizliğin görselleştirilmesini sağlar.

  • 00:40:00 Bu bölümde Jonathan Schmidt, durum uzayı modellerinin dinamik sistemleri tanımlamak için nasıl kullanıldığını ve bunların lineer cebir kullanarak ilginç niceliklerin hesaplanmasına izin veren lineer Gauss modelleri kullanılarak nasıl inşa edilebileceğini açıklıyor. Ayrıca, mevcut tüm veri noktaları göz önüne alındığında bir yörüngenin en iyi tahminini sağlayan ve bunları geriye doğru özyinelemeli bir algoritmada hesaplamak için filtreleme dağılımlarına dayanan, yumuşatma sonları kavramını sunar. Yumuşatma denklemlerinin türetilmesi olasılık teorisini ve Markov özelliğini içerirken, ortaya çıkan Gauss rasgele değişkenleri koleksiyonu, her zaman adımında yumuşatma dağılımını hesaplamayı kolaylaştırır.

  • 00:45:00 Bu bölümde, konuşmacı doğrusal Gauss Durumu uzay modellerinde yumuşatma tahminlerini hesaplama sürecini açıklıyor. Bu, matris vektör çarpım işlemlerinin kullanılmasını ve bir sonraki zaman adımında marjinalleştirmeyi ve posterioru filtreleme posteriorundan hesaplamak için marjinalleştirmeyi içerir. Tahminleri yumuşatmaya yönelik algoritma, yalnızca dikkate alınması gereken bir veri kümesi veya sabit bir zaman adımı bölümü varsa çalıştığından, döngüler için hesaplanır. Süreç, zaman serisinin sonundan başlamayı ve düzleştirme kazancını hesaplayarak ve bunu yumuşak anları hesaplamak için kullanarak başa doğru gitmeyi içerir. Konuşmacı ayrıca filtreleme tahmininin, zaman serisinin sonundaki yumuşatma tahminiyle çakıştığından bahseder. Yumuşatma algoritması, nihayetinde yumuşatma arkası olarak bir Gauss süreci arkası sağlar.

  • 00:50:00 Bu bölümde konuşmacı, lineer geçiş, lineer ölçümler, hem dinamikler hem de ölçümler için ek Gauss gürültüsü ve Markov özelliğini içeren varsayımlar yaparak lineer zamanda Gauss süreci posteriorlarının nasıl hesaplanacağını açıklar. Bununla birlikte, tüm Gauss süreç sonları, Gauss filtreleme ve yumuşatma kullanılarak hesaplanamaz. Konuşmacı ayrıca Gauss varsayımını bırakma olasılığını da tartışıyor, ancak bu tamamen yeni bir algoritma sınıfı gerektirecektir. Bir sonraki adım, önce fonksiyonları doğrusallaştırmak ve ardından ortak filtrelemeyi kullanmak için bir Taylor yaklaşımı kullanarak doğrusal olmayan modellere bakmayı içerir.

  • 00:55:00 Bu bölümde, Jonathan Schmidt durum uzayı modellerini ve doğrusal olmayan dinamikler ve ölçümler için Kalman filtresinin bir uzantısı olan genişletilmiş Kalman filtresini tartışıyor. Doğrusal olmayan dinamiklerin ve ölçüm modellerinin doğrusallaştırılması, standart Kalman filtre denklemlerinin bazı modifikasyonlarla kullanılmasına izin veren Jacobian matrislerinin kullanılmasıyla elde edilir. Öngörülen ortalama, önceki filtreleme ortalamasında değerlendirilerek, tahmin edilen kovaryans matrisinin kolayca hesaplanmasına olanak tanır. Ölçüm modeli benzer şekilde doğrusallaştırılır ve genişletilmiş Kalman filtresi denklemleri türetilir. Schmidt, genişletilmiş Kalman filtresinin, doğrusal olmayan fonksiyonları ayırt etmenin mümkün olmadığı veya istenmediği durumlarda yararlı olduğunu belirtir.

  • 01:00:00 Bu bölümde Jonathan Schmidt, işlevimizi ayırt edemezsek ne olacağını ve bu sorunu nasıl çözeceğimizi tartışıyor. Muhtemel bir çözüm, şemada sonlu bir fark kullanmaktır; burada standart sonlu farklar gibi bir fark oluştururuz ve sonra aynı şeyi yaparız. Schmidt aynı zamanda düzleştirilmiş denklemlere bakarak ve filtreleme ortalamasında değerlendirilen doğrusal olmayan fonksiyonun Jakoben matrisini transpoze geçiş matrisi olarak ekleyerek genişletilmiş köklü düzleştiriciyi oluşturur. Schmidt, durum boyutunun 2 olduğu ve ölçümlerin skaler olduğu bir sarkacın doğrusal olmayan durum uzayı modelini kullanan bir kod örneği sağlar. Doğrusal olmayan bir dönüşüm kullanarak dinamik modeli kuruyor ve süreç gürültüsü kovaryansını tartışıyor.

  • 01:05:00 Bu bölümde, Jonathan Schmidt durum uzayı modellerini ve bunların kod kullanılarak nasıl uygulanacağını tartışıyor. Sistemin lineer olmayan dinamiklerini ve ölçümler için kullanılan basit lineer ölçüm modelini açıklar. Ayrıca bir sarkacın yörüngesini tahmin etmek için genişletilmiş bir Kalman filtresinin nasıl uygulanacağını da gösteriyor. Filtre, doğrusal olmayan dinamik fonksiyon için Jacobian matrisini ve ölçüm fonksiyonu için gradyanı hesaplamak için otomatik farklılaşmayı kullanır. Ortaya çıkan animasyon, tahmin edilen yörüngeyi ve gürültülü ölçümleri gösterir.

  • 01:10:00 Bu bölümde, Jonathan Schmidt durum uzayı modellerinde filtreleme tahminini ve genişletilmiş yumuşatmayı tartışıyor. Filtreleme tahmini, gölgeli alandaki belirsizlik tahminini gösterirken, yumuşatma algoritması, otomatik farklılaşmayı, yumuşatma kazancını, düzgün ortalamayı ve düzgün kovaryansı hesaplayarak filtreleme tahminini düzenler. Pürüzsüz olan, belirsizliği içinde yer-gerçeği yörüngesini iyi kapsayan bir Gauss süreci posterior marjinalini döndürür. Schmidt ayrıca, yaklaşık dağılımlar için kokusuz Kalman filtresi ve gerçek gerçek posteriora yaklaşan parçacık filtresi gibi alternatif Bayes filtreleme yöntemlerinden de bahseder. Bu yöntemlerin artıları ve eksileri olsa ve uygulanması daha zor olsa da, doğrusal olmayan veya Gauss olmayan modeller için etkili olabilirler. Schmidt, bu yöntemler hakkında bilgi edinmek isteyenler için Simo Särkkä'nın "Bayes Filtreleme ve Yumuşatma" kitabını önerir.

  • 01:15:00 Bu bölümde, konuşmacı durum-uzayı modelleri, bunların doğrusal Gauss modeli ve doğrusal olmayan dinamikleri ve ölçümleri işlemek için kullanılan Kalman ve genişletilmiş Kalman filtreleri hakkında öğrenilenleri özetler. Nathaniel'in bir hafta içinde doğa kanunlarını yakalamak ve onu dersle birleştirmek için güçlü bir dili tanıtacağı ve Bayes filtreleme ve yumuşatma yoluyla olasılıksal sayısal kullanarak bu dinamik sistemlerin nasıl simüle edileceğini öğreneceği bir sonraki ders önerilir. Konuşmacı, geri bildirim isteyerek ve dinleyicilere zaman ayırdıkları için teşekkür ederek sözlerini bitirir.
Numerics of ML 5 -- State-Space Models -- Jonathan Schmidt
Numerics of ML 5 -- State-Space Models -- Jonathan Schmidt
  • 2023.01.24
  • www.youtube.com
The fifth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

Ders 6 -- Sıradan Diferansiyel Denklemleri Çözme -- Nathanael Bosch



ML Sayısalları 6 -- Sıradan Diferansiyel Denklemleri Çözme -- Nathanael Bosch

Nathanael Bosch, girdisi verilen bir fonksiyonun türevini ve zaman içinde gelişen model sistemlerini tanımlayan makine öğrenimindeki ODE kavramını ele alıyor. ODE'leri çözmenin zorluklarını tartışıyor ve ileri Euler ve geri Euler gibi sayısal yöntemleri ve bunların kararlılık özelliklerini tanıtıyor. Bosch, farklı sayısal yöntemleri ve bunların kesin orta nokta ve klasik dördüncü dereceden yöntemler gibi doğruluk ve karmaşıklık açısından ödünleşimlerini araştırıyor. ODE'leri çözmek için kitaplıkların kullanılmasıyla ilgili sorunları önlemek için yerel hata, düzen ve kararlılığın anlaşılmasının önemini vurguluyor.

Videonun bu ikinci kısmı, makine öğrenimi teknikleri kullanılarak bir sıradan diferansiyel denklemin (ODE) vektör alanını ve başlangıç değerini tahmin etme problemini tartışıyor. Konuşmacı, çıkarım problemini çözmek için ODE'nin durumları için üretken modeli ve gözlem modelini yazmanın önemini açıklar. Olabilirlik işlevi, bir parametre tahmini sağlayan negatif günlük olasılığını en aza indirerek maksimize edilir. Konuşmacı, bu yaklaşımı bir SIR-D modeli kullanarak gösteriyor ve temas oranı tahminini iyileştirmek için sinir ağlarını kullanmayı tartışıyor. ODE'lerin makine öğrenimi araştırmalarındaki önemi ve gerçek dünya problemlerini çözmedeki rolleri de vurgulanmıştır.

  • 00:00:00 Dersin bu bölümünde Nathanael Bosch, sıradan diferansiyel denklemler (ODE'ler) kavramını ve bunların makine öğreniminde nasıl kullanıldığını tanıtıyor. ODE'yi girdisi verilen bir fonksiyonun türevini tanımlamanın bir yolu olarak tanımlar ve makine öğreniminde ODE'lerin zaman içinde gelişen sistemleri modellemek için sıklıkla kullanıldığını açıklar. Difüzyon modelleri ve optimizasyon problemleri dahil olmak üzere makine öğreniminde ODE'lerin nerede göründüğüne dair örnekler sağlar. Bosch ayrıca mükemmel bir şekilde çözmenin pratik olmaması nedeniyle karmaşık sayısal çözücüler gerektiren ODE'leri çözmenin zorluklarını da ele alıyor.

  • 00:05:00 Bu bölümde, konuşmacı ODE'lerin, akışları normalleştirerek yapılan karmaşık dağılımları modellemek için gürültüyü verilere dönüştürmek için nasıl kullanıldığını tartışıyor. Ayrıca, pek çok araştırmaya yol açan ve artık sinir ağlarını daha sürekli bir şeyin ayrıklaştırmaları olarak yeniden yorumlayan sinirsel ODE kavramını açıklıyor. Ek olarak, konuşmacı ODE'leri optimizasyonla, özellikle de hakkında bir teorem yazmak ayrık gradyan inişinden daha kolay olan gradyan akışıyla ilişkilendirir. Son olarak, konuşmacı parametre çıkarımının ODE'leri bilinmeyen bir şeyi öğrenmek için kullanmanın bir örneği olduğunu tartışıyor ve bir sonraki derste sayısal ODE çözümlerini makine öğrenimi algoritmaları olarak yorumlayacak. Konuşmacı, bir ODE için bir çözüm yazabileceğimiz halde, entegrasyon sorunu ve bilinmeyen değişkenler nedeniyle bunun yardımcı olmadığı sonucuna varır.

  • 00:10:00 Bu bölümde anlatıcı, makine öğrenimindeki birçok algoritmayı anlamada çok önemli olan sıradan diferansiyel denklemleri (ODE'ler) ve başlangıç değer problemlerini tanıtıyor. ODE'ler, bir sistemin zaman içindeki değişim oranını temsil eder ve sorunu çözmek için başlangıç değeri gerekir. Bir ODE'nin çözümü, başlangıç değerine bağlı bir fonksiyon tarafından verilir ve ODE'lerin sayısal çözümleri, adım adım ekstrapolasyon gerektirir. Anlatıcı, nüfus artışı için lojistik bir ODE problemi sunar ve çözüm verilir. Anlatıcı, bir başlangıç değer problemini çözmenin amacının, ODE'lerin vektör alanı verilen belirli bir başlangıç noktası için çözüm bulmak olduğunu vurgular. ODE'leri çözmenin zorluğu hem integrali çözmek hem de diferansiyel terimi ele almaktır. Anlatıcı, gerçek çözüme doğru bir şekilde yaklaşmak için ODE'lerin sayısal çözümleri için küçük adım boyutları önerir.

  • 00:15:00 Bu bölümde Nathanael Bosch, adi diferansiyel denklemleri çözmek için farklı sayısal yöntemleri açıklıyor. Sunduğu ilk yöntem, yaklaşım için yalnızca mevcut zaman adımındaki fonksiyon değerinin dikkate alındığı sıfırıncı dereceden Taylor serisi yaklaşımıdır. Bu, zamanda bir sonraki noktayı hesaplamak için basit, açık bir formül olan Forward Euler yöntemine yol açar. Bosch, bu yöntemin kötü bir yaklaşım olsa da, yazılım ve dinamik simülasyonlarda hala yaygın olarak kullanıldığını belirtiyor.

  • 00:20:00 Bu bölümde video, sıradan diferansiyel denklemleri (ODE'ler) çözmek için iki yöntemi tartışıyor: ileri Euler yöntemi ve geriye doğru Euler yöntemi. İleri Euler yöntemi, bir sonraki noktadaki değere yaklaşmak için geçerli noktadaki eğimi kullanırken, geriye dönük Euler yöntemi, Tau eşittir t artı h etrafında bir Taylor serisi yaklaşımı kullanır. Video, makul çözümler üreten lojistik ODE'yi kullanan her iki yöntem için de kod örnekleri sunmaktadır. Ancak video, sayısal bir çözücü seçerken daha karmaşık diferansiyel denklemlerin ek değerlendirme gerektirebileceği konusunda uyarıyor. Ek olarak video, sayısal yöntemlerin karmaşıklığına ve sayısal paketleri kullanırken altta yatan algoritmaların farkında olmanın önemine değiniyor.

  • 00:25:00 Bu bölümde konuşmacı, adi diferansiyel denklemleri (ODE) çözmede açık ve kapalı yöntemler arasındaki farkı ve uygun algoritmayı seçmede kararlılığın önemini tartışır. Konuşmacı, λ'nın sıfırdan küçük olduğu, basit bir skaler ODE, x' = λx için ileri Euler ve geriye doğru Euler yöntemlerini karşılaştırır. İleri Euler yöntemi yalnızca 1 + hλ'nın birden küçük olduğu adım boyutları için kararlıyken, geriye dönük Euler yöntemi tüm adım boyutları için kararlıdır. Konuşmacı, ODE'leri çözmek için uygun bir yöntem seçmede kararlılığın önemini vurgulayarak, uygun olmayan bir adım boyutu seçmenin sapma davranışına yol açabileceğini gösterir.

  • 00:30:00 Bu bölümde Nathanael Bosch, adi diferansiyel denklemleri (ODE'ler) çözmek için ileri Euler ve geriye doğru Euler yöntemleri arasındaki farkları tartışıyor. Her iki yöntem de benzer matematik kullansa da, geriye dönük Euler, yakınsama için küçük gereksinimler gerektirir ve ODE'lerde ileri Euler'in yapamadığı katı alanların üstesinden gelebilir. Sayısal kareleme gereklidir ve bunu yapmanın birçok yolu vardır. Ek olarak, belirli bir zamanda fonksiyonun yaklaşık değeri olan X hat'ı oluşturmak, farklı yöntemlerin farklı cevaplar verdiği başka bir problemdir. Genel olarak, yöntem seçimi, hesaplama süresi ve ODE'nin beklenen dikliği gibi faktörlere bağlıdır.

  • 00:35:00 Bu bölümde Nathanael Bosch, üç değişken içeren sıradan diferansiyel denklemleri (ODE'ler) çözmek için sayısal yöntemlerin genel formülasyonunu açıklıyor: bi, Qi ve X şapkaları. Ayrıca, farklı yöntemler hakkında konuşmayı daha derli toplu ve okunaklı hale getirmenin bir yolu olarak kasap tablolarını tanıtıyor ve bi ve Qi'yi hesaplamanın farklı yollarının yanı sıra X şapkalarının nasıl inşa edileceğine de dikkat çekiyor. . Bosch, genel denklemi karşılayan ve sıfırları içeren bir kasap tablosuna sahip olan, ancak yine de yeterince kullanışlı bir yöntem olan en basit ileri Euler dahil olmak üzere farklı sayısal yöntemlere örnekler veriyor. Ayrıca geriye dönük Euler'i, sıfırdan yoksun ve ileri Euler'den biraz farklı hesaplanan örtük bir yöntem olarak tanıtır.

  • 00:40:00 Bu bölümde video, Sıradan Diferansiyel Denklemleri (ODE'ler) çözmek için kullanılabilecek farklı stratejileri araştırıyor. Bir dinleyicinin önerisi, integrali farklı terimlere bölmek ve her terim arasında adımlar atmaktı, ancak sunum yapan kişi bunun farklı özelliklere sahip farklı bir algoritmayla sonuçlanacağını açıklıyor. Video, iki Euler adımını gerçekleştirmeye yakın, ancak tamamen aynı olmayan açık orta nokta kuralını göstermeye devam ediyor. Sunucu, orta nokta kuralının noktadan tahmin yaptığını ve daha iyi bir tahmin elde etmek için Euler'in yaptığı şeyi azalttığını açıklıyor. Ayrıca video, Byron ve Kota tarafından geliştirilen orijinal yöntem olduğu için bu adı verilen klasik dördüncü dereceden yöntemi araştırıyor. Son olarak, video, ODE'leri çözmek için katsayıları seçmede biraz özgürlük olsa da, Wikipedia'da zaten bilinen yüzlerce yöntem olduğunu belirtiyor.

  • 00:45:00 iki çözüme götürür. Dobre-Fermi yönteminde her adımda iki çözüm verdiği için sonunda iki çizgi vardır. Bu yöntem karmaşıktır çünkü birden fazla özelliği karşılar ve Tablo büyüdükçe daha karmaşık hale gelir. Amaç, gradyanın nasıl çalıştığını anlamak değil, katsayıların karşılaması gereken özelliklere odaklanmak olmalıdır. Yöntem, kareleme kuralları tarafından motive edildi ve ODE'lere doğrudan bir eşleme olmasa da, hala kareleme kuralları tarafından motive ediliyorlar.

  • 00:50:00 Bu bölümde video, farklı doğruluk derecelerinde iki yöntemi aynı anda sağlayarak verimliliği hedefleyen yöntemler nedeniyle diferansiyel denklemleri çözmenin ne kadar karmaşık olabileceğini tartışıyor. Biri diğerinden daha doğrudur ve daha doğru olanı kullanmak, daha az doğru olanın hatasını tahmin etmeye yardımcı olabilir; bu, bazı yerel hataları karşılarken ODE'yi çözerken adım boyutunu ayarlamada yardımcı olabilir. Video ayrıca, farklı özelliklere sahip farklı türde yöntemler olduğundan ve bir sorunu çözmek için bir yöntem seçerken kararlılığın da dikkate alınması gereken bir faktör olduğundan bahseder. Son olarak video, diferansiyel denklemlerin çözümünde mertebenin önemine kısaca değinmektedir.

  • 00:55:00 Bu bölümde Nathanael Bosch, sıradan diferansiyel denklemleri (ODE'ler) çözmek için farklı yöntemleri ve doğruluk ile karmaşıklık arasındaki dengeyi tartışıyor. Hatayı tahminin tek bir adımında ölçen yerel hatanın önemini ve adım boyutunu küçülterek nasıl azaltılabileceğini vurguluyor. Daha sonra, Hard Euler ve Explicit Midpoint yöntemleri gibi farklı yöntemler, her biri kendi sırasına ve hata yakınsama oranına sahip olarak tartışılır. Bosch ayrıca, adım boyutu seçimi ve otomatik sunucu seçimi gibi ODE'leri çözmek için kitaplıkların kullanılmasıyla gelen çeşitli özelliklere de değiniyor, ancak bir şeyler bozulduğunda olası sorunlardan kaçınmak için kararlılığı ve düzeni anlamanın hala önemli olduğu konusunda uyarıyor.

  • 01:00:00 Videonun bu bölümünde konuşmacı, makine öğrenimi tekniklerini kullanarak verilerden bir sıradan diferansiyel denklemin (ODE) vektör alanını ve başlangıç değerini tahmin etme problemini tartışıyor. Amacın ODE'yi gözlemlenen verilere uyan beta, gama ve lambda parametrelerini tahmin etmek olduğu bir epidemiyolojik model örneği veriyor. Konuşmacı, ODE'nin durumları için üretici modeli ve gözlem modelini yazmanın çıkarım problemini çözmek için gerekli olduğunu açıklar. Parametreleri tahmin etmenin, verileri oluşturan sürecin daha iyi anlaşılmasına izin verdiğini ve çıkarılan parametrelerin literatürle çapraz kontrolünün ek içgörü sağlayabileceğini belirtiyor.

  • 01:05:00 Bu bölümde, konuşmacı parametre çıkarımı problemini ve adi diferansiyel denklemleri (ODE'ler) çözmek için maksimum olasılık tahmininin nasıl hesaplanacağını tartışır. Olabilirlik işlevi, gerçek X'in elde edilemeyeceği varsayımı nedeniyle değerlendirilemeyen Gauss'ların bir ürünüdür, bu nedenle bir yaklaşım gereklidir. Konuşmacı, çözücünün yeterince iyi olduğunu varsayarak, gerçek çözüm için tahmini bir çözüm eklemenin değerlendirilebilir bir terim ürettiğini gösterir. Olabilirlik işlevi daha sonra, negatif günlük olasılığını en aza indirerek maksimize edilir ve ortaya çıkan kayıp işlevi, bir parametre tahmini verir. Konuşmacı, başlangıçta enfekte olmuş bireylerin sayısının bilinmediği ve tahmin edilmesi gereken bir SIR-D modeli kullanan bir örnekle bitirir.

  • 01:10:00 Bu bölümde, konuşmacı bir adi diferansiyel denklem (ODE) modelinde parametre çıkarımının nasıl gerçekleştirileceğini tartışıyor. ODE model simülasyonu, ondan gürültülü örnekler alınarak yapılır ve saçılma grafiğindeki satırların gerçek verilerle karşılaştırılmasıyla hesaplanan bir kayıp fonksiyonu oluşturmak için iki parametre kullanılır. Optimize edici, ilk tahmin ve parametreler üzerinde yineleme yapmak için kullanılır ve L-BFGS optimize edici, çıktı verilerini oluşturmak için kullanılır. Ortaya çıkan veriler, literatürle karşılaştırılabilecek modeli ve parametrelerini yorumlamak için kullanılabilir. Daha sonra model, temas hızının zamana bağlı olarak değiştirilmesiyle iyileştirilir, bu da onu biraz daha karmaşık hale getirir ve tüm parametre çıkarım süreci yeniden yapılır.

  • 01:15:00 Bu bölümde Nathanael Bosch, ODE'lerdeki bir temas oranının zamanla değişen bir tahminini açıklayan t'nin betasını tahmin etmenin zorluklarını tartışıyor ve tahmin problemini çözmek için daha iyi araçlara duyulan ihtiyacı vurguluyor. Bunu ele almak için, t'nin betasını modellemek ve parametre çıkarımında bir L2 kayıp fonksiyonunu en aza indirmek için bir sinir ağı kullanmayı önerir. Sinir ağı yaklaşımı daha az yorumlanabilir ve iyi belirsizlik tahminleri sağlamazken, temas oranı için bir nokta tahmini sağlar. Ek olarak sonuçlar, sinir ağı yaklaşımının GP modelinin uyumuna uyması için hala önemli iyileştirmelere ihtiyaç duyduğunu ve sonuçlardaki belirsizliklerin dikkate alınması gerektiğini göstermektedir.

  • 01:20:00 Bu bölümde, konuşmacı ODE'leri çözmek için nöral ağları kullanma yaklaşımını tartışıyor ve bu yöntemi kullanarak belirsizlik nicelleştirmesinin kolayca elde edilememesine rağmen, bunun hala geçerli bir kavramsal yaklaşım olduğundan bahsediyor. Maksimum olabilirlik tahminleri tartışılmakta ve belirsizlik nicelleştirmesi sağlamak için öncelikler ve örnekleme ekleme potansiyelinden bahsedilmektedir. Konuşmacı ayrıca yakında çıkacak olan olasılıksal sayısal ODE çözücüler konusunu tartışıyor ve ODE'lerin makine öğrenimi araştırmalarındaki önemini ve gerçek dünya problemlerini çözmedeki rolünü vurguluyor. Nöral ODE'lerden ayrıca daha genel ve yapıdan bağımsız bir yaklaşım olarak kısaca bahsedilir, ancak işlev kaybı ve eğitim prosedürlerinde benzerlikler vardır.
Numerics of ML 6 -- Solving Ordinary Differential Equations -- Nathanael Bosch
Numerics of ML 6 -- Solving Ordinary Differential Equations -- Nathanael Bosch
  • 2023.01.24
  • www.youtube.com
The sixth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

Ders 7 -- Olasılık Sayısal ODE Çözücüler -- Nathanael Bosch



ML Sayısalları 7 -- Olasılıksal Sayısal ODE Çözücüler -- Nathanael Bosch

Bu videoda Nathanael Bosch, durumlar üzerinde dağılımlar veya ODE çözümleri sağlamak için durum tahmini ile sayısal ODE çözücülerini birleştiren olasılıksal sayısal ODE çözücüleri kavramını sunuyor. Bosch, Q kat entegre Wiener sürecinin gerçek çözümü modellemek için nasıl kullanılabileceğini ve bu sürecin sistemdeki belirsizliklerin miktarının belirlenmesine ve yayılmasına nasıl olanak tanıdığını açıklıyor. Daha sonra ODE'leri çözmek için genişletilmiş Kalman filtrelerinin nasıl kullanılacağını ve adım boyutlarının hata tahminlerini nasıl etkilediğini gösterir. Video, belirsizlik kalibrasyonu ve doğrusal olmayan durum uzayı modellerinde parametreleri tahmin etmek için genişletilmiş Kalman filtresinin kullanılması üzerine bir tartışmayla sona eriyor.

Dersin ikinci bölümünde Nathanael Bosch, anlamlı belirsizlik tahminleri elde etme ve başlangıç değerleri gibi ek model özelliklerini dahil etme esnekliği dahil olmak üzere ODE'leri çözmek için olasılıksal yöntemler kullanmanın faydalarından bahsediyor. Bu yaklaşımı harmonik osilatör ve diferansiyel cebirsel denklemler gibi örneklerle gösterir. Bosch ayrıca, geleneksel skaler yöntemler kullanılarak verileri doğru bir şekilde temsil etmekte başarısız olan bir salgın model örneğini kullanarak, ek bilgilerin dahil edilmesinin ve olasılık tekniklerinin kullanılmasının nasıl daha anlamlı sonuçlara yol açabileceğini gösteriyor. Durum tahmini yoluyla ODE'leri çözmek için genişletilmiş Kalman filtreleri ve yumuşatıcılar kullanıyor, tahmini bir olasılık sorunu olarak ele alıyor ve karar vermede Bayesci olmanın önemini vurguluyor.

  • 00:00:00 Bu bölümde, Nathanael Bosch olasılıksal sayısal ODE çözücüler kavramını tanıtıyor. Durum uzayı modelleri ve durum kestirimi için ortak filtreler/yumuşatıcılar ve sayısal ODE çözücüler dahil olmak üzere önceki dersleri özetleyerek başlar. Zorluğun, bir diferansiyel denklem verilen bir ODE çözümünün durumunu tahmin etmek olduğunu ve sayısal ODE çözücülerinin yalnızca bir yaklaşım sağladığını açıklıyor. Ardından Bosch, ODE'leri durum tahmin problemleri olarak yorumlayarak ve bunları veri tahmin problemleri olarak çözerek iki kavramı birleştirmenin bir yolunu önerir. Ortaya çıkan algoritmalar, klasik sunuculardan daha zengin çıktı sunan olasılıksal sayısal sunucular oluşturarak, durumlar veya ODE çözümleri üzerinden dağıtımlar sağlar.

  • 00:05:00 Bu bölümde, olasılıksal sayısal ODE çözücüler kavramı tartışılmaktadır. Bu çözücüler, tahmini adım boyutuna bağlı bir hata ile gelecekteki bir zaman noktasına güncellemek veya genişletmek için vektör alanının değerlendirilmesi yoluyla tek bir X şapkası sağlayarak gerçek çözümü tahmin eder. Tartışma daha sonra sayısal ODE tahmin problemlerini çözmek için özel durum tahmininin bir araç olarak kullanımına geçer. Filtreleme dağılımı, yumuşatma posterioru ve mevcut bilgiler verildiğinde gelecekteki durumları tahmin eden tahmin adımı daha sonra açıklanır ve genişletilmiş Kalman filtresi ve genişletilmiş Kalman pürüzsüzleştirici gibi algoritmalar bu miktarları hesaplamak için basit yöntemler olarak belirtilir. Bölüm, sayısal ODE çözümlerinin gerçek gerçek çözümü hesaplamaya çalışmak yerine bir çıkarım problemi olarak ifade edilebileceği ve amacın, başlangıç koşulunu ve ODE'yi ayrık bir şekilde sağlayan x of t'nin sonsalını bulmak olduğu fikriyle sona erer. noktalar kümesi.

  • 00:10:00 Bu bölümde, olasılıksal sayısal ODE çözücüler için bir durum uzayı modelinin inşasına dalıyoruz. Düşündüğümüz durum, Q kat entegre Wiener sürecidir. Bu durum, dinamik sistemi tanımlayan ve türevleri Q'ya kadar izleyen stokastik bir süreçtir. Sınırlı sayıda türevi izleyerek, sistemdeki belirsizliği ölçmemize ve yaymamıza izin veren olasılıksal bir durum modeli elde edebiliriz. Ana hedef, bir kez çözüldüğünde bize çıktının bir tahminini verecek olan bir önsel, bir olasılık ve bir veri modeli tanımlamaktır. Bu, çıkarım için hızlı bir algoritma olan Gauss filtreleme ve yumuşatma yapmak için gereklidir.

  • 00:15:00 Bu bölümde Nathanael Bosch, Q kat entegre Kazanan sürecinin gerçek çözümünü modelleyen stokastik süreci açıklıyor. Süreç, kapalı form formüllere sahip bir H Matrisi a ve H kovaryans Matrisi Q kullanan bir Gauss modeli biçiminde geçişlere sahiptir. Süreçteki bir girişe erişim, birinci ve ikinci türevlere erişimi kolaylaştıran doğrusal bir işlemdir. Süreç markovyendir ve bir Gauss sürecinin özelliklerini karşılar. Bosch ayrıca, sürecin farklı örneklerinin grafiklerini de göstererek, buna neden iki kez entegre doğrusal süreç dendiğini gösteriyor.

  • 00:20:00 Bu bölümde, konuşmacı Q kez Tümleşik Ornstein-Uhlenbeck öncesini ve daha sonra Gauss filtreleme ve yumuşatma için gereken geçiş yoğunluklarını yazabilecekleri için bunun nasıl uygun olduğunu tartışıyor. Olabilirlik ve veri birleştirme kısmı da önemlidir çünkü öncekine istenen şeyi en üstte yapması için bilgi verir. Konuşmacı, ODE dilinin nasıl kullanılacağını gösterir ve sonsuz hesaplamanın olduğu mükemmel bir dünyada sıfır olması gereken bir ölçüm işlevini veya bilgi operatörünü tanımlar. Ayrıca bir gözlem modelini tanıtırlar ve bunun çıkarım için istenen şeyi tatmin etmeye neden yardımcı olduğunu açıklarlar. Son olarak, gürültüsüz olasılık modeli, doğrudan bir olasılıktır ve bu, akılda Kalman filtre güncellemelerine sahip olduğu için uygundur.

  • 00:25:00 Bu bölümde Nathanael Bosch, lojistik ODE'nin somut bir örneği olan Z için üretken modeli ve bunun çıkarım süreciyle nasıl bir ilişkisi olduğunu tartışıyor. Üretken model, çözümlerin simülasyonuna, türevlerin hesaplanmasına ve Z etrafında çöken bir sonsalın üretilmesine izin verir. Bu üretken model, diferansiyel denklemi kodlayan olabilirlik modeline ek olarak, durum uzayı modelinin çözülmesini sağlar ve X için çözümle ilgili tahminler sağlar. Çıkarım, önceki ve istenen nihai sonuç arasında bir ilişkinin kurulmasına izin verir ve durum uzayı modelinin çözülmesine izin verir.

  • 00:30:00 Bu bölümde Nathanael Bosch, olasılıksal sayısal yöntemlerle sıradan bir diferansiyel denklemi çözerken başlangıç değerini dahil etmenin önemini tartışıyor. Gözlem modeline yalnızca başlangıç değerine bağlı başka bir ölçüm eklemenin, başlangıç değerini dahil etmenin daha genel bir yolu olduğunu açıklıyor. Ardından, algoritmayı uygulamak için gereken genişletilmiş Kalman filtresi ve ODE filtresi yapı taşları için sözde kod sağlar ve tahmin ve güncelleme adımlarında yer alan standart filtreleme döngüsünü açıklar. Genişletilmiş algoritma ilk önce başlangıç değerini karşılar ve adım boyutunu hesaplamak için A ve Q geçiş modelini kullanır.

  • 00:35:00 Bu bölümde Nathanael Bosch, Julia'da olasılıksal sayısal yöntemleri kullanarak sıradan bir diferansiyel denklemi (ODE) çözmek için gerekli kodu gösteriyor. Formüller karmaşık görünse de, modeli doğru bir şekilde kurmak için gereken 10 satırlık kodun basit olduğunu belirtiyor. Bosch, genişletilmiş Kalman filtresinin yalnızca iki satır kodla nasıl uygulandığını ve ters ile çarpmaya yönelik standart notasyonun, lineer bir sistemi çözen sayısal olarak kararlı bir çözümle değiştirildiğini gösteriyor. Lojistik ODE için vektör alanını, ilk zaman aralığını ve gerçek çözümü tanımlar ve iki kez entegre edilmiş Wiener sürecini kullanarak öncekinin nasıl tanımlanacağını gösterir. Bosch'un genişletilmiş Kalman filtre algoritması uygulaması, slaytlardaki sözde kodla yakından eşleşir ve kullandığı ilk dağıtım, keyfi olarak sıfır ortalamaya ve standart kovaryansa ayarlanır.

  • 00:40:00 Bu bölümde Nathanael Bosch, ODE'leri çözmek için genişletilmiş Kalman filtrelerinin nasıl kullanılacağını gösteriyor ve filtre tahminlerini çiziyor. Daha sonra adım boyutlarıyla oynayarak, daha küçük adım boyutlarının belirsizlikleri nasıl azalttığını ve daha büyük adım boyutlarının onları nasıl artırdığını gösteriyor. Belirsizliğin sadece zamanla büyümediğini ve hata tahminlerinin meydana gelen hatanın bir modeli olduğunu açıklıyor. Son olarak, yumuşatmanın genellikle iki ders önceki motivasyonla eşleşen yörüngelerin sonuçlarını iyileştirdiğini gösteriyor. Bununla birlikte, hata tahminleri daha da iyi yapılabilir, ancak seyirciden bunun nasıl yapılacağına dair girdi ister.

  • 00:45:00 Bu bölümde, olasılıksal sayısal ODE çözücü için hata tahmininin çok büyük olduğunu ve belirsizlik kalibrasyonu yoluyla düzeltilmesi gerektiğini öğreniyoruz. Hiperparametre sigma karesi doğrudan belirsizlikleri etkiler ve anlamlı olan gerçek belirsizlik tahminlerini elde etmek için uygun şekilde ayarlanması gerekir. Hiperparametreleri ayarlama motivasyonu, parametre verilen verilerin olasılığını maksimize ederek hiperparametrelerin tahmin edildiği Gauss süreçlerindekine benzer. Verilerin olasılığı ayrıştırılabilir, bu da ifade etmeyi ve optimize etmeyi kolaylaştırır.

  • 00:50:00 Bu bölümde Nathanael Bosch, doğrusal olmayan bir durum uzayı modelindeki parametreleri tahmin etmek için genişletilmiş Kalman filtresinin kullanımını tartışıyor. Z1'den K eksi 1'e kadar verilen zK'nin P'si, Gauss tahminleri kullanılarak tahmin edilir ve Sigma şapkası, yarı maksimum olabilirlik tahmininin argmax'ı olarak hesaplanır. ODE filtrelerinde, maksimum olasılık tahminini, parametre tahminlerini yeniden kalibre etmenin yeniden ölçeklendirilmiş bir yolunu kullanarak kapalı formda hesaplamak mümkündür. Bu yöntem daha iyi tahminler üretir ve maksimum olasılık tahmini Sigma'ya karşılık gelir. Bosch, bunun bir kalibrasyon sonekiyle bir güncelleme işlevi kullanılarak nasıl uygulanabileceğini açıklıyor.

  • 00:55:00 Bu bölümde Nathanael Bosch, olasılıksal sayısal Sıradan Diferansiyel Denklem (ODE) çözücüler için Genişletilmiş Kalman Filtresini (EKF) tartışıyor. Sigma taramasını artırmak için değiştirildiğinden bahseder, bu da toplamın sürekli olarak hesaplanmasına ve hesaplamak istedikleri miktar olan n'ye bölünmesine neden olur. EKF daha önce bir şeyi Gauss olarak tahmin etmeye çalışıyordu ve amaç, mümkün olduğu kadar bilgilendirici belirsizlik tahminleri elde etmektir. Bunu yaparak, ODE çözücünün sayısal hatasını anlamlı bir şekilde tanımlayan kullanışlı hata tahminleri sağlayan bir algoritmaya sahip oldular. Elde edilen algoritma hızlıdır ve mükemmel olmasa da yine de yararlı belirsizlik tahminleri sağlar.

  • 01:00:00 Bu bölümde Nathanael Bosch, ODE'leri çözmek için olasılıksal yöntemleri kullanma motivasyonunu açıklıyor. Bosch, basitçe belirsizliği ölçmenin ve anlamlı belirsizlik tahminleri ve grafikleri elde etmenin ötesinde, ODE çözücülerini olasılıksal bir şekilde formüle etmenin esnek ve kullanışlı olduğuna ve başlangıç değerleri gibi ek model özelliklerinin dahil edilmesini sağladığına inanıyor. Bir durum uzayı modeli tanımlayarak ve genişletilmiş bir Kalman filtresi çalıştırarak, yalnızca başlangıç değerli sayısal problemleri değil, aynı zamanda ek bilgi parçalarıyla daha yüksek dereceli ODE'leri de çözmek mümkündür.

  • 01:05:00 Bu bölümde Nathanael Bosch, ODE çözücüler için başlangıç değerlerine yönelik farklı bir yaklaşımı açıklıyor. X1'in verilen başlangıç türevine eşit olduğundan emin olmak için yeni bir miktar tanımlar ve bu, bazı tahmin ve güncelleme adımlarıyla genişletilmiş bir komut filtresi çalıştırmak için kullanılabilir. Harmonik osilatörün örneğini ve birinci türevi güncellemek için öncekinden sadece iki satırın değiştirilmesi gerektiğini gösteriyor. Anlamlı sonuçlar için kalibrasyon tekrar uygulanır ve bu durumda hata, yönelecek bir çekici olmadığı için sıfıra doğru yönelmez, bunun yerine problem ayarına bağlı olarak ayarlanır. Bosch ayrıca, tekil bir matris nedeniyle soldan sağa hareket ettirilemeyen diferansiyel denklemler olan diferansiyel cebirsel denklemleri de tartışır.

  • 01:10:00 Bu bölümde konuşmacı, bir türev tanımlamayan ve bir noktada sabit bir değere sahip olan denklemler olan diferansiyel cebirsel denklemler (DAE) kavramını tartışıyor. Konuşmacı, DAE'yi olasılıksal bir şekilde çözebilen bir DAE olabilirlik algoritması oluşturmak için ODE olabilirlik algoritmasında bir değişiklik önerir. Konuşmacı daha sonra bir ODE'nin ek bilgiye sahip olduğu bir problemin bir örneğini verir ve algoritmanın ayrık ızgarada g'yi tatmin etmek için her iki gözlem modelini de uygulayabilmesi için ek bir gözlem modeli getirmek üzere durum uzayı modelinde bir değişiklik önerir. Konuşmacı, ODE'lerle ilgili problemlerin çözümünde koruma miktarlarının önemini gösteren bir video örneği ve ek bilgiler sunar.

  • 01:15:00 Videonun bu bölümünde Nathanael Bosch, olasılıksal sayısal ODE çözücülerin kullanımını ve ODE modellerinin sonuçlarını iyileştirmek için ek bilgiler eklemenin faydalarını tartışıyor. Geleneksel skaler modelin verileri doğru bir şekilde temsil etmekte başarısız olduğu bir salgın model örneği sunuyor ve modeli iyileştirmek için bir Gauss sürecinin nasıl kullanılabileceğini gösteriyor. Daha fazla bilgi eklemek ve olasılık tekniklerini kullanmak, nihayetinde daha anlamlı bir sonuca yol açabilir.

  • 01:20:00 Bosch bu bölümde, dört boyutlu bir nesne (sirnd) olarak temsil edilen bir ODE'ye yönelik bir çözümün belirli boyutlarını ölçmek için doğrusal bir ölçüm operatörünün kullanılmasını içeren olasılıksal sayısal ODE çözücülerini tartışıyor. Bir durum uzayı modeli oluşturulduktan sonra, bir beta durumu eklenerek ODE çözümü çözülür ve ODE çözümünün olabilirlik modelleri, başlangıç değeri ve verileri dikkate alınır. Çıkarım görevi, gözlemlenen verilerin siyah noktaları göz önüne alındığında beyaz noktaların ne olduğunu belirlemek için genişletilmiş bir Kalman filtresi kullanmayı içerir. Daha basit bir yeniden formülasyon için X ve beta'nın birleştirilmesi de önerilir.

  • 01:25:00 Bu bölümde, konuşmacı, temelde ODE'leri durum tahmini aracılığıyla çözmenin bir yolu olan ve tahmini bir olasılık sorunu olarak ele alan Olasılıksal Sayısal ODE Çözücülerin nasıl çalıştığını açıklar. Genişletilmiş Kalman filtreleri ve bazen "ODE filtreleri" olarak adlandırılan bir dizi çözücüye yol açan yumuşatıcılar kullanarak ODE'leri çözmek için bir yöntem tanımlar. Konuşmacı, karar vermede Bayesçi olmanın önemini ve belirsizlik tahminlerinin faydasını ve ayrıca ODE'leri çözmek de dahil olmak üzere bir dizi soruna uygulanabilen hasta algoritmalarını kullanmanın rahatlığını vurguluyor.

  • 01:30:00 Bu bölümde, konuşmacı sayısal problemleri çözmek ve fizik ile genel dış gözlemleri birleştirecek şekilde verilerden çıkarım yapmak için harici komut filtrelerinin standart olmayan bir şekilde kullanılmasından bahsediyor. Konuşmacıya göre, Bayes filtreleme ve yumuşatma, esnek bilgi eklemeye ve çıkarım algoritmasının çarpanlara ayrılmasına izin verdiği için dinamik sistemleri modellemenin veya formüle etmenin en iyi yoludur. Seyirci, geri bildirim için QR kodlarını taramaya teşvik edilir ve konuşmacıya sorular sorulabilir.
Numerics of ML 7 -- Probabilistic Numerical ODE Solvers -- Nathanael Bosch
Numerics of ML 7 -- Probabilistic Numerical ODE Solvers -- Nathanael Bosch
  • 2023.01.24
  • www.youtube.com
The seventh lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses bot...
 

Ders 8 -- Kısmi Diferansiyel Denklemler -- Marvin Pförtner



ML Sayısalları 8 -- Kısmi Diferansiyel Denklemler -- Marvin Pförtner

Marvin Pförtner, kısmi diferansiyel denklemleri (PDE'ler) ve bunların çeşitli gerçek dünya sistemlerinin modellenmesindeki önemini tartışıyor. PDE'lerin bilinmeyen bir işleve ve lineer bir diferansiyel operatöre sahip bir sistem mekanizmasını nasıl temsil ettiğini, ancak genellikle bilinmeyen parametreler için çözüm gerektirdiğini açıklıyor. Gauss süreci çıkarımı, PDE modellerini analiz etmek ve mekanik bilgileri istatistiksel modellere enjekte etmek için kullanılabilir. Pförtner, modeli 2 boyutlu bir ısı dağılımı ile sınırlandırarak ve model için yapılan varsayımları sunarak, merkezi bir işlem birimindeki ısı dağılımını bir bilgisayarda inceler. Ders ayrıca PDE'leri çözmek için Gauss süreçlerini kullanmayı ve belirsizliği modellemek için gerçekçi sınır koşulları eklemeyi de kapsar. Genel olarak, bir bilgi operatörü kavramıyla birleştirilmiş GP yaklaşımı, sistemin davranışı hakkında önceki bilgileri birleştirmemize, mekanik bilgiyi doğrusal bir PDE biçiminde enjekte etmemize ve sınır koşullarını ve sağ tarafları ele almamıza izin verir.

Bu videonun ikinci bölümünde Marvin Pförtner, bir nokta tahmini yerine fonksiyonlar üzerinden bir olasılık ölçüsü tahmin ederek kısmi diferansiyel denklemleri (PDE'ler) çözmek için Gauss süreçlerini kullanmayı tartışıyor. Belirsizliği nicelemenin faydalarını açıklıyor ve PDE'nin sağ taraf fonksiyonunun tahminindeki belirsizliği kabul ettiği için bu yaklaşımın daha dürüst olduğunu belirtiyor. Pförtner ayrıca pratikte kullanışlı olan ve GP'nin türevlenebilirliğini kontrol edebilen Matern çekirdeğini açıklıyor ve Matern çekirdeği için P parametresini hesaplamak için bir formül sağlıyor. Ayrıca boyutlar üzerinden tek boyutlu Matern çekirdeklerinin ürünlerini alarak PDE'ler için d boyutlu bir çekirdeğin nasıl oluşturulacağını ve model yapımında matematiksel olarak dikkatli olmanın önemini açıklıyor.

  • 00:00:00 Dersin bu bölümünde Marvin Pförtner, kısmi diferansiyel denklemleri (PDE'ler) ve bunların finansal piyasalar, iklim ve hava durumu gibi akışkanlar ve dalga mekaniği dahil olmak üzere gerçek dünyada veri üreten mekanik modelleri açıklamadaki önemini tanıtıyor. . Çözmesi zor olsa da, doğrusal PDE'ler, termal iletim, elektromanyetizma ve Brownian hareketindeki parçacık hızları gibi birçok fiziksel süreci doğru bir şekilde tanımladıkları için güçlü bir modelleme dili olmaya devam ediyor. Ders, pratik bir modelleme örneği aracılığıyla özellikle PDE tabanlı modelleri olasılıksal makine öğrenimi modellerine entegre etmeye odaklanır.

  • 00:05:00 Bu bölümde Marvin Pförtner, fiziksel ve finansal modeller de dahil olmak üzere çeşitli sistemleri modellemek için kısmi diferansiyel denklemlerin (PDE'ler) kullanımını tartışıyor. Bir sistem mekanizmasının davranışını anlamanın ve PDE modellerini kullanarak davranışını çıkarmanın önemini vurguluyor. Bununla birlikte, PDE'ler genellikle bilinmeyen sistem parametreleri gerektirir ve amaç, bu bilinmeyen parametreleri bulmak ve tahminlerde güven kazanmak için sistemin mekanik bilgisini ölçüm verileriyle birleştirmek için Bayes istatistiksel tahminini kullanmaktır. Marvin ayrıca doğrusal PDE'leri ve bunların fiziksel sistemlerle uzamsal kapsamla nasıl ilişkili olduğunu açıklıyor.

  • 00:10:00 Bu bölümde Marvin Pförtner, sıcaklık dağılımları veya bir dizi elektrik yükü tarafından üretilen kuvvet gibi fiziksel sistemleri tanımlamak için yaygın olarak kullanılan kısmi diferansiyel denklemleri (PDE'ler) tartışıyor. Bir PDE'deki bilinmeyen işlev, simüle edilen sistemi temsil eder ve mekanik bilgi, bir lineer diferansiyel operatör tarafından verilir. Bununla birlikte, PDE'lerle ilgili bir zorluk, genellikle analitik bir çözüme sahip olmamaları ve ayrıklaştırma hatalarına yol açan sayısal çözücüler gerektirmeleridir. Malzeme parametreleri ve sağ taraf fonksiyonu, tam olarak bilinemeyen parametrelerden ikisi olup, klasik çözücüler aracılığıyla belirsizliklerin yayılmasında zorluklara neden olmaktadır. Ek olarak, PDE'ler genellikle çözümlerini benzersiz bir şekilde tanımlamaz ve ek koşulların uygulanmasını gerektirir.

  • 00:15:00 Bu bölümde, konuşmacı kısmi diferansiyel denklemleri (PDE'ler) ve bunların sonsuz boyutlu nesneler olan fonksiyonlarla ilişkisini tartışıyor. Diferansiyel operatör lineerdir, yani lineer fonksiyonlar diferansiyel operatörün çekirdeğindedir ve Poisson denkleminin herhangi bir çözümüne lineer bir terim eklenmesine ve yine de bir çözüm elde edilmesine izin verir. Simülasyon alanı dışındaki etkileşimleri modellemek için sınır koşulları gereklidir ve bunlar daha sonra sınırdaki simülasyonla dışarının nasıl etkileşime girdiğiyle özetlenir. PDE'ler, Rn'ninkine benzer bir vektör uzayı yapısına sahip fonksiyon kümeleri olan fonksiyon uzaylarına ait fonksiyonlar hakkında ifadelerdir ve lineer operatörlerin matrislerle temsiline izin verir. Doğrusal işleçler, bir diferansiyel işlecin bir işlevi türeviyle eşlemesi nedeniyle doğrusallık özelliğine sahip işlev uzayları arasındaki haritalardır.

  • 00:20:00 Bu bölümde Pförtner, lineer PDE'lerin sonsuz boyutlu bir vektör uzayında esas olarak lineer sistemler olduğunu açıklıyor ve vektör uzaylarında normları tanımlamanın ve yakınsamayı anlamanın önemini aktarıyor. Daha sonra bir bilgisayardaki merkezi işlem birimindeki ısı dağılımının matematiksel bir modelini tanıtıyor ve modeli çip boyunca dilimleyen bir hat üzerinde 2 boyutlu bir ısı dağılımıyla sınırlıyor. Ders, bu model için yapılan varsayımları ve bu özel durum için nasıl iyi bir model olduğunu tartışır.

  • 00:25:00 Bu bölümde, konuşmacı bir çipteki ısı kaynaklarının ve soğutucuların modellenmesini ve bunun kısmi diferansiyel denklemler (PDE'ler) kullanılarak nasıl temsil edilebileceğini tartışıyor. İkinci dereceden doğrusal bir PDE olan ısı denklemini ve bunun çipteki sıcaklık dağılımını modellemek için nasıl uygulanabileceğini açıklıyorlar. Konuşmacı ayrıca, PDE'leri bilinmeyen fonksiyonun ve diferansiyel operatör altındaki görüntünün bir gözlemi olarak yorumlayarak, diferansiyel denklemden mekanik bilginin istatistiksel modellere nasıl enjekte edilebileceğini de açıklar. PDE'ler, enerji ve kütle gibi temel niceliklerin korunumunu tanımlayan fizikteki temel yasalarla karşılaştırılır.

  • 00:30:00 Bu bölümde Marvin Pförtner, sıcaklık ve ısı enerjisi arasındaki ilişkiyi ve malzeme parametreleri aracılığıyla birbirleriyle nasıl orantılı olduklarını tartışıyor. Isı enerjisindeki her değişimin, ya sisteme giren ısının bilinen bir değeriyle ya da ısı iletimi yoluyla çevreden belli bir noktaya akan ısıyla açıklanabileceğini açıklıyor. Daha sonra bilgi operatörünü, bir diferansiyel denklem de dahil olmak üzere herhangi bir bilgi parçasını ifade etmek için kullanılabilecek matematiksel bir kavram olarak tanıtır. Ayrıca, önceki bir Gauss sürecinin bilinmeyen bir U fonksiyonunu modellemek için nasıl kullanılabileceğini ve posteriorun doğrusal gözlemler altında Gauss süreçlerinin kapanışları kullanılarak nasıl hesaplanabileceğini açıklıyor. Bununla birlikte, PDE'leri çözmek sonsuz sayıda gözlem gerektirdiğinden, çözülmekte olan problem hakkında analitik bilgi bilinmediği sürece çoğu durumda hesaplama açısından imkansızdır.

  • 00:35:00 Bu bölümde, konuşmacı, adi diferansiyel denklemlerde (ODE'ler) kullanılan yaklaşıma benzer şekilde, kısmi diferansiyel denklemleri (PDE'ler) çözmek için Gauss süreçlerinin (GP'ler) kullanılmasını tartışıyor. GP, fonksiyon uzaylarında bir olasılık ölçüsü olarak görülür ve doğrusal bir operatör, bu GP'nin örnek yollarını RN'ye eşler. Bu sürecin önceki öngörücüsünün, doğrusal operatör aracılığıyla GP ortalama fonksiyonunun görüntüsü tarafından verilen ortalama ve kovaryans matrisinin sonlu boyutlu durumda bulunan kovaryans matrisine çok benzer olduğu normal bir dağılım olduğu bulunmuştur. Bu olayın arkası da aslında ona benzer bir yapıya sahip çıkıyor. Konuşmacı, pek çok teorik detayın söz konusu olduğunu ve GP'leri kullanarak PDE'leri çözmede yer alan sonsuzluklar nedeniyle dikkatli olunması gerektiğini belirtiyor.

  • 00:40:00 Bu bölümde, Marvin Pförtner belirli bir lineer operatör seçiminin nasıl hesaplanacağını ve bunu standart lineer operatör gösteriminde ifade etmenin zorluklarını açıklıyor. Ayrıca, bir bağımsız değişkenin nasıl farklılaştırılacağını, diğer bağımsız değişkenin nasıl türetileceğini ve iki nokta arasında tüm ikili türevlerin bir matrisinin nasıl oluşturulacağını tartışıyor. Daha sonra, aynı teoremi probleme uygulamak ve arka Gauss sürecini hesaplamak için nasıl kullanacağı ve eşdizim noktaları kümesini nasıl tanımlayacağı hakkında konuşuyor.

  • 00:45:00 Bu bölümde, konuşmacı genelleştirilmiş bir Gauss Süreci çıkarımının bir sınır değer problemini nasıl çözebileceğini açıklar. Kısmi Diferansiyel Denklemin (PDE) sağ tarafıyla eşleşen siyah bir işlev kullanılarak gözlemlerin nasıl temsil edilebileceğini ve bundan öğrenilen bilgilerin orijinal Gauss Sürecine nasıl geri yayılabileceğini özetliyorlar. PDE'de sınır koşullarının düzeltmediği serbestlik derecesi belirsizliğe neden olabilir, ancak Dirichlet sınır koşullarını uygulayarak, sonsal, iki sınır değeri gözlenirse çalışan normal bir Gauss Süreci regresyon problemi haline gelir. Konuşmacı, konuşlandırmadaki sınır değerlerinin genellikle bilinmediğini belirtmenin önemini vurgular ve hem sınır değerlerine hem de ısı kaynağı dağılımına belirsizlik eklemenin yararlı olacağını vurgular.

  • 00:50:00 Bu bölümde, konuşmacı kısmi diferansiyel denklemler için daha gerçekçi sınır koşullarını tartışıyor. Isının, CPU'nun tüm yüzeyi boyunca eşit olarak çekildiğini ve bu bilginin, sınır noktasının değeri yerine bir sınır noktasının birinci türevinin ayarlandığı Neumann sınır koşulları olarak modellenebileceğini belirtir. Bunu yaparak, modele belirsizlik ekleyebilir ve türevi modellemek için bir Gauss dağılımı kullanabiliriz. Bu sınır koşulunu açıklamak için ek bir bilgi operatörü kullanılır. Konuşmacı ayrıca sistemin mutlak ölçeğinin CPU içindeki termometreler kullanılarak nasıl belirlendiğini ve ayrıca başka bir Gauss sürecini kullanarak önceki bir inancı modelleyerek işlevin belirsiz tahminlerinin nasıl elde edilebileceğini açıklar.

  • 00:55:00 Bu bölümde Marvin Pförtner, Gauss süreçleri ve bilgi işleçlerinin yardımıyla bir sistemin davranışıyla ilgili ön bilgilerin modele nasıl entegre edileceğini tartışıyor. Sistemin sürekli ısınmasını önlemek için sıfıra entegre edilebilir model için sağ taraftaki fonksiyonun seçilmesinin gerekli olduğundan bahseder. Pförtner daha sonra GP'nin tüm numunelerinde birinci alana sahip olmasını sağlamanın zorluklarını ve sınırdan çıkan ısıyı hesaba katan sınır etkileri de dahil olmak üzere ek kısıtlamalar ekleyerek bunların nasıl çözülebileceğini tartışmaya devam ediyor. Son olarak, Pförtner, bir bilgi operatörü kavramıyla birleştirilen bu GP yaklaşımının, sistemin davranışı hakkında önceki bilgileri birleştirmemize, mekanik bilgiyi doğrusal bir PDE biçiminde enjekte etmemize ve sınır koşullarını ve sağ tarafları ele almamıza izin verdiği sonucuna varır.

  • 01:00:00 Bu bölümde, Marvin Pförtner, kısmi diferansiyel denklemleri (PDE'ler) çözmek için, bir nokta tahmini yerine, PDE'nin koşullarını karşılayan güven aralıkları ve örnekler verebilen fonksiyonlar üzerinden bir olasılık ölçüsü tahmin ederek Gauss süreçlerini kullanmayı tartışıyor. . Bu yaklaşımın daha dürüst olduğunu çünkü PDE'nin sağ taraf fonksiyonunun tahminindeki belirsizliği kabul ettiğini ve 2B simülasyonların yanı sıra başka bir uzamsal boyut olarak zamanla simülasyonlara uygulanabileceğini açıklıyor. Pförtner, hiçbir belirsizlik varsaymayan bu yöntemin sonsal ortalamasının, simetrik eşdizimlilik adı verilen klasik bir yönteme eşdeğer olduğuna dikkat çeker. Son olarak, PDE'leri çözmek için ağırlıklı kalıntı, sonlu hacim ve spektral yöntemler gibi diğer yöntemlerin de belirsizlik ölçümü olmadan bir Gauss sürecinin arka araçları olarak gerçekleştirilebileceğini açıklıyor.

  • 01:05:00 Bu bölümde konuşmacı, Gauss süreçlerinin (GP'ler) doğrusal kısmi diferansiyel denklemleri (PDE'ler) çözmek için nasıl kullanılabileceğini ve ayrıca fonksiyon tahmini için regresyon gerçekleştirebileceğini açıklıyor. Çalışmadan önce ve doğru fonksiyonları seçmenin öneminin yanı sıra belirsizlik nicelleştirmenin faydalarını vurgularlar. Konuşmacı ayrıca GP'lerin örnek yollarının ayırt edilemez olduğu durumlar ve her şeyi titiz kılmak için önemli koşulları doğrulama ihtiyacı gibi başarısızlık durumlarını da not eder. Bu bölüm, bu teoremlerin biçimsel ayrıntılarını araştıracak olan konuşmacı grubundan gelecek bir yayının tanıtım filmi ile sona eriyor.

  • 01:10:00 Bu bölümde konuşmacı, Gauss süreçlerinin (GP'ler) nasıl tanımlandığını ve bilinmeyen fonksiyonları modellemek için nasıl kullanıldığını tartışıyor. GP'ler, etki alanlarındaki her nokta için bir tane olmak üzere gerçek değerli rasgele değişkenlerin koleksiyonlarıdır. İşlevleri temsil etmek için kullanılırlar, ancak biz yalnızca GP'nin değerlendirmelerinin sonlu kombinasyonunu biliyoruz. Bir GP'nin örnek yolunu elde etmek için, bir Omega'yı sabitleyerek ve onu tüm işlevler boyunca dönüştürerek sürekli olarak bir işlevi örneklememiz gerekir. Tanımlandıklarından emin olmak için örnek yolların yeterince farklılaştırılabilir olmasını sağlıyoruz. Ek olarak, L doğrusal operatörü altında bir GP'nin görüntüsü olan LF'yi hesaplamak için, bir Omega'yı sabitleriz ve karşılık gelen fonksiyona L uygularız.

  • 01:15:00 Bu bölümde konuşmacı, daha sonra ölçülebilir olması gereken rastgele bir değişkene dönüştürülen GP adı verilen sonsuz boyutlu bir nesne oluşturmak için doğrusal bir operatör aracılığıyla örnek bir yolun nasıl haritalanabileceğini açıklıyor. GPS'in örnek yollarının, uygun bir çekirdek seçilerek Hilbert Uzayını yeniden üreten bir çekirdeğe dönüştürüldüğünü, ancak GP'nin gerçek çekirdeğinin çoğaltma çekirdeği Hibbert uzayının, örneklerin geldiği alan olmadığını ve daha geniş bir alan olduğunu belirtiyorlar. Bu numunelerin bulunduğu yer seçilmelidir. Konuşmacı, pratikte faydalı olan ve GP'nin türevlenebilirliğini kontrol edebilen Matern çekirdeğini tartışmaya devam eder ve süreci genelleştirmeye yardımcı olabilecek Matern çekirdeği için P parametresini hesaplamak için bir formül sağlar.

  • 01:20:00 Bu bölümde, konuşmacı, özellikle türevlerin karışık sıraları varsa, boyutlar üzerinden tek boyutlu Matern çekirdeklerinin çarpımlarını alarak kısmi diferansiyel denklemler (PDE'ler) için d-boyutlu bir çekirdeğin nasıl oluşturulacağını açıklar. Bu, kullanıcıların çözmeye çalıştığı somut denkleme uyum sağlamaya yardımcı olur. Ek olarak GPS, çeşitli bilgi kaynaklarını afin bilgi operatörleri kullanarak tek bir regresyon modelinde birleştirmek için bir çerçeve sağlar. Konuşmacı, özellikle belirli bir denklem için önceliği oluştururken, model yapımında matematiksel olarak dikkatli olmanın önemini vurgular.
Numerics of ML 8 -- Partial Differential Equations -- Marvin Pförtner
Numerics of ML 8 -- Partial Differential Equations -- Marvin Pförtner
  • 2023.01.24
  • www.youtube.com
The eigth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

Ders 9 -- Monte Carlo -- Philipp Hennig



ML 9 -- Monte Carlo -- Philipp Hennig Sayısalları

Monte Carlo konulu bu videoda Philipp Hennig, Bayes Teoremini kullanarak Bayes çıkarımı söz konusu olduğunda entegrasyonun makine öğreniminde nasıl temel bir sorun olduğunu açıklıyor. Entegrasyon yapmanın özel bir yolu olarak Monte Carlo algoritmasını tanıtıyor ve yöntemin kısa bir tarihçesini sunuyor. Ayrıca, örnek sayısındaki artışla yansız tahmin ve varyans azaltma gibi Monte Carlo algoritmalarının özelliklerini tartışıyor. Ek olarak Hennig, Metropolis-Hastings algoritmasını, Markov Chain Monte Carlo'yu ve Hamiltonian Monte Carlo'yu derinlemesine inceleyerek her bir algoritmanın özelliklerine ve bunların bir olasılık dağılımından örnekleme yaparken nasıl çalıştıklarına dair genel bir bakış sunar. Son olarak Hennig, optimum ve verimli sonuçlar elde etmek için algoritmaları körü körüne uygulamak yerine neden kullanıldığını anlamanın önemine dikkat çekiyor.

Videonun ikinci bölümünde Philipp Hennig, yüksek boyutlu dağılımlar için Monte Carlo yöntemlerini, özellikle ayrıntılı dengeyi bozan U dönüşü fikriyle sorunun üstesinden gelen U dönüşü Olmayan Örnekleyici (NUTS) algoritmasını tartışıyor. Hennig, bu algoritmaların uygulanması karmaşık ve zor olsa da, onları anlamanın etkili bir şekilde kullanmak için çok önemli olduğunu vurguluyor. Ayrıca, Monte Carlo yöntemlerini kullanarak beklenen değerleri hesaplamak için düşünmeden yapılan yaklaşımı sorguluyor ve rasgelelik olmadan yaklaşmanın başka yolları olabileceğini öne sürüyor. Hennig, rastgelelik kavramını ve sınırlamalarını, Monte Carlo yöntemleri için yakınsama oranlarının eksikliğini tartışıyor ve deterministik rastgeleliğe güvenmek yerine makine öğrenimi için başka yöntemlerin dikkate alınması gerektiğini öneriyor.

  • 00:00:00 Bu bölümde eğitmen, Bayes Teoremini kullanarak koşullu dağılımları hesaplamak için Bayes çıkarımı yaparken makine öğreniminde temel bir sorun olan entegrasyon konusunu tanıtıyor. Bu sürecin, bazı koşullu dağılımların beklenen değeri olarak hesaplanan marjinali temsil eden bir integral içerdiğini açıklıyor. Eğitmen, entegrasyonun nasıl doğru bir şekilde gerçekleştirileceğini bilmenin önemini vurgular ve entegrasyonu gerçekleştirmenin özel bir yolu olarak Monte Carlo algoritmasını tanıtır. Monte Carlo'nun kısa bir tarihçesini veriyor ve algoritmaları körü körüne uygulamak yerine neden kullanıldığını anlamanın neden önemli olduğunu düşünüyor.

  • 00:05:00 Bu bölümde Philipp Hennig, 1940'larda bir nükleer bomba tasarlamaya yardımcı olmak için Monte Carlo simülasyonlarının nasıl geliştirildiğini anlatıyor. Sorun, bir patlama elde etmek için geometriyi optimize etmekteydi ve çözüm, integralleri toplamlarla yaklaşık olarak tahmin etmek için Monte Carlo simülasyonlarını kullanmaktı. Bir kalıptan çekilen rasgele sayıları kullanarak bir nötronun yolunu simüle etmek için iki tekerlek ve bir kalemden oluşan Fermi analog bilgisayarı bu amaç için icat edildi. Bu süreç basit görünse de, bu yöntem çeşitli alanlar için Monte Carlo simülasyonları geliştirmenin ilk adımıydı.

  • 00:10:00 Bu bölümde Monte Carlo simülasyonları kavramı, bir dağılımdan çizilen noktalarda bir fonksiyonun değerlendirmeleri üzerinden integrali bir toplamla değiştirerek beklenen bir değeri tahmin etmenin bir yolu olarak açıklanmaktadır. Bu, örnek sayısı arttıkça varyansı azalan ve örnek sayısının karekökü üzerinde bir gibi düşen bir hataya neden olan tarafsız bir tahmincidir. İstatistikçiler bunun tarafsız tahminciler için en uygun oran olduğunu savunurken, sayısal matematikçiler bu oranın oldukça yavaş olduğunu ve polinom oranlarının tercih edildiğini düşünüyorlar. Bununla birlikte, bu yöntemin, boyutsallıktan arınmış olması gibi avantajları vardır, çünkü varyans, altta yatan dağılımın boyutluluğuna bağlı değildir.

  • 00:15:00 Bu bölümde, Philipp Hennig, Monte Carlo probleminin boyutsallığını çevreleyen tartışmayı ele alıyor. Sorunun boyutluluğuyla ilgili olabilecek p'nin altında f'nin bir varyansı olmasına rağmen, argüman, bunun boyutluluğa bağlı olmadığıdır. Bununla birlikte, belirli yapılandırılmış problemlerde, varyans, boyutsallığın bir fonksiyonu olarak üstel olarak hızlı bir şekilde patlayabilir. Bununla birlikte, Monte Carlo örneklemesinin en ilginç uygulamaları, problemin boyutluluğundan etkilenmez ve yüksek boyutlu problemlerin hesaplanmasına izin verir. Hennig ayrıca, örnek sayısının ters karekökü tarafından verilen bir oranla gerçeğe yakınsadığı Monte Carlo örneklemesini kullanarak Pi hesaplamanın klasik örneğini tartışır.

  • 00:20:00 Bu bölümde Philipp Hennig, integralleri tahmin etmek için Monte Carlo yöntemlerini tartışıyor. Bir dağılımdan çok sayıda örnek çekerek ve bu simülasyonlar altında beklenen değeri hesaplayarak bu yöntemin nasıl çalıştığını açıklıyor. Bu, kabaca bir tahmine ihtiyaç duyulduğunda iyi bir çözüm olabilir, ancak yüksek düzeyde kesin yanıtlar için pratik değildir. Hennig ayrıca reddedilen örnekleme ve önemli örnekleme gibi üzerinde çalışılması zor olan dağılımlardan örnekler oluşturmanın yollarından da bahseder, ancak bu yöntemlerin yüksek boyutlarda iyi ölçeklenmediğine dikkat çeker.

  • 00:25:00 Bu bölümde, yüksek boyutlu dağılıma dayalı rastgele değişkenler oluşturma fikri tartışılmaktadır. Bunun için standart yöntem, sonlu bir hafıza ile iteratif olarak ileriye doğru hareket eden bir yapıya dayanan Markov zinciri Monte Carlo olarak adlandırılır. Bu türden bir yöntem, bir Markov zinciri oluşturmayı ve bir teklif dağılımı ve buradan alınan dağıtım ile önerilen dağıtım arasındaki oranı kullanarak yeni bir konuma gitmeyi içeren Metropolis Hastings algoritmasıdır. Bu algoritma, 1950'lerde nükleer silahların geometrilerini optimize etmek için çalışan bir grup nükleer fizikçi tarafından icat edildi ve bugün hala yaygın olarak kullanılıyor.

  • 00:30:00 Bu bölümde Philipp Hennig, bir olasılık dağılımından örnekleme yapmak için kullanılan Markov zinciri Monte Carlo algoritmasının bir türü olan Metropolis-Hastings algoritmasını tartışıyor. Algoritmanın bir teklif dağılımından çizim yaparak ve bunları olasılık yoğunluklarına göre kabul ederek veya reddederek noktaları nasıl ürettiğini gösterir. Hennig, örneklenen dağılımı etkili bir şekilde keşfetmek için uygun şekilde uyarlanmış bir teklif dağılımı kullanmanın önemini de vurguluyor. Metropolis-Hastings algoritması, algoritmayı uzun süre çalıştırma sürecinin örneklenen dağılım tarafından verilen durağan bir dağılım üretmesini sağlayan iki önemli özelliğe, ayrıntılı dengeye ve ergodisiteye sahiptir.

  • 00:35:00 Bu bölümde, Philipp Hennig en az bir durağan dağılıma sahip algoritmaların özelliklerini tartışıyor. gelecek bir nokta Algoritmanın başka bir durağan dağılıma takılıp kalmasına neden olabilecek bir yapısı olmamalıdır. Örneğin Metropolis Hastings, bu iki özelliği yerine getiren bir algoritmadır. Ancak, basit Monte Carlo'ya göre daha kötü bir orana sahiptir ve yerel rastgele çalışma davranışlarına sahip olabilir. Algoritma tarafından çekilen etkili örnek sayısının, dağılımın tamamen zıt uçlarındaki iki örnek arasındaki otoyol serbest adım uzunluğu veya serbest zaman uzunluğu ile bir ilgisi vardır.

  • 00:40:00 Bu bölümde konuşmacı Monte Carlo yöntemlerini ve bunların nasıl değerlendirileceğini tartışıyor. Dağılımın bir ucundan diğerine seyahat etmek için, uzun ve küçük uzunluk ölçekleri arasındaki oranın karesiyle orantılı olan çok sayıda adım kullanılması gerektiğini ve bunun da hala karekök olan yakınsama oranlarıyla sonuçlandığını açıklıyor. t ama önünde çok büyük bir kat var. Monte Carlo ile ilgili bir zorluğun, dağılımın şeklinin ne olduğunu bilmeden ve kırmızı noktaları referans olarak almadan sadece bu mavi noktaların istatistiklerine bakıyorsanız, bunu nasıl fark edeceğinizin tamamen açık olmadığını belirtiyor. Durum budur. Son olarak, Markov Zinciri Monte Carlo'nun "atomu" olduğunu ve x'in P olasılık dağılımından çizim yapmak için kullanılan yaygın algoritma olduğunu iddia ettiği Hamiltoniyen Monte Carlo'dan bahsediyor.

  • 00:45:00 Bu bölümde Philipp Hennig, bir olasılık dağılımından örnekler çekmek için kullanılan bir yöntem olan Hamiltoniyen Monte Carlo (HMC) kavramını açıklıyor. HMC'de değişken miktarı, mevcut değişkenin momentumunu temsil eden yeni bir değişkenle ikiye katlanır. Daha sonra momentum değişkeni, H'nin enerjiyi ve K'nin kinetik enerjiyi temsil ettiği sıradan bir diferansiyel denklemi tanımlayan bir fonksiyona göre geliştirilir. X'in zaman türevi, H'nin P'ye göre kısmi türevi tarafından verilir ve P'nin zaman türevi eksi H'nin X'e göre kısmi türevi ile verilir. X ve P, marjinal olarak X üzerindeki dağılımdan yararlanır.

  • 00:50:00 Bu bölümde, Philipp Hennig, iki mertebeden yakınsama oranlarına sahip Hoyn yöntemini kullanarak, belirli bir durumun olasılığının türevi için sıradan bir diferansiyel denklem (ODE) çözücü uygulamayı tartışıyor. Daha sonra bunu bir yazılım kitaplığı kullanmakla karşılaştırır ve çözücünün, bir şeklin logaritması tarafından verilen bir potansiyelde hareket eden ve sonuçta güzel örnekler üreten kütle 1 parçacığı olan bir Hamilton sisteminin dinamiklerini nasıl simüle ettiğini gösterir. Simüle etmek için biraz sabit sayıda adım gerektirmesine rağmen Hennig, Metropolis-Hastings planının her zaman kabul ettiğini ve algoritmanın, kısa uzunluklu ölçekler üzerinden uzun uzunluklu ölçekler tarafından verilen bir mesafede hareket etmeyen, ancak karesi olmayan adımlar attığını belirtiyor. bir karekök, sonuçta onu daha verimli bir algoritma yapıyor.

  • 00:55:00 Bu bölümde Philipp Hennig, Hamiltoniyen Monte Carlo algoritmasının nasıl çalıştığını açıklıyor. Bu algoritma, bir sabit potansiyel çizgisinde X ve P üzerindeki ortak dağılımdan yararlanır. Potansiyel çizgi, ilk momentum tarafından seçilir ve her adımda, farklı bir potansiyel çizgiye geçmek için momentum değiştirilir. Hennig, algoritmayı bir optimizasyon problemiyle karşılaştırır ve algoritmanın etkili bir şekilde çalışması için uygun şekilde seçilmesi gereken LeapFrog adımları ve delta T adlı iki parametreye sahip olduğunu not eder. Parametreler yanlış ayarlanırsa, simülasyon herhangi bir yere gitmeden ileri geri hareket ederek hesaplama kaynaklarını boşa harcayabilir.

  • 01:00:00 Bu bölümde Philipp Hennig, yüksek boyutlu dağılımlar için Monte Carlo yöntemlerinde U dönüşü fikrini ve U dönüşü Olmayan Örnekleyici (NUTS) algoritmasını tartışıyor. U dönüşü fikrinin sorunu, ayrıntılı dengeyi bozması ve algoritmanın geri gelmemesi için uzaklaşmasına neden olmasıdır. NUTS algoritması, iki Markov zincirini zıt yönlerde başlatarak ve birinin dönmeye başlamasını bekleyip ardından rastgele birini seçerek bunun üstesinden gelir. Bu, ayrıntılı dengeyi sağlar ve birçok Markov zinciri Monte Carlo algoritmasının önemli bir bileşenidir. Hennig, bu algoritmaların uygulanması karmaşık ve zor olsa da, onları anlamanın etkili bir şekilde kullanmak için çok önemli olduğunu vurguluyor.

  • 01:05:00 Bu bölümde, konuşmacı, Monte Carlo yöntemlerini kullanarak Bayes çıkarımında beklenen değerleri hesaplamaya yönelik ani yaklaşımı tartışıyor ve düşük yakınsama oranını ve yansız tahmin edicilere olan ihtiyacı vurguluyor. Bununla birlikte, konuşmacı ilk etapta yansız tahmin edicilere ve rastgeleliğe olan ihtiyacı sorgular ve ilgili miktarı rastgelelik olmadan tahmin etmenin başka yolları olabileceğini öne sürer. Konuşmacı ayrıca rastgelelik kavramına ve bunun bir Turing makinesinde hesaplanan diziler ve sonlu dizilerle ilişkisine de değiniyor.

  • 01:10:00 Bu bölümde Philipp Hennig, farklı sayı dizileri aracılığıyla rastgelelik kavramını tartışıyor. Zar tarafından üretilenler gibi bazı dizilerin, gerçekten rastgele olmasalar bile kültürel olarak rastgele olarak kabul edildiğini savunuyor. Öte yandan, pi gibi irrasyonel sayılar rastgele değildir, fakat aynı zamanda yapıdan da yoksundurlar. Ayrıca Hennig, bir tohumun bir rasgele sayı üreteci tarafından üretilen bir dizinin rasgeleliğini nasıl değiştirebileceğini açıklıyor. Son olarak, rasgele sayılar üreten fiziksel makinelerin rasgelelik açısından nasıl test edildiğini, ancak sonunda Die Hard Randomness testlerinde başarısız olduğunu tartışıyor.

  • 01:15:00 Bu bölümde, Philipp Hennig rastgeleliği ve bunun makine öğrenimiyle, özellikle de Monte Carlo yöntemleriyle ilişkisini tartışıyor. Rastgeleliğin bilgi eksikliğiyle ilgili olduğunu açıklıyor, bu yüzden kriptografi gibi birisinin bir şeyler bilmesinin önemli olduğu alanlarda uygulanabilir. Çağdaş makine öğreniminde kullanılan rastgele sayı türleri için, bu bilgi eksikliğinden bahsetmek yanlıştır. Bir Monte Carlo yöntemini kullanırken, Monte Carlo yöntemlerine güvenen bilimsel makale yazarları genellikle izleyicilerinden bilgi gizler. Taraflı olduğu için değil, kullanımı ve uygulaması kolay olduğu için kullanıyorlar.

  • 01:20:00 Bu bölümde Philipp Hennig, Markov zinciri Monte Carlo'nun (MCMC) nasıl çalıştığını ve yakınsama oranlarını bilmesek de yüksek boyutlu problemler için nispeten iyi çalıştığını açıklıyor. MCMC, rasgele sayılar kullanmaya dayanan teorik garantilere sahip olduğumuz tek algoritmadır, ancak bu yaklaşımla üretilen örneklerin karşılaştırılacak başka yöntemlerin yokluğunda yararlı olduğu kabul edilmektedir. Hennig ayrıca MCMC'nin temelde çok yavaş ve zahmetli olduğunu ve integrallere yaklaşmanın daha iyi yolları olabileceğini tartışıyor. Gelecek hafta inceleyecekleri algoritmaların tipik olarak yalnızca düşük boyutlu problemler için işe yarayacağı konusunda uyarıyor ve deterministik rasgeleliğe güvenmek yerine makine öğrenimi için başka yöntemlerin dikkate alınması gerektiğini öneriyor.
Numerics of ML 9 -- Monte Carlo -- Philipp Hennig
Numerics of ML 9 -- Monte Carlo -- Philipp Hennig
  • 2023.02.02
  • www.youtube.com
The ninth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

Ders 10 -- Bayes Dörtleme -- Philipp Hennig



ML 10'un Nümerikleri -- Bayes Dörtgeni -- Philipp Hennig

Bu videoda Philipp Hennig, Bayesian Quadrature'ı makine öğrenimindeki hesaplamalı entegrasyon sorunu için etkili bir yöntem olarak tartışıyor. Gerçek değerli bir fonksiyonun nasıl benzersiz bir şekilde tanımlanabileceğini ancak soruları doğrudan cevaplamanın zor olduğunu açıklıyor. Bayes Dördünleme, bir integral bulma problemini, bilinmeyen nesne ve hesaplanabilecek büyüklüklerin üzerine bir öncelik koyarak bir çıkarım problemi olarak ele alan ve ardından Bayes çıkarımı yapan bir çıkarım yöntemidir. Hennig ayrıca bu yaklaşımı Monte Carlo reddi ve önem örneklemesi ile karşılaştırarak Bayes Dördüllemenin klasik dördünme kurallarını nasıl geride bırakabileceğini gösteriyor. Ders, Bayesian Quadrature için Kalman filtre algoritmasını ve bunun klasik entegrasyon algoritmalarıyla bağlantısını, sayısal yöntemlerde belirsizlik tahminlerinin kullanılması üzerine bir tartışmayı kapsar. Son olarak Hennig, sayısal hesaplamanın sosyal yapısının algoritma tasarımını nasıl etkilediğini araştırıyor, belirli problemler için hesaplama yöntemleri tasarlama yöntemini ve olasılıklı makine öğreniminin hatayı gerçek zamanlı olarak nasıl tahmin edebileceğini tartışıyor.

Videonun ikinci bölümünde Philipp Hennig, bir şeyi Bayes tarzında hesaplamak için integraller ve algoritma değerleri gibi önemsediğimiz niceliklerin üzerine önceki dağılımları koymayı içeren Bayes karelemesini tartışıyor. Yöntem, klasik yöntemlerle tanımlanabilecek tahminler etrafında hem sonsal bir tahmin hem de bir belirsizlik tahmini atar. Hennig, algoritmanın gözlemlenen işleve nasıl uyum sağladığını açıklıyor ve bir sonraki değerlendirmenin nerede yapılacağını belirlemek için aktif bir öğrenme prosedürü kullanıyor. Bu algoritma daha yüksek boyutlarda çalışabilir ve bazı önemsiz olmayan akıllı yakınsama oranlarına sahiptir. Ayrıca klasik algoritmaların ve kareleme kurallarının sınırlamalarını tartışıyor ve uyarlamalı akıl yürütme yoluyla bir geçici çözüm öneriyor.

  • 00:00:00 Bu bölümde, Philipp Hennig verimli bir yöntem olarak Bayesian Quadrature'a odaklanarak makine öğrenimindeki hesaplama entegrasyonu sorununu tartışıyor. X eksi sinüs kare 3x ve X eksi x kare olmak üzere iki fonksiyonun çarpımı olan ve bir dizi karakter yazılarak benzersiz bir şekilde tanımlanabilen gerçek değerli bir fonksiyonu, f(x) tanımlar. Hennig, bu fonksiyon hakkında her şeyi bilmemize rağmen, integrallerle dolu kitaplarda bulunamayan eksi üçten artı 3'ün belirli integralinin bu fonksiyon üzerindeki değeri gibi, bu fonksiyonla ilgili her soruyu doğrudan cevaplamanın zor olduğunu açıklıyor. yeni C kitaplığı.

  • 00:05:00 Bu bölümde, Philipp Hennig, bir integral bulma problemini bilinmeyen nesnenin ve hesaplanabilecek niceliklerin üzerine bir öncelik koyarak bir çıkarım problemi olarak ele alan bir çıkarım yöntemi olan Bayes Dördünlemesini tartışıyor ve ardından Bayesian Quadrature'ı gerçekleştiriyor. çıkarım Bir öncelik koyarak, hesaplamanın olası sonuçlarının dar bir aralığına yol açan ve onu hesaplamalar için tipik hale getiren sonlu bir belirsizlikle başlarız. Yaklaşım, daha az verimli olan Monte Carlo reddi ve önem örneklemesi ile karşılaştırılır. Tahmini fonksiyon, sayının bir fonksiyonu olarak çizilebilir, bu da Bayes Dördünlemesinin integralleri çözmek için uygun bir seçenek olduğunu düşündürür.

  • 00:10:00 Philipp Hennig konuşmasının bu bölümünde olasılıksal makine öğrenimini kullanarak bir fonksiyonun integralini tahmin etmenin bir yolu olarak Bayes karelemesini tartışıyor. Bu yaklaşımı Monte Carlo yöntemiyle karşılaştırır ve fonksiyondan önce bir Gauss süreci kullanıldığını açıklar. Fonksiyonu belirli x-değerlerinde değerlendirerek, fonksiyonun integrali olan gizli değişkeni tahmin edebiliriz. Hennig ayrıca bu yaklaşımın klasik dördünme kurallarını nasıl geride bırakabileceğini de gösteriyor.

  • 00:15:00 Bu bölümde, Philipp Hennig, öğrenmeye çalıştığımız herhangi bir fonksiyon üzerindeki integralleri yaklaşık olarak hesaplamak için çekirdek üzerinden integrallerin nasıl hesaplanacağını açıklıyor. Bir önceki ortalama işlevi ve bir önceki kovaryans işlevini seçerek, bir integrali hesaplama problemini yeniden üreten çekirdek Hilbert uzayına yerleştirebiliriz. Fonksiyonun çeşitli noktalardaki değerlendirmelerini içeren hesaplamalar yoluyla, çekirdek üzerinde hesaplama integrallerini içeren çekirdek ortalama gömme ile sonuçlanırız. Bu nedenle, integrallerini kapalı formda hesaplayabileceğimiz çekirdekleri seçmeliyiz ve Hennig, örnek olarak Weiner işlem çekirdeğini seçiyor.

  • 00:20:00 Bu bölümde, Philipp Hennig Bayes Dördün sürecini tartışıyor. Süreç, önceden bir Vino sürecini, asimetrik ve durağan olmayan bir Gauss sürecini kullanmayı ve pozitif bir Gauss süreci elde etmek için bir dizi fonksiyon değeri üzerinde koşullandırmayı içerir. Bu işlemi kullanarak Monte Carlo entegrasyonundan çok daha iyi bir sonuç elde etmek mümkündür. Örneğin, 10^-7 bağıl hata elde etmek için Bayesian Quadrature 200'den az değerlendirmeye ihtiyaç duyarken, Monte Carlo entegrasyonu 10^11'den fazla değerlendirme gerektirecektir.

  • 00:25:00 Bu bölümde konuşmacı Bayes Dördünlemesinin hızını Monte Carlo simülasyonlarına kıyasla tartışıyor. Monte Carlo simülasyonları ucuz ve uygulaması kolay olsa da, Bayes Dördünlemesi de nispeten hızlıdır ve bir Kalman filtresi olarak uygulanabilir, bu da onu makine öğrenimi modellerinde kullanılmasını mümkün kılar. Konuşmacı, sürecin iki durumu arasındaki doğrusal haritayı ve entegrasyonu nasıl kodlayabileceğini, böylece stokastik diferansiyel denklemi ayrıklaştırmayı ve integral için hesaplama güncellemelerini mümkün kılacağını açıklıyor. Ders daha sonra Bayes Dördünlemesinin özelliklerini daha ayrıntılı olarak tartışmaya geçer.

  • 00:30:00 Bu bölümde, konuşmacı bir fonksiyonun integrallerini değerlendirmek için Bayes kareleme için Kalman filtre algoritmasını tanıtıyor. Algoritma, doğrusal zamanla değişmeyen sistemin deterministik ve stokastik kısımlarını temsil etmek için A ve Q matrislerini ve gözlem modelini temsil etmek için H ve R matrislerini tanımlamayı içerir. Arka ortalama, çekirdek fonksiyonlarının ağırlıklı toplamıdır ve Kalman filtresi, integralin tahminini, integralin belirsizliği küp adım uzunluğuyla birlikte artarak günceller. Algoritma doğrusal zamanda çalışır ve sonsal ortalama, işlev değerlerini enterpole eden parçalı doğrusal bir işlevdir. İntegral için tahmin, her bloktaki ortalama değerlerin toplamıdır.

  • 00:35:00 Bu bölümde Hennig, Bayes kareleme kavramını ve bunun klasik bir entegrasyon algoritması olan yamuk kuralıyla bağlantısını açıklıyor. Yamuk kuralının, karmaşık bir Gauss süreci çıkarım şemasının arka ortalaması olarak görülebileceğini ve bu özel içgörünün temel ve ortak bir sonuç olduğunu belirtiyor. Hennig ayrıca sayısal hesaplama, optimizasyon, lineer cebir veya diferansiyel denklemleri çözmek için çeşitli klasik algoritmaların hepsinin Bayesçi sonsal tahminlerle nasıl bağlantıları olduğunu tartışıyor. Ek olarak, sayısal hesaplamanın, belirsizliği olan sayısal büyüklükler için en küçük kareler tahminlerini içerdiğinden Gauss çıkarımı olarak düşünülmesi gerektiğini vurgular ve sayısal yöntemlerle uğraşırken belirsizlik tahminlerini kullanmanın avantajlı olabileceğini öne sürer.

  • 00:40:00 Bu bölümde Philipp Hennig, sayısal algoritmaların karar verme yönünü ve hangi hesaplamaların gerçekleştirileceğine karar verdiği için yapay zeka algoritmasına nasıl benzediğini tartışıyor. Ortaya çıkan bir soru, değerlendirme noktalarının nereye koyulacağıdır ve bunun yanıtı Bayesci çıkarım problemlerinde bulunabilir. Kesinliğe yaklaşmak için bir olasılık dağılımı tanımlayarak, kesinliği veya belirsizliği tanımlayan bir miktar bulabilir ve onu manipüle edebiliriz. İntegral üzerindeki olası dağılımın varyansı için amaç, bunu en aza indirmektir; bu, tüm Delta J'leri Delta n eksi bire eşitleyerek yapılabilir, bu da düzenli bir entegrasyon düğümleri ızgarasını gösterir. Ek olarak, entegrasyon alanının her iki ucunda da entegrasyon düğümlerine sahip olmanın gerekliliği tartışılmıştır.

  • 00:45:00 Bu bölümde konuşmacı, önceden bir Gauss sürecine dayalı olarak değerlendirme düğümlerinin nereye yerleştirileceğine yönelik bir tasarım elde etmek için Bayes Dördünleme algoritmasının nasıl kullanılabileceğini açıklar. Algoritma, önceden kullanılana bağlı olarak farklı tasarımlar sağlayabilir ve değerlendirme düğümleri, basit bir Maksimum Bilgi Kazanımı politikasına göre seçilebilir. Yamuk kuralı, bir Bayes tahmini olarak düşünülebilir, burada arka ortalama, integralden önceki belirli bir Gauss sürecinden kaynaklanan sabırlı bir tahmindir. Algoritma bir hata tahmini sağlar, ancak tahmin doğru değildir ve gerçek ile tahmin edilen hata arasında önemli bir boşluk vardır. Bununla birlikte, yamuk kuralı yüzlerce yıldır var ve algoritma mutlaka kusurlu değil. Yamuk kuralının sorgulanması gereken bazı özellikleri olabilir.

  • 00:50:00 Bu bölümde, Philipp Hennig varyans tahminlerini ve bunların Bayes karelemesiyle ilişkisini tartışıyor. Hata tahmininin, beklenen kare hatanın karekökü olan standart sapma olduğunu açıklıyor. Toplamda "i" olmadığından, sabit bir adım boyutu kullanmak toplamın hesaplanmasını kolaylaştırır. Teorem, bu yamuk kuralı için yakınsama oranının O/1 bölü N kare olduğunu belirtir. Ancak, matematikte gizli varsayımlar vardır. Bir Wiener sürecinden alınan örnek yollar, hemen hemen her yerde ayırt edilemedikleri için son derece kaba davranışlara sahiptir ve öncekinin varsayımını geçersiz kılar.

  • 00:55:00 Bu bölümde, Philipp Hennig sayısal algoritmalar kullanarak kaba, türevlenemeyen fonksiyonları entegre etme problemini tartışıyor. Yamuk kuralı gibi çok kaba işlevler üzerinde çalışmak üzere tasarlanmış algoritmaların, entegre ettikleri işlev çok daha yumuşaksa olabilecekleri kadar verimli olmayabileceğini açıklıyor. Hennig, algoritmaların geniş bir problem sınıfı üzerinde çalışacak şekilde tasarlandığı sayısal hesaplamanın sosyal yapısının, herhangi bir bireysel problem üzerinde özellikle iyi çalışmayan aşırı genel yöntemlere yol açabileceğini öne sürüyor. Bununla birlikte, bu algoritmaların nasıl çalıştığını anladıktan sonra, yeterince önemliyse, belirli bir problem için bir hesaplama yöntemi tasarlamanın mümkün olduğunu belirtiyor. Ayrıca, olasılıksal makine öğreniminden gelen fikirleri kullanarak, algoritma çalışırken hata ölçeğinin nasıl tahmin edilebileceğini tartışıyor.

  • 01:00:00 Bu bölümde, Philipp Hennig bazı veriler verildiğinde kovaryans matrisinde bilinmeyen bir sabitin ölçeğinin nasıl tahmin edileceğini tartışıyor ve eşlenik öncelikler kavramını tanıtıyor. Üstel aile olasılık dağılımları için, bir Gauss dağılımının varyansını tahmin etmek için kullanılabilen, gama öncüsü gibi her zaman bir eşlenik öncül olduğunu açıklar. Hennig, Guinness için bira üreticisi olarak çalışırken bu yöntemi bulan ve bir bira fıçısından numunelerin dağılımını tahmin etmek zorunda kalan William C Lee Gossett'in hikayesini anlatıyor. Bu yöntem, önceki ve olasılığın birlikte çarpılmasını ve gözlemlere veya fonksiyon değerlerine dayalı yeni parametrelerle gama dağılımıyla aynı cebirsel formu elde etmek için sonuçların normalleştirilmesini içerir.

  • 01:05:00 Bu bölümde, Philipp Hennig bir parametrenin son konsantrasyonunun ve öğrenci T dağılımının nasıl tahmin edileceğini açıklıyor. Yöntem, ölçeğin geniş bir şekilde başladığı ve daha fazla gözlem toplandıkça daha konsantre hale geldiği Bayes Dördünleme olarak adlandırılır. Sonuçlar, başlangıçta gözlemlerdeki artışın ardından dağılımın daraldığı bir grafikte gösterilir. Hennig, bu pürüzsüz fonksiyonla ilgili önceki varsayımların bu problem için çok muhafazakar olduğuna ve entegrasyon için çok daha akıllı algoritmalar olduğuna dikkat çekiyor, örneğin Legendre polinomlarıyla genişleyen özellik kümelerine sahip Gauss kareleme gibi çok iyi çalışıyor.

  • 01:10:00 Bu bölümde Hennig, -1'den 1'e kadar bizim alanımız gibi sınırlı alanlarda integral almanın klasik bir yolu olan Bayes karelemeyi tartışıyor. bir süper polinom yakınsama ağırlığı, ancak bu yalnızca gerçekten düzgün olan işlevler için çalışır. Sağdaki grafikte görülen yeşil çizgi, belirli Gauss ön varsayımları altında bazı arka ortalama tahminlerine de karşılık gelebilir. Bu makalenin sonucu çoğunlukla sayısal entegrasyona yönelik iki farklı yaklaşım arasındaki ilişkiyi açıklığa kavuşturmaya yönelik teorik ilgi için olsa da, bu tür problemler için çok iyi olan ve farklı türler için farklı temellere sahip birçok yapıyla gelen klasik algoritmalar vardır. entegrasyon sorunları. Bu kareleme kuralları, ortogonal polinomlar ve bir ağırlıklandırma fonksiyonu kullanılarak belirli bir biçimde yazılabileceğini varsayarak integrale yaklaşır ve W ve entegrasyon alanına bağlı olarak Phi için belirli seçenekler vardır.

  • 01:15:00 Bu bölümde, konuşmacı farklı türde Chebyshev polinomlarını ve bunların tek değişkenli fonksiyonlar için sayısal integrallerin hesaplanmasındaki kullanımlarını tartışıyor. Konuşmacı ayrıca bir hasta çıkarım kuralı için bir önsel belirlerken entegrasyon alanını, fonksiyon şeklini ve önceliği dikkate almanın neden önemli olduğunu açıklar. Konuşmacı, klasik entegrasyon algoritmalarının ve kareleme kurallarının bir tür Gauss arka ortalama tahmini olarak düşünülebileceğini ve bu algoritmalar tarafından yapılan seçimlerin bilgi teorik argümanları tarafından motive edilebileceğini belirtiyor. Konuşmacı, klasik kareleme kurallarının tek boyutlu integraller için iyi çalışırken, daha yüksek boyutlu problemlerin Monte Carlo algoritmaları gibi daha karmaşık yaklaşımlar gerektirdiğini belirterek sözlerini bitiriyor.

  • 01:20:00 Bu bölümde, konuşmacı önceki bölümde gösterilen yöntemlerin boyutlulukta ölçeklendirme konusundaki sınırlamalarını tartışıyor. Bu yöntemler, boyutsallıkta üstel olan bir performans düşüşüne sahip olma eğilimindedir, çünkü bir değerlendirme ağının üretilmesi gerekir, yani etki alanını noktalarla kaplamaları gerekir. Bu problemlidir çünkü Gauss süreçleri öncül olarak kullanılmaktadır ve bunların sonraki belirsizliği görülen sayılara bağlı değildir, yalnızca değerlendirmelerin yapıldığı yerdedir. Sonuç olarak, bu entegrasyon yöntemleri uyarlanabilir değildir ve daha yüksek boyutlarda ölçeklenebilirliklerini sınırlar. Bu sorunun üstesinden gelmek için, uyarlamalı muhakeme yoluyla bazı noktaların diğerlerinden daha bilgilendirici olduğu gerçeği hakkında akıl yürütebilen yeni algoritmalara ihtiyaç vardır.

  • 01:25:00 Bu bölümde Philipp Hennig, negatif olmayan değerleri kodlamak için Gauss süreçlerinin sınırlamalarını tartışıyor ve asıl işlevin karesini alan yeni bir işlev tanımlayarak bir geçici çözüm öneriyor. Ortaya çıkan dağılım Gauss değildir ve bir Gauss süreci ile yaklaşık olarak tahmin edilebilen stokastik bir süreç tarafından tahmin edilir. Ortaya çıkan algoritmaya warp sıralı aktif Bayes entegrasyonu anlamına gelen Wasabi adı verilir. Büyük fonksiyon değerlerinin beklendiği yerlerde adaptif olarak belirsizlik ekleyen ve yaklaşık sayısal algoritmaların oluşturulmasına izin veren olasılıksal bir formülasyondur. Mavi renkteki fayda fonksiyonu, fonksiyon değerleri üzerindeki sonsal belirsizliği temsil eder.

  • 01:30:00 Bu bölümde, Philipp Hennig sayısal entegrasyon için bir algoritma olan Bayes Dördünleme kavramını tartışıyor. Hennig, algoritmanın gözlemlenen işleve nasıl uyum sağladığını açıklıyor ve bir sonraki değerlendirmenin nerede yapılacağını belirlemek için bir Aktif Öğrenme prosedürü kullanıyor. Bu algoritma daha yüksek boyutlarda çalışabilir ve bazı önemsiz olmayan akıllı yakınsama oranlarına sahiptir. Hennig ayrıca bu algoritmayı Monte Carlo algoritmalarıyla karşılaştırır ve ön bilginin algoritmanın performansını artırabileceğini savunur. Ayrıca, Noel'den sonra tartışılacak olan Monte Carlo'nun ötesinde daha iyi bir algoritma olasılığına da işaret ediyor.

  • 01:35:00 Bu bölümde Philipp Hennig, bir şeyi Bayes tarzında hesaplamak için integraller ve algoritma değerleri gibi önemsediğimiz niceliklere ön dağılım koymayı içeren Bayes karelemesini tartışıyor. Yöntem, klasik yöntemlerle tanımlanabilecek tahminler etrafında hem sonsal bir tahmin hem de bir belirsizlik tahmini atar. Hata tahminlerinin kötü olması, hesaplamaya ilişkin olasılıkçı görüşün yanlış olduğu anlamına gelmez, daha ziyade önceki varsayımlar kümesinin kötü olduğu anlamına gelir. Daha fazla ön bilgi kullanarak ve sayısal algoritmaları otonom aracılar olarak ele alarak, daha fazla bilgi çıkarabilir ve algoritmaları daha hızlı hale getirebilir ve daha iyi çalışabiliriz.
Numerics of ML 10 -- Bayesian Quadrature -- Philipp Hennig
Numerics of ML 10 -- Bayesian Quadrature -- Philipp Hennig
  • 2023.02.02
  • www.youtube.com
The tenth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...