Makine Öğrenimi ve Sinir Ağları - sayfa 4

 

Ders 6 - Genelleme Teorisi




Caltech'in Makine Öğrenimi Kursu - CS 156. Ders 06 - Genelleme Teorisi

Ders, genelleme teorisini ve büyüme fonksiyonunu, tüm büyüme fonksiyonunu karakterize etmek ve kırılmayı karakterize ederek her N için genelleme yapmak amacıyla, bir dizi N nokta üzerine kurulu bir hipotez tarafından üretilebilen ikiliklerin sayısı olarak tartışır. nokta. Konuşmacı, farklı hipotez kümeleri için büyüme fonksiyonunu hesaplama ve kombinatoryal özdeşliği kullanarak büyüme fonksiyonu için üst sınırı kanıtlama sürecini gösterir. Tartışma ayrıca, Hoeffding eşitsizliğinde büyüme fonksiyonunun kullanımına da değiniyor, hipotezler arasındaki örtüşmeleri karakterize etmek için bağlı VC ve kırılma noktası tarafından belirlenen polinomun sırası ile N'de polinom olan Vapnik-Chervonenkis eşitsizliği.

Profesör, önceki noktaları netleştirerek ve öğrenme için gerekli kaynakları hesaplamak için kullanılan kırılma noktası kavramını açıklayarak genelleme teorisini tartışır. Öğrenmenin odak noktası, E_in'e değil, E_out'a yaklaşımdır ve öğrencinin tanıdık niceliklerle çalışmasına izin verir. Profesör ayrıca M'yi büyüme fonksiyonuyla değiştirmenin ardındaki mantığı ve bunun N ve k'nin kombinatoryal miktarı B ile nasıl ilişkili olduğunu açıklıyor. Profesör, regresyon fonksiyonlarını tartışırken yanlılık-varyans değiş tokuşunu ve öğrenilebilirliğin hedef fonksiyondan nasıl bağımsız olduğunu vurguluyor. Son olarak profesör, aynı ilkelerin tüm işlev türleri için geçerli olduğunu belirtiyor.

  • 00:00:00 Bu bölümde, sonlu bir nokta kümesiyle ve büyüme fonksiyonuyla sınırlı mini hipotezler olarak ikilemleri öğreniyoruz. Büyüme işlevi, bir dizi N nokta üzerinde kurulan bir hipotez tarafından üretilebilecek ikiliklerin sayısını sayar. Algılayıcılar için kırılma noktası, sınırlı bir kümeden hipotezlerin kullanılması nedeniyle örüntülerin gözden kaçmaya başladığı nokta olarak tanımlanır. Teorik amaç, tüm büyüme fonksiyonunu karakterize etmek ve kırılma noktasını karakterize ederek her N için genelleştirmektir. Ayrıca, birkaç noktadaki örüntü sayısındaki kısıtlamanın, hipotez kümesinden ve girdi alanından bağımsız olarak, daha fazla sayıda nokta için birçok örüntünün kaybına yol açtığını görüyoruz.

  • 00:05:00 Bu bölümde öğretim görevlisi iki öğeyi tartışıyor: ilki büyüme fonksiyonunun kırılma noktalı bir polinom olduğunu gösteriyor ve ikincisi Hoeffding eşitsizliğinde hipotez sayısı olan M'nin yerini alıyor. Öğretim üyesi, büyüme fonksiyonunun ayrıntılarını belirlemelerine gerek olmadığını, ancak Hoeffding eşitsizliğinde kullanılabilmesi için sadece bir polinomla sınırlı olduğunu göstermeleri gerektiğini vurgular. Öğretim görevlisi, B of N ve k adlı bir anahtar nicelik sunar; bu, k kırılma noktasıyla N noktadaki maksimum ikilik sayısını temsil eden kombinatoryal bir niceliktir. B'nin N, k sınırı, bir tabloyu N noktayla doldurarak ve bir özyineleme getirmek için son noktayı izole ederek özyinelemeli olarak bulunur.

  • 00:10:00 Bu bölümde konuşmacı, bir ikili dizinin uzantısını temsil eden bir matrisin satırlarının nasıl gruplanacağını tartışır. İlk grup olan S_1, uzantıya göre yalnızca bir kez görünen satırlardan oluşur. İkinci grup olan S_2, her iki uzantıyla birlikte görünen satırlardan oluşur. Bu gruplandırmaları kullanarak, konuşmacı S_1 grubundaki satır sayısını alfa ve S_2 grubundaki satır sayısını beta olarak tanımlar. Bu tanımlarla, konuşmacı N noktada elde edilebilecek maksimum satır/desen sayısı için bir yineleme bulabilir, öyle ki hiçbir k sütun tüm olası örüntülere sahip değildir.

  • 00:15:00 Dersin bu bölümünde, konuşmacı genelleme teorisini ve betanın nasıl tahmin edileceğini tartışır. S_2 matrisinin tekrarlanan örüntü bloklarını içeren ikinci bölümünü analiz ederek, bu örüntü bloklarının k değil, k eksi 1'lik bir kırılma noktasına sahip olduğunu öne sürebileceğini açıklıyor. Ayrıca, mini matristeki toplam satır veya desen sayısı olan alfa artı beta alarak, bu küçük matris için bir kırılma noktası hakkında bir şeyler söyleyebileceğini açıklıyor. Hepsini bir araya getirerek tam matrisi ve satır sayısını tahmin edebileceğini söyleyerek bitirir.

  • 00:20:00 Bu bölümde, konuşmacı bir matrisi analiz eder ve B'nin N ve k üzerindeki bir üst sınırını çözmek için bir özyineleme formülü türetir; burada B of N ve k, kırılmalı bir hipotez setinin maksimum büyüme fonksiyonudur k noktası Yineleme formülünü kullanarak B of N ve k değerlerini hesaplayarak, konuşmacı bir tabloyu B of N ve k üzerinde bir üst sınırla doldurur. Önce tablonun sınır koşulları doldurulur ve ardından tablonun geri kalanı özyineleme formülü kullanılarak doldurulur.

  • 00:25:00 Bu bölümde, konuşmacı genelleme teorisini tartışır ve belirli sayıda nokta (N) ve bir kırılma noktası (k) verilen maksimum ikilik veya kalıp sayısını temsil eden bir tablo hakkında konuşur. Konuşmacı, tablonun nasıl doldurulacağını ve kısıtlamanın nasıl boş olabileceğini açıklar. Ek olarak, hipotez seti veya girdi uzayı hakkında herhangi bir soru sormadan, kırılma noktası k olan herhangi bir hipotez setinin büyüme fonksiyonu için bir üst sınır olacak maksimum dikotomi veya örüntü sayısını hesaplayan bir formül sunarlar.

  • 00:30:00 Bu bölümde öğretim görevlisi, N ve k formülü üzerinde bir teoremi kanıtlamak için tümevarım adımını tartışıyor. Adım, formülün verilen N ve k değerleri için geçerli olduğunu varsaymayı ve ardından N-1 ve k-1 için de geçerli olduğunu kanıtlamayı içerir. Öğretim görevlisi, cebir veya kombinatoryal argümanlar kullanarak iki formülü manipüle etme, toplamları birleştirme ve bunları tek bir niceliğe indirgeme sürecini gösterir. Amaç, verilen formülün önceden varsayılan değerleri içeren tüm N ve k değerleri için geçerli olduğunu belirlemek ve buradan teorem kanıtlanmıştır.

  • 00:35:00 Bu bölümde konuşmacı, kombinatoryal özdeşlik kullanarak k kırılma noktasına sahip bir hipotez kümesi için büyüme fonksiyonu olan N ve k'nin B'sinin üst sınırını kanıtlama sürecini açıklıyor. Ortaya çıkan polinom kullanışlıdır çünkü kırılma noktası sabit bir sayıdır ve N ile büyümez. Konuşmacı daha sonra maksimum gücün N üzeri k eksi 1 olduğunu göstererek üst sınırın N'de polinom olduğunu gösterir; devamlı. Son olarak, konuşmacı üst sınırı üç hipotez seti örneğine uygular ve hepsinin sınırı karşıladığını gösterir.

  • 00:40:00 Bu bölümde, öğretim görevlisi pozitif ışınlar ve pozitif aralıklar için büyüme fonksiyonunu hesaplamayı tartışıyor. Gereken tek girdi olan kırılma noktasını kullanarak, hipotez setinin geometrisini dikkate almadan büyüme fonksiyonunu bulabilmektedir. Öğretim görevlisi daha sonra bu yöntemi, büyüme fonksiyonunun bilinmediği ancak kırılma noktasının 4 olduğu bilinen iki boyutlu algılayıcıya uygular. Kırılma noktasını kullanarak, büyüme fonksiyonunu tamamen bağlayabilir ki bu önemlidir. hipotez setlerinin karakterizasyonunu basitleştirmede. Öğretim görevlisi daha sonra bu büyüme fonksiyonunun Hoeffding eşitsizliğinde, M anlamlı veya sonsuz olduğunda neredeyse yararsız olan birleşim sınırını kullanan hipotez sayısını değiştirmek için nasıl kullanılabileceğini açıklar.

  • 00:45:00 Bu bölümde öğretim elemanı büyüme fonksiyonunun polinom sınırlılığının resimli ispatını açıklar. Olası veri kümelerinin alanı tüm eksenleri kapsar ve renkli alan, belirli veri kümeleri nedeniyle E_in'in E_out'tan saptığı kötü bölgeyi temsil eder. Öğretim görevlisi, bu kötü bölgeyi kırmızıya boyayarak ve Hoeffding eşitsizliğini kullanarak, renkli alanın küçük olduğunu göstererek, birliğin birden fazla hipotez olasılığını iddia etmesine izin verir. Bununla birlikte, daha fazla hipotez eklendiğinde, renkli alan tuvali doldurur ve birleşim sınırı sorununa yol açar. Öğretim görevlisi daha sonra, büyüme işlevi ile örtüşmeler arasındaki ilişkiyi kurmak için gereken iki yönü ve sonlu örnek argümanına uyması için E_out yaklaşımını açıklar.

  • 00:50:00 Bu bölümde öğretim görevlisi, hipotezler arasındaki örtüşmeleri karakterize etmek için yeni bir tuval olarak VC sınırını tanıtıyor. Büyüme fonksiyonunun bu örtüşmeleri karakterize eden soyut bir nicelik olduğunu açıklıyor ve size aynı şekilde davranan ikiliklerin sayısını söylüyor. Öğretim görevlisi fazlalığın büyüme fonksiyonu tarafından yakalandığını ve renklendirilen noktanın sadece örneğe değil tüm uzaya bağlı olduğunu açıklar. Öğretim görevlisi, tüm hipoteze dayanmadan E_out ve E_in'i izlemek için aynı dağılımdan bağımsız olarak oluşturulmuş bir yerine iki örnek seçerek bunun üstesinden gelir.

  • 00:55:00 Bu bölümde konuşmacı, iki farklı örnek olan E_in ve E_in dash arasındaki takip kavramını ve birbirini takip edip etmediğini tartışır. Birden çok bölme kullanılırsa, E_out ve E_in arasındaki bağ giderek gevşer. Ayrıca kutu sayısı arttıkça gevşek bir şekilde ayrılırlar. Birden fazla hipotezin matematiksel sonuçları, burada bir kutu için olduğu gibi gerçekleşir. Konuşmacı ispatın teknik detaylarını anlatırken, epsilon bölü 2 olur ve sonra epsilon bölü 4 olur. Fişe takıldığında, epsilon kare bölü 16 olur, sonuç 1/8'dir. Elde edilen sonuca Vapnik-Chervonenkis eşitsizliği denir ve bu eşitsizlik N'de polinomdur ve polinomun sırası kırılma noktasına göre belirlenir.

  • 01:00:00 Video dersinin bu bölümünde, moderatör profesörden önceki slaytlarda belirtilen bazı noktaları netleştirmesini ister. Profesör, 5. slaytta seçilen N noktanın, makine öğrenimindeki bir girdi alanındaki belirli bir nokta kümesine karşılık geldiğini, ancak soyutlamada bunların yalnızca soyut etiketler olduğunu açıklıyor. Profesör ayrıca derste alfa ve beta kullanımlarının yalnızca bir adlandırma kuralı olduğunu ve ikisinin göreli değerleri hakkında hiçbir iddia olmadığını açıklıyor. Son olarak, profesör, kırılma noktasının girdi uzayını ve hipotez setini ziyaret ederek ve belirli bir hipotez seti için mümkün olan her şekilde ayrılamayan maksimum nokta sayısının ne olduğunu bularak hesaplandığını açıklar.

  • 01:05:00 Bu bölümde profesör, çoğu öğrenme modeli için kesin veya sınır kırılma noktalarının zaten belirlendiğini, yani öğrenme için gereken kaynakların öğrenme sürecine başlamadan önce tahmin edilebileceğini açıklıyor. Sınırların sıkı olmadığı durumlar olsa da çoğu durumda büyüme fonksiyonunun tam tahmini ile ikinci dereceden sınır arasındaki tutarsızlık ihmal edilebilir düzeyde olacaktır. Ders, öğrenmenin odak noktasının E_in'in gerçek değeri üzerinde değil, öğrencinin tanıdık niceliklerle çalışmasını sağlayarak E_out'a yaklaşması olduğunu vurgular. Son olarak profesör, dinleyicilere öğrenme teorilerini anlamak için bir yapı taşı olan VC boyutunun bir sonraki derste ayrıntılı olarak ele alınacağını garanti eder.

  • 01:10:00 Bu bölümde profesör, M yerine büyüme işlevinin getirilmesinin gerekçesini ve ifadenin teknik gerekliliklerini yerine getirmek için yapılması gereken değişiklikleri açıklıyor. Profesör ayrıca, N ve k'nin B'sinin tanımını netleştirerek, bunun bir kırılma noktasına sahip herhangi bir hipotez kümesi için nasıl bir üst sınır olduğunu ve bunun nasıl tamamen kombinatoryal bir nicelik olduğunu ayrıntılarıyla açıklıyor. Profesör daha sonra N ve k'nin B'sinin ispatıyla ilgili bir soruyu ele alır ve k'nin x_N'yi x_N-1'e indirgediğinde değişmediğini çünkü daha küçük kümenin hiçbir k sütununun tüm olası modellere sahip olamayacağını belirtir. Son olarak, profesör, analiz ve VC analizinin, gerçek değerli fonksiyonlara genişletilebilmesine rağmen, ikili fonksiyonlara uygulanabilir olduğunu not eder.

  • 01:15:00 Bu bölümde profesör, regresyon fonksiyonlarını tartışırken öğrenilebilirlik üzerine teknik uzantılara girmek yerine nasıl farklı bir yaklaşımı, sapma-varyans değiş tokuşunu kullanmayı tercih edeceğini tartışıyor. Ayrıca öğrenilebilirliğin hipotez seti ile ilgili koşullar altında kanıtlandığını ve hedef fonksiyondan bağımsız olduğunu açıklar. Genelleme sorusunun hedef işleve bağlı olmadığını, ancak kullanıcıyı mutlu etmek için E_in'in en aza indirilip küçültülemeyeceği sorusunun hedef işleve bağlı olduğunu açıklamaya devam ediyor. Son olarak profesör, işlevin türü ne olursa olsun aynı ilkelerin geçerli olduğunu belirtir.
Lecture 06 - Theory of Generalization
Lecture 06 - Theory of Generalization
  • 2012.04.21
  • www.youtube.com
Theory of Generalization - How an infinite model can learn from a finite sample. The most important theoretical result in machine learning. Lecture 6 of 18 o...
 

Ders 07 - VC Boyutu




Caltech'in Makine Öğrenimi Kursu - CS 156. Ders 07 - VC Boyutu

Ders, bir hipotez seti tarafından parçalanabilecek maksimum nokta sayısı olan VC boyutu kavramını tanıtmakta ve pratik uygulamalarını açıklamaktadır. VC boyutu, bir modelin serbestlik derecesini temsil eder ve bir modeldeki parametre sayısıyla olan ilişkisi tartışılır. Farklı hipotez kümeleri için VC boyutunun nasıl hesaplanacağını göstermek için örnekler verilmiştir. İhtiyaç duyulan örnek sayısı ile VC boyutu arasındaki ilişki araştırılmış ve ikisi arasında orantılı bir ilişki olduğuna dikkat çekilmiştir. VC boyutunu artırmanın bir öğrenme algoritmasının performansı üzerindeki etkileri de tartışılmaktadır. Genel olarak, ders, VC teorisine ve bunun makine öğrenimi için pratik sonuçlarına ilişkin içgörüler sağlar.

Ayrıca video, makine öğreniminde hipotez kümesi boyutu ile iyi genelleme arasındaki ödünleşimi gösteren olumlu bir ifade olan genelleme kavramını ve genelleştirme sınırını kapsar. Profesör, ilk kırılma noktasından önceki en büyük değer olan VC boyutunu ve gerekli örnek sayısını tahmin etmek için nasıl kullanılabileceğini açıklıyor. Doğru hata ölçüsünü seçmenin önemine dikkat çekiyor ve VC boyut tahmininin, modelleri karşılaştırmak ve gereken örnek sayısını yaklaşık olarak tahmin etmek için kullanılabilecek gevşek bir tahmin olduğunu açıklıyor. Ders, bu materyal ile deney tasarımı konusu arasındaki ortak noktaları ve öğrenme ilkelerinin katı öğrenme senaryolarının ötesindeki diğer durumlara nasıl yayıldığını vurgulayarak sona erer.

  • 00:00:00 Bu bölümde öğretim görevlisi, makine öğrenimindeki genellemeyi karakterize eden VC (Vapnik-Chervonenkis) eşitsizliği olan öğrenme teorisindeki önceki dersin ana sonucunu özetler. Hoeffding eşitsizliğinden VC eşitsizliğine geçmek için gereken fazlalığı karakterize eden büyüme fonksiyonu tanıtıldı ve örtüşen bölgelerle kötü olaylarla ilişkilendirildi. E_out ile ilgili teknik problem çözüldü ve büyüme fonksiyonu, M hipotezlerinin sayısını değiştirmek için kullanıldı. Daha sonra, kırılma noktasıyla ilgili olan VC boyutu, herhangi bir boyutlu uzaydaki algılayıcılar için tam olarak tanımlanır ve hesaplanır. VC boyutunun yorumlanması ve pratik uygulamaları da tartışılmaktadır.

  • 00:05:00 Bu bölümde, bir hipotez seti tarafından parçalanabilecek maksimum nokta sayısı olarak VC boyutu kavramı tanıtılmaktadır. VC boyutu, d_VC olarak gösterilir ve büyüme fonksiyonu 2 üzeri N olacak şekilde N'nin en büyük değeridir. VC boyutunun, her N noktanın parçalanabileceğini garanti etmediğini, yalnızca var olduğunu garanti ettiğini not etmek önemlidir. Parçalanabilecek N nokta. Bu bölüm, belirli bir hipotez seti için VC boyutunun nasıl hesaplanacağını göstermek için pozitif ışınlar ve 2B algılayıcılar gibi örnekler sağlar. VC boyutu, bir hipotez setinin büyüme fonksiyonunu sınırlamak için kullanılır ve büyüme fonksiyonunu sınırlayan polinomun sırası olarak hizmet eder.

  • 00:10:00 Bu bölümde, dışbükey kümelerin VC boyutuna ve bunun öğrenmeyle ilişkisine odaklanılmaktadır. VC boyutu, bir hipotez seti tarafından parçalanabilecek maksimum nokta sayısını temsil eder. VC boyutu sonluysa, kullanılan girdi dağılımına veya öğrenme algoritmasına bakılmaksızın nihai hipotez genelleşecektir. Hedef fonksiyonu, öğrenme algoritmasını ve girdi dağılımını içeren öğrenme diyagramı, VC teorisinin öğrenme algoritmasından ve hedef fonksiyondan bağımsız olduğunu ve sadece hipotez setine bağlı olduğunu göstermektedir. Genel olarak, VC teorisinde üç blok vardır: hipotez, hipotez seti ve VC boyutu.

  • 00:15:00 Bu bölümde, VC boyutuna sahip olan ve bize genelleme yapıp yapamayacağımızı söyleyen küme olduğu için tüm VC teorisinin ele aldığı hipotez seti olan algılayıcıların VC boyutunu öğreniyoruz. . İki boyutlu uzayda algılayıcıların VC boyutu üç olmasına rağmen, basit bir formül d boyutlu uzayda VC boyutunun d artı bir olduğunu belirtir. Bu, VC boyutunun önemini anlamak için önemlidir ve bunu VC boyutunun en fazla d artı bir ve en az d artı bir olduğunu göstererek kanıtlayacağız. Göstermek için, onları parçalamak mümkün olduğu sürece parçalanacak bir matris kullanarak belirli bir N nokta kümesi (N, d artı birdir) oluşturacağız.

  • 00:20:00 Bu bölümde, öğretim görevlisi belirli bir d artı 1 puan kümesi gösterir ve tersinir bir matris kullanılarak parçalanabileceklerini gösterir. Daha sonra izleyicilere VC boyutu hakkında bir soru sorar ve onlardan gösterinin sonuçlarına dayanarak hangi sonuca varabileceklerini seçmelerini ister. Doğru cevap, VC boyutunun d artı 1'den büyük veya ona eşit olduğunu belirten b'dir.

  • 00:25:00 Bu bölümde, profesör VC boyutunun en fazla d artı 1 olduğunu nasıl kanıtlayacağını tartışıyor. Dinleyicilere birkaç ifadeden hangisinin önermeyi oluşturacağını soruyor ve "d" ile yanıt veriyorlar. Parçalayamayacağı bir d artı 2 nokta kümesi olduğunu göstermesi gerektiğini ve bunu, d artı 2 nokta kümesi için her zaman diğerlerinin doğrusal birleşimi olan bir nokta olacağını göstererek yapıyor. Bu nedenle, bir algılayıcı ile uygulanamayacağını gösterdiği bir ikilik oluşturur.

  • 00:30:00 Videonun bu bölümünde konuşmacı, temelde belirli noktalara +1 veya -1 etiketleri atayan bir algılayıcıdaki ikilik kavramını açıklıyor. Cebirsel özelliklerin kullanılmasıyla, VC boyutu d artı 1 olan herhangi bir d artı 2 nokta kümesini parçalamanın imkansız olduğu gösterilmiştir. Bunun nedeni, algılayıcı modelindeki d artı 1 olan parametre sayısıdır. ve VC boyutu parçalanabilecek maksimum nokta sayısını verir.

  • 00:35:00 Bu bölümde ders, VC boyutu kavramını ve yorumunu tanıtır. VC boyutu, bir modelin serbestlik derecesinin ve sahip olduğu parametre sayısıyla ilişkisinin bir ölçüsüdür. Ders, bu serbestlik derecelerini, daha fazla düğmenin size ses üzerinde daha fazla kontrol sağlayabildiği, ancak etkili bir şekilde kullanılması zor olabilen bir ses sistemindeki düğmelerle karşılaştırır. Ders, VC boyutunun bir model içindeki matematiğin ayrıntılarını soyutladığını ve onun ifade gücüne odaklandığını açıklar. Ders ayrıca, VC boyutu ile pozitif ışınlar gibi çeşitli modellerin serbestlik dereceleri arasındaki yazışmayı tartışarak, bir parametreli bir modele karşılık gelen bir serbestlik derecesi olduğunda VC boyutunun bire eşit olduğunu gösterir.

  • 00:40:00 Bu bölümde öğretim görevlisi serbestlik derecelerini ve bunların VC boyutuyla olan ilişkisini basit modeller bağlamında tartışır. VC boyutu, bir model tarafından elde edilebilecek hipotezlerin sayısını sayarken, parametre sayısına eşit olmak zorunda değildir. Öğretim görevlisi, yapay bir örnek oluşturarak, parametrelerin her zaman serbestlik derecelerine katkıda bulunmayabileceğini gösterir. Bunun yerine, etkin serbestlik dereceleri VC boyutuyla daha güvenilir bir şekilde ölçülebilir ve öğretim görevlisi, sekiz parametreli bir modelin gerçekte nasıl sadece iki parametreli bir modelle aynı VC boyutuna sahip olabileceğini gösterir. Son olarak öğretim görevlisi, uygulayıcıların bir sistem için gereken veri noktalarının sayısıyla ve bunun hipotez setinin VC boyutuyla nasıl ilişkilendirilebileceğiyle ilgilenebileceğini belirtiyor.

  • 00:45:00 Bu bölümde konuşmacı, gereken örnek sayısı ile VC boyutunun değeri arasındaki ilişkiyi tartışır. VC eşitsizliği, olabildiğince küçük olmasını istedikleri iki küçük performans miktarına sahiptir. Bunlardan biri E_out'tan çok uzak olmayan E_in, diğeri ise değeri küçük olan delta. Konuşmacı, belirli epsilon ve delta değerlerine karar verdikten sonra, bunları elde etmek için gereken örnek sayısının nasıl belirleneceğini, N üzeri VC boyutu çarpı e üzeri -N'nin bir grafik üzerinde çizilen işlevine bakarak açıklar. Eğrinin ilginç kısmı, olasılığın 1'den az olduğu yerdir ve konuşmacı daha sonra VC boyutunu 4'ten 5'e çıkarmanın sonuçlarını araştırır.

  • 00:50:00 Bu bölümde öğretim görevlisi, bir veri kümesindeki örnek sayısı ile bir öğrenme algoritmasının karmaşıklığının bir ölçüsü olan VC boyutu arasındaki ilişkiyi tartışır. VC boyutu arttıkça algoritmanın performansının nasıl değiştiğini göstermek için birkaç grafik kullanıyor ve belirli bir performans düzeyine ulaşmak için gereken örnek sayısının VC boyutuyla orantılı olduğunu vurguluyor. Bununla birlikte, performans sınırlarının belirli bir monotonluğu takip etmesi garanti edilirken, gerçek performansın her zaman böyle olmayabileceğini ve bunun uygulayıcılar için bir hayal kırıklığı kaynağı olabileceğini de not eder.

  • 00:55:00 Bu bölümde öğretim görevlisi, VC boyutunun gözlemlerini ve pratik uygulamalarını tartışır. İlk ders, VC boyutu ile belirli bir performans düzeyine ulaşmak için gereken örnek sayısı arasında orantılı bir ilişki olduğudur. Öğretim görevlisi, olasılık ifadesinin anlamlı olduğu VC eşitsizliğinin konfor bölgesine ulaşmak için VC boyutunun 10 katının gerekli olduğu bir pratik kural sağlar. İkinci pratik gözlem, çok çeşitli makul epsilon ve delta için pratik kuralın da geçerli olduğudur. Öğretim görevlisi daha sonra VC eşitsizliği formülünü basitleştirir ve büyüme fonksiyonuna bağlı olduğunu ve VC boyutu büyüdükçe Omega formülünün kötüleştiğini belirterek formül sermayesi Omega olarak adlandırır.
  • 01:00:00 Bu bölümde, konuşmacı genelleme kavramını ve daha fazla örneğe sahip olmanın büyüme fonksiyonunu ve polinom davranışını nasıl etkileyebileceğini tartışıyor. Kötü olayları karakterize etmek yerine olumlu bir ifade olan genelleme sınırı fikrini ortaya atıyor. 1 eksi deltadan büyük veya buna eşit olasılıkla E_in, E_out'u izler; bu, örnek sayısına ve hipotez setinin VC boyutuna bağlı olan Omega içinde oldukları anlamına gelir. Konuşmacı, E_out'un E_in artı Omega tarafından sınırlandığını göstermek için yeniden düzenleyerek genellemeyi basitleştirir. Bu sınırın, hipotez setinin boyutu ile iyi genelleme arasındaki dengeyi nasıl gösterdiğini ve makine öğreniminde düzenlileştirme kavramına nasıl yol açtığını açıklıyor.

  • 01:05:00 Bu bölümde profesör, VC boyutunun ilk kesme noktasının hemen altındaki en büyük değer olduğunu, bunun da kırılma noktası görevi gören daha büyük noktaların da sayılacağı anlamına geldiğini açıklıyor. Kırılma noktası kavramı pek çok değeri kapsar, ancak VC boyutu öne çıkan benzersiz boyuttur. Ayrıca, paramparça N noktalarını tartışırken, bireylerin paramparça olacak noktaları seçebileceklerini açıklıyor. Profesör, epsilon ve delta'nın öğrenmenin iki performans parametresi olduğunu açıklar; burada epsilon, E_in'in E_out'u izlemesini sağlayan yaklaşıklık parametresidir, delta ise olasılık ifadesinin başarısız olma olasılığını belirleyen olasılık ölçüsüdür. Hata ölçüsünün seçilecek nokta sayısı üzerindeki etkisi sorulduğunda, profesör, hata ölçüsünü ikili anlamda ele alırken, varyans hakkında endişelenmeye gerek olmadığını, çünkü bir üst sınır olduğunu, ancak diğerlerini kullanırken açıklar. ortak alanlar veya hata ölçüleri, değişiklikler gereklidir.

  • 01:10:00 Bu bölümde profesör tam olarak VC boyutunu elde etmenin nadir olduğunu ancak algılayıcıların tam boyutunu bildiklerini açıklıyor. Sinir ağları söz konusu olduğunda, fazlalıklar ve iptaller nedeniyle VC boyut tahmini belirli bir sayının üzerinde olamaz. Profesör, VC boyut sınırının gevşek bir tahmin olduğunu, ancak yine de kavramsal anlamını koruduğunu ve modelleri karşılaştırmak ve gereken örnek sayısını yaklaşık olarak tahmin etmek için bir kılavuz olarak kullanılabileceğini vurguluyor. Temel kural, müşterinin istediği doğruluk düzeyine bağlı olarak VC eşitsizliğinin ilginç bölgesine girmek için VC boyutunun en az 10 katını kullanmaktır. Profesör, bu materyal ile deney tasarımı konusu arasında ortaklıklar olduğunu ve öğrenme ilkelerinin katı öğrenme senaryolarının ötesinde diğer durumlara da yayıldığını belirtiyor.
Lecture 07 - The VC Dimension
Lecture 07 - The VC Dimension
  • 2012.04.26
  • www.youtube.com
The VC Dimension - A measure of what it takes a model to learn. Relationship to the number of parameters and degrees of freedom. Lecture 7 of 18 of Caltech's...
 

Ders 8 - Önyargı-Varyans Dengeleme



Caltech'in Makine Öğrenimi Kursu - CS 156. Ders 08 - Önyargı Varyansı Dengeleme

Profesör, hipotez setinin karmaşıklığının genelleme ve tahmin arasındaki ödünleşimi nasıl etkilediğini açıklayarak, makine öğrenimindeki önyargı-varyans değiş tokuşunu tartışıyor. Öğretim görevlisi, bir makine öğrenimi algoritmasının ürettiği hipotezlerin ortalaması ile gerçek hedef işlev arasındaki sapmayı ve belirli bir modelin hipotez dağılımının sırasıyla farklı veri kümelerine göre ne kadar değiştiğini ölçen önyargı ve varyans kavramını tanıtır. Takas, daha küçük bir önyargıya ancak daha büyük bir varyansa sahip daha büyük bir hipotez setiyle sonuçlanırken, daha küçük bir hipotez setinin daha büyük bir önyargıya ancak daha küçük bir varyansa sahip olması gerekir. Öğretim görevlisi, hipotez setinde etkili bir şekilde gezinmek için yeterli veri kaynağına sahip olmanın önemini vurgular ve önyargı-varyans analizi ile VC analizi arasındaki ölçek farkını vurgular.

Ayrıca, basit modeller gerektiren daha az sayıda örnek ve daha karmaşık modeller gerektiren daha büyük örnek kaynakları ile, basit ve karmaşık modeller arasındaki ödünleşimi yaklaşıklaştırma ve genelleştirme yetenekleri açısından tartışıyor. Yanlılık-varyans analizi, doğrusal regresyona özgüdür ve doğrulama, bir model seçmek için altın standart olmak üzere, hedef işlevin bilgisini varsayar. Topluluk öğrenimi, çoklu veri kümelerinin ortalamasını almak için önyüklemeyi kullanan ve varyansı azaltan Bagging aracılığıyla tartışılır. Topluluk öğrenmedeki varyans ve kovaryans arasındaki denge de açıklanır ve doğrusal regresyon, öğrenmenin ilk parçası olarak uydurma ile bir öğrenme tekniği olarak sınıflandırılırken, teori iyi örnek dışı performansı vurgular.

  • 00:00:00 Bu bölümde odak noktası, genellemeyi anlamak için başka bir yaklaşım olan sapma-varyans değiş tokuşuna kayar. Önceki derslerde, VC analizi, bir hipotez setinin VC boyutu aracılığıyla seçilen bir hipotezin genelleme yeteneğini ortaya koydu. VC sınırı, herhangi bir öğrenme algoritması, herhangi bir girdi verisi ve herhangi bir hedef işlev için geçerlidir. VC analizinin bir yönü, pratik bir ölçüm sağlamasıdır. Hata olasılığını örnek sayısına karşı çizerek, gerekli örnek sayısının VC boyutuyla orantılı olduğunu keşfettik veya pratik kural, ilginç genelleme özelliklerini elde etmeye başlamak için VC boyutunun 10 katına ihtiyacınız var. Son olarak, VC analizini, daha sonraki düzenlileştirme gibi tekniklerde kullanacağımız bir genelleştirme sınırına özetledik.

  • 00:05:00 Bu bölümde öğretim görevlisi, öğrenme söz konusu olduğunda yaklaşıklık ve genelleme arasındaki ödünleşimi tartışır. Öğrenme, küçük bir E_out elde etmeyi amaçlar; bu, hipotezin hedef fonksiyona iyi bir şekilde yaklaştığı ve bu yaklaşımın örneklem dışı olduğu anlamına gelir. Bununla birlikte, daha karmaşık bir hipotez setine sahip olmak, f'ye iyi bir şekilde yaklaşma şansını artırır, ancak uygun hipotezi belirlemede sorun yaratır. Öğrenme için belirlenen ideal bir hipotez, hedef fonksiyon olan tekil bir hipotezdir. Yine de, hedef fonksiyonu bilmediğimiz için, şansımız olacak kadar büyük bir hipotez setine ihtiyacımız var. Buna ek olarak, öğretim görevlisi önyargı-varyans analizinin E_out'u nasıl ayrıştırdığını tartışırken, VC analizi ödünleşimin miktarının belirlenmesini vurgular.

  • 00:10:00 Bu bölümde, konuşmacı sapma-varyans değiş tokuşunu ve bunun gerçek değerli fonksiyonlarla ve hatanın karesini kullanarak regresyonla nasıl ilişkili olduğunu tanıtıyor. Amaç, örneklem dışı hatayı iki kavramsal bileşene ayırmaktır: yaklaşıklık ve genelleme. Bunu yapmak için, nihai hipotez kullanılan veri setine bağlı olduğundan konuşmacı belirli bir veri setine göre hatanın beklenen değerini kullanır, ancak veri setini entegre ederek bağımlılığı ortadan kaldırmayı amaçlar. Sonuç, çalışmak için belirli sayıda veri noktası verildiğinde hatanın genel davranışını analiz etmenin bir yoludur.

  • 00:15:00 Bu bölümde öğretim üyesi, bir davranışın beklenen değerlerinin nasıl hesaplanacağını 100 örnek üzerinden tüm olası gerçekleştirmelere göre açıklar. Bütünleşme sırasını tersine çevirerek ve bir beklentiden kurtularak öğretim görevlisi temiz bir ayrıştırmaya ulaşır. Bir sonraki adım, tüm olası hipotezlerin beklenen değerini alarak ortalama bir hipotez türetmeyi içerir. Bu kesinlikle imkansız bir görev olsa da, analiz için kavramsal bir araç sağlar. En sonunda g çubuğunun tanımlanmasını gerektiren doğrusal bir terim elde etmek için üstteki ifadeyi genişletirken, g çubuğunun teknik faydasını anlamak önemli hale gelir.

  • 00:20:00 Bu bölümde öğretim görevlisi, bir makine öğrenimi algoritmasının belirli bir veri kümesinden türettiği hipotezin hedef işlevden ne kadar uzaklaştığını belirleyen bir niceliği iki adıma ayırır. İlk adım, bu hipotezin verilen veri kümesinde algoritmanın üretebileceği en iyi hipotezden ne kadar saptığını değerlendirirken, ikinci adım bu en iyi hipotezin gerçek hedef fonksiyondan ne kadar saptığını değerlendirir. Öğretim görevlisi, bu iki adımı belirtmek için iki niceliğe, sapma ve varyansa ulaşır. Önyargı, bir makine öğrenimi algoritmasının ürettiği hipotezlerin ortalaması ile algoritmanın hipotez seti için sonlu ayarlayan gerçek hedef fonksiyon arasındaki sapmayı ölçer. Bu arada varyans, belirli bir modelin hipotez dağılımının farklı veri kümelerine göre ne kadar değiştiğini ölçer.

  • 00:25:00 Bu bölümde, profesör makine öğrenimindeki sapma-varyans değiş tokuşunu tartışıyor. Sapmanın hipotez setinin sınırlaması olduğunu ve varyansın farklı veri setlerini kullanırken sonuçtaki fark olduğunu açıklıyor. Ardından, hipotez setinin boyutunu değiştirirken genelleme ve tahmin arasında nasıl bir denge olduğunu gösterir ve bu fikri küçük ve büyük bir hipotez setinin karşılaştırmasıyla örnekler. Daha büyük bir hipotez setinin daha küçük bir önyargıya ancak daha büyük bir varyansa sahip olacağını, daha küçük bir hipotez setinin ise daha büyük bir önyargıya ancak daha küçük bir varyansa sahip olacağını savunuyor.

  • 00:30:00 Bu bölümde konuşmacı, hipotez seti büyüdükçe sapmanın azaldığı ve varyansın arttığı önyargı-varyans değiş tokuşu kavramını tanıtıyor. Bunu anlamak için konuşmacı, hedef fonksiyonun sinüzoidal olduğu somut bir örnek verir ve iki farklı hipotez seti verilir: sabit model ve doğrusal model. Konuşmacı daha sonra lineer modelin sinüsoid için daha iyi bir yaklaşım verdiğini, ancak bazı hatalar olduğunu gösterir. Bu bir öğrenme durumu değildir, ancak daha karmaşık öğrenme problemlerinin yolunu açarak, hedef fonksiyonun yaklaşımında yanlılık ve varyans arasındaki değiş tokuşu gösterir.

  • 00:35:00 Bu bölümde öğretim görevlisi, makine öğrenimindeki sapma-varyans değiş tokuşunu açıklıyor. İlk olarak bir hedef fonksiyona yaklaşmak ve ikinci olarak da örneklerden öğrenmek için bir doğruyu iki noktaya uydurma örneğini kullanır. Yanlılık-varyans analizi, hangi iki noktanın kullanıldığına bakılmaksızın bir modelin performansını değerlendirmek ve veri kümesine bağımlılıkla başa çıkmanın zorluklarını aşmak için gereklidir. Öğretim görevlisi daha sonra iki nokta boyutunda veri kümeleri oluşturur, bunlara bir çizgi yerleştirir ve beklenen örneklem dışı hatanın esas olarak yanlılık ve varyansın toplamı olduğunu gösterir. Çok açık yeşil çizgi, g çubuk x, bu oyunu tekrarlamaktan elde ettiği ortalama hipotezdir. Yine de, öğrenme sürecinin çıktısı değildir çünkü farklı veri kümeleri farklı tahminler verecektir.

  • 00:40:00 Videonun bu bölümünde, yanlılık-varyans değiş tokuşu kavramı makine öğrenimi bağlamında tartışılıyor. Varyans, öğrenme sürecinin çıktısının standart sapması olarak hesaplanırken, yanlılık, tahmin edilen çıktı ile hedef fonksiyon arasındaki hatadır. Yanlılık ve varyans arasındaki değiş tokuş, biri küçük sapmalı ve büyük varyanslı ve diğeri büyük sapmalı ve küçük varyanslı iki model kullanılarak gösterilmiştir. Bir öğrenme durumunda, model karmaşıklığının hedef karmaşıklıktan ziyade mevcut veri kaynaklarıyla eşleştirilmesi gerektiği anlaşılmaktadır.

  • 00:45:00 Bu bölümde, konuşmacı öğrenmedeki sapma-varyans değiş tokuşunu tartışıyor ve öğrenme eğrileri kavramını tanıtıyor. Öğrenme eğrileri, veri kümesinin boyutu olan N'nin bir fonksiyonu olarak beklenen E_out (örnek dışı hata) ve E_in (örnek içi hata) değerlerini çizer. N arttıkça, örneklem dışı hata genellikle azalır, ancak bu eğilim, kullanılan modelin karmaşıklığından etkilenebilir. Konuşmacı, hipotez setinde etkili bir şekilde gezinmek için yeterli veri kaynağına sahip olmanın önemini vurguluyor ve gürültülü verilerin bu gezinmeyi daha da zorlaştırabileceğini belirtiyor. Öğrenme eğrileri, yanlılık-varyans takasının görsel bir temsilini ve bunun artan N ile nasıl değiştiğini sağlar.

  • 00:50:00 Bu bölümde öğretim görevlisi, öğrenme eğrilerini kullanarak sapma-varyans analizi ile VC analizi arasındaki ilişkiyi tartışır. Her iki teorinin de yaklaşıklığı tartıştığını ve genelleme açısından ne olduğunu dikkate aldığını açıklıyor. Öğretim görevlisi, iki teori arasındaki ölçek farkını vurgular ve önyargının hipotez setine bağlı olduğundan bahseder. Son olarak, öğretim görevlisi doğrusal regresyon durumunun analizini kısaca ele alır ve doğrusal regresyon hakkında fikir edinmek için iyi bir alıştırma olarak bunu önerir.

  • 00:55:00 Bu bölümde eğitmen, özellikle öğrenme eğrilerini kullanarak örnek içi hata modelini ve örnek dışı hata modelini açıklar. Eğitmen, beklenen numune içi hata için basit bir formülü göstermek için doğrusal regresyon ve gürültü kullanır: neredeyse mükemmel ve d artı 1 oranına göre mükemmelden daha iyi yapıyorsunuz. ne kadar çok veri noktanız varsa, hata oranını o kadar az gürültü etkiler. Bununla birlikte, örnek verilere gereğinden fazla uyarladığınızda, sonunda gürültüyü uydurursunuz ve bu, uzun vadede size yardımcı olmak yerine size zarar verir.

  • 01:00:00 Bu bölümde, profesör basit ve karmaşık modeller arasındaki ödünleşimden ve bunların yaklaşıklık ve genelleme yeteneklerinden bahsediyor. Karmaşık modeller hedef fonksiyona ve eğitim örneklerine daha iyi yaklaşabilirken, basit modeller genelleme yeteneği açısından daha iyidir. Bunun nedeni, ikisi arasında bir takas olması ve her iki miktarın toplamının her iki yönde de gidebilmesidir. Anahtar, modelin karmaşıklığını mevcut veri kaynaklarıyla eşleştirmektir. Daha az örnek, basit modellerin kullanılması gerektiği anlamına gelirken, daha büyük örnek kaynakları daha iyi performans için karmaşık modeller gerektirir. Beklenen genelleme hatası, VC boyutunun örnek sayısına bölünmesiyle elde edilen formül kullanılarak bulunabilir.

  • 01:05:00 Bu bölümde profesör, sapma-varyans analizinin doğrusal regresyona özgü olduğunu ve hedef işlevi bildiğinizi nasıl varsaydığını tartışıyor. Yararlı bir kılavuz olmasına ve hem önyargıyı hem de varyansı nasıl etkileyeceğinizi anlamak için kullanılabilse de, size modelin ne olduğunu söylemek için takılabilecek bir şey değildir. Ayrıca, bir model seçmek için altın standardın, güçlendirme gibi topluluk yöntemlerini içeren doğrulama yoluyla olduğundan bahseder. Profesör daha sonra analiz için teorik bir araç olarak g bar fikrini kısaca tanıtıyor ancak bunun bu dersin odak noktası olmadığını belirtiyor.

  • 01:10:00 Bu bölümde profesör, önyükleme ve ortalama alma yoluyla çok sayıda farklı veri kümesi oluşturmak için bir veri kümesini kullanma süreci olan Bagging aracılığıyla topluluk öğreniminden bahsediyor. Bu, toplu öğrenme hakkında bir miktar temettü verir ve birçok şeyin ortalamasını alarak varyansın azaltılmasına yardımcı olabilir. Moderatör daha sonra önyargı-varyansın Bayes yaklaşımı aracılığıyla hala görünüp görünmediğini sorar. Profesör, Bayes yaklaşımının belirli varsayımlarda bulunmasına rağmen, yanlılık-varyansın hala var olduğunu açıklıyor. Son olarak, sayısal fonksiyon yaklaşımının makine öğrenimindeki ekstrapolasyon ve önyargı-varyans kovaryans ikilemi ile ilişkisinden bahsediyor.

  • 01:15:00 Dersin bu bölümünde, profesör topluluk öğrenme bağlamında varyans ve kovaryans arasındaki dengeyi tartışır. Yanlılık-varyans analizinde, bağımsız olarak oluşturulmuş veri kümelerini seçme, bağımsız modeller oluşturma ve ardından bunların ortalamasını alma lüksüne sahip olduğunu açıklıyor. Bununla birlikte, fiili uygulamada, veri setinin varyasyonlarına dayalı modeller oluşturulurken, modeller arasındaki kovaryans bir rol oynamaya başlar. Daha sonra lineer regresyonun bir öğrenme tekniği mi yoksa sadece fonksiyon yaklaşımı mı olduğu sorulduğunda, profesör lineer regresyonun bir öğrenme tekniği olduğunu ve uydurmanın öğrenmenin ilk kısmı olduğunu belirtir. Eklenen öğe, modelin örneklem dışında iyi performans göstermesini sağlamaktır, teorinin konusu da budur.
Lecture 08 - Bias-Variance Tradeoff
Lecture 08 - Bias-Variance Tradeoff
  • 2012.04.28
  • www.youtube.com
Bias-Variance Tradeoff - Breaking down the learning performance into competing quantities. The learning curves. Lecture 8 of 18 of Caltech's Machine Learning...
 

Ders 9 - Doğrusal Model II



Caltech'in Makine Öğrenimi Kursu - CS 156. Ders 09 - Doğrusal Model II

Bu ders, sapma-varyans ayrışımı, öğrenme eğrileri ve algılayıcılar, doğrusal regresyon ve lojistik regresyon gibi doğrusal modeller için teknikler dahil olmak üzere doğrusal modelin çeşitli yönlerini kapsar. Konuşmacı, karmaşıklık ve genelleme performansı arasındaki ödünleşimi vurgulayarak, aşırı uydurmaya karşı uyarıda bulunur ve geçerli garantiler için hipotez alanının VC boyutunu uygun şekilde şarj etmenin önemini vurgular. Doğrusal olmayan dönüşümlerin kullanımı ve genelleme davranışı üzerindeki etkileri de tartışılmaktadır. Ders ayrıca lojistik işlevi ve olasılıkları tahmin etmedeki uygulamalarını kapsar ve lojistik regresyon bağlamında olasılık ve çapraz entropi hata ölçüleri kavramlarını tanıtır. Son olarak, gradyan iniş gibi hata fonksiyonunu optimize etmek için yinelemeli yöntemler açıklanmaktadır.

Ayrıca ders, makine öğreniminde doğrusal modeller ve optimizasyon algoritmaları ile ilgili bir dizi konuyu kapsar. Profesör, lojistik regresyon algoritmasını tanıtarak ve hata ölçümlerini ve öğrenme algoritmasını tartışarak, gradyan iniş optimizasyonunda öğrenme hızı ve hız arasındaki uzlaşmayı açıklıyor. Gradyan iniş ve çok sınıflı sınıflandırmada sonlandırma zorlukları da ele alınmaktadır. Makine öğreniminde özelliklerin türetilmesinin ve seçilmesinin rolü, VC boyutu açısından ücretlendirilen uygulama alanlarında bir sanat olarak vurgulanmakta ve tartışılmaktadır. Genel olarak, bu ders, makine öğrenimi için doğrusal modellere ve optimizasyon algoritmalarına kapsamlı bir genel bakış sağlar.

  • 00:00:00 Bu bölümde Yaser Abu-Mostafa, örneklem dışı hatadaki yanlılık-varyans ayrıştırmasını tartışıyor ve bunun hipotez seti ile nasıl değiş tokuş ettiğini gösteriyor. Ayrıca genelleme hatasını açıklayan öğrenme eğrilerini ve VC boyutuyla orantılı örnek sayısının genelleme özelliklerini nasıl belirleyeceğini açıklıyor. Doğrusal modeller için teknikler de tartışılmaktadır.

  • 00:05:00 Dersin bu bölümünde, konuşmacı önceki derslerde ele alınan doğrusal sınıflandırma ve doğrusal regresyon açısından doğrusal modeli kısaca özetler ve ardından üçüncü tür doğrusal modele - lojistik regresyona geçer. Lojistik regresyona başlamadan önce, konuşmacı doğrusal olmayan dönüşümler ve genelleme konuları açısından yarım kalmış işleri birleştirir. Doğrusal olmayan dönüşümler, öğrenme algoritmalarını Z alanında (özellik alanı) uygulamak için bir platform sunar ve nihai hipotez hala X alanında (giriş alanı) bulunur. Doğrusal olmayan dönüşümlerde konuşmacı genelleme konularının atlandığını ve derste eksik olan parçayı kendisinin tamamlayacağını vurgular.

  • 00:10:00 Bu bölümde öğretim görevlisi, X uzayında genelleme davranışı söz konusu olduğunda doğrusal olmayan dönüşümler yapmak için ödenen bedeli tartışıyor. X uzayında lineer modeli kullanarak, d+1 serbest parametrelerin ağırlık vektörünü elde edebilirsiniz. Bununla birlikte, özellik uzayındaki VC boyutu potansiyel olarak X uzayından çok daha büyük olabilir. VC boyutu çok büyükse, 17. dereceden polinomu sığdırmak mümkün olsa da, gerçek bir genelleme şansı yoktur. İlk durumun neredeyse lineer olarak ayrılabilir olduğu ve ikinci durumun gerçekten lineer olmadığı iki durum tartışılmaktadır. E_in'in sıfır olabilmesi için yüksek boyutlu bir uzaya gidilmesi gerekir ki bu, sınıflandırılacak sadece iki nokta olduğu için bir problem haline gelir.

  • 00:15:00 Dersin bu bölümünde eğitmen, lineer modellerle uğraşırken yaklaşım-genelleme dengesini tartışır. Dördüncü dereceden bir yüzey gibi daha karmaşık bir model kullanmanın verileri nasıl daha iyi tahmin edebileceğinden ancak iyi genelleme yapamayacağından bahsediyor. Ayrıca, doğrusal olmayan bir uzaya dönüşüm kullanma fikrinden bahseder, ancak parametre sayısında bir indirim aramaya karşı uyarıda bulunur. Eğitmen, VC eşitsizliğinin sağladığı garantinin geçerli olabilmesi için zihinde keşfedilen tüm hipotez uzayının VC boyutunun yüklenmesinin önemli olduğunu açıklar.

  • 00:20:00 Bu bölümde tartışma, verilere bakmadan önce bir model seçerken veri gözetlemenin tehlikeleri etrafında toplanıyor. Bu uygulamanın, verilerin gerçek dünya performansını yansıtmak için artık güvenilir olmadığı anlamına gelen kirli bir hipotez setine yol açabileceği vurgulanmaktadır. Lojistik regresyon kavramı, benzersiz modeli, hata ölçüsü ve öğrenme algoritmasıyla birlikte tanıtılmaktadır. Bu doğrusal modelin, daha önce tartışılan algılayıcı ve doğrusal regresyon modellerini önemli bir şekilde tamamladığı düşünülür ve makine öğreniminde var olan karmaşıklıklara ve varyasyonlara yararlı bir örnek sağlar.

  • 00:25:00 Bu bölümde öğretim görevlisi doğrusal modeli ve algılayıcılar, doğrusal regresyon ve lojistik regresyon gibi kullanılabilecek farklı yolları tartışır. Doğrusal sınıflandırma için hipotez, sinyalin doğrudan eşiklenmesi olan +1 veya -1 kararıdır. Doğrusal regresyon durumunda, çıktı girdi ile aynıdır, lojistik regresyon ise sinyale lojistik fonksiyon adı verilen ve bir şeyin olma olasılığı olarak yorumlanan bir doğrusal olmama durumu uygular. Öğretim görevlisi, lojistik fonksiyonun şeklini ve kredi kartı başvuruları gibi çeşitli problemler için olasılıkları tahmin etmedeki uygulamalarını açıklar.

  • 00:30:00 Bu bölümde, lojistik fonksiyon bağlamında yumuşak eşik veya sigmoid kavramı tanıtılmaktadır. Bu işlev, girdi olarak doğrusal bir sinyal alır ve bir olasılık verir. Bir olayın meydana gelme olasılığına birden çok faktörün katkıda bulunduğu kalp krizi riski gibi sonuçları tahmin etmede özellikle yararlıdır. Lojistik regresyonun çıktısı, girdi verileri doğrudan bu bilgiyi sağlamasa bile, öğrenme süreci sırasında gerçek bir olasılık olarak ele alınır.

  • 00:35:00 Bu bölümde, tıbbi verilerde denetimli öğrenmeyi ve gizli bir hedef fonksiyona yaklaşan bir modelin nasıl üretileceğini tartışıyoruz. Örnekler, bir olasılıktan etkilenen ve bunu gürültülü bir durum haline getiren ikili çıktı olarak verilmiştir. Hedef, d-boyutlu Öklid uzayından 0,1'e bir olasılık yorumuyla, f x'tir. x'in g hipotezi, ağırlıkları bularak ve bunları x ile noktasal olarak üreterek bulunur. Amaç, ağırlıkları, lojistik regresyon hipotezinin, hem makul hem de optimize edici için kolay olan olasılıkla oluşturulmuş bir hata ölçüsü kullanarak hedef işlevi yansıtacağı şekilde seçmektir. Hata ölçüsü, farklı hipotezleri, aslında verileri oluşturan hedef olma olasılıklarına göre derecelendirir.

  • 00:40:00 Dersin bu bölümünde, konuşmacı olasılığın kullanımını ve bunun uygulanması etrafındaki tartışmayı tartışıyor. Olasılığın kullanılmasının, veri verilen en makul hipotezi bulmak olduğunu açıklıyor. Ancak, olasılık gerekli olan olasılık olmadığı için tamamen temiz bir süreç değildir. Konuşmacı daha sonra olasılık için bir formül sunar ve bunun tam teşekküllü bir hata ölçüsü elde etmek için nasıl kullanılabileceğini açıklar. Formül daha sonra, bireysel veri noktalarının olasılıklarının bir ürünü olan tüm bir veri kümesinin olasılığını bulmak için kullanılır. Bir örneği tercih etmek diğerlerini mahvedebileceğinden, bir hipotez seçerken her zaman bir uzlaşma olacağı sonucuna varır.

  • 00:45:00 Dersin bu bölümünde, konuşmacı bir veri kümesi altında bir hipotez olasılığını en üst düzeye çıkarmanın hata ölçüsünü en aza indirmeye nasıl yol açabileceğini açıklıyor. Doğal logaritmanın alınması, maksimizasyonun minimizasyon haline gelmesine izin verir, bu da eğitim setinde bir hata ölçüsü ile sonuçlanır. Formülü basitleştirdikten sonra, konuşmacı hata ölçüsünü lojistik regresyonun örnek içi hatası olarak adlandırır ve bunu x_n'ye uygulanan w'ye bağlı hipotez ile o örnek için bir etiket olarak verilen değer arasındaki hata ölçüsü olarak tanımlar. , yani y_n. Konuşmacı ayrıca w'nin devrik x_n işaretine dayalı olarak kalp krizi riski taşıyanları tanımlayan risk puanının ilginç yorumunu tartışıyor.

  • 00:50:00 Bu bölümde, ikili tahminlerin doğruluğunu ölçmenin bir yolu olarak çapraz entropi hata ölçüsü tanıtılmaktadır. Amaç, modelin tahminlerini iyileştirmek için bu hata ölçüsünü en aza indirmektir. Bununla birlikte, doğrusal regresyondan farklı olarak, lojistik regresyon için hata ölçüsünü en aza indirecek kapalı formda bir çözüm yoktur. Bunun yerine, gradyan iniş yöntemiyle elde edilecek yinelemeli bir çözüme ihtiyaç vardır. Bu yöntem, yüzeyin en dik eğimi boyunca bir adım atmayı ve minimuma ulaşılana kadar tekrar etmeyi içerir. Lojistik regresyon için hata ölçüsünün dışbükeyliği, gradyan inişini optimizasyon için iyi bir seçim yapar.

  • 00:55:00 Dersin bu bölümünde, profesör doğrusal modelde hata fonksiyonunun minimum değerini bulmak için kullanılan yinelemeli yöntemleri tartışıyor. Bu yöntemlerin, yüzey boyunca küçük adımlarla hareket etmeyi ve kalkülüs, özellikle Taylor serilerini kullanarak yerel yaklaşımlar yapmayı içerdiğini açıklıyor. Daha sonra, bir sonraki ağırlığın mevcut ağırlık artı en dik iniş yönündeki birim vektörü çözerek belirlenen belirli bir yöndeki hareket tarafından belirlendiği gradyan iniş kavramını tanıtıyor. Profesör, bir vektör ile bir birim vektör arasındaki iç çarpım için en negatif değeri elde eden yönün hareket yönü olarak nasıl seçildiğini açıklamaya devam eder.

  • 01:00:00 Bu bölümde öğretim görevlisi, kademeli iniş optimizasyonunda adımın boyutu veya öğrenme hızı arasındaki uzlaşmayı tartışıyor. Çok küçük adımlar atmak eninde sonunda minimuma ulaşacaktır, ancak bu sonsuza kadar sürerken, daha büyük adımlar atmak daha hızlı olabilir ancak doğrusal yaklaşımı uygulamayabilir. Grafikleri analiz ettikten sonra, en iyi uzlaşma, dik yokuşlardan yararlanmak için başlangıçta büyük bir öğrenme oranına sahip olmak ve minimuma yaklaştığında aşırıya kaçmaktan kaçınmak için daha dikkatli olmaktır. Öğretim görevlisi daha sonra, öğrenme oranının gradyan boyutuyla orantılı olduğu sabit bir öğrenme oranı için formül sunar. Daha sonra lojistik regresyon algoritması tanıtılır; burada gradyan, numune içi hata formülü kullanılarak hesaplanır ve bir sonraki ağırlık, mevcut ağırlıktan öğrenme oranı çarpı gradyan çıkarılarak elde edilir. Son olarak, üç doğrusal modelin tümü, algılayıcı, doğrusal regresyon ve lojistik regresyon tek bir slaytta özetlenir ve kredi alanına uygulanır.

  • 01:05:00 Bu bölümde profesör, kredi analizinde uygulanabilecek farklı doğrusal model türlerini ve bunlara karşılık gelen hata ölçülerini ve kullanılan öğrenme algoritmalarını tartışıyor. Örneğin, algılayıcı ikili sınıflandırma için kullanılır ve lojistik regresyon varsayılan olasılığını hesaplamak için kullanılır. Her model için, algılayıcı için ikili sınıflandırma hatası ve lojistik regresyon için çapraz entropi hatası gibi farklı hata ölçüleri kullanıldı. Kullanılan öğrenme algoritması, sınıflandırma hatası için algılayıcı öğrenme algoritması ve çapraz entropi hatası için gradyan iniş gibi seçilen hata ölçüsüne bağlıydı. Son olarak, profesör, sonlandırma kriterlerini kısaca tartışır ve düzgün bir şekilde analiz edilmiş bir sonlandırma, hata yüzeyindeki birçok bilinmeyen nedeniyle biraz zor olduğundan, gradyan inişinde sonlandırma ile ortaya çıkan sorunları tartışır.

  • 01:10:00 Bu bölümde, konuşmacı gradyan inişinin etkili ancak kusursuz olmayan bir optimizasyon algoritması olduğunu açıklıyor. Optimizasyon algoritmasının gezinmeye çalıştığı yüzey birden çok yerel minimuma sahipse, algoritma en iyi sonucu veren genel bir minimum yerine yalnızca yerel bir minimum bulabilir. Konuşmacı, optimizasyon algoritmasını sonlandırmak için bir kriter kombinasyonu kullanılmasını önerir ve eşlenik gradyanın, gradyan inişine geçerli bir alternatif olduğunu not eder. Konuşmacı, bir uygulamada yerel minimumlar gerçek bir sorun haline gelirse, optimizasyon alanında bu sorunu çözmek için birçok yaklaşım olduğunu öne sürüyor.

  • 01:15:00 Bu bölümde profesör, logaritmik ve beklenen değerleri kullanarak iki olasılık dağılımı arasında bir ilişki elde etmenin bir yolu olan çapraz entropi kavramını açıklıyor. Profesör ayrıca ikili arama ve optimizasyonda 2. dereceden yöntemlerin sınırlamalarını tartışıyor ve daha karmaşık yöntemlerin daha iyi sonuçlara yol açabileceğini, ancak CPU döngüleri açısından çok pahalı olabileceğini vurguluyor. Son olarak, bir soruya yanıt olarak, profesör, rakamları tanıma örneğinde gösterildiği gibi, lojistik regresyonun çok sınıflı bir ortama uygulanabileceğini onaylar.

  • 01:20:00 Dersin bu bölümünde profesör, sıralı regresyon ve ağaç tabanlı ikili kararlar dahil olmak üzere çok sınıflı sınıflandırma için çeşitli yöntemleri tartışır. Profesör ayrıca sinir ağlarında nöronal fonksiyon olarak kullanılacak olan tanh fonksiyonunun kullanımını da tanıtıyor. Öğrenme oranı kavramı da tartışılmış, profesör kullanılabilecek uyarlanabilir öğrenme oranları için buluşsal yöntemler olduğundan söz etmiş ve öğrenme oranını seçmeye yönelik pratik bir kural sunmuştur. Ek olarak, anlamlı özellikler ile belirli veri setine bakılarak elde edilen özellikler arasındaki ayrım yapılır ve birincisinin VC garantisini kaybetme olasılığı daha düşüktür.

  • 01:25:00 Bu bölümde profesör, makine öğreniminde özellik türetme sürecini tartışıyor ve bunun uygulama alanına bağlı bir sanat olduğunu vurguluyor. Verilere dayalı olarak özellikler türetmek mümkün olsa da, nihai hipotez seti yine de genelleme davranışını belirleyecektir. Profesör ayrıca, makine öğreniminde özellik seçmenin otomatik olarak yapıldığını, ancak öğrenmenin bir parçası haline geldiğini ve VC boyutu açısından ücretlendirildiğini belirtiyor. Özellik seçme konusu, sinir ağları ve gizli katmanlar üzerine gelecek derste daha ayrıntılı olarak ele alınacaktır.
Lecture 09 - The Linear Model II
Lecture 09 - The Linear Model II
  • 2012.05.02
  • www.youtube.com
The Linear Model II - More about linear models. Logistic regression, maximum likelihood, and gradient descent. Lecture 9 of 18 of Caltech's Machine Learning ...
 

Ders 10 - Sinir Ağları



Caltech'in Makine Öğrenimi Kursu - CS 156. Ders 10 - Sinir Ağları

California Institute of Technology'de profesör olan Yaser Abu-Mostafa, bu derste lojistik regresyon ve sinir ağlarını tartışıyor. Lojistik regresyon, sınırlı gerçek değerli bir fonksiyonun olasılık yorumunu hesaplayan doğrusal bir modeldir. Hata ölçüsünü doğrudan optimize edemez, bu nedenle, yeterince pürüzsüz ve iki kez türevlenebilir keyfi bir doğrusal olmayan işlevi en aza indirmek için gradyan iniş yöntemi tanıtılır. Kapalı formda bir çözüm olmamasına rağmen, hata ölçüsü dışbükey bir fonksiyondur ve gradyan inişini kullanarak optimize etmeyi nispeten kolaylaştırır.

Stokastik gradyan iniş, sinir ağlarında kullanılan gradyan inişin bir uzantısıdır. Sinir ağları, biyolojik bir bakış açısıyla motive edilen ve algılayıcılarla ilgili bir hipotezi uygulayan bir modeldir. Geri yayılım algoritması, sinir ağları ile birlikte giden ve modeli özellikle pratik hale getiren verimli bir algoritmadır. Model, insanları heyecanlandıran ve algoritmayı kullanarak uygulaması kolay olan biyolojik bir bağlantıya sahiptir. Günümüzde tercih edilen bir model olmasa da, sinir ağları pratik uygulamalarda başarılı olmuş ve halen bankacılık ve kredi onay gibi birçok sektörde standart olarak kullanılmaktadır.

Kısa özet:

  • Lojistik regresyon, sınırlı gerçek değerli bir fonksiyonun olasılık yorumunu hesaplayan doğrusal bir modeldir;
  • Lojistik regresyonu optimize etmek için gradyan iniş yöntemi tanıtıldı, ancak hata ölçüsünü doğrudan optimize edemiyor;
  • Stokastik gradyan iniş, sinir ağlarında kullanılan gradyan inişin bir uzantısıdır;
  • Sinir ağları, biyolojik bir bakış açısıyla motive edilen ve algılayıcılarla ilgili bir hipotezi uygulayan bir modeldir;
  • Geri yayılım algoritması, sinir ağları ile birlikte giden ve modeli özellikle pratik hale getiren verimli bir algoritmadır;
  • Sinir ağları günümüzde tercih edilen model olmasa da, bankacılık ve kredi onay gibi birçok sektörde hala standart olarak kullanılmaktadır.
Lecture 10 - Neural Networks
Lecture 10 - Neural Networks
  • 2012.05.06
  • www.youtube.com
Neural Networks - A biologically inspired model. The efficient backpropagation learning algorithm. Hidden layers. Lecture 10 of 18 of Caltech's Machine Learn...
 

Ders 11 - Aşırı Uyum



Caltech'in Makine Öğrenimi Kursu - CS 156. Ders 11 - Fazla uydurma

Bu ders, makine öğreniminde fazla uydurmanın kavramını ve önemini tanıtmaktadır. Aşırı uyum, bir model sinyal yerine gürültü üzerinde eğitildiğinde meydana gelir ve bu da örneklem dışı uyumun zayıf olmasına neden olur. Ders, gürültü seviyesi ve hedef karmaşıklığı gibi farklı parametrelerin fazla uydurma üzerindeki etkilerini göstermek için çeşitli deneyler içerir. Öğretim görevlisi, aşırı uyumu erken tespit etmenin ve bunu önlemek için düzenlileştirme ve doğrulama tekniklerinin kullanılmasının önemini vurgular. Deterministik ve stokastik gürültünün aşırı uydurma üzerindeki etkisi de tartışılır ve ders, düzenlileştirme ve doğrulama yoluyla aşırı uydurmadan kaçınmaya ilişkin sonraki iki dersin tanıtılmasıyla sona erer.

Overfitting kavramı ele alınmış ve bunun önlenmesinde düzenlileştirmenin önemi vurgulanmıştır. Profesör, fazla uydurma ve yetersiz uydurma arasındaki dengeyi vurgular ve VC boyutunun fazla uydurmadaki rolünü açıklar; burada aynı sayıda örnek verildiğinde VC boyutundaki tutarsızlık, numune dışı ve numune içi hatada tutarsızlıklara neden olur. Bir modeli doğrulamanın pratik konusu ve bunun fazla uydurma ve model seçimini nasıl etkileyebileceği de ele alınmaktadır. Ayrıca profesör, aşırı uydurmayı önlemede parçalı doğrusal fonksiyonların rolünü vurgular ve modeldeki serbestlik derecelerinin sayısını dikkate almanın ve onu düzenlileştirme yoluyla kısıtlamanın önemini vurgular.

  • 00:00:00 Bu bölümde öğretim görevlisi, makine öğreniminde fazla uydurma konusunu ve önemini tanıtıyor ve fazla uydurma ile başa çıkabilme becerisinin bu alandaki profesyonelleri amatörlerden ayırdığına dikkat çekiyor. Fazla uydurmanın ana suçlusu gürültü olarak tanımlanır ve öğretim görevlisi, fazla uydurma ile başa çıkmak için teknikler olarak düzenlileştirme ve doğrulama kavramlarını sunar. Bu bölüm, sonraki üç derste işlenecek olan yeni bir konuya giriş niteliğindedir.

  • 00:05:00 Bu bölümde öğretim görevlisi, fazla uydurma kavramını, 4. dereceden bir polinomu 2. dereceden bir hedef fonksiyona ilave gürültü ile uydururken bunun nasıl oluşabileceğini göstererek açıklıyor. Bu, sıfır eğitim hatası ve zayıf örnek dışı uyum ile sonuçlanır; bu, modelin ihtiyaç duyduğundan daha ileri gittiği aşırı uydurmanın klasik bir örneğidir. Eğitim sırasında E_in azalırken E_out yüksek kaldığından, sinir ağlarında aşırı uyum tartışılırken bu nokta daha da vurgulanır. Öğretim görevlisi ayrıca, fazla uydurmanın karşılaştırmalı bir terim olduğunu, çünkü daha iyi olan başka bir durumun olması gerektiğini ve aynı model içinde fazla uydurmanın meydana gelebileceğini belirtiyor.

  • 00:10:00 Bu bölümde Profesör Abu-Mostafa, E_in düşürüldüğünde meydana gelen, ancak sinyal yerine gürültüyü uydurma nedeniyle E_out artan aşırı uydurmayı tartışıyor. Etkili VC boyutunun zamanla büyüdüğünü, ancak parametre sayısı arttıkça genelleme hatasının daha da kötüleştiğini açıklıyor. Fazla uydurma, iki farklı model veya aynı model içindeki örnekler karşılaştırıldığında meydana gelebilir. Bunu düzeltmenin bir yolu, fazla uydurmayı önlemek için düzenlileştirme görevi gören doğrulamaya dayalı erken durdurma algoritmasını kullanarak fazla uydurmayı tespit etmektir. Aşırı uyum oluştuğunda gürültüyü ayarlamaktan kaçınmak için, E_in'i en aza indirmeye devam etmek yerine erken tespit etmek ve durdurmak önemlidir.

  • 00:15:00 Bu bölümde öğretim görevlisi, verilerde gürültü olması nedeniyle aşırı uydurmanın nasıl meydana gelebileceğini tartışır. Biri gürültülü düşük dereceli hedefi olan ve diğeri gürültüsüz yüksek dereceli hedefi olan iki farklı modelle bir vaka çalışması sunulmuştur. Verileri sığdırmak için 2. dereceden bir polinom ve 10. dereceden bir polinom kullanılır. İkinci dereceden uyum için, numune içi hata 0,05'tir ve numune dışı hata biraz daha yüksektir. Buna karşılık, 10. dereceden uyum, örneklem içi hatanın 2. dereceden uyumdan daha küçük olmasıyla birlikte bir sorun teşkil eder. Bununla birlikte, örneklem dışı hata önemli ölçüde artarak, gürültünün modele sığdırıldığı bir aşırı uyum durumunu gösterir.

  • 00:20:00 Bu bölümde öğretim görevlisi, fazla uydurmayı ve model başka bir tür gürültüyü uydururken gürültüsüz durumlarda bile bunun nasıl meydana gelebileceğini tartışır. 10. dereceden bir modeli 10. dereceden gürültülü bir hedefe uydurmanın bir örneğini ve bunun aşırı uyumla nasıl sonuçlandığını veriyor. Ardından, modelin karmaşıklığını hedef karmaşıklıktan ziyade veri kaynaklarıyla eşleştirerek, daha basit bir modele sahip olmasına rağmen daha iyi performansla sonuçlanabileceğini gösteriyor. Öğretim görevlisi, genelleme sorunlarının veri kümesinin boyutuna ve kalitesine bağlı olduğunu ve modelin karmaşıklığını hedef işlevle eşleştirmenin her zaman en iyi yaklaşım olmadığını vurgular.

  • 00:25:00 Bu bölümde, makine öğrenimindeki fazla uydurma kavramı inceleniyor. Ders, daha karmaşık bir model için örnek içi hatanın nasıl daha küçük olduğunu, ancak örnek dışı hatanın daha büyük olduğunu göstermek için öğrenme eğrilerini kullanır ve fazla uydurmanın meydana geldiği gri alanı tanımlar. Ders ayrıca, gürültü olmadan 50. dereceden bir hedefe uyacak şekilde biri 10. dereceden, diğeri 2. dereceden seçen iki öğrenciyle yapılan bir deneyi gösterir. Gürültü olmamasına rağmen, her iki öğrenci de aşırı uyum sorunu yaşıyor, bu da gerçek gürültünün tanımlanmasına ve gerçek dünyadaki makine öğrenimi problemlerinde dikkatli olunmasına yol açıyor. Ders, bu konuyu anlamanın ve ele almanın önemini vurgulayarak, vakaların çoğunda fazla uydurmanın meydana geldiği sonucuna varıyor.

  • 00:30:00 Bu bölümde öğretim görevlisi, gürültü seviyesi, hedef karmaşıklığı ve veri noktalarının sayısı dahil olmak üzere fazla uydurmayı etkileyen parametreleri tartışır. Yüksek karmaşıklığa sahip ilginç hedef fonksiyonları oluşturmak için öğretim görevlisi, birbirine ortogonal olan belirli katsayılara sahip standart bir Legendre polinomları seti kullanır. Öğretim görevlisi, sinyali 1'lik bir enerjiye normalleştirerek, sigma karenin gürültü miktarı olduğunu belirtebilir. Öğretim görevlisi, deneyin örneklerini oluştururken, aşırı uydurmanın kalıcılığını gözlemlemek için farklı gürültü, hedef karmaşıklığı ve veri noktası sayısı kombinasyonlarını kullanır.

  • 00:35:00 Bu bölümde öğretim görevlisi, iki farklı modelin örnek dışı hatalarını karşılaştıran bir fazla uydurma ölçüm yöntemini tartışıyor: 2. dereceden bir polinom ve 10. dereceden bir polinom. Ölçü, karmaşık model için örneklem dışı hata ile basit model için örneklem dışı hata arasındaki farktır. Karmaşık modelin örneklem dışı hatası daha büyükse, ölçünün pozitif olmasına neden oluyorsa, aşırı uyum vardır. Öğretim görevlisi daha sonra, aşırı uyum ölçüsünün değişen gürültü seviyeleri ve hedef karmaşıklığı ile nasıl değiştiğini gösterir. Gürültü seviyesi arttıkça ve hedef karmaşıklığı arttıkça aşırı uyum kötüleşir. Öğretim görevlisi ayrıca fazla uydurmanın önemli bir sorun olduğunu ve ele alınması gerektiğini belirtiyor.

  • 00:40:00 Bu bölümde, fazla uydurmadaki gürültü kavramı, geleneksel gürültünün ötesine geçerek stokastik gürültü ve deterministik gürültü olarak ikiye ayrılmıştır. Daha fazla verinin genellikle daha az fazla uydurmaya yol açtığı ve stokastik veya deterministik gürültüdeki artışın daha fazla fazla uydurmaya yol açtığı belirtilmektedir. Deterministik gürültü, hedef fonksiyonun bir hipotez setinin yakalayamadığı kısmı olarak tanımlanır ve bir hipotez setinin bununla baş edememesi nedeniyle gürültü olarak etiketlenir. Yakalanamayan bir şeyin nasıl gürültü olduğu kavramı, sınırlı bir sayı anlayışına sahip küçük bir kardeşe karmaşık sayıları açıklamayı içeren varsayımsal bir senaryo kullanılarak daha fazla araştırılır.

  • 00:45:00 Dersin bu bölümünde, deterministik ve stokastik gürültü arasındaki fark açıklanmakta ve deterministik gürültünün aşırı uyum üzerindeki etkisi analiz edilmektedir. Deterministik gürültünün kullanılan hipotez setine bağlı olduğu ve hedef karmaşıklık arttıkça deterministik gürültünün ve aşırı uydurmanın da arttığı vurgulanmıştır. Ancak bu, hedef karmaşıklık belirli bir seviyeyi geçene kadar gerçekleşmez. Sonlu N için, stokastik gürültüyle ilgili aynı sorunlar, sınırlı örneklem boyutu nedeniyle bir kısmını yakalayabileceğiniz için deterministik gürültü için de geçerlidir. Daha karmaşık bir hipotez seti kullanmanın her zaman daha iyi olmadığı ve fazla uydurmaya yol açabileceği de belirtilir.

  • 00:50:00 Bu bölümde öğretim görevlisi, sonlu bir örnek verildiğinde fazla uydurma konusunu tartışır. Sonlu bir örnek verildiğinde, kişinin hem stokastik hem de deterministik gürültüyü uydurma yeteneğine sahip olduğunu ve bunun da daha kötü performansa yol açabileceğini açıklıyor. Öğretim görevlisi, stokastik ve deterministik gürültünün rolü hakkında fikir edinmek için hedefe gürültü ekleyen nicel bir analiz sağlar. Bir varyans terimine, bir yanlılık terimine ve eklenmiş bir terime yol açan kareleri ve çapraz terimleri elde etmeye hazırlanırken ağırlık merkezini ve epsilon'u toplar ve çıkarır. Eklenen terim sadece sigma kare, yani gürültünün varyansı.

  • 00:55:00 Dersin bu bölümünde, konuşmacı beklenen değerin önyargı ve varyansa ayrışmasını ve bunların deterministik ve stokastik gürültüyle nasıl ilişkili olduğunu tartışır. Her ikisi de sırasıyla hedef fonksiyona ve tahmin edilemeyen gürültüye en iyi yaklaşımı temsil eder. Örnek sayısındaki artış varyansı azaltır, ancak bir hipotez verildiğinde hem yanlılık hem de varyans kaçınılmazdır. Deterministik gürültü ve stokastik gürültünün her ikisi de veri noktalarında, uyumu fazla uydurmaya daha duyarlı hale getirerek varyansı etkileyen sonlu bir versiyona sahiptir. Konuşmacı, iki yaklaşımı, düzenlileştirmeyi ve doğrulamayı tartışarak, fazla uydurmadan kaçınma konusunda sonraki iki derse öncülük eder. Normalleştirme, aşırı uyumdan kaçınmak için frene basmak gibidir, doğrulama ise aşırı uyumdan kaçınmak için alt çizgiyi kontrol etmektir.

  • 01:00:00 Bu bölümde, profesör ölçülü bir uyum veya düzenlileştirme kullanarak aşırı uyumu frenleme kavramını tartışıyor. 4. dereceden bir polinom için bağlantı noktaları örneğini kullanıyor, ancak biraz sürtünme uygulayarak tam olarak uymasını engelliyor. Uygulanan fren miktarı minimum düzeydedir ancak yine de harika bir uyum elde ederken fazla takmada önemli bir azalma sağlar. Profesör, aşırı uydurmayı önlemek için düzenlileştirmeyi ve nasıl seçileceğini anlamanın önemli olduğunu belirtiyor. Soru-Cevap oturumu, stokastik gradyan inişinde rastgeleleştirmenin önemini ve sinir ağı çizimlerinde örnek dışı hatanın nasıl çizileceğini ele alır.

  • 01:05:00 Bu bölümde profesör, bir öğrenme senaryosundaki deterministik ve stokastik gürültünün aynı olduğunu, çünkü deterministik gürültünün bir hipotez setinin hedef fonksiyona yaklaşamamasından kaynaklandığını açıklıyor. Gerçek dünya öğrenme problemlerinde, hedef fonksiyonun karmaşıklığı genellikle bilinmez ve gürültü tanımlanamaz. Fazla uydurmayı kavramsal olarak anlamanın amacı, gürültünün ayrıntıları olmadan fazla uydurmadan kaçınmaktır. Aşırı eğitim, aynı modele göre aşırı uyum ile eş anlamlıdır. Kayan noktalı sayılar gibi diğer hata kaynakları, aşırı uydurma üzerinde hiç bahsedilmeyen sınırlı bir etki yaratır. Profesör, üçüncü dereceden doğrusal model (lojistik regresyon) açısından, doğrusal olarak ayrılabilir verilere uygulandığında, yerel bir minimum ve sıfır numune hatası elde edilebileceğini açıklıyor.

  • 01:10:00 Bu bölümde profesör, sonlu bir örneklemde hem stokastik hem de deterministik faktörlerden gelen gürültünün katkısı nedeniyle ortaya çıkan fazla uydurma konusunu ve bunun sonlu örneklem versiyonunu tartışıyor. Bu, algoritmanın, H_10 gibi daha büyük modellerin takılması söz konusu olduğunda zararlı olan bu gürültüye uymasına yol açar. Profesör, aşırı uydurmayı önlemek için parçalı doğrusal fonksiyonların kullanımını tartışırken, modelinizdeki serbestlik derecesi sayısını göz önünde bulundurmanın ve düzenleme yoluyla uydurma açısından modelinizi kısıtlamak için adımlar atmanın önemini vurguluyor. Son olarak, profesör bir modeli doğrulamaya ilişkin pratik soruyu ve bunun fazla uydurma ve model seçimini nasıl etkileyebileceğini ele alıyor.

  • 01:15:00 Bu bölümde, profesör gereğinden fazla uydurma ile yetersiz uydurma arasındaki ödünleşimi tartışıyor ve daha iyi bir hipoteze ulaşmak için kendinizi eğitim için kullanılabilecek bir kaynaktan mahrum etmeniz gerekebileceğini açıklıyor. Profesör ayrıca VC (Vapnik-Chervonenkis) boyutunu ve bunun fazla uydurma ile nasıl ilişkili olduğunu ayrıntılı olarak açıklayarak, aynı sayıda örnek verildiğinde VC boyutundaki tutarsızlığın, örneklem dışı ve içindeki tutarsızlıkların nedeni olduğunu belirtir. -örnek hatası. Profesör ayrıca, hedef karmaşıklığını renkli grafiklerde göstermiş olsalar da, hedef karmaşıklığının açıkça ölçülmediğini ve onu deterministik gürültünün enerjisine eşlemenin net bir yolu olmadığını da açıklıyor. Son olarak, profesör, hedef karmaşıklığın önyargı-varyans ayrıştırmasında nasıl bir şeye dönüşebileceğini ve fazla uydurma ve genelleme üzerinde bir etkisi olduğunu tartışıyor.
Lecture 11 - Overfitting
Lecture 11 - Overfitting
  • 2012.05.10
  • www.youtube.com
Overfitting - Fitting the data too well; fitting the noise. Deterministic noise versus stochastic noise. Lecture 11 of 18 of Caltech's Machine Learning Cours...
 

Ders 12 - Düzenleme



Caltech'in Makine Öğrenimi Kursu - CS 156. Ders 12 - Düzenleme

Düzenli hale getirmeyle ilgili bu ders, fazla uydurmanın ve bunun makine öğrenimi modellerinin genelleştirilmesi üzerindeki olumsuz etkisinin açıklanmasıyla başlar. Düzenlileştirmeye yönelik iki yaklaşım tartışılmaktadır: matematiksel ve buluşsal. Ders daha sonra, genişleyen bileşenler olarak Legendre polinomları örneğini kullanarak düzenlileştirmenin lineer modellerde yanlılık ve varyans üzerindeki etkisini araştırır. Düzenlileştirmede C ve lambda arasındaki ilişki, artırılmış hataya giriş ve bunun genelleme için düzenlileştirmeyi doğrulamadaki rolüyle birlikte ele alınmaktadır. Ağırlık azaltma/büyüme teknikleri ve fazla uydurmayı önlemek için doğru düzenleyiciyi seçmenin önemi de tartışılmaktadır. Ders, buluşsal bir alıştırma olarak iyi bir omega seçmeye odaklanılarak sona erer ve lambda'nın düzenlileştirme için kurtarıcı bir lütuf olarak hizmet edeceğini umar.

İkinci kısım, ağın basitliği ile işlevselliğini dengelemenin bir yolu olarak ağırlık azalmasını tartışıyor. Öğretim görevlisi, farklı gürültü seviyeleri için en uygun düzenlileştirme parametrelerini belirlemek için doğrulama kullanımını vurgulayarak aşırı düzenlileştirme ve optimum olmayan performansa karşı uyarıda bulunur. Düzenlileştirme, teorik ve pratik bir temele sahip deneysel olarak tartışılmaktadır. Farklı problemler için uygun düzenleme yönteminin nasıl belirleneceği ile birlikte L1/L2, erken durdurma ve bırakma gibi yaygın düzenlileştirme türleri tanıtılmaktadır. Düzenlileştirmenin uygulanmasıyla ilişkili yaygın hiperparametreler de tartışılmaktadır.

  • 00:00:00 Bu bölümde, Yaser Abu-Mostafo, zayıf bir genelleme pahasına, bir modelin verilere çok iyi uyması durumunda ortaya çıkan aşırı uydurmanın ayrıntılarını araştırıyor. Veriler gürültülü olmasa bile, modelin sınırlamaları nedeniyle deterministik gürültü meydana gelebilir, bu da örneklem dışı hataya zarar veren ve fazla uydurmaya neden olan bir kalıba yol açar. Bununla birlikte, Abu-Mostafo, hemen hemen her makine öğrenimi uygulamasında kullanılan bir teknik olan ve anlaşılması önemli olan fazla uydurma için ilk çare olarak düzenlileştirmeyi sunar.

  • 00:05:00 Bu bölümde öğretim görevlisi, makine öğreniminde düzenlileştirmeye yönelik iki yaklaşımı tartışıyor. İlk yaklaşım matematikseldir, burada düzgün olmayan kısıtlamalar kötü konumlanmış problemleri çözmek için empoze edilir, ancak bu gelişmelerde yapılan varsayımlar pratik uygulamalar için her zaman gerçekçi değildir. İkinci yaklaşım buluşsaldır ve aşırı uydurma ile mücadeleye yardımcı olan uyumu frenleyerek numune içi hatanın en aza indirilmesini engellemeyi içerir. Öğretim görevlisi, sinüsoid ve doğru uyumu kullanan bir örnek vererek, doğruların ofsetini ve eğimini düzenli hale getirerek ve kontrol ederek, örnek dışında daha iyi performans elde edebileceğimizi gösteriyor.

  • 00:10:00 Bu bölümde öğretim görevlisi, düzenlileştirmenin lineer bir modelin yanlılığı ve varyansı üzerindeki etkisini tartışıyor. Düzenlileştirme kullanılarak, kusurlu uyum nedeniyle yanlılık biraz artırılırken varyans azaltılır. Öğretim görevlisi, düzenlemenin yanlılık ve varyans üzerindeki etkisini göstermek için genişleyen bileşenler olarak Legendre polinomları ile bir polinom modeli örneğini kullanır. Düzenlileştirme ile doğrusal model, düzensiz modelden ve hatta sabit modelden daha iyi performans gösterir. Ders, gerçek dünyadaki durumlarla başa çıkmak için öğrenilebilecek somut sonuçlara ve derslere odaklanarak, makine öğrenimindeki en ünlü düzenlileştirme tekniklerinden birinin matematiksel gelişimini derinlemesine ele alıyor.

  • 00:15:00 Bu bölümde öğretim görevlisi, Legendre polinomlarını tanıtır ve bunların polinom regresyon için bir hipotez seti oluşturmak için nasıl kullanılabileceğini açıklar. Ortogonal olan ve farklı koordinatlarla ilgilenen bu polinomları kullanarak, ilgili parametre tek bir ağırlıktan ziyade bir ağırlık kombinasyonudur. Hipotez seti, kolay analitik çözümlere izin verecek şekilde parametreleştirilebilir ve doğrusal bir biçimde temsil edilebilir. Hedef fonksiyon bilinmiyor ve amaç, sonlu bir eğitim seti kullanarak onun için iyi bir yaklaşım elde etmektir. Öğretim görevlisi ayrıca doğrusal regresyon kullanarak örneklem içi hatayı en aza indirmek için kısıtlanmamış ve kısıtlanmış çözümleri de gözden geçirir.

  • 00:20:00 Bu bölümde öğretim görevlisi, hipotez setlerinin ağırlıklarına uygulanan bir kısıtlama olan düzenlileştirme kavramını tartışır. Düzenleme, ağırlıkların toplam büyüklüğünün karesi için bir bütçe C belirlemeyi içerir; bu, tüm ağırlıkların çok büyük olamayacağı anlamına gelir. Sorun, bu kısıtlamaya tabiyken numune içi hatayı en aza indirmektir. Çözüm, Lagrange çarpanları veya w_reg adlı yeni bir çözüm veren KKT kullanılarak elde edilir. Öğretim görevlisi, amacın, kısıtlamayı ihlal etmeden karşılayabildiğiniz kadar uzağa gitmeyi gerektiren numune içi hatayı en aza indiren bir daire içinde bir nokta seçmek olduğunu açıklıyor.

  • 00:25:00 Bu bölümde, amacın görünmeyen verilere genelleme yapan bir model türetmek olduğu düzenlileştirme kavramı tartışılmaktadır. Doğrusal regresyonun çözümü, kısıtlamayı karşılayan minimum mutlaktır. Ana odak noktası, amaç ile kısıtlama arasında bir uzlaşma bulmak amacıyla kısıtlamaya tabi olarak minimum E_in'e ulaşmak için analitik koşulun türetilmesidir. Amaç fonksiyonunun gradyanı elipse dik olmalıdır ve w vektörü kırmızı yüzey yönündedir. w_reg için analitik koşul, gradyanın çözümün negatifiyle orantılı olması gerektiğidir. Çözümün denklemini en aza indirerek, koşulsuz olarak minimum E_in'i elde edersiniz.

  • 00:30:00 Bu bölümde ders, düzenlileştirmede C ve lambda parametreleri arasındaki ilişkiyi tartışır. C değeri ne kadar büyük olursa, düzenlileştirme terimine daha az vurgu yapıldığından lambda değeri o kadar küçük olur. Tersine, C azaldıkça, düzenlileştirme terimi daha önemli hale gelir ve koşulu uygulamak için lambda değerinin artması gerekir. Ders ayrıca, hata işlevi ve düzenlileştirme teriminin toplamı olan artırılmış hatayı da tanıtıyor. Kısıtlamaya tabi iken hata fonksiyonunu en aza indiren kısıtlanmamış bir optimizasyon problemine eşdeğerdir. Bu benzerlik, genelleştirme açısından düzenlileştirmeyi haklı çıkarır ve herhangi bir düzenleyici için geçerlidir. Son olarak, ders artırılmış hatayı en aza indirmek için formül sağlar ve çözümü sunarak sona erer.

  • 00:35:00 Bu bölümde konuşmacı düzenlileştirme sorununun çözümünü tartışır. Çözüm, sözde ters çözümün ek bir düzenlileştirme terimiyle değiştirilmiş hali olan w_reg ile temsil edilir. Temiz varsayımlar altında, düzenlileştirme de dahil olmak üzere tek adımlı öğrenmemiz var. Başka bir deyişle, kısıtlanmış bir optimizasyon yapmadan doğrudan bir çözüme sahip olabiliriz. Çözümdeki düzenlileştirme terimi, lambda arttıkça baskın hale gelir ve bu da w_reg'i sıfıra indirerek daha küçük ve daha küçük bir çözüm oluşturur. Konuşmacı daha sonra, lambda seçiminin kritik olduğunu ve düzenleyici türü için buluşsal bir seçimin gerekli olacağını göstererek, düzenlileştirmeyi tanıdık bir soruna uygular.

  • 00:40:00 Bu bölümde, düzenlileştirme kavramı ve onunla ilişkili ağırlık azaltma olarak bilinen yöntem tanıtılmaktadır. Ağırlık bozunması, w devrik w'yi en aza indirmeyi ve "bozunma" adının verilebilmesi için ağırlıkların küçük olmasını sağlamayı içeren, makine öğreniminde ünlü bir düzenleyicidir. Sinir ağlarını kullanırken, ağırlık azaltma, toplu gradyan iniş yoluyla uygulanabilir; burada bu terimin eklenmesi, ağırlık uzayındaki herhangi bir hareketten önce ağırlıkları küçültür, bu da λ büyük olduğunda fonksiyon hakkında ne kadar öğrenilebileceğini sınırlar. Ağırlık azaltma varyasyonları, belirli ağırlıklara önem faktörleri atamayı ve kullanılan düzenleyici türünü denemek için farklı sabitler kullanmayı içerir.

  • 00:45:00 Bu bölümde öğretim görevlisi, makine öğreniminde modeller tarafından kullanılan ağırlık aralığını sınırlamak için kullanılan kısıtlamalar olan ağırlık azaltma ve ağırlık büyütme tekniklerini tartışıyor. Ağırlık azaltma, modelleri daha küçük ağırlıklar kullanmaya sınırlandırırken, ağırlık artışı daha büyük ağırlıkları kısıtlar. Öğretim görevlisi, en iyi örnek dışı performansı elde etmek için her iki teknik için de en uygun lambda değerinin seçilmesi gerektiğini açıklar. Ek olarak öğretim görevlisi, doğru düzenleyicinin nasıl seçileceğini tartışır ve düzenleyicilerin seçimine rehberlik etmeye yardımcı olan kılavuzların kullanılması yoluyla aşırı uyumdan kaçınmanın önemini vurgular. Son olarak, öğretim görevlisi, yüksek frekanslı stokastik gürültüden kaçınmak gibi en uygun düzenleyicileri bulmaya yardımcı olacak pratik kuralların kullanılmasını önerir.

  • 00:50:00 Dersin bu bölümünde eğitmen, aşırı uydurmaya yol açabilecek farklı gürültü türlerini ve daha yumuşak hipotezler seçme eğiliminde olan bir düzenleyici seçmenin neden önemli olduğunu açıklıyor. VC analizinde kullanılan denkleme benzer şekilde, genel düzenleme biçimini ve en aza indirilmiş artırılmış hatayı tanımlar. Ayrıca, bireysel bir hipotezin karmaşıklığı ile nesneler kümesinin karmaşıklığı arasındaki uyumu ve E_aug'un E_out için E_in'den daha iyi bir tahmin olduğunu tartışır.

  • 00:55:00 Dersin düzenlileştirme üzerine olan bu bölümünde, örnek dışı hata için daha iyi bir temsil olarak artırılmış hata fikri tartışılıyor. Düzenleme, esas olarak gürültüyü sinyalden daha fazla uyduran aşırı uydurmayı azaltmayı amaçlar. Bir düzenleyici seçmenin yol gösterici ilkesi, daha yumuşak yönde hareket etmektir, çünkü gürültü düzgün değildir ve daha yumuşak çözümler gürültüye uydurma sinyalinden daha fazla zarar verme eğilimindedir. Daha basit kavramı, pürüzsüzlüğün iyi uygulanmadığı bir durumda da ortaya çıkar. İyi bir omega seçmek buluşsal bir alıştırmadır ve içerdiği matematik yalnızca dayandığı varsayım kadar iyidir. Ders, lambda'nın düzenleyiciyi seçmek için kurtarıcı bir lütuf olarak hizmet edeceği umuduyla sona erer.

  • 01:00:00 Dersin bu bölümünde, küçük ağırlıkların işlevin basitliğiyle sonuçlandığı ve daha büyük ağırlıkların herhangi bir işlevselliğin uygulanmasına izin vermek için mantıksal bir bağımlılığa yol açtığı sinir ağları için ağırlık azalması kavramı inceleniyor. Başka bir düzenleyici biçimi, bir ağ içindeki bazı ağırlıkların sıfır olmaya zorlandığı, daha küçük bir VC boyutuyla sonuçlanan, daha iyi genelleme ve daha az fazla uydurma şansı sağlayan ağırlık eleme yöntemidir. Ağırlıkların bazılarını diğerlerine göre vurgulamak için ağa sürekli bir fonksiyonun uygulandığı yumuşak ağırlık eliminasyonu başlatılır. Son olarak, erken durdurma, işleve dolaylı olarak basitlik sağlamanın bir yolu olduğu için eğitimi sona ermeden önce durdurmayı öneren bir düzenleyici biçimi olarak tartışılmaktadır.

  • 01:05:00 Bu bölümde, profesör düzenlileştirmenin optimize edici aracılığıyla yapıldığını ve amaç fonksiyonunu değiştirmediğimizi açıklıyor. Bunun yerine, örnek içi hata olan amaç fonksiyonunu optimize ediciye teslim ediyoruz ve onu en aza indirmesini söylüyoruz. Profesör daha sonra, düzgün yapılmazsa aşırı düzenlileştirmeye ve optimum olmayan performansa yol açabilecek düzenleyiciyi optimize ediciye koymamak konusunda uyarıda bulunur. Amaç fonksiyonunda mümkün olduğu kadar çok yakalamanın ve ardından düzenleme parametresi lambda için en uygun değeri belirlemek için doğrulamayı kullanmanın önemini vurguluyor. Profesör daha sonra lambda seçiminin farklı gürültü seviyelerinde nasıl değiştiğini ve doğrulamanın kullanılmasının gürültü göz önüne alındığında mümkün olan en iyi sonucu belirlemeye nasıl yardımcı olabileceğini gösterir. Son olarak, performansa bağlı olarak farklı türde düzenleyicilerin farklı parametrelerle kullanımını tartışıyor.

  • 01:10:00 Bu bölümde profesör, tamamen ilkeli bir etkinlikten ziyade deneysel bir etkinlik olan makine öğreniminde düzenleyicilerin kullanımını tartışıyor. Makine öğrenimi yaklaşımı, teori ve pratik arasında bir yerdedir, yani her ikisinde de güçlü bir temele sahiptir. Profesör, Legendre polinomlarını ortogonal fonksiyonlar olarak kullanıyor çünkü bunlar ilginç bir genellik düzeyi sağlıyor ve çözümü basit. Düzenlileştirme, bir kullanıcının en iyi performans için iki ayrı adım arasında olabilecek bir tatlı nokta bulmasına olanak tanır. Eklenen düzenlileştirme terimi, açıkça veri kümesine bağlı değildir. Bununla birlikte, en uygun parametre olan lambda, doğrulama ile belirlenecek olan eğitim setine bağlı olacaktır.

  • 01:15:00 Bu bölümde, makine öğrenimi modellerinde fazla uydurmayı önlemek için kayıp işlevine bir ceza terimi eklemeyi içeren düzenlileştirme kavramı tanıtılmaktadır. En yaygın iki düzenlileştirme türü olan L1 ve L2, ilgili avantaj ve dezavantajlarıyla birlikte tartışılmaktadır. Ek olarak, alternatif düzenlileştirme teknikleri olarak erken durdurma ve bırakmanın kullanımı açıklanmaktadır. Ders, belirli bir problem için uygun düzenlileştirme yönteminin nasıl belirleneceğine dair bir genel bakışın yanı sıra düzenlileştirmeyi uygularken dikkate alınması gereken yaygın hiperparametrelerle sona erer.
Lecture 12 - Regularization
Lecture 12 - Regularization
  • 2012.05.14
  • www.youtube.com
Regularization - Putting the brakes on fitting the noise. Hard and soft constraints. Augmented error and weight decay. Lecture 12 of 18 of Caltech's Machine ...
 

Ders 13 - Doğrulama




Caltech'in Makine Öğrenimi Kursu - CS 156. Ders 13 - Doğrulama

13. derste, model seçimi için makine öğreniminde önemli bir teknik olarak doğrulamaya odaklanılmaktadır. Ders, neden doğrulama olarak adlandırıldığı ve model seçimi için neden önemli olduğu da dahil olmak üzere doğrulamanın ayrıntılarına giriyor. Çapraz doğrulama, eğitim ve doğrulama için mevcut tüm örneklerin kullanımına izin veren bir doğrulama türü olarak da tartışılmaktadır. Öğretim görevlisi, örneklem dışı bir noktayı alan ve hipotez ile hedef değer arasındaki farkı hesaplayan rastgele değişkeni kullanarak örneklem dışı hatanın nasıl tahmin edileceğini açıklar. Ders, doğrulama setine dayalı olarak seçildiğinden artık güvenilir olmadığından, belirli bir modeli seçmek için tahmin kullanıldığında ortaya çıkan yanlılığı da tartışır. Çapraz doğrulama kavramı, farklı hipotezler için örneklem dışı hatanın değerlendirilmesi için bir yöntem olarak tanıtıldı.

Ayrıca, "birini dışarıda bırak" ve 10 kat çapraz doğrulamaya odaklanarak, fazla uydurmayı önlemek için model seçimi ve doğrulama için çapraz doğrulama kullanımını kapsar. Profesör, örneklem dışı tutarsızlık ve veri gözetleme için açıklamanın önemini gösteriyor ve örnekleme yanlılığını önlemek için rastgeleleştirme yöntemlerinin dahil edilmesini öneriyor. Çapraz doğrulamanın karmaşıklığı artırabilmesine rağmen, onu düzenlileştirme ile birleştirmenin en iyi modeli seçebileceğini ve doğrulamanın varsayım gerektirmediğinden benzersiz olduğunu açıklıyor. Profesör ayrıca, çapraz doğrulamanın farklı senaryolar ve modeller arasında karşılaştırma yaparken bile ilkeli seçimler yapmaya nasıl yardımcı olabileceğini ve toplam doğrulama noktalarının hata çubuğunu ve yanlılığı nasıl belirlediğini açıklıyor.

  • 00:00:00 Bu bölümde, makine öğreniminde model seçiminde kullanılan bir diğer önemli teknik olan doğrulamaya odaklanılmaktadır. Süreç, bir doğrulama seti boyutu seçmeyi ve bunu model seçim sürecini doğrulamak için kullanmayı içerir. Ders, neden doğrulama olarak adlandırıldığı ve model seçimi için neden önemli olduğu da dahil olmak üzere doğrulamanın ayrıntılarına giriyor. Tartışma aynı zamanda, mevcut tüm örneklerin eğitim ve doğrulama için kullanılmasını sağlayan bir doğrulama türü olan çapraz doğrulamayı da kapsar. Ders, doğrulamayı, kontrole kadar düzenlileştirme ile karşılaştırır.

  • 00:05:00 Bu bölümde öğretim görevlisi, modelin karmaşıklığından kaynaklanan örnek içi hata ile örnek dışı hata arasındaki farkı ele alan iyi bilinen denklem bağlamında doğrulama ve düzenlemeyi tartışır. Düzenleme, aşırı uyum karmaşıklığının cezasını tahmin ederken doğrulama, doğrudan örneklem dışı hatayı tahmin etmeye çalışır. Öğretim görevlisi, örneklem dışı bir noktayı alan ve hipotez ile hedef değer arasındaki farkı hesaplayan rastgele değişkeni kullanarak örneklem dışı hatanın nasıl tahmin edileceğini açıklar. Öğretim görevlisi, varyansın tahminin kalitesini nasıl etkilediğini vurgular ve bir nokta yerine tam puan seti kullanmayı önerir.

  • 00:10:00 Bu bölümde, bir doğrulama seti kavramı ve numune dışı hatanın yansız bir tahmini olarak doğrulama hatası tanıtılmaktadır. Doğrulama hatasının beklenen değeri, tek bir noktada beklenen değerin başka bir şekli olan E_out'tur. Doğrulama hatasının varyansı, tek bir noktaya kıyasla E_değerine dayalı tahminde bir iyileşme olduğunu göstermek için analiz edilir. Varyans, 1/K ile orantılı hale gelir; bu, K'nin artırılmasının hata çubuğunu küçültebileceği ve tahminin güvenilirliğini artırabileceği anlamına gelir. Ancak doğrulama noktalarının sayısı ücretsiz değildir ve eğitim için mevcut puanların sayısı üzerinde doğrudan bir etkiye sahiptir.

  • 00:15:00 Bu bölümde, doğrulama işlemine odaklanılmaktadır, burada doğrulama amacıyla N noktadan K puan alınırken, geri kalan D_train alt kümesi eğitim için kullanılır. Nihai hipotezin güvenilir olmasını sağlamak için bir doğrulama kümesinin güvenilir bir tahminine sahip olmanın yararlılığına dikkat etmek de önemlidir. Ancak, kötü bir miktar için güvenilir bir tahmine sahip olmak amaç olmamalıdır. K değeri arttıkça, tahmin daha güvenilir hale gelir, ancak hipotezin kalitesi düşer. Bu nedenle, K artışıyla birlikte gelen bedeli ödemek zorunda kalmamanın bir yolunu bulmak çok önemlidir. Bunun bir yolu, hatayı tahmin ettikten sonra veri setini geri yüklemek ve daha iyi sonuçlar elde etmek için tüm set üzerinde çalışmaktır.

  • 00:20:00 Bu bölümde, eğitim sırasında bir doğrulama seti kullanılırken performanstan ödün verilmesine odaklanılmaktadır. Azaltılmış D_train seti, kullanarak son hipotez g eksi elde ettiğimiz tam eğitim seti D ile karşılaştırıldığında daha az örneğe sahip olacaktır. Bir tahmin elde etmek için, bir doğrulama seti olan D_val üzerinde g eksi değerini hesaplıyoruz ve ardından örneklerin geri kalanını potaya geri ekleyip g rapor ediyoruz. Ancak, büyük bir K, g eksi ile g arasındaki farkın daha büyük olduğu anlamına gelir ve bu, bildirdiğimiz tahminin güvenilirliğini etkiler. Bu nedenle, her iki dünyanın da en iyisini elde etmek için doğrulama için beşte birini kullanmak için pratik bir kural vardır. Öğrenme sürecini etkilediği ve seçim yapmaya yardımcı olduğu için buna doğrulama diyoruz.

  • 00:25:00 Bu bölümde, test hatası ile doğrulama hatası arasındaki farkın anlaşılmasına odaklanılmaktadır. Test seti tarafsız olduğunda ve E_out'u tahmin etmek için kullanıldığında, tahminde dalgalanmalar olacaktır. Erken durdurma kullanılırsa, tahminin sapması değişir. Bir mini öğrenme senaryosunda, minimumun beklenen değerinin 0,5'ten küçük olduğunu görmek kolaydır, bu da onu iyimser bir önyargı yapar. Aynı şey, erken durdurma için bir nokta seçildiğinde de olur - seçilen nokta, gerçekleştirmede minimumdur ve iyimser bir önyargı ortaya çıkar.

  • 00:30:00 Bu bölümde ders, makine öğreniminde model seçimi için doğrulama setinin kullanımını tartışır. Süreç, eğitim ve doğrulama setlerine bölünmüş bir veri seti kullanarak M modellerinin eğitimini ve ardından numune dışı hata tahminlerini elde etmek için doğrulama setindeki her modelin performansını değerlendirmeyi içerir. Doğrulama hatası en küçük olan model seçilir, ancak bu seçim sürecinden kaynaklanan yanlılık riski vardır. Bununla birlikte, önyargı pratikte genellikle küçüktür ve örneklem dışı hatanın güvenilir bir tahminini elde etmek için kabul edilebilir.

  • 00:35:00 Bu bölümde öğretim görevlisi, doğrulama setine dayalı olarak seçildiğinden artık güvenilir olmadığından, belirli bir modeli seçmek için tahmin kullanıldığında ortaya çıkan yanlılığı tartışır. Tahmin edicinin beklenen değeri, örneklem dışı hatanın taraflı bir tahmini haline gelir. İki modelle yapılan bir deney, bir modele veya diğerine yönelik sistematik bir eğilimi gösteren bir eğri oluşturdu. Grafikteki eğriler, geriye doğru öğrenme eğrisini ve eğitim için daha fazla örnekle örnek dışı hatanın nasıl düştüğünü gösterir. Doğrulama kümesinin boyutu büyüdükçe, tahmin daha güvenilir hale gelir ve modellerin hatalarını gösteren eğriler yakınsar.

  • 00:40:00 Bu bölümde ders, özel bir hipotez seti üzerinde eğitim ile bir doğrulama seti kullanarak nihai hipotezi bulmak arasındaki tutarsızlık veya yanlılığın nasıl tahmin edileceğini açıklar. Doğrulama seti, nihai hipotez seti için eğitim hatası olarak görülür ve VC boyutu ve etkili karmaşıklıkla ilgili biraz matematikle, örneklem dışı hatanın bir tahmini elde edilebilir. Daha fazla örnek tahmini iyileştirecek olsa da, artan sayıda hipotez arasından seçim yaparken logaritmik katkılar dikkate alınmalıdır. Bununla birlikte, tek bir parametreyle uğraşırken, etkili karmaşıklık, ele alınması çok zor olmayan 1'lik bir VC boyutuyla gider. Bu nedenle, uygun bir kümeniz varsa, örneklem dışı hatanın tahmini gerçek değerden çok farklı olmayacaktır.

  • 00:45:00 Bu bölümde, konuşmacı, özellikle doğrulama bağlamında, karar vermek için hata tahminlerini kullanırken veri kirliliği fikrini tartışıyor. Eğitim seti tamamen kirli olarak kabul edilirken, test seti tamamen temizdir ve tarafsız bir tahmin verir. Bununla birlikte, doğrulama seti birkaç karar vermek için kullanıldığından biraz kirlidir, bu nedenle kendinizi kaptırmamak ve gerektiğinde başka bir doğrulama setine geçmek önemlidir. Konuşmacı daha sonra, süreçte önyargılı olmadığı sürece daha küçük bir hata çubuğuyla daha iyi bir tahmin elde edebilen bir doğrulama rejimi olarak çapraz doğrulamayı tanıtıyor.

  • 00:50:00 Bu bölümde, profesör çapraz doğrulama yoluyla doğrulama kavramını, özellikle "birini dışarıda bırakma" yöntemini tanıtıyor. Bu yöntemde, veri seti ikiye bölünür, bir nokta doğrulama için kullanılır ve geri kalanı eğitim için kullanılır. İşlem, farklı noktalar için tekrarlanarak birden çok tarafsız ve kusurlu tahminle sonuçlanır. Tüm tahminler N eksi 1 veri noktasıyla eğitime dayandığından, ortak bir iş parçacığına sahiptirler. Kusursuz olmasına rağmen, tekrarlanan tahminler, modelin davranışı hakkında fikir verir ve en iyi örnek dışı performans için onu optimize etmeye yardımcı olur.

  • 00:55:00 Bu bölümde, farklı hipotezler için örneklem dışı hatayı değerlendirme yöntemi olarak çapraz doğrulama kavramı tanıtılmaktadır. Veri setini eğitim ve doğrulama setlerine bölerek, modelin görünmeyen veriler üzerindeki performansını tahmin etmek mümkündür. Süreci göstermek için "birini dışarıda bırak" yöntemi kullanılır. Eğitmek için N eksi 1 puan ve doğrulamak için N puan kullanmanın doğru sonuçlar elde etmek için oldukça verimli olduğu gösterilerek çapraz doğrulamanın etkinliği tartışıldı.

  • 01:00:00 Bu bölümde profesör, model seçimi için çapraz doğrulamanın kullanımını tartışıyor. Bunu doğrusal ve sabit modelleri üç nokta ile karşılaştırarak gösterir ve sabit modelin nasıl kazandığını gösterir. Daha sonra, 20 özellikli 5. dereceden doğrusal olmayan bir dönüşüm kullanarak el yazısı rakamlar için bir ayırma yüzeyi bulma problemine çapraz doğrulama uygular. 20 modeli karşılaştırmak için çapraz doğrulama "birini dışarıda bırak" yöntemini kullanır ve özellik eklemeyi nerede bırakacağını seçer. Çapraz doğrulama hatasının örnek dışı hatayla yakından takip edildiğini ve bunu model seçimi için bir kriter olarak kullanmanın, tam modeli doğrulama olmadan kullanmaya kıyasla geliştirilmiş performansla 6 özellikte minimuma yol açtığını gösteriyor.

  • 01:05:00 Bu bölümde profesör, aşırı uydurmayı önlemek için doğrulama kullanımını ve bunun normalleştirmeye nasıl benzediğini tartışıyor. Çoğu gerçek problem için "birini dışarıda bırak" doğrulamasının nasıl pratik olmadığını açıklıyor ve bunun yerine 10 katlı çapraz doğrulama kullanılmasını öneriyor. Ayrıca, veri kümesinin boyutuna göre kullanılacak parametre sayısı konusunda rehberlik sağlar ve doğrulama yoluyla model seçiminin neden veri gözetleme olarak sayılmadığını açıklar.

  • 01:10:00 Bu bölümde profesör, model seçimleri yapmak için doğrulama setini kullanırken örneklem dışı tutarsızlıkları ve veri gözetlemeyi hesaba katmanın önemini tartışıyor. Birçok pratik durumda, örnekleme yanlılığını önlemek için yazı tura atmak gibi rastgeleleştirme yöntemlerinin ve düzenlileştirme parametresini seçmek için çapraz doğrulama tekniklerinin kullanılması gerektiğini vurgulamaktadır. Çapraz doğrulama, hesaplama karmaşıklığı ekleyebilirken, bir model için en iyi hipotezi seçmek üzere düzenlileştirme ile birleştirilebilir. Profesör, model seçimi için başka yöntemler olmasına rağmen, doğrulamanın varsayım gerektirmemesi açısından benzersiz olduğunu belirtiyor.

  • 01:15:00 Bu bölümde profesör, seçimin doğasına bakılmaksızın model seçiminde ilkeli seçimler yapmaya nasıl yardımcı olabileceğini ve zaman evrimi veya izleme sistemi durumunda modeli güncellemek için nasıl kullanılabileceğini tartışıyor. evrim. Doğrulama ve çapraz doğrulamayı karşılaştırırken, her iki yöntemin de sapmaya sahip olduğunu, ancak çapraz doğrulamanın hem eğitim hem de doğrulama için daha fazla örneğin kullanılmasına izin vererek daha küçük bir hata çubuğu ve sapmaya karşı daha az savunmasızlık sağladığını açıklıyor. Çapraz doğrulamaya gerek kalmayacak kadar büyük veri setlerine sahip olmak mümkün olsa da, profesör, 100 milyon puanla bile, verilerin doğası gereği çapraz doğrulamanın hala faydalı olduğu bir örnek veriyor.

  • 01:20:00 Bu bölümde profesör, çapraz doğrulamanın yararlı olduğu senaryoları tartışır ve bununla ilgili olası sorunları ele alır. Büyük bir veri setinin en alakalı kısmı tüm setten daha küçük olduğunda çapraz doğrulamanın uygun hale geldiğini açıklıyor. Rakip modeller arasında karar verirken, örneklem dışı hatanın önemini belirlemek için istatistiksel kanıtlar gereklidir. Profesör, daha küçük bir veri kümesiyle, yeniden örneklemenin mi yoksa çapraz doğrulama için kümeyi parçalara ayırmanın mı daha iyi olduğu konusunda kesin bir yanıt olmadığını belirtiyor. Profesör ayrıca sınıflar arasındaki dengenin rolünü ve atlanan noktaların sayısını artırırken yanlılığın nasıl davrandığını tartışır. Son olarak profesör, toplam doğrulama noktası sayısının hata çubuğunu belirlediğini ve yanlılığın çapraz doğrulamanın nasıl kullanıldığının bir fonksiyonu olduğunu açıklıyor.

  • 01:25:00 Bu bölümde, profesör hata çubuğunu ve bunun bir tahminde yanlılığa karşı savunmasızlık göstergesini nasıl sağlayabileceğini tartışıyor. İki senaryoda karşılaştırılabilir hata çubukları varsa, birinin önyargıya karşı daha savunmasız olduğuna inanmak için hiçbir neden yoktur. Ancak, her seferinde bir senaryo almakla korelasyonları dikkate almak arasındaki farkı görmek için ayrıntılı bir analize ihtiyaç vardır. Profesör, birkaç katlama yapıldığı ve her örnek çapraz doğrulama tahmininde tam olarak bir kez göründüğü sürece, önyargı açısından senaryolar arasında bir tercih olmadığı sonucuna varır.
Lecture 13 - Validation
Lecture 13 - Validation
  • 2012.05.17
  • www.youtube.com
Validation - Taking a peek out of sample. Model selection and data contamination. Cross validation. Lecture 13 of 18 of Caltech's Machine Learning Course - C...
 

Ders 14 - Destek Vektör Makineleri



Caltech'in Makine Öğrenimi Kursu - CS 156. Ders 14 - Vektör Makinelerini Destekleyin

Ders, doğrulamanın önemini ve makine öğreniminde kullanımının yanı sıra çapraz doğrulamanın doğrulamaya göre avantajlarını kapsar. Dersin odak noktası, sınıflandırma için en etkili öğrenme modeli olarak destek vektör makineleri (SVM'ler) üzerinedir ve marjın maksimize edilmesini, formülasyonu ve kısıtlı optimizasyon yoluyla analitik çözümleri içeren bölümün ayrıntılı bir taslağını sunar. Ders, DVM'lerde bir nokta ile bir hiperdüzlem arasındaki mesafenin nasıl hesaplanacağı, DVM'ler için optimizasyon probleminin nasıl çözüleceği ve DVM optimizasyon probleminin ikili formülasyonunda nasıl formüle edileceği dahil olmak üzere bir dizi teknik detayı kapsar. Öğretim görevlisi ayrıca optimizasyon problemini çözmek için ikinci dereceden programlama kullanmanın pratik yönlerini ve destek vektörlerini belirlemenin önemini tartışır. Ders, DVM'lerde doğrusal olmayan dönüşümlerin kullanımına ilişkin kısa bir tartışma ile sona erer.

Bu dersin destek vektör makineleri (DVM) ile ilgili ikinci bölümünde öğretim görevlisi, örnek sayısına bölünen destek vektörlerinin sayısının, örneklem dışı bir noktayı sınıflandırmada hata olasılığına nasıl bir üst sınır verdiğini açıklar. doğrusal olmayan dönüşümle destek vektörlerinin kullanılması mümkün. Profesör ayrıca w devrik x artı b'nin 1 olarak normalleştirilmesini ve bunun optimizasyon için gerekliliğini ve ayrıca hatalara izin veren ve onları cezalandıran DVM'nin yumuşak marj versiyonunu tartışıyor. Ayrıca destek vektör sayısı ile VC boyutu arasındaki ilişki açıklanmış ve yöntemin gürültülü veri durumlarında kullanılan soft versiyonu ile yöntemin gürültüye karşı direncinden bahsedilmiştir.

  • 00:00:00 Bu bölümde öğretim görevlisi doğrulamanın önemini, özellikle de makine öğreniminde kullanımı açısından tartışıyor. Doğrulama hatası sonucu yansız ve iyimser yanlılık kavramı ve model seçimi üzerindeki etkisi de açıklanmıştır. Çapraz doğrulamanın doğrulamaya göre avantajı bu bölümde ayrıca vurgulanmıştır. Ayrıca öğretim görevlisi, öğrenme modeline önemli avantajlar olarak sezgisel yorumunu, ilkeli bir türetmeyi ve optimizasyon paketini öne sürerek, sınıflandırma için en etkili öğrenme modeli olarak destek vektör makinelerini tanıtır. Kısıtlı optimizasyon yoluyla marjın, formülasyonun ve analitik çözümlerin maksimize edilmesini içeren bölümün ayrıntılı bir taslağı da sunulmaktadır.

  • 00:05:00 Bu bölümde lineer ayırmada marjı maksimize etme kavramı anlatılmıştır. Doğrusal olarak ayrılabilir verileri ayıran tüm satırlarda sıfır örnek içi hata olsa da, bazıları daha fazla genellemeye izin veren daha iyi marjlara sahip olabilir. Daha büyük bir marjın daha iyi olduğu, çünkü gürültülü durumlarda yeni noktanın doğru bir şekilde sınıflandırılma olasılığının daha yüksek olduğu açıklanmıştır. Bu, büyüme işleviyle ve daha büyük bir büyüme işlevinin makine öğreniminde genelleme için nasıl dezavantajlı olduğuyla ilgilidir. Yalnızca verileri doğru bir şekilde ayırmakla kalmayan, aynı zamanda bu veri noktaları için mümkün olan maksimum marja sahip satırları arayarak, marjı en üst düzeye çıkarmanın genelleştirmeye yardımcı olabileceği gösterilmiştir.

  • 00:10:00 Bu bölümde öğretim görevlisi, büyük marjları ve bunların bir sınıflandırıcının performansını nasıl iyileştirebileceğini tartışıyor. Bir sınıflandırıcının belirli bir boyutta bir kenar boşluğuna sahip olmasını gerektirerek, olası ikiliklerin sayısı azaltılır, bu da daha küçük bir büyüme fonksiyonuna ve daha küçük VC boyutuna yol açar. Kenar boşluğu ne kadar büyük olursa, sınıflandırıcının örnek dışı performansı o kadar iyi olur. Öğretim görevlisi daha sonra hiperdüzlem ile en yakın veri noktası arasındaki mesafeyi bularak ve analizi basitleştirmek için w vektörünü normalleştirerek mümkün olan en büyük marjın nasıl çözüleceğini açıklar. Sinyal veya hiper düzlem ile veri noktaları arasındaki mesafe Öklid mesafesi değil, en yakın ve en uzak noktaların sırasıdır ve Öklid mesafesini elde etmek için dönüştürülmesi gerekir.

  • 00:15:00 Bu bölümde öğretim görevlisi, destek vektör makinesi analiziyle ilgili bazı teknik bilgileri açıklar. İlk olarak, farklı düzlemlerin performanslarını karşılaştırmak için Öklid mesafesi bir kıstas olarak kullanılır. İkinci olarak, destek vektör makinelerini daha rahat analiz etmek için X vektöründen w çıkarılır ve artık yeni bir role sahip olan w vektörü ile karıştırılmaması için w₀ çıkarılır. Amaç, xₙ (en yakın nokta) ile düzlem arasındaki mesafeyi hesaplamaktır. Öğretim görevlisi w vektörünün düzleme ve düzlemdeki her vektöre ortogonal olduğunu gösterir, bu da vektörün düzlemdeki her normal vektöre ortogonal olduğu anlamına gelir, yani şimdi xₙ ile düzlem arasındaki mesafeyi bulabiliriz.

  • 00:20:00 Bu bölümde, konuşmacı SVM'lerde bir nokta ile bir hiperdüzlem arasındaki mesafenin nasıl hesaplanacağını tartışıyor. Bu, noktadan hiperdüzlem üzerindeki genel bir noktaya giden vektörü hiperdüzleme ortogonal olan yöne yansıtarak yapılabilir. Bu yöndeki birim vektör, vektörün uzunluğunun normalleştirilmesiyle hesaplanır. Konuşmacı, biraz cebir kullanarak, eksik bir terim ekleyerek basitleştirilmiş bir mesafe formülü elde eder. Bu formül, mümkün olan en iyi marjı veren w'lerin kombinasyonunu seçmek için kullanılabilir. Bundan kaynaklanan optimizasyon problemi, kısıtlamaların minimum olması nedeniyle çok kullanıcı dostu değildir. Bununla birlikte, bazı basit gözlemler yaparak, bu problem daha dostça bir karesel olarak yeniden formüle edilebilir.

  • 00:25:00 Bu bölümde öğretim görevlisi, Destek Vektör Makineleri (SVM'ler) için optimizasyon probleminin nasıl çözüleceğini açıklar. DVM'lerin doğrusal eşitsizlik kısıtlamalarına tabi bir amaç fonksiyonunu en aza indirmeleri gereken kısıtlı bir optimizasyon problemi olarak nasıl formüle edilebileceğini göstererek başlarlar. Eşitsizlik kısıtlamalarını eşitlik kısıtlamalarına dönüştürmek ve ardından yeni Lagrange çarpanını çözmek için Lagrange çarpanlarını kullanmanın mümkün olduğunu kanıtladılar. Bu yaklaşımın bağımsız olarak Karush ve Kuhn-Tucker tarafından keşfedildiğini ve KKT Lagrangian olarak anıldığını belirtiyorlar. Öğretim görevlisi, sürecin düzenlileştirme prosedürüne benzer olduğunu vurgular ve çözüm için gradyan koşulunu hatırlar.

  • 00:30:00 Bu bölümde öğretim görevlisi, SVM ile düzenlileştirme ve Lagrange formülasyonu arasındaki ilişkiyi açıklar. Gradyanın 0'a eşit olduğu kısıtlamasız problemin aksine, kısıtlamaların sıfır olmayan bir gradyana yol açtığına dikkat etmek önemlidir. Lagrange formülasyonu w ve b gibi değişkenlere bağlıdır ve yeni değişkenler vardır, alfa vektörü gibi Lagrange çarpanları . Eldeki sorun, formun kısıtlamalarına tabi olan amaç fonksiyonunu en aza indirmek ve sonra ona bir Lagrange adı veriyoruz. İşin ilginç yanı, alfaların negatif olmaması gerekmesine rağmen aslında alfaya göre maksimize ediyoruz ve bu nedenle buna dikkat etmemiz gerekiyor. Bölüm, Lagrangian'ın w ve b'ye göre gradyanını en aza indirmemiz gereken kısıtlamasız kısmın kısa bir açıklamasıyla sona eriyor.

  • 00:35:00 Dersin bu bölümünde, konuşmacı DVM optimizasyon probleminin ikili formülasyonunda nasıl formüle edileceğini açıklar. Önce sorunu w ve b'ye göre optimize eder, sonuçta orijinal Lagrangian'a geri koyduğu iki koşulla sonuçlanır, bu da sorunun ikili formülasyonuna yol açar, bu yalnızca Lagrange çarpanları alfa açısından güzel bir formüldür. Daha sonra alfalar için kısıtlamayı negatif olmayacak şekilde ayarlar ve bu kısıtlamalara tabi maksimizasyon problemini çözerek destek vektörlerini belirleyen optimal alfa değerlerini verir.

  • 00:40:00 Bu bölümde, konuşmacı daha önce destek vektör makineleri için sunulan optimizasyon problemini çözmek için ikinci dereceden programlama kullanmanın pratik yönlerini tartışıyor. Amaç ve kısıtlamalar, minimizasyon için ikinci dereceden programlama paketine aktarılan katsayılara çevrilir. Matris boyutu, örnek sayısına bağlıdır ve bu, büyük veri kümeleri için pratik bir husus haline gelir. Konuşmacı, örnek sayısı fazla olduğunda ikinci dereceden programlamanın çözüm bulmakta zorlandığı ve buluşsal yöntemlerin kullanılmasını gerektirebileceği konusunda uyarıyor.

  • 00:45:00 Bu bölümde, ders, özellikle alfa olmak üzere ikinci dereceden programlamanın getirdiği çözümleri ve bunun ağırlıkları, yüzeyi, kenar boşluğunu ve b'yi belirlemeye ilişkin orijinal problemle nasıl ilişkili olduğunu inceler. Ders, düzlemi ve marjı tanımlayan noktalar olan destek vektörlerini tanımlamanın önemini vurgular. Pozitif lambdaların (bu durumda alfalar) arkasındaki matematik, yalnızca pozitif değerlere sahip noktaları dikkate aldığı için destek vektörlerini tanımlamanın bir yolunu sunar. Bu, bu alfa değerlerinin iki sınıflandırma arasındaki sınırı tanımlamak için çok önemli olduğu ve konumlarını belirlemenin ağırlıkları optimize etmede ve maksimum marjı yaratmada kritik olduğu anlamına gelir.

  • 00:50:00 Bu bölümde, destek vektörleri kavramı tanıtılmakta ve destek vektör makinesi (SVM) algoritması bağlamında tartışılmaktadır. Destek vektörleri, veri sınıflarını ayıran karar sınırına veya hiper düzleme en yakın olan veri noktaları olarak tanımlanır. DVM algoritması, destek vektörlerini ve karar fonksiyonunun parametrelerini belirlemek için ikinci dereceden bir programlama problemini optimize eder. Parametre değerlerinin sadece kritik noktalar olan destek vektörlerine bağlı olması modelin iyi bir genelleme yapmasını sağlar. Doğrusal olmayan dönüşümler, ayrılamayan verileri işlemenin bir yolu olarak da kısaca tartışılmaktadır. Verileri daha yüksek boyutlu bir uzaya dönüştürmek, optimizasyon problemini karmaşıklaştırmaz ve aynı teknik, destek vektörlerini ve karar fonksiyonunu bulmak için kullanılabilir.

  • 00:55:00 Videonun bu bölümünde öğretim görevlisi, SVM'lerde doğrusal olmayan dönüşümlerin kullanımını tartışıyor. Doğrusal olmayan dönüşümler, X uzayında olduğu gibi, veriler doğrusal olarak ayrılamaz olduğunda kullanılır. Öğretim görevlisi, doğrusal olmayan bir dönüşümün nasıl kullanılacağını ve doğrusal olarak ayrılabilir bir sonuç elde etmek için Z uzayında nasıl çalışılacağını gösterir. Çözümün kolay olduğunu ve alfa sayısının, üzerinde çalıştığınız alanın boyutuna değil, veri noktalarının sayısına bağlı olduğunu açıklıyor. Ana fikir, çok büyük bir alana bir bedel ödemeden gidebilmenizdir. optimizasyon açısından. Destek vektörleri Z uzayında tanımlanır, ancak X uzayında veri noktaları gibi görünürler.

  • 01:00:00 Bu bölümde öğretim görevlisi, destek vektörlerini doğrusal olmayan dönüşümle mümkün kılan genelleme sonucunu tartışır. Etkili parametrelerin sayısını temsil eden destek vektörlerinin sayısının örnek sayısına bölümü, örneklem dışı bir noktanın sınıflandırılmasında hata olasılığına ilişkin bir üst sınır verir. Bu makinenin birkaç çalışmasının beklenen değeri tutarsa, o zaman belirli bir durumda elde edeceğiniz gerçek E_out, yukarıda tanıdık bir sınır türüyle sınırlanacaktır (örneğin, parametre sayısı, serbestlik derecesi ve VC boyutu bölü örnek sayısı). Bu sonuç, daha yüksek bir boyuta gitme hesaplaması veya onunla birlikte gelen genelleme için ödeme yapmadığınız için, insanların destek vektörlerini ve doğrusal olmayan dönüşümle destek vektörlerini kullanmasına neden olur.

  • 01:05:00 Bu bölümde, profesör neden w devrik x artı b'yi 1 olarak normalleştirmeyi seçtiğini ve bu normalleştirmenin optimizasyon için neden gerekli olduğunu açıklıyor. Ayrıca, DVM'nin doğrusal olmayan dönüşümler yoluyla doğrusal olarak ayrılamayan noktalarla nasıl başa çıktığı ve SVM'nin yumuşak marj versiyonunun hatalara nasıl izin verdiği ve onları nasıl cezalandırdığı hakkındaki bir soruyu da yanıtlıyor. Ek olarak, profesör, destek vektörlerinin sayısı ile VC boyutu arasındaki ilişkiye ve alfaların SVM'deki parametreleri nasıl temsil ettiğine kısaca değinir.

  • 01:10:00 Bu bölümde öğretim görevlisi, sıfır olmayan parametre sayısı ile tanım gereği destek vektörlerinin sayısına eşdeğer olan VC boyutu arasındaki ilişkiyi tartışır. Marj ölçüsü, kullanılan norma bağlı olarak değişebilir, ancak performans açısından birini diğerine tercih etmek için zorlayıcı bir neden yoktur. Destek vektörlerini budamak için doğrudan bir yöntem bulunmamakla birlikte, alt kümeleri almak ve destek vektörlerinin destek vektörlerini elde etmek olası hesaplama konularıdır. DVM yöntemi gürültüye karşı özellikle duyarlı değildir ve gürültülü veriler söz konusu olduğunda, yöntemin gürültülü olmayan duruma oldukça benzeyen yumuşak versiyonu kullanılır.
Lecture 14 - Support Vector Machines
Lecture 14 - Support Vector Machines
  • 2012.05.18
  • www.youtube.com
Support Vector Machines - One of the most successful learning algorithms; getting a complex model at the price of a simple one. Lecture 14 of 18 of Caltech's...
 

Ders 15 - Çekirdek Yöntemleri



Caltech'in Makine Öğrenimi Kursu - CS 156. Ders 15 - Çekirdek Yöntemleri

Çekirdek yöntemleriyle ilgili bu ders, marjı en üst düzeye çıkarma kavramı nedeniyle geleneksel doğrusal regresyon modellerinden daha fazla performans odaklı olan doğrusal bir model olarak destek vektör makinelerini (SVM'ler) tanıtıyor. Veriler doğrusal olarak ayrılamazsa, karmaşıklık için yüksek bir bedel ödemeden yine de karmaşık hipotezleri mümkün kılan oynak yüzeyler oluşturmak için doğrusal olmayan dönüşümler kullanılabilir. Video, yüksek boyutlu Z uzayına giden çekirdek yöntemlerini açıklayarak, tek tek vektörleri hesaplamadan iç çarpımın nasıl hesaplanacağını açıklıyor. Video ayrıca, sınıflandırma sorunları için geçerli bir çekirdek elde etmeye yönelik farklı yaklaşımları özetlemekte ve SVM'nin ayrılamaz verilere nasıl uygulanacağını açıklamaktadır. Son olarak video, boşluk kavramını ve SVM'deki marj ihlalini ölçmeyi açıklayarak marj ihlalini cezalandırmak için bir xi değişkeni tanıtıyor ve alfayı çözmek için Lagrangian formülasyonunu gözden geçiriyor.

İkinci kısım, destek vektör makinelerini (SVM'ler) ve çekirdek yöntemlerini kullanmanın pratik yönlerini kapsar. Yumuşak marj destek vektör makineleri kavramını ve bunların geniş bir marjı korurken bazı yanlış sınıflandırmalara nasıl izin verdiğini açıklıyor. Ne kadar ihlal olabileceğini belirleyen C parametresinin öneminden bahsediyor ve değerini belirlemek için çapraz doğrulama kullanılmasını öneriyor. Ayrıca, dönüştürülmüş verilerdeki sabit koordinat hakkındaki endişeleri de giderir ve kullanıcılara bunun yanlılık terimiyle aynı rolü oynadığını garanti eder. Ek olarak, yeni çekirdekler üretmek için çekirdekleri birleştirme olasılığını tartışıyor ve ikinci dereceden programlama çok fazla veri noktasına sahip SVM'leri çözmede başarısız olduğunda kullanılabilecek buluşsal yöntemler öneriyor.

  • 00:00:00 Çekirdek Metotları hakkındaki dersin bu bölümünde Yaser Abu-Mostafa, destek vektör makineleri (SVM'ler) kavramını tanıtıyor ve bunların en basit haliyle doğrusal bir modelden başka bir şey olmadıklarını, ancak daha performans odaklı olduklarını belirtiyor. marjı maksimize etme fikri nedeniyle. Bir ikinci dereceden programlama paketi kullanarak, SVM problemini çözebilir ve destek vektörlerini belirlememize yardımcı olan alfaları geri alabiliriz. Veri doğrusal olarak ayrılamazsa, doğrusal olmayan dönüşümü kullanabiliriz, ancak sonuçta ortaya çıkan oynak yüzey, karmaşıklığa yüksek bir bedel ödemeden karmaşık bir hipotez elde etmemize izin verir. Örnek içi bir miktar olan destek vektörlerinin sayısına bağlı olarak örnek dışı hatayı tahmin edebiliriz.

  • 00:05:00 Bu bölümde video, çekirdek yöntemleri kavramını ve destek vektör makinelerini doğrusal olarak ayrılabilir durumun ötesine genişletmedeki rollerini açıklıyor. Çekirdek yöntemlerinin arkasındaki fikir, karmaşıklığın bedelini ödemeden yüksek boyutlu bir Z uzayına gitmektir. Video, bunu başarmanın anahtarının, Z uzayındaki iç çarpımı, o uzaydaki tek tek vektörleri fiilen hesaplamadan hesaplayabilmek olduğunu açıklıyor. Yalnızca açık girdiler kullanarak iç çarpımların hesaplanmasına izin verdikleri için çekirdeklerin devreye girdiği yer burasıdır. Video, bu yöntemlerin doğrusal olmayan dönüşümler ve yumuşak marjlarla başa çıkmadaki etkilerini ve karmaşık problemlerin üstesinden gelmek için pratikte nasıl kullanılabileceğini açıklamaya devam ediyor.

  • 00:10:00 Bu bölümde ders, iç çarpımın Z uzayında kullanımını ve bunun çekirdek yöntemlerle nasıl ilişkili olduğunu açıklar. İç çarpım, Lagrangian'ı oluşturmak ve kısıtlamaları ikinci dereceden programlamaya aktarmak için gereklidir, ancak destek vektör makinesini gerçekleştirmek için yalnızca iç çarpımlar kullanılarak hesaplanabilir. Bir Z uzayına karşılık gelen genelleştirilmiş bir iç çarpım veya çekirdek kullanılarak, x ve x çizgi olmak üzere iki nokta, çekirdek adı verilen x ve x çizgi tarafından belirlenen bir işleve dönüştürülebilir. 2. dereceden bir polinom dönüşümü kullanan iki boyutlu bir Öklid uzayına bir örnek verilmiştir.

  • 00:15:00 Bu bölümde öğretim görevlisi, çekirdek yöntemleri kavramını ve x ve x çizgisini dönüştürmeden çekirdeklerin nasıl hesaplanacağını tartışır. Öğretim görevlisi, şeyleri Z uzayına dönüştürmeyen bir çekirdek doğaçlama yapar ve izleyiciyi, çekirdeğin bir iç çarpımı alarak bir Z uzayına dönüşüme karşılık geldiğine ikna eder. Öğretim görevlisi, Q kuvvetine yükseltilmiş 1 + x_xdash ile bir çekirdeğin karesini alarak, bunun nasıl bir uzayda iç çarpım haline geldiğini ve onu geçerli bir çekirdek haline getirdiğini açıklar. Ayrıca öğretim görevlisi, aynı kalan Q'nun karmaşıklığından bağımsız olarak, bunu yapmak için ne kadar hesaplama gerektiğini diğer boyutlarla karşılaştırır.

  • 00:20:00 Bu bölümde öğretim görevlisi, polinomu fiilen genişletmeden gerçekleştirilebilecek polinom dönüşümü için bir çekirdek yöntemini açıklamaktadır. Logaritmayı alıp üstel alarak polinom, büyük bir genişleme gerektirmeyen basit bir işlem haline gelir. Bu, 2B olarak görselleştirilebilen ve diğer durumlar için tahmin edilebilen kolay bir polinomdur. Daha yüksek boyutlu bir uzaya eşlenen bir çekirdek, o uzayda bir iç çarpım alınarak elde edilebilir. Öğretim görevlisi, X veya Z uzayında bir iç çarpım terimine sahip olmayan, ancak sonsuz boyutlu bir uzayda bir iç çarpıma karşılık gelen bir çekirdek örneği sunar. Sonsuz boyutlu bir uzaya gitmenin zorluklarına rağmen, çekirdek yöntemi hala kullanışlıdır ve bir modelin genelleştirilmesini belirlemek için destek vektörlerinin sayısı kullanılabilir.

  • 00:25:00 Bu bölümde öğretim görevlisi, sonsuz boyutlu bir uzaya karşılık gelen karmaşık bir çekirdek olan radyal tabanlı işlev çekirdeğini gösterir ve biraz ayrılamaz bir durum alarak eylem halinde nasıl çalıştığını gösterir. Öğretim görevlisi rastgele 100 puan oluşturur ve bunları ayıracak bir çizgi olmadığını gösterir. Daha sonra öğretim görevlisi, X'i sonsuz boyutlu bir uzaya dönüştürür ve basit bir üstel olan çekirdeği hesaplar. Öğretim görevlisi bunu, destek vektörlerini geri veren ikinci dereceden programlamaya aktarır. Öğretim elemanı destek vektörlerini kararttığında iki sınıfı görmek daha kolay hale gelir.

  • 00:30:00 Bu bölümde, konuşmacı çekirdek yöntemleri fikrini ve bunların sınıflandırma için nasıl kullanılabileceğini tartışıyor. Noktalardan oluşan bir veri kümesi üzerinde, onları doğrusal bir düzlemle ayrılabilecekleri sonsuz boyutlu bir uzaya dönüştürmek için bir çekirdek kullanmanın bir örneğini sunar. Ortaya çıkan marj ve destek vektörleri, genelleştirme özelliğini yönlendiren numune içi miktarı belirlemek için kullanılır. Konuşmacı daha sonra bazı Z uzaylarında bir iç çarpıma karşılık gelen geçerli bir çekirdeğin problemi formüle etmede ve hipotezi inşa etmede nasıl kullanılabileceğini açıklamaya devam eder. Genel olarak, çekirdek yöntemlerinin kullanışlılığını ve bunların sınıflandırma problemlerini çözmek için nasıl uygulanabileceğini vurgulamaktadır.

  • 00:35:00 Bu bölümde, lineer modeli, destek vektör makinelerinin çekirdeğin seçimine izin veren bir model haline geldiği bir çekirdek formuna nasıl çevireceğimizi öğreniyoruz. Z uzayı ile iç çarpımlar alındıktan sonra çekirdek iç çarpımın yerini alır. Ortaya çıkan model, çekirdek seçimine bağlıdır ve b'yi bir destek vektörü ekleyerek de çözebiliriz. Bununla birlikte, Z alanını ziyaret etmeden geçerliliğini doğrulayamayacağınız için çekirdeği belirlemek zordur. Bununla birlikte, farklı çekirdeklerin işlevsel biçimlerine bakarak yaklaşımları nasıl karşılaştırabileceğimizi gösteriyoruz.

  • 00:40:00 Bu bölümde öğretim üyesi kernel metotlarında geçerli bir kernel elde etmenin koşullarını açıklar. Üç yaklaşım vardır: bir çekirdeğin kavramsal veya açık bir dizi dönüşümden oluşturulduğu yapı; Belirli bir çekirdeğin simetrik olmasını ve çekirdek değerlerinden oluşturulan bir matrisin pozitif yarı-belirli olmasını gerektiren Mercer koşulu; ve son olarak, çekirdeğin yaşayabilirliğinin çok pratik bir endişe olduğu ve iki koşulun aynı anda karşılanması gereken bir doğaçlama yaklaşımı. Bunlar, çekirdeğin simetrik olması ve çekirdek değerlerinden oluşturulan matrisin, Mercer'in koşulunun gerektirdiği şekilde, herhangi bir nokta seçimi için pozitif yarı-belirli olması gerektiğidir.

  • 00:45:00 Bu bölümde öğretim görevlisi, verilerin doğrusal olarak ayrılamadığı durumları ve bu gibi durumlarda destek vektör makineleri algoritmasının nasıl uygulanacağını açıklar. Ayrılamaz verilerin iki senaryosu olabilir, biri ayrılamazlığın az olduğu, diğeri ise ayrılamazlığın önemli olduğu. Doğrusal olmayan ayrılabilir verilerle başa çıkmak için, tüm veri noktalarını içeren karmaşık, aşırı derecede yüksek boyutlu uzayları kullanmaya çalışmak yerine hata yapabilir ve genelleme yaparak öğrenebilir, böylece hatayı düşük tutabilirsiniz. Ciddi ayrılamazlık durumunda, doğrusal olmayan bir dönüşüm yapılmalı ve çekirdekler veya yumuşak marjlı destek vektör makineleri kullanılmalıdır. Öğretim görevlisi daha sonra marj ihlali fikrinden ve sınıflandırma hatalarını hesaba katmak için bunun nasıl ölçüleceğinden bahseder.

  • 00:50:00 Bu bölümde öğretim görevlisi bolluk kavramını ve SVM'deki marj ihlalini ölçmeyi tanıtıyor. Marj ihlalini ölçen her nokta için bir boşluk ekleyeceğini ve bu boşlukları toplayarak yapılan toplam ihlali cezalandıracağını açıklıyor. Diğerleri yerine makul olan ve marjın ihlalini ölçen bu hata ölçüsünü seçer. Ardından, marjı maksimize etmenin yanı sıra marj ihlali hata terimini en aza indiren yeni optimizasyonu tanıtıyor. C sabiti, marjı maksimize eden önceki terime göre bu marj ihlali teriminin göreceli önemini verir. C'nin değerine bağlı olarak, nihai sonuç, marj ve bolluk arasındaki ödünleşimi temsil ettiği için doğrusal olarak ayrılabilir bir veri veya bir uzlaşma olabilir. Son olarak, yeni terimlerin eklenmesiyle Lagrangian formülasyonunu gözden geçirir.

  • 00:55:00 Bu bölümde öğretim görevlisi, marj ihlallerini cezalandırmak için xi değişkenini ekleyerek tanıtılan yeni ikinci dereceden programlama problemini açıklıyor. Lagrange, xi üzerinde, Lagrange çarpanları, beta kullanmak için çözülmesi gereken yeni kısıtlamalar içerir. Öğretim görevlisi daha sonra w ve b'nin minimizasyonunun nasıl değişmeden kaldığını gösterir ve xi için çözmenin her zaman sıfır olan bir nicelikle sonuçlandığını bulur. Bu bulgu, betanın Lagrangian'dan çıkmasına yol açar ve öncekiyle aynı çözümü bırakır, tek sonuç, alfanın artık yalnızca sıfırdan büyük veya sıfıra eşit değil, aynı zamanda C'den küçük veya ona eşit olmasıdır.

  • 01:00:00 Videonun bu bölümünde öğretim görevlisi, geniş bir marjı korurken bazı yanlış sınıflandırmalara izin veren yumuşak marj destek vektör makineleri kavramını gözden geçiriyor. Çözüm, halihazırda var olan eşitlik kısıtlamasıyla birlikte alfanın en fazla C olmasını gerektiren ek bir kısıtlama içerir. Esnek marj destek vektör makineleri, hem marj hem de marj olmayan destek vektörlerini içerir; ikincisi, xi değeri ile temsil edilen bir gevşekliğe neden olan, marjı ihlal eden noktalardır. C değeri, ne kadar ihlal olabileceğini belirleyen önemli bir parametredir ve bu genellikle çapraz doğrulama yoluyla belirlenir.

  • 01:05:00 Bu bölümde öğretim görevlisi, destek vektör makinelerinin (SVM'ler) ve çekirdek yöntemlerinin kullanımına ilişkin pratik noktaları tartışır. Veriler doğrusal olarak ayrılamazsa, ikinci dereceden programlamanın yakınsamayabileceğini ve bunun uygulanabilir bir çözümün olmadığı bir duruma yol açabileceğini açıklıyor. Bununla birlikte, kullanıcıları tembel olmaya ve yine de verileri ayırıp ayırmadığını değerlendirmek için ikinci dereceden programlamadaki alfaları çözüme geri aktarmaya teşvik eder. Ek olarak, verilerle dönüştürülen sabit koordinat 1 ile ilgili endişeleri ele alıyor ve bunun önyargı terimi b ile aynı rolü etkin bir şekilde oynadığını ve kullanıcıların aynı role sahip birden çok koordinata sahip olma konusunda endişelenmelerine gerek olmadığını açıklıyor.

  • 01:10:00 Bu bölümde profesör, destek vektör makinelerinin (SVM'ler) doğrusallığının belirli varsayımlara bağlı olduğunu ve bazı durumlarda doğrusaldan daha iyi olabileceğini açıklıyor. Verilerin boyutu SVM'nin etkinliğini etkileyebilir, ancak RBF çekirdeği, yüksek dereceli terimler hızla bozulursa sonsuz boyutlarla başa çıkabilir. Geçerli bir çekirdeğin yakınsamaya bağlı olarak iyi tanımlanmış bir iç çarpıma sahip olması gerekir. Profesör, daha fazla teknik detay gerektirdiği için regresyon durumlarına genelleştirilmiş DVM'lere değinmiyor ve DVM'lerin en büyük başarısı sınıflandırmada. Son olarak, ikinci dereceden programlama paketlerinden pozitif tanımlı olmadıklarına dair şikayetler olabilir, ancak çözümler belirli bir güvenilirlikle yine de iyi olabilir.

  • 01:15:00 Bu bölümde, profesör yeni çekirdekler üretmek için çekirdekleri birleştirme olasılığını ve bir Z uzayında bir iç çarpım sağlamak için kombinasyonun gerekliliğini tartışıyor. Ayrıca, ikinci dereceden programlama probleminin, DVM'lerle problem çözmede darboğaz olduğundan bahseder ve ikinci dereceden programlama ile ele alınabilecek nokta sayısının bir tahminini verir. Ek olarak, ikinci dereceden programlama çok fazla veri noktasına sahip DVM'leri çözmede başarısız olduğunda kullanılabilecek buluşsal yöntemler önermektedir.
Lecture 15 - Kernel Methods
Lecture 15 - Kernel Methods
  • 2012.05.24
  • www.youtube.com
Kernel Methods - Extending SVM to infinite-dimensional spaces using the kernel trick, and to non-separable data using soft margins. Lecture 15 of 18 of Calte...