Makine Öğrenimi ve Sinir Ağları - sayfa 36

 

Derin Sinir Ağlarını Görselleştirme ve Anlama Matt Zeiler



Derin Sinir Ağlarını Görselleştirme ve Anlama Matt Zeiler

Matt Zeiler, görüntülerde ve videolarda nesne tanıma için evrişimli sinir ağlarını (CNN'ler) görselleştirmeyi ve anlamayı tartışıyor. Derin sinir ağlarının nesneleri tanımada insanlara ve primatlara kıyasla nasıl performans gösterdiğini anlatıyor ve CNN'lerin katmanlardan geçerek nesneleri tanımlamayı nasıl öğrendiğini gösteriyor. Zeiler, CNN mimarisini geliştirme sürecini açıklıyor ve sınırlı verilerle eğitim yaparken sınırlamaları tartışıyor. Son olarak, alt katmanların üst katmanlarda kullanılması ve evrişimlerin sinir ağlarında uygulanması ile ilgili soruları yanıtlıyor.

  • 00:00:00 Bu bölümde, Matt Zeiler, resimlerdeki ve videolardaki nesneleri tanımak için kullanılan evrişimli ağları görselleştirmeye yönelik bir teknik açıklıyor; bu, onların her bir katmanın ne öğrendiğini anlamalarına ve performansı artırmak için içgörü kazanmalarına olanak tanıyor. Konvolüsyonel sinir ağları, öncekiyle hemen hemen aynı mimariyi kullanan yeni yaklaşımlarla 80'lerin sonlarından beri var. Sinir ağları, ortak kıyaslama noktası olan ImageNet'teki hata oranlarını her zamanki yüzde yirmi altı yerine yüzde on azaltarak tanıma görevlerinde daha iyi performans sağladığından, sahadaki atılım Geoff Hinton'ın ekibi tarafından yapıldı.

  • 00:05:00 Bu bölümde Matt Zeiler, nesneleri tanımada derin sinir ağlarının performansını primatların ve insanlarınkiyle karşılaştıran son çalışmaları tartışıyor. Bir çalışma, görüntüler sunulduğunda bir maymunun beynindeki elektrotların ateşlenmesini kaydetmeyi ve tanıma doğruluğunu derin sinir ağları ve insanlarınkiyle karşılaştırmayı içeriyordu. Sonuçlar, görüntüler 100 milisaniyeden daha kısa bir süre boyunca sunulduğunda insanların, derin sinir ağlarının ve maymunun IT korteksinin neredeyse eşit performans gösterdiğini gösterdi. Ek olarak Zeiler, evrişimli bir ağın gerçekte ne öğrendiğini öğrenmek amacıyla üst düzey özellikleri seyrek hale getirirken görüntüleri yeniden yapılandırmak için kullanılan denetimsiz öğrenme modelleri olan D evrişimli ağları tartışıyor.

  • 00:10:00 Bu bölümde Matt Zeiler, özellikle birden çok bilgi katmanıyla uğraşırken, iyi yeniden yapılandırmalar elde etmek için evrişimli ağlardaki işlemleri tersine çevrilebilir hale getirmenin önemini açıklıyor. Ağdaki en yüksek katmanın nasıl görselleştirildiğini (50.000 resimlik bir doğrulama seti kullanarak), bir seferde en güçlü aktivasyona sahip tek özellik haritasını seçerek ve görselleştirmeleri yeniden yapılandırmak için evrişimli ağın tepesine girdi olarak kullanarak gösteriyor. aşağıdan yukarıya İlk katman özellik haritalarının görselleştirilmesi, araştırmacıların daha önce beklediği gibi, değişen yönlerde ve frekanslarda yönlendirilmiş kenarlar ve renkli kenarlardan oluşan filtreleri gösterir. Bununla birlikte, daha yüksek katmanların görselleştirilmesi, birden fazla görüntüde en güçlü aktivasyonları ve değişmezleri göstererek ağın farklı nesneleri nasıl öğrendiği ve sınıflandırdığına dair yeni bilgiler sağlar.

  • 00:15:00 Bu bölümde Zeiler, ilkinden çok daha karmaşık bir dizi model sergileyen sinir ağlarının ikinci katmanının gelişimini açıklıyor. Diğer yapıların yanı sıra kenarların, paralel çizgilerin, eğrilerin, dairelerin ve renkli blokların kombinasyonları ikinci katmanda mevcuttur. Havuzlama yoluyla, görüntüden işleyebilecekleri konusunda daha geniş bir kapsama sahiptir. Üçüncü katmana bakıldığında Zeiler, bir nesnenin örneğin bir köpek yüzü veya bir insan yüzü gibi bir temsilini oluşturmak için çok önemli olan nesne parçalarını nasıl öğrendiğini gösteriyor. Gruplama özellikleri üçüncü katmanda mevcut kalır, ancak ızgaraların veya belirli yüz yapılarının anlamsal olarak daha ilgili bir gruplaması olarak.

  • 00:20:00 Bu bölümde, sinir ağının katmanlardan geçerken belirli nesneleri tanımlamayı nasıl öğrendiği açıklanmaktadır. Ağın dördüncü katmanında, bağlantılar daha nesneye özgü hale gelir ve çim gibi görevlerde açık olmayan kategoriler bir özellik haline gelir. Model aynı zamanda farklı köpek ırkları veya farklı yönlerdeki farklı klavye türleri gibi çoğul özellikleri tanımayı da öğrenir. Son evrişim katmanı, sınıflandırma katmanına yaklaştıkça evrişimler üzerindeki sınır etkilerinden dolayı büyür. Model, görüntünün hangi sınıfa ait olduğuna karar vermek zorunda olduğundan ve bu katmanda yalnızca 256 özellik bulunduğundan, bu son katmanın içeriği oldukça nesneye özgü hale gelir.

  • 00:25:00 Bu bölümde Matt Zeiler, görselleştirmelerin görüntünün ilgili bölümlerinde tetiklendiğini doğrulamak için bir deneyi tartışıyor. Ortalama pikseli 128 olan bir sıfır bloğunu görüntünün üzerine kaydırdılar ve modelin aktivasyonlarını veya olasılıklarını kaydettiler. Bir Pomeranian köpeğinin yüzünü bloke ederek, Pomeranian olasılığının önemli ölçüde düştüğünü, yüz bloke edildiğinde ise en olası sınıfın bir tenis topu olduğunu buldular. İlginç bir şekilde, beşinci katmanın, bir görüntüdeki herhangi bir metni bloke ederken özelliği önemli ölçüde düşüren ve katmanın metni diğer sınıflarla ilişkilendirebileceği fikrini sağlayan bir metin algılayıcı öğrendiğini keşfettiler. Son olarak, 2012'de ImageNet yarışmasını kazanan ve ilk katmandaki filtrelerin normalleştirilmesinde büyük bir eşitsizlik bulan Toronto grubunun modelini kullandılar.

  • 00:30:00 Videonun bu bölümünde Matt Zeiler, derin sinir ağlarının mimarisini iyileştirme sürecini tartışıyor. Yeniden normalleştirme sorununu çözdükten sonra, ilk katman filtrelerinin çok büyük olduğunun ve bunun da ölü filtrelere yol açtığının anlaşıldığını açıklıyor. İkinci katmanda ayrıca, bilgi kaybına neden olan, evrişimdeki adımları küçültmelerine ve engelleme yapılarını kaldırmalarına ve ikinci katmanda esnekliği artırmalarına yol açan çok sayıda engelleme yapaylığı vardı. Bu modifikasyonlar, 2013 ImageNet yarışmasını kazanmalarına yardımcı oldu ve bu yaklaşımlar daha sonraki yarışmalarda tekrar kullanılarak iyi sonuçlara yol açtı. Zeiler ayrıca, belirginliği belirlemede bu sinir ağlarının genelleştirme yeteneklerini ve kullanımlarını tartışır.

  • 00:35:00 Bu bölümde Zeiler, modellerin özellikleri düzgün bir şekilde öğrenmekte zorlandıklarını belirterek, yalnızca az miktarda eğitim verisi kullanıldığında derin modellerin sınırlamalarını tartışıyor. Bu modellerin, nesne tanıma için genel olarak önemli olan özellikleri tanımada usta olduğunu ve bunun, çeşitli tablo ve grafikler aracılığıyla gösterildiği gibi, yalnızca birkaç örnekle diğer görevlere aktarılabileceğini açıklıyor. Ayrıca Zeiler, tüm ara katmanlara ve farklı sınıflandırıcı türlerine bakarak derin bir model eğitmenin ne kadar önemli olduğunu inceliyor. Son olarak Zeiler, toplanan etiket verilerini temizlemek için eğitilmiş bir model kullanmanın mümkün olduğunu ve potansiyel olarak eğitim modellerini iyileştirebileceğini öne sürüyor.

  • 00:40:00 Bu bölümde Zeiler, sınıflandırmada iyi performans gösteren bir sinir ağının alt katmanlarının daha üst katmanlarda mı yoksa sınıflandırma çıktılarının yakınında mı kullanılabileceği sorusuna yanıt veriyor. Tekrarlanan ayıklama nedeniyle daha yüksek katmanlarda daha fazla bilgi olabileceğini, ancak farklı bilgi türlerinin de yardımcı olabileceğini açıklıyor. Ardından konuşma, farklı katmanların performansına ve büyük sinir ağlarını eğitmek için donanım hususlarına geçer. Zeiler ayrıca sinir ağlarının ince duygular veya jestler gibi daha az somut sınıfları tanıma yeteneğini ve farklı katman boyutlarının eşlenmesini tartışıyor.

  • 00:45:00 Bu bölümde konuşmacı, sinir ağlarında bir görüntüye ve diğer katmanlara konvolüsyonların nasıl uygulandığını açıklıyor. Evrişimlerin uygulanması iki parametreye bağlıdır: filtrenin boyutu ve filtrenin uygulandığı yerler arasındaki adım. Alt katmanlarda konuşmacı, çok fazla uzamsal içerik olduğu ve her konumdaki hesaplamanın çok pahalı olduğu için iki adımın kullanıldığını açıklıyor. Ancak, bunu yapmak bilgi kaybına neden olabilir. Konuşmacı ayrıca sinir ağının ilk birkaç katmanında denetimsiz öğrenme olmadığından ve "terk edilmiş" gibi tanımlayıcı kelimelerin zaten kelime dağarcığına eklendiğinden bahseder.
Visualizing and Understanding Deep Neural Networks by Matt Zeiler
Visualizing and Understanding Deep Neural Networks by Matt Zeiler
  • 2015.02.02
  • www.youtube.com
Matthew Zeiler, PhD, Founder and CEO of Clarifai Inc, speaks about large convolutional neural networks. These networks have recently demonstrated impressive ...
 

ChatGPT Nasıl Eğitilir?



ChatGPT Nasıl Eğitilir?

ChatGPT, insan konuşmasını taklit etmek için tasarlanmış bir makine öğrenme sistemidir. İlk olarak, büyük miktarlarda yapılandırılmamış metin verilerine dayanan üretken bir ön eğitim yaklaşımı kullanılarak eğitilir ve ardından kullanıcının tercihlerine daha iyi uyum sağlamak için takviyeli öğrenme kullanılarak ince ayar yapılır.

  • 00:00:00 ChatGPT, insan konuşmasını taklit etmek için tasarlanmış bir makine öğrenme sistemidir. Büyük miktarlarda yapılandırılmamış metin verilerine dayanan üretken bir ön eğitim yaklaşımı kullanılarak eğitilir.

  • 00:05:00 ChatGPT, kullanıcı isteklerine insan benzeri bir şekilde yanıt vermek üzere eğitilmiş bir sohbet robotudur. Bunu, önce modeli istenen Davranışı gösteren manuel olarak oluşturulmuş bir örnek üzerinde koşullandırarak, ardından modeli kullanıcının tercihlerine göre ayarlamak için pekiştirmeli öğrenmeyi kullanarak yapar.

  • 00:10:00 ChatGPT, belirli bir girdi için K adet çıktı üzerinden sıralama kullanılarak eğitilen bir sohbet robotudur. Ödül modeli, bir çiftin her üyesine logitleri veya normalleştirilmemiş log olasılıklarını temsil eden bir skaler puan atayacaktır. Puan ne kadar yüksek olursa, modelin o cevaba yerleştirilme olasılığı da o kadar yüksek olur. Ödül modelini bir ikili sınıflandırıcı olarak ele alan kayıp için standart çapraz entropi kullanılır. Eğitildikten sonra, skaler puanlar ödül olarak kullanılabilir. Bu, tamamen denetimli ortamdan daha etkileşimli eğitim sağlayacaktır. Takviyeli öğrenme aşamasında, politika modelimiz olan sohbet botu, son denetimli modelden ince ayar yapılacaktır. Bir konuşma ortamındaki bir insana yanıt verirken eylemleri kendi belirteç dizileri yayar. Bir konuşma geçmişi ve buna karşılık gelen bir eylem olan belirli bir durum verildiğinde, ödül modeli sayısal ödülü döndürür. Geliştiriciler, burada takviyeli öğrenme algoritması olarak yakın politika optimizasyonu veya PPO kullanmayı seçerler. Bu videoda PPO'nun ayrıntılarına girmeyeceğiz, ancak bu, farklı alanlarda popüler bir seçim olmuştur. Şimdi burada optimize ettiğimiz Öğrenilmiş ödül modeli, önemsediğimiz gerçek hedefe iyi bir yaklaşım. Bununla birlikte, bu yine de yalnızca bir yaklaşıklıktır ve bir vekil hedeftir.
How ChatGPT is Trained
How ChatGPT is Trained
  • 2023.01.24
  • www.youtube.com
This short tutorial explains the training objectives used to develop ChatGPT, the new chatbot language model from OpenAI.Timestamps:0:00 - Non-intro0:24 - Tr...
 

Vrije Universiteit Amsterdam Makine Öğrenimi 2019 - 1 Makine Öğrenimine Giriş (MLVU2019)



Vrije Universiteit Amsterdam Makine Öğrenimi 2019 - 1 Makine Öğrenimine Giriş (MLVU2019)

Bu video, makine öğrenimine bir giriş sağlar ve onunla ilgili çeşitli konuları kapsar. Eğitmen, kursa nasıl hazırlanılacağını açıklıyor ve makine öğreniminin göz korkutucu olduğuna dair yaygın endişeleri ele alıyor. Farklı makine öğrenimi türlerini tanıtıyor ve onu geleneksel kural tabanlı programlamadan ayırıyor. Video aynı zamanda denetimli öğrenmenin temellerini ele alıyor ve makine öğreniminin sınıflandırma ve regresyon problemlerinde nasıl kullanılabileceğine dair örnekler sunuyor. Özellik uzayı, kayıp fonksiyonu ve artıklar kavramları da açıklanmıştır.

Videonun ikinci bölümü, makine öğrenimine bir giriş sağlar ve makinenin kalıpları bulma ve bir veri kümesinden sonuçları tahmin etmek için doğru modeller oluşturma ana amacını açıklar. Konuşmacı, aşırı uydurmayı önlemek ve genelleme elde etmek için belirli algoritmalar kullanmanın ve veri bölmenin önemini tartışıyor. Ayrıca yoğunluk tahmini kavramını ve karmaşık verilerle ilgili zorluklarını tanıtıyor. Konuşmacı, makine öğrenimi ile diğer alanlar arasındaki farkı açıklığa kavuşturuyor ve doğru tahminler yapmak için büyük veri kümelerini parçalamaya yönelik bir stratejiden bahsediyor. Videoda ayrıca derin öğrenmenin gelişmesiyle birlikte makine öğreniminde çalışan kişilerin artmasından bahsediliyor ve alana yeni başlayanlar için ipuçları veriliyor.

  • 00:00:00 Bu bölümde, konuşmacı makine öğrenimi kursuna nasıl hazırlanılacağından bahsediyor. Öğrencilerin ana ders materyallerini dikkatlice okumalarını ve gerekli olana odaklanmalarını önerirler. Ek olarak, öğrencilerin anlayışlarını test etmeleri ve eğitmenin onlara söylediklerini ezberlemeleri için bir sınav da mevcuttur. Öğrencilere ev ödevi verilecek ve kalan alana kalemle notlar yazmak için formüller içeren basılı bir sayfa kullanmalarına izin verilecektir.

  • 00:05:00 Bu bölümde konuşmacı, özellikle bilgisayar bilimi geçmişi olmayanlar için makine öğreniminin korkutucu ve yıldırıcı olduğu konusundaki kaygıları ele alıyor. Projenin amacının, keşfedilecek ve denenecek veri kümeleri ve kaynaklar sağlayarak bireylerin makine öğrenimi konusunda rahat olmalarına yardımcı olmak olduğunu açıklıyor. Konuşmacı, işbirliğinin önemini vurgular ve öğrenmeyi kolaylaştırmak için sağlanan çalışma sayfalarının ve bilgi işlem araçlarının kullanılmasını teşvik eder.

  • 00:10:00 Bu bölümde konuşmacı, makine öğrenimi alanındaki grup dinamiklerinin ve iletişim becerilerinin önemini tartışıyor. Gruplarda etkili bir şekilde çalışabilmenin ve iletişim kurabilmenin teknik yazma becerileri kadar önemli olduğunu vurguluyor. Konuşmacı ayrıca katılımcıları grup oturumlarına kaydolmaya ve etkili çalışma ilişkileri oluşturmak için programdaki diğer kişilere ulaşmaya teşvik eder. Katılımcılara, programdaki diğer üyelerle bağlantı kurmak ve üretken, işbirliğine dayalı ilişkiler oluşturmak için çevrimiçi tartışma forumları gibi mevcut kaynakları kullanmalarını tavsiye ediyor.

  • 00:15:00 Bu bölümde, konuşmacı denetimli makine öğreniminden başlayarak farklı makine öğrenimi türlerini tanıtıyor. İki tür denetimli makine öğrenimini (sınıflandırma ve regresyon) ele alacaklarını ve aradan sonra regresyonun tartışılacağını açıklıyorlar. Konuşmacı ayrıca denetimsiz makine öğrenimini kısaca tartışacaklarından ve makine öğreniminin neden normal makinelerden farklı olduğuna dair bir açıklama sağlayacaklarından bahseder.

  • 00:20:00 Bu bölümde, konuşmacı, temelde bir dizi önceden belirlenmiş talimatı izleyen geleneksel kural tabanlı programlama ile kullanılabilecek tahmine dayalı modeller oluşturmak için büyük veri kümelerini kullanma süreci olan makine öğrenimi arasında ayrım yapar. yeni verilere dayanarak karar vermek. Makine öğrenimi, karar vermenin hızlı, güvenilir ve bozulmaz olması gereken durumlarda kullanışlıdır. Ancak, makine öğrenimi modellerinin mükemmel olmadığını ve beklenmedik bir şekilde başarısız olabileceğini unutmamak önemlidir, bu nedenle nihai kararları almak için insan girdisi hala gereklidir. Klinik karar desteği, makine öğreniminin doktorlara karar vermelerine yardımcı olacak ek bilgiler sağlamak için nasıl kullanılabileceğinin bir örneğidir.

  • 00:25:00 Bu bölümde konuşmacı, makine öğreniminde çevrimiçi veya artımlı öğrenme kavramını açıklıyor. Sürekli bir veri akışının olduğu durumlarda çevrimiçi öğrenmenin etkili olabileceğini ve modelin zor bir görev olan yeni bilgileri güncellemeye ve tahmin etmeye devam etmesi gerektiğini belirtiyorlar. Bu nedenle, modelin daha kolay tahminlerde bulunmasını sağlamak için temel verileri ayırarak ve yeniden canlandırarak çevrimiçi öğrenmeyi uygulamaya odaklanmayı öneriyorlar. Ek olarak, konuşmacı 1950'ler ve 60'lardaki bilim adamlarının beynin nasıl öğrendiğini keşfetmek için algılayıcı adı verilen basit yapay beyinleri nasıl kullandıklarını tartışıyor ve bir algılayıcıyı erkekler ve kadınlar arasındaki farkı tanımak için eğitmek gibi örnekler kullanıyor.

  • 00:30:00 Videonun bu bölümünde, konuşmacı makine öğreniminin temellerini tartışıyor ve bir makinenin verileri giriş özelliklerine göre belirli kategorilerde sınıflandırmak üzere eğitildiği denetimli öğrenim kavramını tanıtıyor. Belirli kelimelerin sıklığı gibi özellikleri ölçerek e-postaları spam veya spam değil olarak sınıflandırmaya bir örnek verilmiştir. Amaç, bu verileri, daha sonra yeni, görülmemiş örneklerin sınıfını doğru bir şekilde tahmin edebilen bir model oluşturan bir öğrenme algoritmasına beslemektir. Bu tür problemler için kullanılabilecek birçok farklı sınıflandırma algoritması vardır.

  • 00:35:00 Bu bölümde, konuşmacı makine öğreniminin sınıflandırma problemlerinde nasıl kullanılabileceğine dair iki örnek verir. İlk örnek, görüntü sınıflandırması kullanılarak Arizona sözleşmelerindeki çok basamaklı sayıların tanınmasını içerir. Özellikler olarak rakamların 28x28 piksel görüntülerini kullanırlar ve amaç görüntüde hangi rakamın olduğunu tahmin etmektir. İkinci örnek, bir arabaya nasıl sürüleceğini öğretmek için makine öğrenimini kullanmayı, direksiyon simidindeki sensörler aracılığıyla verileri toplayıp çerçevelere ayırmayı ve arabanın yönünü sınıflandırmak için 960 özelliği kullanmayı içerir.

  • 00:40:00 Bu bölümde, konuşmacı bir regresyon problemini çözmek için bir algoritmanın nasıl oluşturulacağını tartışıyor. Verilen örnek, yolcu sayısına bağlı olarak bir otobüs yolculuğunun süresini tahmin etmektir. Konuşmacı ayrıca, gruplar arasındaki zaman değişiklikleri ve ara sıra değişebilen görseller nedeniyle önemli olan, kurs için tam bir programın bulunduğu bir sayfa olduğundan bahseder. Son olarak, konuşmacı bir kişinin boyunu tahmin etmek için iki özelliği kullanmaktan bahsediyor ki bu, denetimli öğrenme problemine bir örnek.

  • 00:45:00 Bu bölümde, konuşmacı, öğelerin ve arayüzlerinin görsel temsiline izin veren bir eksen kullanarak verileri bir özellik uzayında temsil etme kavramını tanıtıyor. Bu uzayda bir çizgi çizerek, uzayı bir alanın çizginin üzerindeki her şeyi ve diğer alanın altındaki her şeyi temsil ettiği iki alana bölen bir sınıflandırıcı oluşturulabilir. Lojistik emzik, çizgileri kullanırken en iyi seçimdir ve her çizgi, 3B uzay düzleminde bir özelliği tanımlayan üç sayı ile tanımlanabilir. Değiştirilebilir bir fonksiyon olan bir kayıp fonksiyonu, bir modelin yanlış yaptığı örnek sayısının hesaplanmasına izin verir ve daha düşük bir değer, daha iyi bir model uyumu anlamına gelir.

  • 00:50:00 Bu bölümde konuşmacı, mekan örnekleri ve bunların model oluşturmak için nasıl kullanılabileceği hakkında bilgi verir. Karar ağaçları kavramını ve geniş bir alanda nasıl karmaşık hale getirilebileceklerini açıklıyor. Ayrıca, tanımlama ve çeşitlendirme üzerine birkaç varyasyon kullanarak sınıflandırma sürecinin nasıl basit ve güçlü hale getirilebileceğini gösteriyor. Son olarak, konuşmacı çok sınıflı ve çok etiketli sınıflandırmaya ve bunların, nesnelerin birbirini dışlamadığı durumlarda nasıl yararlı olabileceğine değinir.

  • 00:55:00 Bu bölümde konuşmacı, önemli verilere dayalı özellikler oluşturarak uygun sınıf olasılık puanının ve çıktı alanının nasıl belirleneceğini açıklar. Çizgi teta ve kas kaybı fonksiyonunu değerlendirmek için, modelin tahmin edilen değeri ile gerçek çıkış değeri arasındaki mesafeyi ölçen bir artıklar yöntemi kullanılır. Kalıntıyı çizmek için regresyon kullanarak ve artık karelerin toplamını hesaplayarak, doğruyu uygun kare uzaklığına dayalı olarak verilere doğru çektiği için tahmine dayalı doğruluk iyileştirilebilir.

  • 01:00:00 Bu bölümde konuşmacı, verileri analiz etmek ve modeller oluşturmak için çoklu doğrusal regresyon gibi özel algoritmalar kullanmanın önemini tartışıyor. Bu modellerin aşırı uydurma nedeniyle her zaman doğru olmadığını, bu nedenle verilerin farklı parçalara bölünmesi ve buna göre analiz edilmesi gerektiğini açıklıyor. Konuşmacı ayrıca, modelin yeni verilerle sonuçları doğru bir şekilde tahmin edebilmesini sağlamak için makine öğrenimi algoritmaları oluştururken genellemenin en önemli husus olduğunu vurguluyor.

  • 01:05:00 Bu bölümde video, makine öğrenimini ve bunun büyük miktarda veriden öğrenmeyi nasıl içerdiğini tartışıyor. Makine öğrenimi modelleri, kalıpları bulmak ve özelliklere dayalı olarak bir etiketi doğru bir şekilde tahmin edebilen bir model oluşturmak amacıyla verileri bir dizi özellik ve etikete yerleştirerek oluşturulur. K-means kümeleme gibi teknikler, benzer özelliklere sahip veri noktalarını gruplandırmak için kullanılabilir ve bu da daha doğru modeller oluşturmaya yardımcı olabilir. Ek olarak, optimal bir model bulmanın çok fazla deneme yanılma gerektirdiğini ve önceden neyin en iyi şekilde çalışacağını bilmenin doğrudan bir yolu olmadığını anlamak önemlidir.

  • 01:10:00 Bu bölümde, konuşmacı yoğunluk tahmini kavramını ve bunun verilerin olasılık dağılımını belirlemede nasıl yardımcı olduğunu tanıtıyor. Yoğunluk tahmini, bir ilgi dağılımı varsayılarak ve örnek verilere dayanarak yakalanarak yapılır. Model, özelliklerdeki her nokta için bir olasılık yoğunluğu tahmin eder ve farklı oranların olasılığını temsil edecek bir sayı atar. Bununla birlikte, insan resimleri gibi karmaşık veriler için, yüksek boyutlu özellikler nedeniyle yoğunluk tahmini zorlaşır ve benzer başka bir örnek sağlamak için alternatif bir yaklaşıma ihtiyaç duyulur.

  • 01:15:00 Bu bölümde konuşmacı, makine öğrenimi dışında, şehir planlaması veya banyo planlaması gibi insanların makineyle ilgili olduklarını düşünmelerine yol açabilecek alanların olduğundan bahsediyor. Ancak bu alanlar mutlaka çok fazla harcama veya zaman gerektirmez. Konuşmacı ayrıca, önümüzdeki hafta daha derinlemesine tartışılacak olan ve doğru tahminler yapmak için büyük veri kümelerini daha küçük gruplara ayırmayı içeren bir stratejiden de bahsediyor. Bu strateji genellikle ses tanıma veya karakter tanıma gibi alanlarda kullanılır.

  • 01:20:00 Bu bölümde, konuşmacı makine öğrenimi hakkındaki farklı düşünme biçimlerini ve bunun için kullanılabilecek mevcut teknik ve modelleri tartışıyor. Ayrıca derin öğrenmenin, makine öğrenimi üzerinde çalışan kişilerin lezzet sayısındaki artışa nasıl katkıda bulunduğuna da değiniyor. Ayrıca, makine öğrenimine başlamak isteyen yeni başlayanlar için ipuçları veriyor ve öğrenme yolculuklarında yardımcı olacak kaynakların mevcut olduğundan bahsediyor.
1 Introduction to Machine Learning (MLVU2019)
1 Introduction to Machine Learning (MLVU2019)
  • 2019.02.06
  • www.youtube.com
slides: https://mlvu.github.io/lectures/11.Introduction.annotated.pdfcourse materials: https://mlvu.github.ioThe first lecture in the 2019 Machine learning c...
 

2 Doğrusal Model 1: Hiper Düzlemler, Rastgele Arama, Gradyan İniş (MLVU2019)



2 Doğrusal Model 1: Hiper Düzlemler, Rastgele Arama, Gradyan İniş (MLVU2019)

Bu video doğrusal modellerin, arama yöntemlerinin ve optimizasyon algoritmalarının temellerini kapsar. Doğrusal modeller hem 2 boyutta hem de çoklu boyutta anlatılmakta ve rasgele arama ve gradyan iniş gibi yöntemlerle iyi bir model arama süreci ele alınmaktadır. Makine öğreniminde dışbükeyliğin önemi açıklanmakta ve dışbükey olmayan manzaralarda rastgele aramanın sakıncaları ele alınmaktadır. Video ayrıca evrimsel yöntemleri ve arama yöntemleri olarak dallara ayrılan aramayı tanıtıyor. Son olarak, bir hiperdüzlem için en dik iniş yönünü bulma süreci de dahil olmak üzere, kayıp fonksiyonunu optimize etmek için matematik ve gradyan inişinin kullanımı açıklanmaktadır.

İkinci kısım, gradyan inişini ve algoritmanın, kayıp fonksiyonunun negatif gradyanı yönünde adımlar atarak parametreleri güncellediği doğrusal modellere uygulamasını tartışır. Öğrenme oranı, algoritmanın minimuma ne kadar hızlı yakınsadığını belirlemede çok önemlidir ve doğrusal işlevler, kişinin arama yapmak zorunda kalmadan en uygun modeli çalışmasına izin verir. Bununla birlikte, daha karmaşık modeller gradyan iniş kullanmayı gerektirir. Video ayrıca sınıflandırma ve karar sınırlarını da tanıtıyor; burada amaç, bunu en uygun şekilde yapan bir çizgi bularak mavi noktaları kırmızı noktalardan ayırmak. Doğrusal modellerin sınırlamaları, doğrusal olarak ayrılamayan veri kümelerini sınıflandıramamalarını içerir, ancak hesaplama açısından ucuzdurlar ve yüksek boyutlu özellik uzaylarında iyi çalışırlar. Eğitmen ayrıca, makine öğrenimi metodolojisi gibi gelecekte tartışılacak konuların önizlemesini yapar.

  • 00:00:00 Bu bölümde konuşmacı, bir sorunu soyutlamayı, örnekleri ve özellikleri seçmeyi, bir model sınıfı seçmeyi ve iyi bir model aramayı içeren makine öğreniminin temel tarifini açıklıyor. Daha sonra seçilen model sınıfı olarak doğrusal modelleri tanıtırlar ve bunları matematiksel dilde nasıl yazacaklarını tartışırlar. Gradyan iniş de dahil olmak üzere arama yöntemlerinden bahsediyorlar ve bu yöntemlerin lineer modellere özgü olmadığını ve başka bağlamlarda ortaya çıkacağını vurguluyorlar. Örnekleri ve karşılık gelen değerleri eşleştirmek için üst simgeler kullanılarak veri kümelerini açıklayan notasyon da tanıtılır. Son olarak, ders boyunca çalışan bir örnek olarak basit bir regresyon veri seti kullanılır.

  • 00:05:00 Bu bölümde, konuşmacı doğrusal modelleri ve bunların bir alanı başka bir alana haritalamak için nasıl kullanılabileceğini tartışıyor. Doğrusal bir model, bunu başarmak için bir çizgiyi tanımlayan bir işlev kullanır. Çizgi fonksiyonu, sırasıyla eğimi ve yanlılığı temsil eden W ve B olmak üzere iki parametreye sahiptir. Konuşmacı, bir veri kümesindeki özellik sayısının isteğe bağlı olabileceğini ve modelin herhangi bir sayıda özellikle çalışması gerektiğini açıklar. Birden çok özellik için, her bir örnek, kalın harf notasyonu kullanılarak bir vektör olarak temsil edilir ve bu vektörlerin her biri, tek bir değere eşlenir.

  • 00:10:00 Bu bölümde, konuşmacı her özelliğe ağırlık atayarak ve tek bir B değerini koruyarak doğrusal modelin bir düzlemden bir hiper düzleme nasıl genişletileceğini açıklar. Bu fonksiyon, aynı uzunluktaki iki vektörün basit bir işlemi olan W ve X artı B'nin iç çarpımı olarak ifade edilebilir. İç çarpım, iki vektörün uzaydaki uzunluğu çarpı aralarındaki açının kosinüsü olarak da ifade edilebilir. Konuşmacı ayrıca ilginç bir ilkeden de bahsediyor, o da bir modele basit özellikler ekleyerek daha güçlü hale gelebileceği. Son olarak, iyi bir model bulmak için bir kayıp fonksiyonu kullanılır ve bu kayıp fonksiyonunu en aza indiren bir değer için tüm modellerin uzayını aramanın bir yolu kullanılır.

  • 00:15:00 Bu bölümde konuşmacı, lineer regresyonda kullanılan ortalama kare hata kaybı fonksiyonunu tartışıyor. İşlev, model tahmini ile gerçek değer arasındaki mesafeyi ölçer, mesafenin karesini alır ve kaybı belirlemek için tüm artıkları toplar. Değer ne kadar düşük olursa, model o kadar iyi olur. Konuşmacı, pozitif ve negatif değerlerin birbirini götürmesini önlemek için fonksiyonun neden mutlak değerler kullanmak yerine değerlerin karesini aldığını açıklıyor. Kare ayrıca aykırı değerlere fazladan bir ceza vererek, bunların kayıp fonksiyonunda daha ağır olmalarını sağlar. Bu bölüm ayrıca model ve özellik uzaylarını ve kayıp ortamında düşük kayıp değerleri aramanın verilere bir model uydurmaya nasıl yol açtığını kısaca tartışır.

  • 00:20:00 basit model, rastgele arama, rastgele bir noktadan başlayarak ve ona çok yakın başka bir noktayı seçmek için bir döngü kullanarak, her iki nokta için kaybı hesaplayarak ve eğer yeni nokta için kayıp, yeni noktaya geçmek daha iyidir. Optimum parametre değerlerine ulaşana kadar süreç devam eder. Bu, bir yürüyüşçünün kar fırtınasında dağ yamacının en çok nereye çıktığını belirlemek için her yöne küçük adımlar atarak ve vadiye ulaşana kadar o yönde adımlar atmasına benzer. Ancak, alanın çok boyutlu olduğu makine öğrenimi ayarlarında, resmin tamamını bir kerede görmek mümkün değildir, bu nedenle süreç, atılan küçük adımların sabit bir mesafede olduğu bir kar fırtınasındaki bir yürüyüşçüye benzer. optimum değerlere ulaşana kadar rastgele bir yön.

  • 00:25:00 Bu bölümde video, makine öğrenimindeki dışbükeylik kavramını ve bunun bir model arama yöntemi olarak rastgele aramayı kullanma üzerindeki etkisini tartışıyor. Dışbükey bir kayıp yüzeyi veya matematiksel olarak çizildiğinde kase şeklindeki bir yüzey, yalnızca bir minimuma sahiptir ve bu da küresel bir minimum bulmayı mümkün kılar. Bununla birlikte, bir kayıp yüzeyi dışbükey olmadığında ve birden çok yerel minimuma sahip olduğunda, rastgele arama takılabilir ve yerel bir minimumda yakınsayabilir. Bunu ele almak için, yokuş yukarı hareket etme olasılığına izin veren, potansiyelin yerel minimumdan kaçmasına ve küresel minimumu bulmasına izin veren bir arama yöntemi olarak simüle edilmiş tavlama tanıtılır.

  • 00:30:00 Bu bölümde video, kayıp fonksiyonunu herhangi bir işlem gerektirmeyen bir kara kutu olarak kabul ederek sürekli veya ayrık bir model uzayını optimize etmek için rastgele arama ve benzetilmiş tavlama gibi kara kutu optimizasyon yöntemlerinin kullanımını tartışıyor. modelin iç işleyişi hakkında bilgi. Küresel optimumu bulma şansını artırmak için bu yöntemlerin aynı anda birden fazla arama yapmak üzere paralelleştirilebileceğine dikkat edilmelidir. Ek olarak video, bu optimizasyon yöntemlerinin genellikle evrimsel algoritmalar, parçacıklar ve koloniler gibi doğal olaylardan ilham aldığından bahseder.

  • 00:35:00 Bu bölümde, konuşmacı evrimden ilham alan evrimsel bir arama yöntemi için temel algoritmayı tanıtıyor. Bu yöntem bir model popülasyonu ile başlar, kayıplarını hesaplar, onları sıralar, popülasyonun yarısını öldürür ve diğer yarısını yeni bir popülasyon oluşturmak için üretir. Yeni modeller, eskilerinin özelliklerine göre seçilir ve mutasyon kullanılarak popülasyona bazı varyasyonlar eklenir. Konuşmacı ayrıca rastgele bir yön seçmek yerine K rastgele yönün seçildiği ve en düşük kayıplı yönün seçildiği bir dallanma arama yöntemini, rastgele aramanın bir varyasyonunu açıklar. Konuşmacı, evrimsel yöntemlerin esnekliğine ve gücüne dikkat çekerek bitiriyor, ancak pahalı hesaplama maliyetlerine ve parametre ayarlama gereksinimlerine dikkat çekiyor.

  • 00:40:00 Bu bölümde sunum yapan kişiler, belirli bir problem için en uygun modeli bulmak için farklı arama yöntemlerini tartışıyor. Model sayısı arttıkça, yerel eğriliği keşfetmek için daha fazla zaman harcarlar, bu da optimuma doğru daha doğrudan bir çizgiye yol açar. Rastgele bir adım atmak yerine, yerel mahalleyi anlamak ve hareket etmeden önce en uygun yönü bulmak için daha fazla zaman harcayabilirler. Yazarlar daha sonra, kayıp fonksiyonuna bakmayı ve hesabı kullanarak fonksiyonun en hızlı azaldığı yönü hesaplamayı içeren gradyan inişini tanıtırlar. Bu yöntem, fonksiyonun türevlenebilir, pürüzsüz ve sürekli olmasını gerektirir ve artık bir kara kutu modeli değildir.

  • 00:45:00 Bu bölümde konuşmacı, kayıp fonksiyonuyla ilgili olarak eğimleri ve teğet doğruları tartışır. Kayıp yüzeyi doğrusal bir fonksiyon değildir, ancak kayıp fonksiyonunun türevini temsil eden teğet doğrunun eğimi, fonksiyonun azalmakta olduğu yön ve hızın bir göstergesi olabilir. Daha yüksek boyutlarda, teğet çizginin eşdeğeri teğet hiperdüzlemdir ve bu da bize kayıp yüzeyinin en hızlı azaldığı yönü verebilir. Ders ayrıca, vektörlerin uzayda bir nokta veya bir yön olarak yorumlanmasına da değiniyor; bu, hiperdüzlemler gibi doğrusal fonksiyonlarla uğraşırken yararlıdır.

  • 00:50:00 Bu bölümde, konuşmacı türevi birden fazla boyuta alarak nasıl genelleştirileceğini ve bir hiperdüzlem için en dik iniş yönünün nasıl bulunacağını tartışır. Birden fazla boyutta türev almanın eşdeğeri, X, Y ve Z'ye göre kısmi diferansiyel türevden oluşan bir vektör olan gradyanı hesaplamaktır. Bu üç değer birlikte bir düzlem için üç parametreyi ve üç değer birlikte bir düzlemi tanımlar. hiper düzlem En dik inişin W yönü, W normunun a'nın kosinüsünün maksimize edilmesiyle bulunabilir; bu, X ve W arasındaki mesafe X ve W arasındaki açıya eşit olduğunda veya X ve W aynı olduğunda maksimize edilir. Bu nedenle, en dik iniş yönü W'dir.

  • 00:55:00 Bu bölümde konuşmacı, gradyan iniş adı verilen bir kayıp fonksiyonunun minimumunu bulmak için basit bir algoritmayı açıklıyor. Algoritma, model uzayında rastgele bir nokta ile başlar, bu noktadaki kaybın gradyanını hesaplar, onu anta adı verilen küçük bir değerle çarpar ve sonra bunu modelden çıkarır. Rastgelelik yok, yalnızca tamamen deterministik adımlar var. Gradyan hem yönü hem de adım büyüklüğünü verir. Konuşmacı daha sonra hesabı kullanarak bir kayıp manzarası için gradyanı hesaplamaya devam eder, toplam ve zincir kurallarını açıklar ve sonunda kayıp fonksiyonunun W ve B'ye göre türevinin iki boyutlu vektörünü bulur.

  • 01:00:00 Bu bölümde, konuşmacı Python'da gradyan inişinin uygulanmasını ve bunun minimumu bulmak ve orada kalmak için yüzeyin eğriliğini takip ederek vektör yönünde bir adıma nasıl izin verdiğini tartışıyor. Bunu göstermek için, kullanıcıların gradyan inişini kullanarak basit bir lineer modelle deneyler yapmalarına olanak tanıyan oyun alanı.tensorflow.org adlı bir web sitesini tanıtıyorlar. Bununla birlikte, konuşmacı, öğrenme oranını seçme ihtiyacı ve yerel bir minimumda takılıp kalma potansiyeli gibi, gradyan inişinin bazı sınırlamaları olduğuna da işaret ediyor.

  • 01:05:00 Bu bölümde video, gradyan inişini ve bunun doğrusal modellere uygulanmasını daha ayrıntılı olarak tartışıyor. Gradyan iniş ile algoritma, kayıp fonksiyonunun negatif gradyanı yönünde adımlar atarak parametreleri günceller ve bu işlem minimuma ulaşana kadar tekrar eder. Öğrenme oranı, her adımın ne kadar büyük olduğunu belirler ve algoritmanın minimuma ne kadar hızlı yaklaştığını etkilediği için çok büyük veya çok küçük olmayan bir öğrenme oranı bulmak çok önemlidir. Doğrusal fonksiyonlar, kişinin aramaya gerek kalmadan en uygun modeli bulmasını sağlar. Bununla birlikte, daha karmaşık modeller gradyan iniş kullanmayı gerektirir. Gradyan inişi hızlıdır, düşük belleklidir ve doğrudur ancak yerel minimumlardan kaçmaz ve yalnızca düzgün kayıp fonksiyonları olan sürekli model uzaylarında çalışır. Son olarak video, özellik uzayında bunu en iyi şekilde yapan bir çizgi bularak mavi noktaları kırmızı noktalardan ayırmanın amaçlandığı sınıflandırma ve karar sınırlarını tanıtıyor.

  • 01:10:00 Bu bölümde, konuşmacı altı örnekten oluşan basit bir sınıflandırma veri seti için bir sınıflandırıcı bulma sürecini tartışıyor. Bunu yapmak için, iyi bir değerlendirme elde etmek için yanlış sınıflandırılan nokta sayısını en aza indirmek amacıyla, veri kümesindeki potansiyel doğrusal modelleri veya düzlemleri değerlendirmek için kullanılabilecek bir kayıp fonksiyonu ararlar. Ancak, başlangıçta kullandıkları kayıp fonksiyonu, düz bir yapıya sahip olduğundan, rastgele arama ve gradyan yükselişini etkisiz hale getirdiği için optimal modeli bulmak için uygun değildir. Konuşmacı daha sonra bazen kayıp fonksiyonunun değerlendirme fonksiyonundan farklı olması gerektiğini belirtir ve istenen nokta etrafında minimuma sahip, ancak her yerde düzgün olan bir kayıp fonksiyonu sunar.

  • 01:15:00 Bu bölümde öğretim görevlisi, regresyonda kullanılan en küçük kareler ilkesinin nokta değerleri atayarak ve problemi bir regresyon problemi olarak ele alarak sınıflandırmaya nasıl uygulanabileceğini gösterir. Bu yaklaşım, doğrusal olarak ayrılabilen noktaların kümelenmesinde iyi çalışır, ancak doğrusal olarak ayrılamayan kümeleri ayıracağının garantisi yoktur. Kayıp fonksiyonunu en aza indirmek için özellik uzayında belirli adımlar atarak gradyan iniş algoritmasının nasıl çalıştığını gösterirler. Kullanılan örnek, doğrusal olarak ayrılabilir noktaları olan bir veri kümesidir ve öğretim görevlisi, karmaşık sınırları olan çekirdek veri kümesi örneğinde gösterildiği gibi, doğrusal modellerin ifade edebilecekleri şeylerde ne kadar sınırlı olduğunu da vurgular.

  • 01:20:00 Bu bölümde eğitmen, doğrusal modellerin sınırlamalarını ve bunların, sarmal desenli bir veri kümesi gibi doğrusal olarak ayrılamayan veri kümelerini sınıflandırmada nasıl başarısız olabileceklerini tartışır. Bununla birlikte, lineer modeller yüksek boyutlu özellik uzaylarında iyi çalışabilir ve hesaplama açısından da ucuzdur. Eğitmen, stokastik gradyan inişinin güçlü bir optimizasyon aracı olduğunu, ancak ayrık kayıp fonksiyonları için vekil olarak kullanılmak üzere yumuşak bir kayıp fonksiyonu gerektirdiğini açıklar. Eğitmen, makine öğrenimi metodolojisi gibi gelecekte tartışılacak konuların önizlemesini yaparak bitirir.
2 Linear Models 1: Hyperplanes, Random Search, Gradient Descent (MLVU2019)
2 Linear Models 1: Hyperplanes, Random Search, Gradient Descent (MLVU2019)
  • 2019.02.07
  • www.youtube.com
slides: https://mlvu.github.io/lectures/12.LinearModels1.annotated.pdfcourse materials: https://mlvu.github.ioIn this lecture, we discuss the linear models: ...
 

3 Metodoloji 1: Eğrinin altındaki alan, önyargı ve varyans, bedava öğle yemeği yok (MLVU2019)



3 Metodoloji 1: Eğrinin altındaki alan, önyargı ve varyans, bedava öğle yemeği yok (MLVU2019)

Video, makine öğrenimi modellerini değerlendirmede eğrinin altındaki alan (AUC) metriğinin kullanımının yanı sıra önyargı ve varyans kavramlarını ve "bedava öğle yemeği yok" teoremini tanıtmayı kapsar. AUC metriği, ROC eğrisi altındaki alanı hesaplayarak sınıflandırma modelinin performansını ölçer. Ek olarak, modelin eğitim verilerine ne kadar iyi uyduğu ve yeni verilere genelleştirildiği konusunda çok önemli bir rol oynadıkları için önyargı ve varyans tartışılır. Ayrıca, "bedava öğle yemeği yok" teoremi, tüm makine öğrenimi sorunları için evrensel olarak uygulanabilir bir algoritma olmadığından, her belirli sorun için uygun algoritmayı seçme ihtiyacını vurgular.

Bu video, üç önemli makine öğrenimi kavramını kapsar: AUC (eğrinin altındaki alan), önyargı ve varyans ve "bedava öğle yemeği yok" teoremi. AUC, ikili sınıflandırma modellerini değerlendirmek için kullanılan bir ölçüdür; yanlılık ve varyans ise bir modelin tahmin edilen değerleri ile bir veri kümesindeki gerçek değerler arasındaki farkları ifade eder. "Bedava öğle yemeği yok" teoremi, tüm olası problemler ve veri kümeleri üzerinde en iyi şekilde performans gösterebilen tek bir algoritma olmadığından, belirli bir problem için uygun algoritmayı seçmenin önemini vurgular.

  • 00:20:00 Bu bölümde, konuşmacı makine öğrenimi modellerini değerlendirmeye yönelik ilk metodoloji olan eğrinin altındaki alan (AUC) metriğini tartışıyor. AUC, alıcı işletim karakteristiği (ROC) eğrisi altındaki alanı hesaplayarak sınıflandırma modellerinin performansını ölçer. Konuşmacı ayrıca, sırasıyla bir modelin eğitim verilerine ne kadar iyi uyduğunu ve yeni verilere ne kadar iyi genelleştirdiğini ölçen önyargı ve varyans kavramlarını da tanıtır. Son olarak, konuşmacı, tüm makine öğrenimi sorunları için herkese uyan tek bir algoritma olmadığını belirten ve her belirli sorun için uygun algoritmayı seçmenin önemini vurgulayan "bedava öğle yemeği yok" teoremini açıklıyor.

  • 01:10:00 Bu bölümde, konuşmacı makine öğrenimi metodolojisindeki üç temel kavramı tanıtıyor: eğrinin altındaki alan (AUC), önyargı ve varyans ve "bedava öğle yemeği yok" teoremi. AUC, ikili sınıflandırma modellerinin performansını değerlendirmek için kullanılan bir ölçüdür ve bir modelin rastgele seçilmiş bir pozitif örneği, rastgele seçilmiş bir negatif örnekten daha yüksek sıralama olasılığını temsil eder. Önyargı, bir modelin tahminlerinin beklenen değeri ile veri kümesindeki gerçek değerler arasındaki farkı ifade ederken, varyans, farklı veri kümeleri üzerinde eğitildiğinde bir modelin tahminlerindeki varyansı ifade eder. "Bedava öğle yemeği yok" teoremi, tüm olası problemler ve veri kümeleri üzerinde en iyi performansı gösterebilecek tek bir algoritma olmadığını belirtir ve belirli bir problem için uygun algoritmayı seçmenin önemini vurgular.
3 Methodology 1: Area-under-the-curve, bias and variance, no free lunch (MLVU2019)
3 Methodology 1: Area-under-the-curve, bias and variance, no free lunch (MLVU2019)
  • 2019.02.12
  • www.youtube.com
slides: https://mlvu.github.io/lectures/21.Methodology1.annotated.pdfcourse materials: https://mlvu.github.ioIn this lecture, we discuss the practicalities t...
 

4 Metodoloji 2: Veri temizleme, Temel Bileşen Analizi, Özyüzler (MLVU2019)



4 Metodoloji 2: Veri temizleme, Temel Bileşen Analizi, Özyüzler (MLVU2019)

Videonun bu ilk bölümü, veri önyargılarını ve çarpıklığını anlamanın hayati öneminden başlayarak, makine öğrenimi algoritmalarını uygulamadan önce veri ön işleme ve temizlemenin çeşitli önemli yönlerini kapsar. Konuşmacı daha sonra eksik veriler, aykırı değerler, sınıf dengesizliği, özellik seçimi ve normalleştirme ile başa çıkma yöntemlerini tartışır. Video, temel kavramını ve MVN dağılımını tartışarak devam ediyor, beyazlaştırmanın verileri normalleştirme için normal dağılıma dönüştürmek için nasıl kullanılacağını açıklıyor ve boyut indirgeme için temel bileşen analizinin (PCA) kullanımıyla sona eriyor. PCA, eğitim setini manipüle etmekten atama yöntemlerini kullanmaya kadar, orijinal verilerden bilgileri korurken verileri daha düşük boyutlu bir alana yansıtır.

Videonun bu ikinci bölümünde, makine öğrenimi için veri temizleme ve boyut azaltmada Temel Bileşen Analizi'nin (PCA) kullanımı tartışılmaktadır. Yöntem, verilerin ortalamasını merkezlemeyi, örnek kovaryansını hesaplamayı ve en çok varyansı yakalayan eksenle hizalanmış özvektörleri elde etmek için özvektörleri elde etmek için özayrışımı kullanarak ayrıştırmayı içerir. İlk K ana bileşenlerini kullanmak, iyi bir veri yeniden yapılandırması sağlayarak daha iyi makine öğrenimi performansı sağlar. Eigenfaces kavramı da tanıtıldı ve PCA'nın makine öğrenimi için gerekli bilgilerin çoğunu korurken verileri 30 boyuta sıkıştırmada etkili olduğu gösterildi. PCA'nın antropolojideki kullanımı ve DNA ve yüzler gibi karmaşık veri setlerinin incelenmesi dahil olmak üzere çeşitli uygulamaları tartışılmaktadır.

  • 00:00:00 Videonun bu bölümünde sunum yapan kişi, makine öğrenimi algoritmalarını uygulamadan önce veri temizleme ve ön işlemenin temellerini tartışıyor. Verileri göründüğü gibi almamanın önemi, yalnızca hayatta kalan nüfusa odaklanmanın çarpık sonuçlara yol açabileceği hayatta kalma yanlılığı tartışılarak vurgulanır. Sunum yapan kişi daha sonra eksik veriler, aykırı değerler, sınıf dengesizliği, özellik seçimi ve normalleştirme gibi teknikleri tartışır. Son olarak, videonun ikinci yarısı, temel bileşen analiz algoritmasını kullanarak boyut azaltmayı tartışmaya odaklanıyor.

  • 00:05:00 Bu bölümde, video, eksik özelliklerin veya önemli olmayan örneklerin kaldırılması ve kaldırma işleminin veri dağıtımını değiştirmediğinden emin olunması da dahil olmak üzere, veri temizleme ve bir veri kümesindeki eksik verileri işleme konusunda pratik ipuçları sunar. Eksik değerleri kaldırmaktansa eğitim verileri için saklamak ve modelin yanıtlarını test etmek daha yararlı olabilir. Eğitim verisi miktarını en üst düzeye çıkarmak için, mod veya ortalama değeri kullanmak gibi eksik veriler için tahminleri dolduran bir değerlendirme yöntemi mevcuttur. Eksik verilerle başa çıkmanın yol gösterici ilkesi, modeli beklenen eksik verilerle en alakalı ve pratik şekilde başa çıkacak şekilde hazırlamak için gerçek dünyadaki kullanım durumunu veya üretim ortamını dikkate almaktır.

  • 00:10:00 Bu bölümde, konuşmacı verilerdeki iki tür aykırı değeri tartışıyor: mekanik ve doğal aykırı değerler. Mekanik aykırı değerler, eksik veriler veya veri girişindeki hatalar gibi hatalardan kaynaklanır ve temizlenmesi gereken eksik veriler olarak ele alınmalıdır. Öte yandan, doğal aykırı değerler, belirli değişkenlerin normal olmayan dağılımı nedeniyle oluşur ve daha iyi bir uyum sağlamak için veri setinde tutulmalıdır. Konuşmacı, bir yüz veri kümesindeki olağandışı yüz özellikleri ve bir gelir dağılımı veri kümesindeki son derece yüksek gelirler dahil olmak üzere her iki tür aykırı değere ilişkin örnekler sunar.

  • 00:15:00 Bu bölümde, verilerdeki normallik varsayımlarını kontrol etmenin önemi tartışılmaktadır. Örneğin doğrusal regresyon bu varsayımlara dayanır, bu nedenle normalliği kontrol etmek ve varsayımların bilinmeden modellerde gizlenebileceğinin farkında olmak önemlidir. Verileri modellerken ve doğrularken aykırı değerler de dikkate alınmalıdır ve modellerin aykırı değerleri uygun şekilde işleyebilmesini sağlamak için üretim durumlarını temsil eden bir eğitim seti ile modellerin test edilmesi önemlidir. Ek olarak, makine öğrenimi algoritmaları için verilerin kategorik veya sayısal özelliklere dönüştürülmesinin önemi ve bu tür dönüşümlerde yer alan potansiyel bilgi kaybı tartışılmaktadır.

  • 00:20:00 Bu bölümde konuşmacı, makine öğrenimi algoritmaları için doğru özellikleri seçmenin önemini ve verilerden anlamlı bilgilerin nasıl çıkarılacağını tartışıyor. Telefon numaraları gibi sayıları basitçe sayısal değerler olarak yorumlamanın yararlı olmadığını açıklıyorlar ve bunun yerine alan kodları veya mobil ve sabit hat durumu gibi kategorik özellikleri aramayı öneriyorlar. Bir makine öğrenimi algoritmasının yalnızca sayısal özellikleri kabul ettiği durumlarda, konuşmacı, verilere keyfi bir düzen empoze etmekten kaçınmak için tamsayı kodlama yerine bir sıcak kodlama kullanılmasını önerir. Amaç, gerekli bilgileri herhangi bir temel ayrıntıyı kaybetmeden çıkarmak ve eldeki görev için gereken bilgileri doğru ve etkili bir şekilde ileten özellikleri seçmektir.

  • 00:25:00 Bu bölümde konuşmacı, bir modeli daha güçlü hale getirmek için özellikleri genişletmenin değerini tartışıyor. Konuşmacı, e-posta spam sınıflandırması için bir veri kümesi örneğini kullanarak, birbiriyle ilişkili iki özelliğin diğerinin değeri bilinmeden nasıl yorumlanamayacağını, bunun da doğrusal bir sınıflandırıcının sınıflar arasında sınır çizmesini imkansız hale getirdiğini açıklıyor. Bu sınırlamayı ele almak için, konuşmacı, orijinal uzayda doğrusal olarak ayrılamaz olsa da, daha yüksek bir özellik uzayında bir sınıflandırma sınırının çizilmesine izin vererek, mevcut özelliklerin değerlerini çoğaltan bir çapraz çarpım özelliği eklemeyi tartışır. Konuşmacı daha sonra, özellikleri genişletmenin önemini daha fazla göstermek için dairesel bir karar sınırına sahip bir nokta sınıfı örneği verir.

  • 00:30:00 Bu bölümde, konuşmacı, ekstra özellikler eklemenin bir lineer sınıflandırıcının sınıflandırma problemlerini çözmesine nasıl yardımcı olabileceğini açıklıyor. Bir karar sınırı problemine özellik olarak x ve y koordinatlarının karesini ekleyerek, iki nokta sınıfı arasında ayrım yapmak için bir doğrusal sınıflandırıcı kullanılabilir. Konuşmacı, TensorFlow Playground'u kullanarak sınıflandırıcı eğitiminin insan gözüne dairesel gibi görünen bir karar sınırıyla nasıl sonuçlandığını gösteriyor. Özniteliklerin ağırlıkları da gösterilmiş ve bu sınıflandırma problemini çözmek için yalnızca bir özniteliğin gerekli olduğu gösterilmiştir.

  • 00:35:00 Videonun bu bölümünde konuşmacı, özellik alanını genişletmenin, regresyon için bile daha güçlü bir modele nasıl yol açabileceğini tartışıyor. Bu noktayı, bir doğrusal regresyon modeline karesi alınmış bir değişken eklemenin, verilere daha iyi uyan bir parabol ile nasıl sonuçlandığını göstererek açıklarlar. Konuşmacı ayrıca sınıf dengesizliğiyle başa çıkma konusunda tavsiyelerde bulunur ve eğitim setinin aşırı örnekleme veya veri artırma gibi tekniklerle manipüle edilmesini önerir. Son olarak, normalleştirme konusunu tanıtırlar ve birimlerdeki farklılıkların bir K en yakın komşu sınıflandırma modelinin performansını nasıl etkileyebileceğine dair motive edici bir örnek sunarlar.

  • 00:40:00 Videonun bu bölümünde konuşmacı, makine öğrenimi algoritmaları için verileri normalleştirmenin önemini tartışıyor. Verileri normalleştirmenin üç yolunu açıklarlar: normalleştirme, standardizasyon ve beyazlatma. Normalleştirme, veri aralığını sıfır ile bir arasındaki aralığa sıkıştırmayı içerirken, standardizasyon, verilerin ortalamasının sıfır ve varyansın bir olduğundan emin olmayı içerir. Üçüncü yöntem olan beyazlatma, verilerdeki tüm korelasyonları hesaba katan ve onu özellik uzayında bir küreye indirgeyen biraz daha hoş bir normalleştirmedir. Konuşmacı, beyazlatmanın boyut küçültme için yararlı olduğunu açıklar.

  • 00:45:00 Bu bölümde konuşmacı, verilerin ilişkisiz bir özellik kümesine dönüştürülmesini içeren beyazlatma verileri kavramını açıklıyor. Konuşmacı, yeni bir eksen sistemi için diğer iki vektörü seçerek veriler için farklı bir temelin nasıl seçileceğini göstermek için doğrusal cebiri kullanır. Başlangıçta standart koordinat sisteminde (3,2) olarak gösterilen mavi nokta, yeni temel sisteme göre yeniden hesaplanır ve (2.5, 0.5) yeni koordinatlarına sahiptir. Bu, temel vektörleri bir matrise sütunlar halinde yapıştırmanın genelleştirilmiş notasyonuna yol açar.

  • 00:50:00 Bu bölümde konuşmacı, taban kavramını ve matris devrik yardımıyla farklı tabanlar arasında dönüşüm yapmak için nasıl kullanılabileceğini tartışıyor. Matris ters işlemi pahalıdır ve sayısal olarak kesin değildir, bu nedenle temel vektörlerin bir uzunluğa sahip olduğu ve birbirine ortogonal olduğu durumlarda ortonormal bir taban tercih edilir. Konuşmacı daha sonra çok değişkenli normal dağılımın normal dağılımın birden çok boyuta genelleştirilmesi olduğunu ve verilerin yorumlanmasına nasıl yardımcı olabileceğini açıklar. Dağılımın ortalaması bir vektördür ve çok değişkenli bir normal dağılımda varyans bir kovaryans matrisi haline gelir. Konuşmacı ayrıca, verilere çok değişkenli bir normal dağılım uydurmak için örnek kovaryansını hesaplama formülünü de kısaca açıklar.

  • 00:55:00 Bu bölümde, ortalaması sıfır, varyansı her yönde bir olan, korelasyonu olmayan ve diğer herhangi bir MVN dağılımına dönüştürülebilen çok değişkenli normal (MVN) dağılım kavramı tanıtılmaktadır. Verileri beyazlatma işlemi ayrıca açıklanmakta olup, burada bir MVN dağılımının dönüşümü, verileri normalleştirme için normal bir dağılıma dönüştürmek üzere tersine çevrilir. Bu bölüm ayrıca, hem beyazlatma hem de boyut azaltma gerçekleştiren bir yöntem olan temel bileşen analizi (PCA) yoluyla yüksek boyutlu verilerin boyutsallığını azaltmaya odaklanmaktadır. PCA, orijinal özelliklerden elde edilen ve mümkün olduğu kadar çok ilgili bilgiyi koruyan yeni özellikler bularak, orijinal verilerden temel bilgileri korurken verileri daha düşük boyutlu bir alana yansıtır.

  • 01:00:00 Videonun bu bölümünde sunum yapan kişi, Temel Bileşen Analizini (PCA) ve yakalanan varyansa göre boyutları nasıl sıraladığını, yararlı veri yeniden yapılandırmasına ve boyutluluk azaltmaya olanak tanıdığını tartışıyor. Sunum yapan kişi, özvektörleri ve bunların bir dönüşüm altında yönü değişmeyen özel vektörler olduğunu ve bunların orijinal verilerdeki maksimum varyansı bulmak için nasıl kullanılabileceğini açıklar. Sunum yapan kişi ayrıca köşegen bir matris için özvektörlerin nasıl bulunacağını ve özvektörleri eksen boyunca hizalamak için bir matrisin nasıl döndürüleceğini açıklar.

  • 01:05:00 Bu bölümde, makine öğrenimi algoritmaları için verileri önceden işlemek üzere temel bileşen analizini (PCA) kullanmayı öğreniyoruz. Önce çeviriyi kaldırmak için verileri ortalıyoruz, ardından örnek kovaryansı hesaplıyoruz ve öz ayrıştırmayı kullanarak ayrıştırıyoruz. Daha sonra verileri tekrar standart bir çok değişkenli normal (MVN) uzaya dönüştürüyoruz ve ilk K öznitelikleri hariç hepsini atıyoruz. Ayrıştırmadan elde edilen özvektörler eksenle hizalanarak yönü en fazla varyansla tutmamızı sağlar. Bu, boyutsallıkta önemli bir azalmaya yol açarak daha iyi makine öğrenimi performansı sağlar.

  • 01:10:00 Bu bölümde sunum yapan kişi, temel bileşen analizini (PCA) kullanarak boyut azaltma kavramını açıklar. Boyut azaltmanın amacı, mümkün olduğu kadar çok veriyi tutarken değişmezliği korumaktır. Projeksiyondaki varyansı en üst düzeye çıkarmak, orijinal ve öngörülen veriler arasındaki farkı ölçmek için kullanılan bir kayıp fonksiyonu olan yeniden oluşturma hatasını en aza indirmekle aynıdır. İlk ana bileşen, en fazla varyansı yakalayan çizgidir ve sonraki bileşenler kalan varyansı yakalar. İlk K temel bileşenlerini kullanmak, iyi bir veri yeniden yapılandırması sağlar.

  • 01:15:00 Bu bölümde, konuşmacı araştırma uygulamalarında temel bileşen analizinin (PCA) kullanımını tartışıyor. Böyle bir uygulama, fosilleşmiş kemiklerin özelliklerini ölçmek ve göstermek için kullanılabileceği antropoloji alanındadır. PCA, kemiğin farklı yönlerinin ölçümlerini alarak ve karşılaştırma için yüksek boyutlu bir özellikler alanı oluşturarak, verilerin boyutlarını iki ana bileşene indirgemek için kullanılabilir ve görsel kümeleme ve aykırı değer belirlemeye olanak tanır. Ek olarak, PCA, Avrupa popülasyonlarında DNA çalışmasına uygulanmıştır; burada DNA, yüksek boyutlu bir özellik vektörüne dönüştürülür ve PCA, verilerdeki kalıpları ve kümeleri ortaya çıkarmak için kullanılabilir.

  • 01:20:00 Bu bölümde, konuşmacı temel bileşen analizinin (PCA) DNA özelliklerinden oluşan bir veri kümesine nasıl uygulanabileceğini ve Avrupa'nın kabaca şeklini belirlemek için nasıl kullanılabileceğini tartışıyor. Menşe ülkeye göre renklendirilmiş bir DNA veri setinin iki ana bileşenine bakarak, bir kişinin veya atalarının ne kadar kuzeyde veya batıda/doğuda yaşadığı belirlenebilir. PCA, özyüzlere uygulanan bir yüz veri kümesinin özvektörleri gibi karmaşık veri kümelerine içgörü sağlama yeteneğinden dolayı genellikle sihirli bir yöntem olarak görülür. Bir yüz veri kümesinin ortalamasını hesaplayarak ve bu veri kümesinin kovaryansının özvektörlerine bakarak PCA, yüzlerin görüntülerinden oluşan yüksek boyutlu bir alanda yönler sağlayabilir.

  • 01:25:00 Bu bölümde, konuşmacı Eigenfaces kavramını ve Temel Bileşen Analizinin (PCA) veri temizlemede nasıl yardımcı olduğunu tartışıyor. Ortalama yüze ilk özvektörden küçük bir miktar ekleyerek, konuşmacı bunun yüz özelliklerinde yaşa nasıl karşılık geldiğini gösterir. İkinci ve dördüncü özvektörler sırasıyla aydınlatma ve cinsiyete karşılık gelir. Beşinci özvektör, ağzın ne kadar açık veya kapalı olduğunu gösterir. Özvektörler, yeni uzay için temel görevi görür ve verileri 30 boyuta sıkıştırmak, orijinal yüzün iyi bir temsilini sağlar. Bükülme noktası, makine öğrenimi için gereken bilgilerin çoğunu koruyarak ayrıntıların geri kalanının atılabileceği yaklaşık 30 özvektörden oluşur.
4 Methodology 2: Data cleaning, Principal Component Analysis, Eigenfaces (MLVU2019)
4 Methodology 2: Data cleaning, Principal Component Analysis, Eigenfaces (MLVU2019)
  • 2019.02.14
  • www.youtube.com
slides: https://mlvu.github.io/lectures/22.Methodology2.annotated.pdfcourse materials: https://mlvu.github.ioIn this lecture we discuss how to prepare your d...
 

Ders 5 Olasılık 1: Entropi, (Naif) Bayes, Çapraz entropi kaybı (MLVU2019)



5 Olasılık 1: Entropi, (Naif) Bayes, Çapraz entropi kaybı (MLVU2019)

Video, olasılık teorisinin çeşitli yönlerini ve makine öğrenimindeki uygulamasını kapsar. Konuşmacı, bir sistemdeki belirsizlik miktarını ölçen entropiyi tanıtır ve saf Bayes ve çapraz entropi kaybıyla nasıl ilişkili olduğunu açıklar. Örnek uzay, olay uzayı, rastgele değişkenler ve koşullu olasılık kavramları da tartışılır. Bayes teoremi açıklanır ve makine öğreniminde temel bir kavram olarak kabul edilir. Video aynı zamanda maksimum olasılık tahmin ilkesini ve Bayes olasılığının yanı sıra olasılık dağılımlarını simüle etmek için ön ek içermeyen kodun kullanımını da kapsar. Son olarak, konuşmacı Naive Bayes sınıflandırıcısı da dahil olmak üzere ikili sınıflandırma için ayrımcı ve üretken sınıflandırıcıları tartışır.

İkinci kısım, çok değişkenli bir normal dağılım modeli kullanarak belirli bir sınıfa ait yeni bir nokta için hesaplama olasılıkları kavramını açıklamaktadır. Bir sınıflandırıcı için olasılık dağılımlarına verimli bir şekilde uyacak şekilde özelliklerin koşullu bağımsızlığını ve sıfır örnekleri ele almak için sözde gözlemleri yumuşatma veya ayarlama ihtiyacını tartışır. Konuşmacı ayrıca doğrusal sınıflandırıcılar için doğruluktan daha etkili bir kayıp işlevi olarak entropi kaybını tanıtıyor ve çapraz entropi kaybı işlevinin, basitleştirmek için işlevin simetrilerini çökerten sigmoid işleviyle tahmin edilen ve gerçek veriler arasındaki farkı ölçme yeteneğini tartışıyor. Son olarak, video bir sonraki dersin son kayıp fonksiyonu olarak SVM kaybını ele alacağını ima ediyor.

  • 00:00:00 Videonun olasılık üzerine olan bu bölümünde, konuşmacı öğrencilere henüz katılmamışlarsa bir grup projesine katılmalarını ve mükemmel bir grup bulma konusunda fazla endişelenmemelerini, bunun yerine en iyisini yapmalarını tavsiye ederek başlıyor. ne alıyorlar Konuşmacı daha sonra, makine öğrenimiyle yakından ilişkili ve faydalı olan olasılık teorisini ve entropiyi tanıtır. Bu bağlamda entropinin, bir sistemdeki belirsizlik veya rastgelelik miktarını ölçmek anlamına geldiğini açıklıyor. Entropi kavramı makine öğreniminde önemlidir ve dersin ilerleyen bölümlerinde tartışılacak olan saf Bayes ve çapraz entropi kaybını açıklamak için kullanılır. Ders ayrıca sınıflandırma ve doğrusal sınıflandırıcıların temellerini de kapsayacaktır.

  • 00:05:00 Bu bölümde, konuşmacı kayıp fonksiyonlarını tartışıyor ve çok iyi bir kayıp fonksiyonu olarak kabul edilen çapraz entropi kaybını tanıtıyor. Bir gencin çevrimiçi kumar oynamasını içeren bir örnek sunuyorlar ve bu senaryoda olasılıkların nasıl işlediğini açıklıyorlar. Konuşmacı ayrıca frekans ve olasılık kavramına ve bunların gerçek hayattaki durumlarda nasıl uygulandığına değinir.

  • 00:10:00 Bu bölümde konuşmacı öznel ve nesnel olasılıklar arasındaki farkı tartışıyor. Öznel olasılığın kişisel inançlara ve deneyimlere dayandığını, nesnel olasılığın ise deney ve gözlemlerden türetilen frekansçı olasılığa dayandığını açıklarlar. Konuşmacı, makine öğreniminde eğitim kümesine dayalı olarak test kümesindeki kaybı en aza indirmeye odaklanıldığını ve olasılık teorisinin olasılıkları açıklamak için matematiksel bir çerçeve olarak kullanıldığını belirtiyor. Konuşmacı ayrıca rastgele değişkenler ve örnek uzay kavramlarını da tanıtıyor.

  • 00:15:00 Bu bölümde videoda olasılık teorisinde örnek uzay ve olay uzayı kavramları anlatılmaktadır. Örnek uzay, aralarında başka bir sonuç olmayan iki sonucun olduğu tüm olası sonuçları kapsar. Olay uzayı, örnek uzayın bir dizi alt kümesini içerir ve bu, bir zar atışında tek veya çift sayı almak gibi çeşitli olayların olasılıklarını tanımlamayı mümkün kılar. Olasılıklar hem kesikli hem de sürekli örnek uzaylara atanabilir. Ek olarak, video, olay sonuçlarının olasılığını açıklamaya yardımcı olan olasılıksal veri kümelerini modellemek için rastgele değişkenler ve özelliklerin kullanılmasından bahseder.

  • 00:20:00 Bu bölümde, konuşmacı rasgele değişkenler ve bunların fonksiyon olarak gösterimi de dahil olmak üzere temel olasılık kavramlarını tanıtır. Konuşmacı, rastgele bir değişkenin tek bir sayı ile temsil edilebileceğini ve bir değişken olarak somutlaştırılabileceğini açıklar. Ayrıca eşittir gösteriminin kullanımını ve rastgele değişkenlere işlev veya belirli bir değerle nasıl atıfta bulunulabileceğini tartışırlar. Konuşmacı daha sonra iki rasgele değişken, X ve Y tarafından tanımlanan bir olay uzayı örneği verir ve koşullu olasılık kavramını tanıtır.

  • 00:25:00 Bu bölümde, konuşmacı olasılıkları ve farklı olayların olasılığını belirlemek için bunların nasıl yeniden yazılabileceğini ve tahmin edilebileceğini tartışıyor. İki değişken bağımsızsa, birinin değerini bilmenin diğerinin olasılığını değiştirmeyeceğini açıklıyorlar. Konuşmacı daha sonra, bir kişinin işe zamanında gitme olasılığının diğer kişinin zamanında gelme olasılığını nasıl etkilemediğini göstermek için bir şehrin farklı yerlerinde yaşayan iki insan örneğini kullanır. Ancak, iki kişinin olasılıklarının bağlantılı olabileceği nadir bir olasılık olduğunu belirtiyorlar.

  • 00:30:00 Bu bölümde konuşmacı olasılığı ve makine öğreniminde temel bir kavram olan Bayes teoremini tartışıyor. Konuşmacı, koşullu bağımsızlığı ve Alice'in işe geç kaldığını bilmenin Bob'un da geç kaldığı inancını nasıl biraz artırdığını açıklamak için bir trafik sıkışıklığı örneği kullanıyor. Bayes teoremi, alandaki en önemli formül olarak kabul edilir ve koşullu olasılığın nasıl tersine çevrileceğini açıklar. Son olarak konuşmacı, makine öğreniminin verilere bir olasılık dağılımını nasıl uydurduğunu ve mevcut bilgiler verildiğinde frekansçı yaklaşımın en iyi parametreleri nasıl belirlediğini açıklar.

  • 00:35:00 Bu bölümde, konuşmacı maksimum olasılık tahmin ilkesini ve Bayes olasılığını tartışıyor. Maksimum olabilirlik tahmini ilkesi, gözlenen veri noktalarının bağımsız olduğu ve bu noktaların olasılıklarının olasılık oranını maksimize ettiği varsayımına dayanır. Öte yandan Bayes olasılığı, kişinin önceki bilgilere ve gözlemlenen verilere dayalı olarak inançlarını güncellemesini içerir. Bayes olasılığı, makine öğreniminde iyi çalışan inanç dağılımını ifade etmek için sıklık yanlıları ve Bayesçiler olmak üzere iki taraf arasında bir uzlaşma kullanır.

  • 00:40:00 Bu bölümde, konuşmacı olasılık dağılımları kavramını ve bunların tek bir sonucu olan bir ağaç olmadan nasıl simüle edileceğini tartışıyor. Önek içermeyen bir kodun veya önek ağacının kullanımı, çok çeşitli olasılık dağılımları oluşturmak için bir araç olarak sunulur. Konuşmacı, bu yaklaşımın iletişim ve çeşitli senaryolarda belirli sonuçların olasılığını bulmak için kullanılabileceğini açıklıyor. 3 kenarlı bir zarı simüle etmek ve düzgün bir dağılım elde etmek için madeni para kullanma örneği de verilmiştir.

  • 00:45:00 Bu bölümde, konuşmacı öneksiz bir kod algoritması kullanılarak tanımlanabilecek bir olasılık dağılımları ailesini tartışıyor. Naive Bayes olarak bilinen bu algoritma, veriler için etkilidir ve açıklama yöntemleri ile olasılık dağılımı arasında iyi bir bağlantı sağlar. Bu algoritmanın ana kullanımı, rastgele bir değişkendeki belirsizliğin ölçüsü olan entropiyi açıklamaktır. Konuşmacı, bu algoritmanın belirli bir olasılık dağılımından verileri kodlamak ve verilen verilere iyi uyan bir olasılık dağılımı elde etmek için nasıl kullanılabileceğini açıklar.

  • 00:50:00 Bu bölümde konuşmacı, verilerin tekdüzeliğinin ölçüleri olarak entropi ve çapraz entropi kaybını tartışıyor. Entropi, farklı öğeler arasındaki verilerin tekdüzeliğini temsil etmek için kullanılabilir, daha küçük bir entropi daha tekdüze verileri gösterir. Çapraz entropi, farklı bir kod kullanıldığında beklenen kod uzunluğunu temsil etmek için kullanılır ve her zaman entropiye eşit veya ondan büyüktür ve minimum değeri sıfırdır. Bu ölçümler, iki olasılık dağılımı arasındaki mesafeyi anlamaya yardımcı olur ve veri setlerini bir rastgele değişken dizisi olarak analiz etmek için teorik bir temel sağlar.

  • 00:55:00 Bu bölümde, konuşmacı ikili sınıflandırma için ayrımcı ve üretici sınıflandırıcı kavramlarını açıklar. Ayrımcı sınıflandırma, örnekleri basitçe ayırt ederken, üretken sınıflandırma, bir sınıfa verilen verilerin olasılığını modeller. Üretken sınıflandırıcılar, Bayes optimal sınıflandırıcısından koşullu bağımsızlık varsayımı yapan ve doğru olmadığı kabul edilen ancak yine de çok iyi çalışan ve ucuz olan Naive Bayes sınıflandırıcısına kadar uzanır.

  • 01:00:00 Bu bölümde konuşmacı, çok değişkenli bir normal dağılım modeli kullanarak belirli bir sınıfa ait yeni bir noktanın olasılığının nasıl hesaplanacağını açıklıyor. Olasılık dağılımlarını tahmin ederek ve bunları doldurarak, her sınıfa en yüksek olasılığa göre olasılıklar atayabileceğimizi açıklıyorlar. Bununla birlikte, yüksek boyutluluk söz konusu olduğunda, modele tam olarak uyması için yeterli veri olmayabilir, bu durumda özellikleri Bernoulli dağılımı ile modellemek yerine kategorik bir dağılım kullanılabilir.

  • 01:05:00 Bu bölümde, bir sınıflandırıcı için olasılık dağılımının verimli bir şekilde uydurulmasını sağlayan özelliklerin koşullu bağımsızlığı kavramı açıklanmaktadır. Bununla birlikte, tek bir sıfır olasılık değeri, sınıflandırıcının doğruluğunu büyük ölçüde etkileyebilir ve bu, her bir özellik için en az bir gözlem olmasını sağlamak üzere sözde gözlemleri yumuşatarak veya ayarlayarak çözülebilir. Bu, olasılığın hiçbir zaman sıfır olmamasını ve sınıflandırıcı doğruluğunun olumsuz etkilenmemesini sağlar.

  • 01:10:00 Bu bölümde konuşmacı, olası her sınıf ve özellik için bir değere sahip en az bir örnek olduğundan emin olarak makine öğrenimi modellerinde çarpık sonuçlardan kaçınmanın yollarını tartışıyor. Üretken sınıflandırıcıları, büyük ve yüksek boyutlu veri kümeleriyle iyi çalışan, ancak sıfır örnekleri işlemek için Laplace yumuşatma gerektiren bağımsızlık varsayımlarına sahip olarak özetlerler. Konuşmacı, doğrusal sınıflandırıcılar için doğruluktan daha etkili bir kayıp fonksiyonu olarak entropi kaybı kavramını tanıtıyor.

  • 01:15:00 Bu bölümde konuşmacı, sınıflandırıcı modellere değer atamak yerine lojistik sigmoid fonksiyonu kullanılarak olasılıkların nasıl atanabileceğini açıklıyor. Doğrusal model halen kullanılmaktadır, ancak 0 ile 1 arasındaki aralığa sıkıştırılmıştır. Bu yöntem, olumlu ve olumsuz örneklerin daha doğru yorumlanmasını sağlar.

  • 01:20:00 Bu bölümde sunum yapan kişi, bir makine öğrenimi modelinin öngördüğü ile verilerin söylediği arasındaki farkı ölçmek için kullanılan çapraz entropi kaybı işlevini açıklıyor. Kayıp işlevi, mavi çizgileri yukarı itmek ve tüm çizgilerin negatif logaritmasını en aza indirerek sonuçta bu çizgilerin boyutunu en üst düzeye çıkarmak amacıyla tahminler ve veriler arasındaki çizgilerin boyutunu en üst düzeye çıkarmak için tasarlanmıştır.

  • 01:25:00 Bu bölümde, konuşmacı çapraz entropi kaybı fonksiyonunun küçük artıklardan daha büyük artıkları cezalandırarak nasıl çalıştığını tartışıyor. P'ye karşı M'nin işlevi ayrıca küçük çubukların, önceki modellerde kare almaya eşdeğer olan kayba çok katkıda bulunduğunu gösterir. Konuşmacı daha sonra logaritmanın türevini ve sabit çarpanın denkleme nasıl dahil edildiğini tartışır. Matematiği basitleştirmek için, sabit çarpan göz ardı edilebilir veya ikili logaritma, doğal logaritma cinsinden tanımlanabilir.

  • 01:30:00 Bu bölümde, konuşmacı çapraz entropi kaybını ve sigmoid fonksiyonunun onu basitleştirmede oynadığı rolü tartışıyor. Sigmoid fonksiyonunun simetrileri, kayıp fonksiyonunun çökmesine izin vererek sonuçta onu daha basit hale getirir. Lojistik sigmoid, lojistik regresyona uygulandığında, karar sınırından çok uzaktaki noktaları sorunsuz bir şekilde ele alabilir. Lojistik regresyon, belirsizlik bölgesinde çok sayıda iyi çözümle sonuçlanabilir.

  • 01:35:00 Bu bölümde öğretim görevlisi olasılık kavramını açıklar ve noktaları olasılık değerlerine göre mavi veya kırmızı olarak sınıflandırır. Ayrıca, bir sonraki dersin son kayıp fonksiyonu olarak SVM kaybını ele alacağını ima ediyor.
5 Probability 1: Entropy, (Naive) Bayes, Cross-entropy loss (MLVU2019)
5 Probability 1: Entropy, (Naive) Bayes, Cross-entropy loss (MLVU2019)
  • 2019.02.19
  • www.youtube.com
slides: https://mlvu.github.io/lectures/31.ProbabilisticModels1.annotated.pdfcourse materials: https://mlvu.github.ioApologies for the bad audio (and missing...
 

Ders 6 Doğrusal Modeller 2: Sinir Ağları, Geri Yayılım, SVM'ler ve Çekirdek yöntemleri (MLVU2019)



6 Doğrusal Modeller 2: Sinir Ağları, Geri Yayılım, SVM'ler ve Çekirdek yöntemleri (MLVU2019)

Videonun doğrusal modellerle ilgili bu ilk bölümü, doğrusal modellere doğrusal olmamayı tanıtmaya odaklanır ve özellik uzayını genişletmeye dayanan iki modeli araştırır: sinir ağları ve destek vektör makineleri (SVM'ler). Sinir ağları için konuşmacı, sigmoid veya softmax gibi aktivasyon fonksiyonlarını kullanarak regresyon ve sınıflandırma problemleri için bir ağın nasıl kurulacağını açıklar. Ders daha sonra sinir ağlarında kullanılan gradyanları hesaplamak için kullanılan bir yöntem olan geri yayılımı inceler. DVM'ler için konuşmacı, her sınıfın en yakın noktalarına marjı maksimize etme kavramını tanıtır ve bunun kısıtlı bir optimizasyon problemi olarak nasıl ifade edilebileceğini gösterir. Video, sinir ağları ve SVM'lerin ilkelerine net bir giriş sağlar ve öğrencilere kursun geri kalanı için bir başlangıç noktası olarak dersin ilk yarısına odaklanmalarını önerir.

Videonun ikinci kısmı, destek vektör makineleri (SVM'ler), yumuşak marjlı SVM'ler, çekirdek püf noktaları ve SVM'ler ile sinir ağları arasındaki farklar konularını kapsar. Yumuşak marjlı SVM'ler, sınıflandırma kısıtlamalarına uymayan noktalara bir ceza değerinin eklenmesine izin vererek, doğrusal olarak ayrılamayan verileri işlemenin bir yolu olarak sunulur. Çekirdek hilesi, modelin gücünü önemli ölçüde artırmak için özellik alanını genişleterek nokta çarpımının daha yüksek boyutlu bir alanda hesaplanmasına izin verir. DVM'ler ve sinir ağları arasındaki farklar açıklanmakta ve tam olarak anlaşılmasa bile daha gelişmiş sınıflandırma türlerini gerçekleştirebilme yeteneklerinden dolayı sinir ağlarına geçiş tartışılmaktadır.

  • 00:00:00 Bu bölümde konuşmacı, geçen hafta daha önce açıklanan, kullanılan özelliklerden türetilen fonksiyonlar olan ekstra özellikler ekleyerek doğrusal modelleri kullanarak doğrusal olmayan fonksiyonların nasıl öğrenileceğini tartışıyor. Konuşmacı daha sonra, özellik uzayını genişletmeye dayanan sinir ağları ve destek vektör makineleri olmak üzere iki modele odaklanır. Sinir ağları, öğrenilebilir bir öznitelik çıkarıcı gerektirirken, destek vektör makineleri, daha geniş bir özellik alanına ulaşmak için çekirdek hilesini kullanır. Ders, sinir ağlarında kullanılan gradyanları hesaplamak için özel bir yöntem olan geri yayılımı ve ayrıca destek vektör makinelerinde kullanılan menteşe kaybı fonksiyonunu açıklar. Konuşmacı, dersin geri kalanı için bir başlangıç noktası işlevi gördüğünden, doğrusal modelleri daha iyi anlamak için dersin ilk yarısına odaklanmayı önerir.

  • 00:05:00 Bu bölümde konuşmacı, araştırmacıların yapay zeka sistemleri geliştirmek için insan beyninden ilham almaya başladığı 50'lerin sonları ve 60'ların başlarına kadar giden sinir ağlarının tarihini tartışıyor. Doğrusal bir model olarak çalışan ve sınıflandırma için kullanılan, algılayıcı adı verilen bir nöronun basitleştirilmiş bir versiyonunu yarattılar. Bununla birlikte, beyinle ilgili ilginç olan şey, büyük bir grup nöronun birlikte çalışma şeklidir, bu nedenle araştırmacılar, bir ağ oluşturmak için bu algılayıcıları zincirlemeye başladılar.

  • 00:10:00 Lineer modellerle ilgili dersin bu bölümünde, konuşmacı normalde lineer olmayan fonksiyonları ve daha ilginç modelleri öğrenme gücüne sahip olmak için bir algılayıcı ağına lineer olmamayı nasıl tanıtacağını açıklıyor. Bunu yapmanın bir yolu, bir dizi sayı alan ve bunları 0 ila 1 aralığına sıkıştıran bir sigmoid işlevi kullanmaktır. Doğrusal olmayan aktivasyon işlevlerine sahip algılayıcıları bir ileri beslemeli ağda veya çok katmanlı algılayıcıda zincirleyerek, bir her satırın ayarlanması gereken bir ağ parametresini temsil ettiği bir regresyon veya sınıflandırma modeline dönüştürebilir. Bir öğrenme problemini çözmek için bu sayıları uyarlama işlemine geri yayılım denir ve bu derste daha sonra tartışılacaktır.

  • 00:15:00 "6 Linear Model 2: Neural Networks, Backpropagation, SVMs and Kernel Methods (MLVU2019)" başlıklı videonun bu bölümünde konuşmacı, regresyon ve sınıflandırma problemleri için sinir ağının nasıl kurulacağını anlatıyor. Regresyon için, bir gizli katmanı olan ve çıkış katmanında aktivasyon olmayan bir ağ kurulur ve ardından bir regresyon kayıp fonksiyonu uygulanır. İkili sınıflandırma için, çıkış katmanına bir sigmoid aktivasyon eklenir ve elde edilen olasılıklar, girdinin pozitif olma olasılığı olarak yorumlanabilir. Çok sınıflı sınıflandırma için, her sınıf için bir çıkış düğümü oluşturan ve olasılıkları bire tamamlayacak şekilde normalleştiren bir softmax aktivasyonu eklenir. Kayıp fonksiyonu, çapraz entropi kaybı en aza indirilene kadar ağın ağırlıklarını eğitmek için kullanılır.

  • 00:20:00 Bu bölümde konuşmacı, gradyan inişini kullanan sinir ağlarının temel prensibini tartışıyor. Bununla birlikte, tüm veri kümesindeki kaybı hesaplamak pahalı olabileceğinden, veri kümesindeki yalnızca bir örneğin kaybı hesaplamak için kullanıldığı ve modeli bu tek örnek için optimize ettiği stokastik gradyan iniş kullanılır. Stokastik gradyan iniş, rastgelelik ekler ve yerel minimumlardan kaçmaya yardımcı olarak biraz rastgelelik yaratır. Konuşmacı daha sonra olasılıksal sınıflandırmanın gösterildiği, sınıflandırma için dikkat çiçeği oyun alanına gizli bir katman ekler. Bununla birlikte, model bu özel problemde iyi performans göstermiyor gibi görünüyor.

  • 00:25:00 Videonun bu bölümünde, konuşmacı sigmoid ve ReLU aktivasyon fonksiyonlarını karşılaştırarak lineer modeller için aktivasyon fonksiyonlarını tartışıyor. ReLU işlevi verileri daha hızlı sığdırır ve karar sınırı parçalı doğrusaldır, sigmoid ise kıvrımlı bir karar sınırı oluşturur. Konuşmacı, modeli daha güçlü hale getirmek için ek katmanlarla denemeler yapılmasını öneriyor, ancak eklenen karmaşıklık onu eğitmeyi daha da zorlaştırıyor. Ardından video, bilgisayarların gradyanları üstel maliyet olmadan sembolik farklılaştırmayı kullanarak verimli bir şekilde hesaplamasına olanak tanıyan geri yayılımı araştırır. Konuşmacı, temel fikrin, işlevi modüllerin bir bileşimi olarak tanımlamak ve zincir kuralını tekrar tekrar uygulamak olduğunu açıklar.

  • 00:30:00 Bu bölümde, geri yayılım algoritması, her bir alt modülün gradyanlarını çarparak belirli bir girdi için genel gradyanı hesaplamak amacıyla herhangi bir modeli alıp bir modüller zincirine ayırma yöntemi olarak açıklanmaktadır. birlikte. Bu süreç, her bir modülün girişine göre türevini sembolik olarak kalem ve kağıt kullanarak çalışmakla başlar, ardından sayısal hesaplamaya geçer. Yerel türevleri kullanarak ve global türevi türetmek için zincir kuralını tekrar tekrar uygulayarak bir işlevi bir modül dizisi olarak oluşturma fikrini göstermek için basit bir örnek verilmiştir. Ortaya çıkan faktörler sırasıyla global ve yerel türevler olarak adlandırılır.

  • 00:35:00 Bu bölümde video, sistemi modüllere ayırarak ve sigmoid aktivasyonlu iki katmanlı bir sinir ağına uygulayarak geri yayılımı tartışıyor. Odak noktası, girdiye değil, ağırlıklara göre kayıp fonksiyonunun türevini bulmaktır. İlk modül kayıp fonksiyonudur, ardından doğrusal aktivasyon fonksiyonu olan Y gelir. Her gizli değer, kendi aktivasyon işlevine sahip bir modül alır, bu durumda kendisine uygulanan bir sigmoid işlevidir. H2 prime, aktivasyon fonksiyonunun lineer girişidir. Son olarak video, modelin girdisine göre türevi ile ağırlıklara göre kayıp fonksiyonunun türevi arasındaki farkı tanımanın önemli olduğunu belirtir.

  • 00:40:00 Bu bölümde, konuşmacı her modülün yerel gradyanlarını, özellikle V2 ve Y bölü V2'ye göre kaybın türevini tartışıyor. L bölü Y'nin türevi, zincir kuralı kullanılarak basitleştirilir ve 2 çarpı Y eksi T ile sonuçlanır, bu sadece norm kare hatasıdır. Y bölü V2 doğrusal bir fonksiyondur ve türevi basitçe H2'dir. z2 parametresine gradyan inişini uygularken, H2'nin etkinleştirilmesiyle ilgili hata sürelerini çıkararak güncellenir. Konuşmacı, en üstte Başbakan, ikinci katmanda bakanlar ve ilk katmanda memurların bulunduğu bir hükümet olarak bir sinir ağı analojisi sunuyor. Bakanların memurları dinlemesi ve bazı kararlar için daha yüksek sesle bağırması olumlu güven olarak yorumlanırken, susmak olumsuz güven anlamına gelmektedir. Başbakan, hataya göre güven düzeylerini ayarlar ve güncellemeler için bunu ağda geri yayar.

  • 00:45:00 Bu bölümde konuşmacı, modelin çıktısındaki hata için tüm ağırlıklara sorumluluk atayarak geri yayılımın nasıl çalıştığını açıklar. Küresel hatanın hesaplandığını ve soruna katkıda bulunan bakanlara duyulan güven düzeyiyle çarpıldığını göstermek için yapmacık bir analoji kullanıyor. Ardından konuşmacı, güven düzeyi güncellenirken aktivasyon işlevinin nasıl hesaba katılması gerektiğini gösterir. Geri yayılım, esas olarak, modelin ağırlıklarını güncellemek için hatayı ağda geriye doğru yayar. Konuşmacı, sinir ağlarının doğrusal ve doğrusal olmayan fonksiyonların bir kombinasyonu olduğunu ve en basit versiyonun ileri beslemeli bir ağ olduğunu özetliyor.

  • 00:50:00 Bu bölümde video, sinir ağlarının geçmişini ve zorluklarını ve eğitimdeki zorlukları ve parametrelerini değiştirmenin getirdiği belirsizlik nedeniyle bunlara olan ilginin nasıl azaldığını tartışıyor. Modelin çalışıp çalışmadığına dair anında geri bildirime izin veren dışbükey bir kayıp yüzeyine sahip destek vektör makineleri, eğitimlerinde belirsizlik olmaması nedeniyle daha popüler hale geldi. Video daha sonra, benzer veriler üzerinde farklı performans gösteren birden çok model sorununa çözüm olarak, en yakın noktalara olan marjı maksimize etme ve bunları destek vektörleri olarak adlandırma kavramını kullanarak destek vektör makinelerini tanıtıyor.

  • 00:55:00 Bu bölümde, bir ikili sınıflandırma problemi için bir karar sınırı bulma yöntemi olarak destek vektör makineleri (SVM'ler) kavramı tanıtılmaktadır. DVM algoritması, marjı veya karar sınırı ile her sınıfın en yakın noktaları arasındaki mesafeyi maksimize eden bir çizgi bulmayı amaçlar. DVM'nin amacı, modelin çıktısının pozitif destek vektörleri için +1 ve negatif destek vektörleri için -1 olmasını sağlayan kısıtlamaları karşılarken marjı maksimize etmek olan kısıtlı bir optimizasyon problemi olarak ifade edilebilir. DVM, bir noktanın pozitif mi yoksa negatif mi olduğunu kodlayan bir etiket parametresi getirilerek daha da basitleştirilebilir ve iki hedefin tamamen hiperdüzlem parametreleri cinsinden yazılabilen tek bir hedefe indirgenmesine olanak tanır.

  • 01:00:00 Bu bölümde, konuşmacı destek vektör makinelerinde (SVM'ler) karar sınırları arasındaki marjı maksimize etme kavramını tartışıyor. Kenar boşluğunun boyutu, modelin parametreleri tarafından belirlenebilen bir vektörün uzunluğuna bağlıdır. Amaç, belirli kısıtlamaları karşılamaya devam ederken bu marjı en üst düzeye çıkarmaktır. Bununla birlikte, veriler doğrusal olarak ayrılamazsa, modelin daha iyi bir uyum bulmak için belirli kısıtlamaları ihlal etmesine izin veren bir gevşeklik parametresi eklenerek modelin gevşetilmesi gerekir. Her veri noktasının, sıfıra veya pozitif bir değere ayarlanabilen kendi bolluk parametresi vardır.

  • 01:05:00 Bu bölümde öğretim görevlisi, doğrusal olarak ayrılamayan veri kümelerinin sınıflandırma kısıtlamalarına uymayan noktalara bir ceza değeri ekleyerek ele alınmasına izin veren yumuşak marjlı DVM'ler kavramını tartışır. Bu ceza, gradyan iniş yöntemi kullanılarak en aza indirilebilen bir kayıp fonksiyonu aracılığıyla ifade edilir. Öğretim üyesi ayrıca, kısıtlı optimizasyon probleminin çözülmesini sağlayan çekirdek numarasına alternatif olarak kayıp fonksiyonunu destek vektörleri cinsinden yeniden yazma seçeneğini sunar. Menteşe kaybı fonksiyonu, bu ceza sistemini uygulamanın bir yolu olarak sunulmuştur.

  • 01:10:00 Bu bölümde eğitmen, makine öğrenimindeki doğruluk, en küçük kareler, çapraz entropi kaybı ve yumuşak kenar boşluğu SVM kaybı gibi farklı kayıp fonksiyonlarını tartışır. Yumuşak marj SVM, bir karar sınırı ile cezalı en yakın noktalar arasındaki marjı maksimize ederek çalışır. Bununla birlikte, bu optimizasyon işlevinin kısıtlamaları ve bir eyer noktası olduğundan, gradyan inişiyle etkili bir şekilde çözülemez. Eğitmen, kısıtlı optimizasyon problemini kısıtlamalardan kurtulmadan çok daha basit bir forma yeniden yazmaya yardımcı olan LaGrange çarpanları yöntemini tanıtır. Eğitmen, bu yöntemi kullanarak, yumuşak marj SVM optimizasyon fonksiyonunun nasıl yeniden yazılabileceğini gösterir, bu da çekirdek numarasının uygulanmasına izin verir.

  • 01:15:00 Bu bölümde konuşmacı, destek vektör makinelerini (SVM'ler) ve bir veri kümesindeki nokta çiftlerinin nokta çarpımlarını diğer nokta çarpımlarıyla değiştirmenin bir yolu olan çekirdek hilesini tartışıyor. DVM'ler, alfaların boyutunu cezalandırarak, hangi noktaların destek vektörleri olduğunu belirterek ve veri kümesindeki tüm nokta çiftlerini toplayarak çalışır. Çekirdek hilesi, iç çarpımın daha yüksek boyutlu bir alanda hesaplanmasına izin vererek, lineer bir modeli hesaplamaya benzer bir maliyetle çok daha güçlü bir modele yol açar. Özelliklerin, özellik alanını büyük ölçüde artıran ve çok daha güçlü modellere izin veren tüm çapraz ürünler eklenerek genişletildiği bir örnek verilmiştir.

  • 01:20:00 Bu bölümde, sınıflandırma için yüksek boyutlu özellik uzayları elde etmek için çekirdek fonksiyonlarını kullanma kavramı tartışılmaktadır. Nokta çarpımı kullanarak ve onu daha yüksek güçlere genişleterek, özellik alanı, düşük bir maliyet korunurken, çapraz çarpımları ve sonsuz boyutlu özellik alanlarını içerecek şekilde genişletilebilir. Ancak bu yöntem, fazla uydurmaya eğilimlidir ve uygulanması karmaşık olabilir. Çekirdek işlevlerinin kullanımı, metin veya protein dizileri gibi sayısal olmayan verilere de genişletilebilir; burada, doğrudan özellik çıkarımı kolay değildir. Çekirdek işlevleri şu anda moda olmayabilir, ancak yine de bazı durumlarda yararlı olabilir.

  • 01:25:00 Bu bölümde, destek vektör makineleri (SVM'ler) ile sinir ağları arasındaki farklar ele alınmaktadır. DVM'ler, eğitim sürelerinin ikinci dereceden olması nedeniyle sınırlıdır, oysa sinir ağları, veriler üzerinde yalnızca belirli sayıda geçiş gerektirir. Bununla birlikte, DVM'ler yine de gradyan inişiyle eğitilebilir, ancak bu yöntem çekirdek hilesini gözden kaçırır. 2005 civarında, SVM'lerin eğitimi, içerdiği veri miktarı nedeniyle giderek zorlaştı ve sinir ağlarının yeniden canlanmasına yol açtı. Ayrıca, makine öğrenimindeki kültür, başarılarının ardındaki mantık henüz tam olarak anlaşılmasa bile sinir ağlarının çalıştığını kabul etmeye doğru kaydı. Nihayetinde, bu değişiklik, sonraki bölümde tartışılacak olan daha gelişmiş sınıflandırma türlerini gerçekleştirmek için sinir ağı modellerinin kullanılmasına izin verdi.
6 Linear Models 2: Neural Networks, Backpropagation, SVMs and Kernel methods (MLVU2019)
6 Linear Models 2: Neural Networks, Backpropagation, SVMs and Kernel methods (MLVU2019)
  • 2019.02.27
  • www.youtube.com
NB: There is a mistake in slide 59. It should be max(0, 1 - y^i(w^T\x + b) ) (one minus the error instead of the other way around).slides: https://mlvu.githu...
 

Derin öğrenme 1: Tensörler için geri yayılım, Konvolüsyonel Sinir Ağları (MLVU2019)



7 Derin öğrenme 1: Tensörler için geri yayılım, Konvolüsyonel Sinir Ağları (MLVU2019)

Videonun derin öğrenme ve geri yayılımla ilgili bu ilk bölümü, derin öğrenme çerçevesinin temelleri, tensörler, geri yayılım algoritması ve yok olan gradyan problemi dahil olmak üzere çeşitli konuları kapsar. Konuşmacı, sinir ağlarının bir dizi lineer cebir işlemi kullanılarak nasıl uygulanabileceğini ve geri yayılım algoritmasının, fonksiyonların bir bileşimi olarak bir modeli tanımlamak için nasıl kullanılabileceğini açıklar. Video ayrıca, matris işlemlerini kullanarak türevlerin nasıl hesaplanacağını da kapsar ve ağırlık başlatma ve ReLU'nun bir aktivasyon işlevi olarak kullanılması gibi, yok olan gradyan probleminin çözümlerini araştırır. Son olarak video, karmaşık bir sinir ağında kullanılabilen mini toplu gradyan inişine ve çeşitli optimize edicilere değiniyor.

Bu ikinci bölüm, optimizasyon algoritmaları ve düzenlileştirme teknikleri dahil olmak üzere derin öğrenmeyle ilgili bir dizi konuyu kapsar. Adam optimizasyonu, derin öğrenme için popüler bir algoritma olarak açıklanırken, L1 ve L2 düzenlemesi, fazla uydurmayı önleme yöntemleri olarak araştırılır. Sinir ağlarının görüntü işlemedeki potansiyeli de tartışılmakta ve evrişimli sinir ağları, görüntü tanıma görevleri için güçlü bir araç olarak vurgulanmaktadır. Video ayrıca, bu ağların işleyişini ve karmaşık görüntüleri tanımak için özellikleri nasıl oluşturduklarını ve birden fazla modülü zincirleme sınırlamalarının üstesinden gelmenin bir yolu olarak uçtan uca öğrenme kavramını da ele alıyor.

  • 00:00:00 Videonun derin öğrenmeyle ilgili bu bölümünde, konuşmacı önceki oturumda tartışılan sinir ağları ve bunların katmanlar halinde nasıl düzenlendiği gibi kavramları gözden geçirerek başlıyor. Daha sonra, sinir ağlarının, sigmoid işlevi gibi ara sıra doğrusal olmayan işlevlerle birlikte, esasen yalnızca bir dizi doğrusal cebir adımı olduğunu tartışırlar. Bu önemlidir çünkü bir sinir ağı uygulama sürecini basitleştirir ve daha verimli eğitim sağlar. Konuşmacı ayrıca, sinir ağlarının eğitilmesi zor olduğu için bir süre gözden düştüğünü, ancak bir sonraki bölümde, geriye yayılımın bu zorluğun üstesinden gelmeye nasıl yardımcı olduğuna bakacaklarını belirtiyor.

  • 00:05:00 Bu bölümde video, tensör matris hesabının anlaşılmasını ve geri yayılım algoritmasının yeniden gözden geçirilmesini gerektiren bir derin öğrenme sistemi veya çerçevesinin temellerini özetlemektedir. Konuşmacı, derin öğrenmeyle ilişkili sinir ağı bagajına rağmen, bunun sadece bir doğrusal cebir işlemleri dizisi olduğu için o kadar da özel olmadığını vurguluyor. Sinir ağları için genel bir çerçeve geliştirmenin ilk adımı, operasyonları etkili bir şekilde eğitmeyi kolaylaştıracak şekilde verimli ve basit bir şekilde tanımlamaktır. Ayrıca grafik işlem birimleri veya ekran kartları kullanılarak matris çarpımındaki etkinlikleri sayesinde yaklaşık 20 kat hızlanmaktadır. Son olarak video, evrişim katmanları, otomatik kodlayıcılar ve derin öğrenmenin felsefi yönleri üzerine bir tartışmayı içeren ders dizisinde ele alınacak diğer konuların ana hatlarını çiziyor.

  • 00:10:00 Bu bölümde konuşmacı, derin öğrenmede kullanılabilecek bir grup sayıyı depolamak için kullanılan bir veri yapısı olan tensörleri tartışıyor. Tensörler, veri kümelerini depolamak için kullanılır ve genellikle kayan noktalı sayılar içeren tüm öğeler için aynı veri türüne sahip olmalıdır. Konuşmacı, bir görüntünün, her bir renk kanalı için bir tane olmak üzere üç gri tonlamalı görüntüden oluşan bir yığın olan üç tensörde nasıl saklanacağını ve görüntüler üzerinde yinelenen başka bir dizin ekleyerek dört tensörde bir görüntü veri kümesinin nasıl depolanacağını açıklar. veri seti. Son olarak, konuşmacı, derin öğrenmedeki işlevlerin veya işlemlerin tıpkı programlama dilindeki gibi olduğunu, ancak giriş ve çıkış olarak tensörler olduğunu ve yerel gradyanı hesaplayan geriye dönük hesaplamanın da ileri hesaplama ile birlikte uygulandığını açıklar.

  • 00:15:00 Bu bölümde video, geri yayılım algoritmasını ve bunun, işlevlerin bir bileşimi olarak bir sinir ağı modelini tanımlamak için nasıl kullanılabileceğini tartışıyor. Tüm ağ üzerindeki gradyan, her fonksiyonun tüm yerel gradyanlarının ürünü olarak hesaplanır ve geri yayılım, tüm hesaplama grafiği boyunca kaybı yaymak için kullanılır. Video, hesaplama grafiğini tanımlamanın iki yolu olduğunu açıklıyor - tembel ve istekli yürütme - ve tembel yürütme basit olsa da hata ayıklama veya araştırma için ideal değil. İstekli yürütme, kullanıcının hesaplamalar yaparak hesaplama grafiğini tanımlamasına izin verdiği ve eğitim sırasında modelde hata ayıklamayı ve değiştirmeyi kolaylaştırdığından, şu anda PyTorch ve TensorFlow gibi çerçevelerde varsayılandır.

  • 00:20:00 Bu bölümde, konuşmacı hesaplama grafiğini ve bunun skaler değişkenler kullanılarak nasıl oluşturulduğunu tartışır. Daha sonra, bir hesaplama grafiği kullanılarak bir çerçeve içinde bir sinir ağının nasıl uygulanabileceğine dair bir örnek sunuyor. Kayıp değeri sinir ağı üzerinden hesaplanır ve ağın parametreleri üzerinden gradyanı elde etmek için kayıp değerinden geriye yayılım süreci başlatılır. Gradyan elde edildikten sonra, degradenin küçük bir kısmını değerden çıkararak bir kademeli gradyan iniş işlemi gerçekleştirilebilir.

  • 00:25:00 Bu bölümde, konuşmacı derin öğrenme sistemleri için geri yayılımın iki önemli yönünü tartışıyor: çoklu hesaplama yollarını kullanma ve tensörlerle çalışma. Konuşmacı, birden çok yolun aynı değere götürdüğü bir hesaplama grafiğinde elmasları işlemek için çok değişkenli zincir kuralını tanıtıyor. Ayrıca konuşmacı, tüm ara değerlerin skaler değerler yerine tensörler olduğu geri yayılımda tensörlerle çalışmanın önemini açıklıyor. Amaç, türevleri matris işlemleri açısından çözmek ve daha hızlı hesaplamaya olanak sağlamaktır. Konuşmacı, girdisi bir vektör olan bir skaler çıktı veren bir fonksiyonun basit bir örneğini kullanarak, bir vektörün bir matrise göre türevinin nasıl alınacağını gösterir ve nokta çarpıma bakarak fonksiyonu olabildiğince basit hale getirir.

  • 00:30:00 Bu bölümde, konuşmacı bir vektör ve matris örnekleri kullanarak tensörlerin türevlerinin nasıl hesaplanacağını açıklar. İlk örnek, bir skalerin bir vektöre göre türevinin sadece bir sayı vektörü olduğunu, yani gradyanı gösterir. İkinci örnek, bir vektörün bir matrise göre türevinin sadece bir matris olduğunu gösterir. Konuşmacı, tüm olası değerleri almanın ve bunları bir matris halinde düzenlemenin, orijinal P matrisiyle sonuçlandığını vurgular.

  • 00:35:00 Bu bölümde, konuşmacı bir fonksiyonun türevini almanın bize vektör girişleri ve çıkışları için olası skaler türevlerin bir matrisini ve daha yüksek dereceli girişler/çıkışlar için türevlerin tensörünü nasıl verdiğini açıklıyor. Ancak, bu ara değerleri hesaplamak, özellikle bir vektör/matris kombinasyonu söz konusu olduğunda zor ve karmaşık olabilir. Bu işlemi basitleştirmek için, bu ara değerlerle uğraşmak yerine her bir türevi soldan sağa sırayla hesaplayarak çarpımı biriktirebiliriz. Konuşmacı, bir fonksiyonun geriye doğru uygulanmasının, bir girdi olarak çıktısına göre kaybın türevini nasıl aldığını açıklar.

  • 00:40:00 Bu bölümde konuşmacı, ara çarpımları çıkararak matris hesaplamaları açısından bir değerin nasıl hesaplanacağını açıklar. Türevi tüm girdiler üzerinden tüm girdilere göre hesaplamalı ve hesaplama yolunun geçmesini söylediği ve sonuçları özetleyen çok değişkenli zincir kuralını kullanmalıdırlar. K bir tensör veya yüksek seviyeli bir tensör olsa bile, her bir öğeyi türetmeleri ve bu şekilde hesaplamak için verimsiz olabilecek toplamı toplamaları gerekir, dolayısıyla matris çarpımının öğelerini i'inci satırın iç çarpımına çıkarırlar. W-kez-X'in X ile W'nin X ile I. satırının nokta çarpımı. Sonunda, her ileri ve geri geçişin sonunda, kayıp fonksiyonunun sonucunu en aza indirerek her bir izleme dizisini verilen hedef değişkenle eşleştirmek için optimize ederler. .

  • 00:45:00 Videonun derin öğrenme ve geri yayılımla ilgili bu bölümünde, konuşmacı çok değişkenli zincir kuralı ve matris işlemlerini kullanarak türevlerin nasıl hesaplanacağını tartışıyor. W ağırlık matrisinin her elemanı için türevler hesaplanabilir ve W için yerel gradyan, iki vektörün dış çarpımı kullanılarak türetilir. Diğer girdiler için de aynı süreç izlenebilir. Doğrusal katmanın ileri hesaplaması, WX + B kullanılarak hesaplanır ve geriye doğru hesaplama, matris çarpımı kullanılarak W, X ve B'ye göre kayıp gradyanlarının hesaplanmasıyla elde edilebilir. Ancak konuşmacı, çoğu derin öğrenme sisteminin geriye dönük işlevi zaten uyguladığını, bu nedenle kullanıcıların bunu kendilerinin hesaplamasına gerek olmadığını belirtiyor.

  • 00:50:00 Bu bölümde konuşmacı, kaybolan gradyan probleminin 90'larda derin öğrenme için en büyük gerileme olduğunu açıklıyor. Ağırlıkların çok büyük veya küçük olmaması gerektiğinden, aksi takdirde aktivasyon fonksiyonları etkili bir şekilde çalışmayacak ve çıktıların her zaman sıfır olmasına neden olacağından, ağırlık başlatmalarla ilgili sorunu incelerler. Çözüm, ağın ağırlıklarını rasgele ortogonal değerler kullanarak veya iki pozitif değer arasındaki tekdüze dağılımdan örnekler kullanarak, özdeğerlerin bir olmasını sağlayarak başlatmaktır. Bu, çıktının ortalamasının ve varyansının aynı kalmasını garanti eder ve bu nedenle ağın etkili bir şekilde öğrenebilmesini sağlar.

  • 00:55:00 Bu bölümde video, gradyanların giderek küçüldüğü ve ağın öğrenmediği kaybolan gradyan sorunu gibi derin öğrenme ağları için sigmoid işlevleri kullanıldığında ortaya çıkan sorunları tartışıyor. Bunun yerine video, sıfırdan büyük girişler arasında 1 kimlik işlevine ve aksi halde sıfır türevi olan, böylece gradyanın bozulmaması için ReLU'nun daha basit bir aktivasyon işlevi olarak kullanılmasını önerir. Video ayrıca, rastgelelik ve paralel işlemeye izin vererek, küçük bir partiye göre kaybı hesaplayan normal ve stokastik gradyan inişinin ara versiyonu olarak mini parti gradyan inişini tanıtıyor. Ancak video, GPU belleğini kullanan ve daha hızlı çalışan daha büyük parti boyutları ile en iyi sonuçları üretmek için daha etkili olan daha küçük partiler arasında bir denge olduğu konusunda uyarıda bulunuyor. Son olarak, video, gradyan iniş kavramını kullanan, ancak karmaşık bir sinir ağında ortaya çıkabilecek farklı gradyanları hesaba katmak için biraz ayar yapan çeşitli optimize edicilere değiniyor.

  • 01:00:00 Bu bölümde, eğitmen çok küçük yerel minimumlarla başa çıkmak ve pürüzlü kayıp yüzeylerini yumuşatmak için üç yöntemi ele alıyor: momentum, Nesterov momentumu ve Adam. Momentumun arkasındaki temel sezgi, gradyanları yerçekimine benzer bir kuvvet olarak ele almak ve modeli bir tepeden aşağı yuvarlanan bir kaya olarak ele alarak kayıp yüzeyinin navigasyonunu yapmaktır. Nesterov momentumu ile, önce momentum adımı uygulanabilecek ve ardından gradyan hesaplanabilecek şekilde küçük bir içgörü eklenir. Adam bu fikri, bir modeldeki her parametrenin kendi kayıp yüzeyine ve belirli bir yönde ne kadar agresif hareket etmesi gerektiğine ilişkin tercihlere sahip olduğu fikriyle birleştirir, bu nedenle model uzayındaki boyut başına ortalama bir gradyan tahmin edilir ve güncellemeler buna göre ölçeklenir. Hem gradyan hem de varyans için üstel bir hareketli ortalama alınır, bu da önceki gradyandan ortalamaya eklenen bir tür etkiye izin verir.

  • 01:05:00 Bu bölümde video, derin öğrenmedeki optimize edicileri ve düzenleyicileri tartışıyor. Adam, derin öğrenmede iyi çalışan gradyan inişine hafif bir uyarlama olan bir optimizasyon algoritması olarak açıklanıyor. Birden çok hiper parametresi vardır ve varsayılan ayarlar iyi çalışır. Düzenleyiciler daha sonra verileri ezberlemek için çok fazla alana sahip büyük modellerde aşırı uydurmayı önleme tekniği olarak tartışılır. L2 düzenlemesi, kayba ağırlık tensör vektörünün uzunluğu ile çarpılan bir hiperparametrenin eklenmesini içerir, bu da sistemi daha küçük ağırlıklara sahip modelleri tercih etmeye teşvik eder. L1 düzenlemesi de bu fikri izler, ancak mesafeyi tensör vektörünün L1 normunu kullanarak hesaplar ve kayıp yüzey köşelerini verir. L1 düzenleyici, sistemin çıkış üzerinde sıfır etkisi olan bağlantıları kaldırabileceği seyrek çözümleri tercih eder.

  • 01:10:00 Bu bölümde konuşmacı, modellerin aşırı uyumunu önlemek için kullanılan teknik olan derin öğrenmede düzenlileştirme kavramını açıklıyor. Düzenleme, modelin görünmeyen verilere iyi bir şekilde genelleştirilmesini sağlamaya yardımcı olur. L1 ve L2, derin öğrenmede kullanılan iki popüler düzenleme türüdür. L2 düzenlemesi, modelleri başlangıç noktasına doğru çeker ve ağırlıkların çok büyük olmasını engellerken, L1 düzenlemesi kenarlar boyunca bir oluk oluşturur. Eğitim sırasında gizli düğümlerin rastgele devre dışı bırakılmasını ve her düğümün birden fazla bilgi kaynağını dikkate almaya zorlanmasını içeren bırakma da tartışılmaktadır. Son olarak konuşmacı, görüntüleri tüketen ve metin üreten tek bir sinir ağı da dahil olmak üzere derin öğrenmenin başarılarını vurgular.

  • 01:15:00 Bu bölümde video, sinir ağlarını kullanan çeşitli görüntü işleme tekniklerini tartışıyor. İlginç bir teknik, bir sinir ağının belirli bir resmin stilini kullanarak bir fotoğrafı dönüştürebildiği stil aktarımıdır. Görüntüden görüntüye çeviri, bir ağın doygunluğu giderilmiş veya kenar algılamalı görüntülerle eğitime dayalı olarak görüntünün eksik parçalarını oluşturmayı öğrendiği başka bir tekniktir. Evrişimli katmanlar, ağırlıkları paylaşarak ve özellikle görüntüleri işlemek için önemli olan parametre alanını azaltarak ağı daha verimli hale getirmeye yardımcı olur. Genel olarak video, sinir ağlarının görüntü işlemedeki inanılmaz potansiyelini vurguluyor, ancak en iyi sonuçları elde etmek için alan bilgisine dayalı mimariyi dikkatli bir şekilde tasarlamanın önemini vurguluyor.

  • 01:20:00 Bu bölümde konuşmacı, görüntü tanıma ve sınıflandırma görevleri için yaygın olarak kullanılan bir tür ileri beslemeli yapay sinir ağı olan evrişimli sinir ağlarının nasıl çalıştığını açıklıyor. Bu ağların arkasındaki ana fikir, paylaşılan ağırlıkları kullanarak parametre sayısını sınırlamak ve maksimum havuzlama katmanı kullanarak görüntünün çözünürlüğünü azaltmaktır. Giriş görüntüsünü filtrelemek ve değiştirilmiş kanallarla çıktı görüntüsünü oluşturmak için çekirdek adı verilen kayan bir pencere kullanan bir veya daha fazla evrişim katmanı tarafından takip edilen bir dizi tam bağlantılı katmandan oluşurlar. Bu evrişim ve maksimum havuzlama katmanlarını birbirine zincirleyerek ve bazı tam bağlantılı katmanlar ekleyerek, oldukça doğru sonuçlar veren temel bir görüntü sınıflandırma ağı oluşturulabilir.

  • 01:25:00 Bu bölümde, konuşmacı, ne tür bir girdinin yüksek yanıtı tetiklediğini görmek için ağın üst kısmındaki düğümlere bakarak bir evrişimli sinir ağının gerçekte ne yaptığını görselleştirmeyi tartışıyor. Ağın ilk katmanı çoğunlukla kenar algılamaya yanıt verirken, sonraki katman ayrı ayrı kenarları özellikler halinde birleştirir. Bu süreç, kademeli olarak temsiller oluşturarak ve tüm yüzlerle sona ererek devam eder. Sinir ağının nasıl çalıştığını daha fazla keşfetmek için konuşmacı, girişi optimize ederek belirli bir nöronun etkinleşmesine neden olarak soyut sanat benzeri görüntüler elde edilmesini açıklıyor. Konuşmacı, bu görüntüleri inceleyerek, nöronun kuş benzeri özellikler veya köpekler gibi hangi özelliklere yanıt verdiğini belirleyebilir. Son olarak, konuşmacı, geleneksel makine öğrenimi ile derin öğrenme arasındaki en büyük farkın, bir ardışık düzenin gerekli olmadığı ve ağın örneğin gazeteleri analiz edebildiği ve herhangi bir ağ bağlantısı olmadan doğal dil işleme gerçekleştirebildiği uçtan uca öğrenme fikri olduğunu açıklıyor. çok aşamalı süreç.

  • 01:30:00 Bu bölümde, konuşmacı, makine öğrenimi görevleri gerçekleştirirken yüksek doğruluğa sahip birden çok modülü birbirine zincirlemenin sınırlamalarını açıklıyor. Her modülden gelen birikmiş hatalar, sonraki modüller için genel sistemin doğruluğunu önemli ölçüde azaltan gürültülü bir girdi oluşturabilir. Uçtan uca öğrenme daha sonra bu sorunla başa çıkmak için bir çözüm olarak sunulur. Eğitimi her modül için izole etmek yerine, tüm ardışık düzen, bir gradyan iniş yöntemi kullanılarak uçtan uca ham verilerden öğrenmek için bir bütün olarak eğitilir. Bu, yaklaşımı daha esnek hale getirir ve derin öğrenme sisteminin daha geniş bir sorun yelpazesini çözmesine olanak tanır.
7 Deep learning 1: Backpropagation for tensors, Convolutional Neural Networks (MLVU2019)
7 Deep learning 1: Backpropagation for tensors, Convolutional Neural Networks (MLVU2019)
  • 2019.02.27
  • www.youtube.com
slides: https://mlvu.github.io/lectures/41.DeepLearning1.annotated.pdfcourse materials: https://mlvu.github.ioThis lecture builds on the explanation of backp...
 

8 Olasılık 2: Maksimum Olabilirlik, Gauss Karışım Modelleri ve Beklenti Maksimizasyonu (MLVU2019)



8 Olasılık 2: Maksimum Olabilirlik, Gauss Karışım Modelleri ve Beklenti Maksimizasyonu (MLVU2019)

Videonun bu bölümü, maksimum olasılık tahmini, normal dağılımlar, Gauss Karışım Modelleri ve Beklenti Maksimizasyon Algoritması kullanılarak yoğunluk tahmini için olasılık modellerine odaklandı. Konuşmacı, Maksimum Olabilirlik ilkesini açıkladı ve en iyi olasılık modelini seçmedeki uygulamasını gösterdi. Normal dağılımları araştırdılar, olasılık ve olasılık yoğunluk fonksiyonları arasındaki farkı açıkladılar ve Gauss Karışımı modellerini tanıttılar. Konuşmacı ayrıca tek değişkenli ve çok değişkenli bir normal dağılımdan örnekleme yöntemini ve Gauss Karışım Modeli'nin bir popülasyon içindeki farklı kümeleri tanımlamaya nasıl yardımcı olduğunu tartıştı. Ek olarak, Gauss Karışım Modellerini veri kümelerine sığdırmak için Beklenti Maksimizasyon algoritması tanıtıldı. Konuşmacı ayrıca Q fonksiyonu yaklaşımı kullanılarak Beklenti Maksimizasyonu yaklaşımının nasıl resmileştirileceğini açıkladı ve bunun yerel bir optimuma yakınsadığını kanıtladı.

Bu video, Maksimum Olabilirlik, Gauss Karışım Modelleri ve Beklenti Maksimizasyonu (EM) konularını kapsar. Konuşmacı EM algoritmasını, kanıtını ve neden yakınsadığını açıklar. Ayrıca, Q'yu sabit tutarken teta'yı seçerek L'yi maksimize ettikleri M adımını tartışırlar. Bir Gauss karışım modelini verilere uydurmak, EM algoritmasının kullanılmasını gerektirir ve konuşmacı, kümeleme ve keşif analizi gibi uygulamalarını ve her sınıfa bir Gauss karışım modeli uydurarak sınıflandırma için nasıl kullanılabileceğini açıklar. Video ayrıca, olasılık modellerini karmaşık sinir ağlarına uydurma konusunda yaklaşan dersten de bahsediyor.

  • 00:00:00 Videonun bu bölümünde konuşmacı, olasılık dağılımlarını verilere uydurarak yoğunluk tahmini için olasılık modellerini kullanma kavramını tanıtıyor. Özellikle maksimum olabilirlik tahminine odaklanırlar ve bunu normal dağılıma veya Gaussian'a dayalı dört farklı modele uygularlar. Video ayrıca, bir madeni paranın büküldüğü ve diğerinin düz olduğu rastgele 12 madeni para çevirme dizisinde hangi madeni paranın kullanıldığını belirlemek için maksimum olasılık ilkesinin kullanımına ilişkin bir örnek sağlar. Daha sonra, güçlü ancak maksimum olasılığı kullanarak sığdırması zor bir model olan Gauss modeli karışımını tanıtırlar ve Gauss karışım modellerini uydurmanın bir yolu olarak beklenti maksimizasyon algoritmasına dalarlar.

  • 00:05:00 Bu bölümde makine öğrenmesi için model seçiminde kullanılan maksimum olabilirlik ilkesi anlatılmaktadır. Bu verileri verme olasılığı en yüksek olan modeli seçmek için gözlemlenen verilere bir model uydurmayı içerir. Olabilirliğin logaritması genellikle basitlik için alınır ve fonksiyonun en yüksek noktasına ulaştığı yerde değişmeyen monoton bir fonksiyondur. Parametre olarak ortalama ve varyans veya standart sapma ile normal dağılımlar da tanıtılır ve bunlar, regresyon ve çok değişkenli normal dağılımlar dahil olmak üzere çeşitli modellerde kullanılır. Gauss karışım modelleri ayrıca çoklu normal dağılımların bir kombinasyonu olarak tartışılmaktadır.

  • 00:10:00 Bu bölümde konuşmacı, farklı dağılım türlerini ve normal dağılımların sağladığı belirli bir ölçeğe sahip olmanın önemini tartışır. Konuşmacı, olasılık fonksiyonları ile olasılık yoğunluk fonksiyonları arasındaki farka da değinerek, bireysel olayların bir olasılık yoğunluğuna sahip olduğunu ve olasılığın bu yoğunluk üzerinden integral alınarak elde edildiğini vurgular. Konuşmacı daha sonra normal dağılım formülünü tanıtır ve bunun üstel olarak bozunarak belirli bir ölçeğe sahip olma temel gerekliliğini nasıl yerine getirdiğini gösterir. Formül, çürümeyi daha da hızlandıran bir kare terim eklenerek daha da geliştirildi.

  • 00:15:00 Videonun bu bölümünde sunum yapan kişi, yeniden ölçekleme ve temel bir işlev etrafında hareket etme yoluyla normal dağılımın bir olasılık yoğunluk işlevinin nasıl oluşturulacağını açıklıyor. Olasılık kütlesini en çok ihtiyaç duyulan yere koymak için bükülme noktalarının nasıl kullanılabileceğini ve ölçeğin boyutunun nasıl kontrol edileceğini ve ayrıca ortalamayı ayarlamak için işlevin nasıl hareket ettirileceğini gösterir. Son olarak, verilerden normal bir dağılım oluşturmak için parametrelerin maksimum olasılık tahminini tartışıyor.

  • 00:20:00 Bu bölümde, konuşmacı maksimum olasılık tahminini ve bunun bir olasılık uzayındaki en yüksek noktayı bulmadaki uygulamasını tartışıyor. Bir 1D Gauss dağılımının parametreleri için olasılıkların logaritmasının toplamını en üst düzeye çıkarmak için bir amaç sunarlar. Daha sonra ortalamaya göre türevi alırlar ve bunu maksimum için çözerler. Normal dağılımın ortalaması için maksimum olasılık tahmin edicisinin sadece verilerin ortalaması olduğunu ve tüm bu fonksiyonlar için standart sapmayı bulmak için aynı yaklaşımın uygulanabileceğini bulmuşlardır. Konuşmacı ayrıca optimumu bulmak için analitik bir çözümün varlığından da bahseder.

  • 00:25:00 Bu bölümde video, en küçük kareler regresyonunda normallik varsayımını tartışıyor. Model, verilerin bir satıra biraz gürültü eklenerek üretildiğini varsayar ve verilerin olasılık dağılımı normal bir dağılım olarak düşünülebilir. Doğrusal modelin parametrelerinin olasılığını en üst düzeye çıkarmak için, X, W ve B verilen Y olasılığını en üst düzeye çıkarmaları gerekir. Bu denklemi doldurup logaritmayı hesaplayarak, normalleştirici kısım kaybolur ve kalan fonksiyon en küçük olana benzer. kareler amaç fonksiyonu. Orijindeki ortalama ve mesafe arttıkça katlanarak azalan olasılık yoğunluğu ile çok değişkenli dağılım da tartışılmaktadır.

  • 00:30:00 Bu bölümde, konuşmacı, normalleştirilmiş bir çan eğrisinin olasılık kütlesinin çoğunu içeren bir birim çemberi, verileri sığdırmak için uzayda hareket ettirmek için doğrusal dönüşümün kullanımını tartışıyor. Doğrusal dönüşüm, eğri altındaki toplam hacmin hesaplanıp buna bölünmesi için önce normalize edilen birim çembere uygulanan bir matris ve bir vektör T tanımlar. Bu dönüşümü uygulamak daireyi belirli bir yönde uzatır ve olasılık yoğunluğunu patlatır. Bunu düzeltmek için, dönüştürülmüş Gauss altında belirli bir noktanın olasılık yoğunluğunu elde etmek için matrisin determinantı şişirilmiş hacme bölünür.

  • 00:35:00 Bu bölümde konuşmacı, belirli bir ortalama ve sigma ile standart olmayan tek değişkenli bir normal dağılımdan örnekleme yöntemini tartışır. Bunu yapmak için, x standart normal dağılımdan örneklenebilir, varyansla çarpılır ve istenen dağılımdan bir örnek elde etmek için ortalama eklenir. Benzer şekilde, belirli bir ortalama ve sigma ile çok değişkenli bir normal dağılımdan örnekleme, sigmayı ayrıştırmayı, standart dağılımdan örneklemeyi ve doğrusal bir dönüşüm uygulamayı içerir. Konuşmacı ayrıca aradan sonra tartışmanın odak noktası olacak olan Gauss karışım modeli kavramını da tanıtıyor. Konuşmacı, bir örneklem içindeki farklı nüfus kavramını göstermek için bir derece dağılımı örneği kullanır.

  • 00:40:00 Bu bölümde, konuşmacı Gauss Karışım Modelini ve bunun bir popülasyon içindeki farklı kümeleri tanımlamaya nasıl yardımcı olabileceğini tartışıyor. Farklı ağırlıklara ve ölçeklendirmeye sahip üç ayrı normal dağılım oluşturarak, ortaya çıkan olasılık yoğunluk fonksiyonunun üç tepe noktası veya modu olacaktır. Bu modeli verilere uydurmak için, en iyi Gauss karışım modeli parametrelerini belirlemek için maksimum olabilirlik hedefi kullanılır. Gradyan bazı durumlarda faydalı olabilse de logaritmanın içindeki toplam nedeniyle çalışmak kolay değildir. Bunun yerine, verilerin optimal kümelenmesini bulmak için k-means kümeleme algoritmasına benzer olan beklenti maksimizasyon algoritması kullanılır.

  • 00:45:00 Bu bölümde video, esasen rastgele bir değer kümesinin örneklenmesini ve ilgili ağırlıklarıyla farklı bileşenlerden bir X değeri örneklemek için kullanılmasını içeren bir gizli değişken modeli olan Gauss karışım modellerinin kullanımını tartışıyor. Ancak sorun sadece X değerlerinin gözlemlenmesi ve Z değerlerinin gizlenmesidir. Çözüm, bileşenler için rasgele bir tahmin yapma, her noktaya yumuşak sorumluluklar atama, veri alt kümelerine dağılımları uydurma ve verilen küme değerleri üzerinde dağılım çıkarımı yapma sürecini yineleyen Beklenti Maksimizasyonu (EML) algoritmasını kullanmaktır. X değerleri. Bu yinelemeli süreç sayesinde, algoritma model parametrelerini tahmin edebilir ve verilerin olasılığını en üst düzeye çıkarabilir.

  • 00:50:00 Bu bölümde video, bazı noktaların diğerlerinden daha önemli olduğu Gauss karışım modellerini veri kümelerine uydurmak için kullanılan Beklenti-Maksimizasyon (EM) algoritmasını tartışıyor. Algoritma, önce her noktaya yumuşak sorumluluklar atayarak çalışır, yani her nokta, her bileşenden bir miktar sorumluluk alır. Bu sorumluluklar daha sonra, ağırlıklı ortalamalar ve varyanslar kullanılarak ortalama ve varyansın hesaplandığı ağırlıklı veri kümesine bir Gauss modeli uydurmak için kullanılır. Süreç, iyi bir uyum elde edilene kadar beklenti ve maksimizasyon adımlarını yineler. Video, bu sürecin bir görselleştirmesini gösteriyor ve modelin iyi bir uyum bulunana kadar daha önemli noktalara doğru nasıl kaydığını gösteriyor.

  • 00:55:00 Bu bölümde, konuşmacı beklenti maksimizasyonunun sezgisel doğasının resmileştirilmesini ve bunun yerel bir optimuma yakınsadığının nasıl kanıtlanacağını tartışıyor. Q fonksiyonlarını gerçek olasılığın yaklaşık değerleri olarak kullanarak, olabilirlik fonksiyonu iki terime ayrılabilir: KL sapma ve yaklaşımın ne kadar iyi olduğunu ölçen L fonksiyonu. Konuşmacı, bu terimlerin logaritmasını alarak, L fonksiyonunun, optimal parametreler verildiğinde olasılık fonksiyon setinin logaritmasından yaklaşık Q setinin logaritmasını çıkararak hesaplanabileceğini gösterir. Bu ayrıştırma, beklenti maksimizasyonu yaklaşımının yakınsamasını anlamak ve kanıtlamak için yararlıdır.

  • 01:00:00 Bu bölümde, konuşmacı EM algoritmasının kanıtını ve neden yakınsadığını tartışıyor. Ortak dağılım ve koşullu dağılım yeniden düzenlenerek, verilen teta x'in logaritmasının beklentisinin Q'ya göre sabit olarak yazılabileceği gösterilmiştir. Ardından, konuşmacı EM algoritmasının KL sapması açısından nasıl yeniden tanımlanacağını açıklar. ve verileri sabit tutarken KL sapmasını 0 yapmak için bazı veriler ve keyfi teta verilen ipucunun seçilmesi, bu da L'nin tüm alanı kaplamasına ve maksimum olasılığın elde edilmesine yol açar.

  • 01:05:00 Bu bölümde konuşmacı, Q'yu sabit tutarken L'yi maksimize etmek için teta'yı seçerek L'yi maksimize ettikleri M adımını açıklıyor. Bu adımın olasılıkta nasıl bir artışa yol açtığını ve E/M yinelemesinin neden sürekli olarak olasılığı artırdığını açıklıyorlar. Konuşmacı ayrıca, bir maksimizasyon hedefinde M adımını nasıl çalıştırabileceklerini ve beklenti maksimizasyon algoritması için maksimum olasılık tahmin edicilerini nasıl türetebileceklerini açıklar. Bu tekniğin kümeleme ve keşfedici analiz gibi uygulamalarını ve her sınıfa bir Gauss karışım modeli uydurarak sınıflandırma için nasıl kullanılabileceğini tartışırlar.

  • 01:10:00 Bu bölümde, konuşmacı Gauss karışım modellerini ve bunların nasıl birçok şekil alabildiğini ve onları normal dağılımlardan çok daha güçlü kıldığını tartışıyor. Bir Gauss karışım modelini verilere uydurmak, maksimum uygunluk uyumu için analitik kapalı form çözümü olmadığından, beklenti maksimizasyon algoritmasının kullanılmasını gerektirir. Bununla birlikte, model bir kez yerleştirildikten sonra, yeni noktaları olasılık yoğunluklarına göre sınıflandırmak için temel sınıflandırıcıyı kullanmak gibi çeşitli şekillerde kullanılabilir. Bir sonraki derste, konuşmacı sinir ağlarındaki gizli değişken modellerini ve olasılık modellerini karmaşık sinir ağlarına nasıl uyduracağını tartışmayı planlıyor.
8 Probability 2: Maximum Likelihood, Gaussian Mixture Models and Expectation Maximization (MLVU2019)
8 Probability 2: Maximum Likelihood, Gaussian Mixture Models and Expectation Maximization (MLVU2019)
  • 2019.03.01
  • www.youtube.com
slides: https://mlvu.github.io/lectures/42.ProbabilisticModels2.annotated.pdfcourse materials: https://mlvu.github.ioWe return to the subject of probability,...