Makine Öğrenimi ve Sinir Ağları - sayfa 47

 

CS480/680 Ders 6: NLP için model sıkıştırma (Ashutosh Adhikari)



CS480/680 Ders 6: NLP için model sıkıştırma (Ashutosh Adhikari)

Bu videoda sunum yapan kişi, NLP için model sıkıştırma kavramını ve derin sinir ağlarının sayısı ve derinliği arttıkça işlem süresi ve bellek gereksinimlerinin zorluklarını tartışıyor. Model sıkıştırma teknikleri kategorize edilir ve en eski yöntem olan parametre düzeltme ve paylaşma tanıtılır. Konuşmacı, NLP'de model sıkıştırma için bir öğrenci-öğretmen sistemi kavramını ve doğruluk korunurken daha büyük bir modeli daha küçük bir öğrenci modeline sıkıştırmak için amaç fonksiyonunun nasıl kullanıldığını daha ayrıntılı olarak ele alır. Son olarak, büyük ölçekli NLP modelleri geliştirmeye yönelik son çalışmalar bağlamında modelleri sıkıştırmanın potansiyel önemi vurgulanmıştır.

  • 00:00:00 Bu bölümde video sunucusu, derin sinir ağlarının sayısı ve derinliği arttıkça, işlem süresi ve bellek gereksinimleriyle birlikte model sıkıştırma konusunu tartışıyor. Amaç, çevrimiçi uygulamalarda daha hızlı, daha verimli dağıtım sağlamak için doğruluğu ve bilgiyi korurken sinir ağlarında gereken parametre sayısını azaltmaktır. Model sıkıştırma teknikleri kategorilere ayrılır ve sunum yapan kişi en eski yöntemi derinlemesine inceler: 1990 yılında Yann LeCun tarafından geliştirilen parametre budama ve paylaşma. NLP modelleri ile keşfedildi. Son olarak sunum yapan kişi, NLP görevleri için büyük ölçekli modeller geliştirmeye yönelik son çalışmalar bağlamında modelleri sıkıştırmanın potansiyel önemini vurgulamaktadır.

  • 00:05:00 Bu bölümde, konuşmacı NLP'de model sıkıştırma için öğrenci-öğretmen sistemi kavramını tanıtıyor. Öğretmen modeli, temsilleri çıkarmak ve daha küçük bir öğrenci modeline sıkıştırmak için kullanılan daha büyük bir modeldir. Amaç fonksiyonu, öğrenci ağının, sınıflandırma hedefiyle birlikte öğretmen ağı tarafından öğrenilen tüm temsilleri yakalamasına yardımcı olmak için kullanılır. Budama ve paylaşma yöntemleri detaylı olarak incelenmemiş olsa da dikkat mekanizmaları ve dönüştürücüler ileriki derslerde işlenecektir. Konuşmacı, bu devasa modellerin temel olarak çekirdekte tekrar tekrar uygulanan transformatörler olduğunu belirtiyor.
 

CS480/680 Ders 7: Gauss Karışımı



CS480/680 Ders 7: Gauss Karışımı

Gauss karışımı hakkındaki bu derste, konuşmacı, her sınıf için bir ön dağılım oluşturarak modelin sınıflandırma için nasıl kullanılabileceğini açıklar; veri noktası. Ders ayrıca, belirli bir sınıfa ait bir veri noktasının olasılığını hesaplama sürecini ve bunun sınıf tahminini belirlemek için nasıl kullanıldığını da kapsar. Ders notları, softmax işlevi ile arc max dağılımı arasındaki ilişkiyi ve Gauss'un şeklinin ve sınırlarının kovaryans matrisi tarafından nasıl belirlendiğini araştırır. Son olarak ders, maksimum olabilirlik öğrenme sürecini ve bunun bir Gauss modeli karışımı için ortalama ve kovaryans matrisini tahmin etmek için nasıl kullanılabileceğini detaylandırır.

  • 00:00:00 Bu bölümde öğretim görevlisi, üretken modeller ailesindeki istatistiksel bir model olan sınıflandırma için Gauss karışımlarının kullanımını tartışır. Metin ve görüntü oluşturma gibi uygulamalar için bir veri kümesinin oluşturulmasını simüle etmek için kullanılabilecek verilerdeki yanlışlığı ve gürültüyü modellemek için Gauss dağılımlarının nasıl kullanıldığını açıklarlar. Ders, bir lineer regresyon örneği ve bunun Gauss dağılımları kullanılarak üretken bir modele nasıl dönüştürülebileceğini sunar.

  • 00:05:00 Bu bölümde öğretim görevlisi, eğitim setine benzer veriler üretebilen bir model aracılığıyla benzer insan görüntüleri oluşturma olasılığını tartışıyor. Öğretim görevlisi örnek olarak doğrusal regresyon kullanır ve ardından her sınıf için bir ön dağılımın oluşturulduğu sınıflandırmaya geçer. Bu fikre dayanarak, belirli bir veri noktası için sınıfın olasılığını tahmin etmek için Bayes teoremi kullanılarak olasılıksal bir model oluşturulabilir. Ders, bunun Bayesci öğrenme değil, Bayesci çıkarım olduğunu vurgular.

  • 00:10:00 Bu bölümde eğitmen, Gauss Karışımı modelinde yapılan varsayımları ve bir sınıfın sonsal olasılığını hesaplamak için Bayes çıkarımının nasıl kullanılacağını tartışır. Model, çok terimli bir dağılım kullanılarak temsil edilebilecek sonlu sayıda kategorik sınıf olduğunu varsayar. Sınıf koşullu dağılımının, her sınıf için aynı kovaryans matrisine sahip bir Gauss dağılımı olduğu varsayılır. Olasılık, sınıfa bağlı olmayan ilk terimi iptal ederek basitleştirilebilen, önceki ve sınıf koşullu dağılımının bir ürünüdür. Bu sadeleştirme, her sınıf için aynı kovaryans matrisinin varsayımı nedeniyle mümkündür, ancak genel olarak her zaman geçerli olmayabilir.

  • 00:15:00 Bu bölümde, konuşmacı, herhangi bir gerçek sayıyı alıp 0 ile 1 arasında bir çıktı ürettiği için sinir ağlarında özellikle popüler olan bir lojistik sigmoid işlevi olarak posteriorun nasıl ifade edilebileceğini açıklar. son için ve W(devrik)X + W_0 olarak ifade edilebileceğini gösterin; burada W, x'in katsayısı ve W_0, X'e bağlı olmayan sabit kısımdır. Lojistik fonksiyonun belirli bir tanımı vardır ve üretmek için kullanılır. olasılık olarak yorumlanabilecek bir çıktı.

  • 00:20:00 Bu bölümde öğretim görevlisi, lojistik fonksiyonun Gauss karışımları bağlamında kullanımını tartışır. Lojistik fonksiyon, çıktıyı 0 ile 1 arasında sıkıştırmak için kullanılır ve özel tanımı, X'in katsayılarını parametre olarak ve sabit kısmı W sıfır olarak ele alarak elde edilebilir. Sınıf olasılıklarının yanı sıra ortalama ve kovaryans matrisi, istenen parametreleri vermek için bir araya getirilebilir. Bu, belirli bir sınıfa ait bir veri noktasının sonsal olasılığının hesaplanmasına yardımcı olur. Öğretim görevlisi ayrıca, veri noktalarının sınıf olasılıklarını bulmada Gauss dağılımları ile temsil edilen sınıf koşullarının kullanımını açıklar. Bu sınıf koşulları, farklı çan şekillerine sahip olabilir ve sonuncunun, veri noktasıyla eşleşen sınıf için daha yüksek bir olasılığı olacaktır.

  • 00:25:00 Videonun bu bölümünde öğretim görevlisi, Gauss modelinin bir karışımı için belirli bir sınıfa ait bir veri noktasının olasılığının nasıl hesaplandığını açıklıyor. İki Gauss'un ortalamaları farklıysa ve noktanın konumuna bağlı olarak aynı kovaryans matrisine sahip olduklarını varsayarsak, doğal olarak Gauss'u noktaya daha yakın olan sınıfa ait olma olasılığı daha yüksek olacaktır. Sınıf koşullu dağılımları için bir formül verilir ve sonsal hesaplandıktan sonra, o sınıfın 0,5'ten büyük olma olasılığına dayalı olarak bir sınıf tahmini yapılabilir. Öğretim görevlisi, tahminlerde bulunurken ilgi çekici olan iki sınıf arasındaki sınırları da gösterir.

  • 00:30:00 Bu bölümde, ders, Gauss karışımlarını kullanmanın sınıf sınırını ve iki Gauss olduğunu ve aynı kovaryans matrisine sahip olduklarını varsayarak sınırın nasıl göründüğünü araştırıyor. Sınır, her sınıfın aynı olduğu (0,5) olasılıkta oluşur. Bu, ayırıcının doğrusal olduğu anlamına gelen W devrik X bar = 0'a basitleştirir. Bu basit bir model ve doğrusal ayırıcıdır ve iki sınıf olduğunda kullanılır. İkiden fazla sınıf olduğunda, aynı hesaplama yapılır ve sonuç, sinir ağlarında da yaygın olarak kullanılan ve kökleri Gauss hesaplamalarının karışımına dayanan softmax işlevidir.

  • 00:35:00 Bu bölümde öğretim görevlisi softmax fonksiyonu ile arc max dağılımı arasındaki ilişkiyi ve neden softmax olarak adlandırıldığını açıklar. Arc max dağılımı, en yüksek değere sahip sınıflandırıcı için bir, diğer tüm sınıflar için sıfır olasılık atarken, softmax işlevi, tüm sınıflara sıfır olmayan olasılıklar atayarak bunun daha yumuşak bir versiyonunu verir. Üstel fonksiyon, Gauss karışımları dikkate alındığında ve çoklu sınıflar için sonsal dağılımın hesaplanmasında ortaya çıkar. Farklı sınıfların sınırları da sonsal dağılımda gösterilebilir. Ders notları, softmax fonksiyonunun çıktı sınıfını belirlemek için sinir ağlarında yaygın olarak kullanıldığını açıklar.

  • 00:40:00 Bu bölümde öğretim görevlisi, Gauss'un şeklinin ve sınırlarının kovaryans matrisi tarafından nasıl belirlendiğini ve bunun sınıf ayrımını nasıl etkilediğini açıklar. Farklı kovaryans matrisleri kullanılarak doğrusal olmayan sınırlar oluşturulabilirken, aynısının kullanılması doğrusal sınırlar ile sonuçlanacaktır. Öğretim görevlisi ayrıca, sırasıyla her bir sınıfın olasılığını, Gauss ortalamasını ve gürültü kovaryans matrisini temsil eden Gauss modeli karışımının, yani pi, mu 1, mu 2 ve Sigma karışımının güçlerinin nasıl tahmin edileceğini tartışır. Bu amaçla maksimum olabilirlik yöntemi kullanılır.

  • 00:45:00 Bu bölümde öğretim görevlisi, asıl sorunun modelin verilerin olasılığını en üst düzeye çıkaran güçlerini bulmak olduğu maksimum olasılık öğrenme sürecini açıklar. Bu optimizasyon problemini çözmek için, öğretim görevlisi ifadeyi basitleştirmek için günlüğünü alır. Ortaya çıkan ifade karmaşık görünüyor, ancak aslında güzel ve tek bir global optimuma sahip içbükey bir forma sahip. Bu yöntem, 0 ve 1 sınıfları için uygun etiketler kullanarak iki sınıf için sınıf koşullarının tek bir ifadede birleştirilmesine izin verir.

  • 00:50:00 Dersin bu bölümünde, konuşmacı, log-olasılık fonksiyonunun maksimizasyonunun, her bir sınıf için verilerin örnek ortalamasını ve ampirik ortalamasını elde etmek için optimize edilebilen bir içbükey fonksiyona nasıl karşılık geldiğini tartışır. Gauss modelinin karışımı. Her bir sınıfın olasılığı, o sınıfa ait verilerin fraksiyonu alınarak tahmin edilebilir; bu, maksimum olasılık ilkesiyle doğrulanan sezgisel bir yaklaşımdır. Benzer şekilde, her sınıf için girdilerin ortalaması, tüm veri noktalarının toplamı alınarak ve o sınıftaki puan sayısına bölünerek tahmin edilebilir. Bu tahminler, bu parametreleri tahmin etmeye yönelik sezgisel yaklaşım için resmi bir gerekçe sağlar.

  • 00:55:00 Bu bölümde, konuşmacı maksimum olabilirlik öğrenmesini kullanarak bir Gauss modeli karışımı için ortalama ve kovaryans matrisini tahmin etme sürecini tartışıyor. Hedef çıktı verileri verilir ve ortalama ve kovaryans matrisi için doğru değerleri belirlemek için olabilirlik işlevi maksimize edilir. Kovaryans matrisi tahmin edilirken, her sınıfa ait ampirik kovaryans matrislerinin doğrusal bir kombinasyonu alınır ve bu, her sınıfa ait veri noktalarının sayısına göre ağırlıklandırılır. Konuşmacı, bu süreçte hem Bayesci çıkarım hem de maksimum olasılıklı öğrenme kullanılsa da, tartışmanın ilk bölümünün öğrenme değil, Bayes teoremini kullanarak çıkarım yapmak olduğunu açıklıyor.

  • 01:00:00 Bu bölümde konuşmacı, Gauss karışımının makine öğrenimi kısmının, Gauss modelindeki her özellik için gereken kuvvetlerin belirlenmesini içerdiğini açıklıyor. Bunu yapmak için maksimum olasılıklı öğrenmeyi kullanırlar, ancak Bayesci öğrenme de mümkündür. Bununla birlikte, ders yalnızca maksimum olasılıklı öğrenmeyi kapsayacaktır. Konuşmacı daha sonra bölümü bitirir ve bir sonraki dersin sınıflandırma için bu konunun bir uzantısını ele alacağını belirtir.
 

CS480/680 Ders 8: Lojistik regresyon ve genelleştirilmiş doğrusal modeller



CS480/680 Ders 8: Lojistik regresyon ve genelleştirilmiş doğrusal modeller

"CS480/680: Lojistik Regresyon ve Genelleştirilmiş Doğrusal Modeller" konulu dersin bu ilk bölümü, üstel dağılım ailesi fikrini ve bunun, sınıflandırma problemlerinde kullanılan güçlü bir teknik olan lojistik regresyonla ilişkisini tanıtıyor. Ders, lojistik regresyonun belirli bir veri kümesi için arkayı modelleyen en iyi lojistik fonksiyona uymayı amaçladığını ve birkaç boyut ve ağırlığa sahip problemler için, Newton yönteminin bir dışbükey olan amaç fonksiyonunun minimumunu bulmak için kullanılabileceğini açıklar. işlev. Eğitmen ayrıca, tekniğin basitliği ve etkinliğinin onu kullanıcı özelliklerine ve davranışlarına dayalı kişiselleştirilmiş öneriler yapmak için ideal hale getirdiği öneri sistemleri ve reklam yerleştirmede lojistik regresyonun önemini vurgular.

Ders ayrıca lojistik regresyon ve genelleştirilmiş doğrusal modeller konusunu da kapsar. Eğitmen, Newton'un lojistik regresyon yönteminin kısıtlamalarını tartışır, örneğin gelişigüzel büyük ağırlıkların neden olduğu aşırı uyum sorunu ve Hessian matrisindeki tekillik sorunları. Aşırı uydurmayı önlemek için düzenlileştirme önerilir. Eğitmen, doğrusal olmayan ayırıcılarla verimli bir şekilde çalışmak için kullanılabilecek genelleştirilmiş doğrusal modelleri (GLM'ler) tanıtır. GLM'ler, girdilerin, haritalama doğrusal olmadığı sürece doğrusal regresyon ve sınıflandırmanın doğrusal olmayan bir şekilde yapılabileceği yeni bir alana eşlenmesini içerir. Ders ayrıca doğrusal olmayan regresyon ve sınıflandırma yapmak için kullanılabilecek temel fonksiyonları ve türlerini de kapsar.

  • 00:00:00 Videonun bu bölümünde ders, Gauss dağılımını varsayan Gauss karışımlarına dayalı sınıflandırma için istatistiksel modelin sınırlamalarını tartışıyor. Bu sınırlamayı ele almak için, üstel aile olarak bilinen geniş bir dağılım sınıfını tanıtarak, lojistik regresyon adı verilen güçlü ve esnek bir tekniğin geliştirilmesine yol açarlar. Ders, Gauss karışımlarını göstermek için tahtaya çizer ve bu yöntemin, veriler belirli bir şekle sahip kümeler oluşturduğunda uygun olduğunu açıklar. Ancak, veriler bu şekle sahip değilse, Gauss dağılımı varsayımının gevşetilmesi gerekir. Ders, üstel dağılım ailesi fikrini tanıtıyor ve bunun lojistik regresyonun geliştirilmesindeki önemini açıklıyor.

  • 00:05:00 bu bölümde, konuşmacı Bernoulli, Poisson ve Gamma gibi birçok ünlü dağıtımı içeren Üstel Aileyi tartışıyor. Aileye üstel denir çünkü çarpım yoğunluk fonksiyonunun bir üstel değeri vardır ve üssün teta'da doğrusal bir terimi, X'in bazı terimleri ve teta ve X'in diğer terimleri vardır. Ailedeki farklı dağılımların anahtarı kesin fonksiyonlardır. T of X, a of theta ve B of X. Bu ailenin güzelliği, içindeki herhangi bir dağılımın sigmoid bir lojistik fonksiyon biçiminde yeniden yazılabilmesidir. Bu özellik, konuşmacının olasılığa dayalı ayırt edici modelleri tanıtmasına olanak tanır; burada amaç, bir miktar gürültüyle bozulan veriler üzerinde varsayımlarda bulunmak ve ilişkili dağılımın parametrelerini tahmin etmek yerine, doğrudan lojistik fonksiyonun parametrelerini tahmin etmektir.

  • 00:10:00 Bu bölümde, belirli bir veri kümesinin sonsalını modelleyen en iyi lojistik işlevi bulmak veya uydurmak için kullanılan bir teknik olan lojistik regresyonu öğreniyoruz. Posterior, birden fazla sınıf olduğunda softmax dağılımını takip eder. Bazı veriler verildiğinde, posterioru maksimize eden W'yi bulmak istiyoruz. Bu optimizasyon problemi, negatif bir işaret getirilerek bir minimizasyon problemine dönüştürülür. Amaç, çoğu veri noktası için doğru sınıf Y'nin mümkün olduğu kadar yüksek olmasını sağlayan en iyi W'yi bulmaktır.

  • 00:15:00 Bu bölümde, eğitmen lojistik regresyonu ve sınıflandırma problemlerinde nasıl kullanılabileceğini tartışır. Amaç, öznel olanı en aza indiren W'yi bulmaktır, ancak bu tekniğe lojistik regresyon denmesine rağmen, bunun gerçekten bir sınıflandırma problemi olduğunu not etmek önemlidir. Bununla birlikte, lojistik regresyonun bir regresyon biçimi olduğu fikri vardır, çünkü biz verilen X sınıfının sayısal bir değer olan sonsal olasılığını tahmin etmeye çalışıyoruz. Eğitmen, ifadedeki değişkeni kapalı formda izole etmenin bir yolu olmadığı için bu optimizasyon problemini çözmek için yinelemeli bir yöntemin gerekli olduğunu açıklamaya devam eder.

  • 00:20:00 Dersin bu bölümünde eğitmen, lojistik regresyonda doğrusal olmayan denklemin nasıl ele alınacağını tartışır. Lojistik regresyonun amaç fonksiyonunun, global optimumu bulmayı kolaylaştıran bir dışbükey fonksiyon olduğu gösterilmiştir. Eğitmen, amaç fonksiyonunun minimumunu bulmak için gradyan iniş veya Newton yöntemi gibi yinelemeli yöntemlerin kullanılabileceğini açıklar. Gradyan iniş kullanılabilirken verimli değildir ve doğru adım boyutunu belirlemek zordur. Newton'un yöntemi çok daha hızlıdır ve daha az adım gerektirir, bu da onu optimizasyon için popüler bir seçim haline getirir.

  • 00:25:00 Dersin bu bölümünde, konuşmacı, lojistik regresyon için Newton'un yöntemi olarak adlandırılan, gradyan inişine göre bir gelişme olan bir yöntemi tartışıyor. Newton'un yöntemi, W için bir ilk tahminle başlamayı ve ardından W'den Hessian'ın tersinin son fonksiyonun gradyanıyla çarpımını çıkarmayı içerir. Bu yöntem esasen yinelenen üç ağırlıklı en küçük kareler içerir ve hedefe bir çizgi yerine ikinci dereceden bir fonksiyonla yaklaşarak eğrinin daha iyi bir şekilde tahmin edilmesini ve daha hızlı yakınsama sağlar. Bu yöntemin güzelliği, ikinci dereceden bir fonksiyona her yaklaşıldığında, minimumun kapalı formda optimal olarak çözülebilmesi ve bir adım uzunluğu hesaplama ihtiyacını ortadan kaldırabilmesidir.

  • 00:30:00 Bu bölümde konuşmacı, ikinci dereceden bir optimizasyon yöntemi olan ve her adımda ikinci dereceden bir fonksiyona yaklaşan, bu ikinci dereceden eğrinin minimumunu bulan ve fonksiyonu yeniden uyduran Newton yöntemini tanıtıyor. Bu, ikinci dereceden bir işlevi en aza indirmeyi içeren gradyan inişinden farklıdır. İkinci dereceden fonksiyon eğriye genel bir doğrusal regresyondan daha iyi uyduğu için Newton'un yöntemi çok daha hızlı ve daha doğru olabilir, ancak tüm ikinci dereceden türevleri içeren ve yüksek boyutlu problemlerde pahalı olabilen Hessian'ın hesaplanmasını gerektirir. Bu nedenle, birkaç boyut ve ağırlıktaki problemler için daha uygundur.

  • 00:35:00 Bu bölümde eğitmen, lojistik regresyonun karmaşık doğrusal olmayan fonksiyonuna Newton'un yöntemini kullanarak ikinci dereceden bir fonksiyonla yaklaşmanın ardındaki mantığı açıklıyor. Gradyan iniş daha ucuz olsa da, ikinci dereceden bir işlevle yaklaşmak daha iyi bir uyum sağlar ve daha iyi adımlar sağlar. İkinci dereceden bir fonksiyonun minimumunu bulmak da hesaplamalı olarak yapılabilir. Newton'un yönteminin dışbükey olmayan hedefler için genel optimumu bulma garantisi yoktur, ancak lojistik regresyonun işlevi dışbükey olduğundan, tek bir genel optimum vardır ve Newton'un yöntemi herhangi bir yerden başlayabilir. Newton'un yöntemini uygulamak için hesaplanması gereken asıl şey, birler dizisi ve Sigmas'ın köşegen matrisi ile veri kümesini içeren bir ifadeyle sonuçlanan bir türetme yoluyla elde edilebilen Hessian'dır.

  • 00:40:00 Bu bölümde, eğitmen lojistik regresyonu ve bunun bir makine öğrenimi tekniği olarak önemini, özellikle tavsiye sistemleri ve reklam yerleşimi için tartışıyor. Lojistik regresyon, kullanıcılara ürün önerileri veya reklam önerileri gibi önerilerde bulunmak için kullanılır. Fikir, kullanıcı tarafından tıklanma olasılığı yüksek olan reklamları göstermektir ve bu bir sınıflandırma problemi olarak modellenebilir. Eğitmen ayrıca Hessian'ın yapısını ve lojistik regresyonu programlamak ve Newton'un yöntemini uygulamak için önemli olan formülü kullanarak nasıl elde edileceğini sunar. Bazı öğrenciler matematiği bunaltıcı bulsa da, nasıl ortaya çıktıklarını ve neden işe yaradıklarını görmek için bu yöntemleri anlamak önemlidir.

  • 00:45:00 Bu bölümde, lojistik regresyon kavramı, kullanıcılara özellik ve davranışlarına göre ürün veya uygulama gibi önerilerde bulunma yöntemi olarak açıklanmaktadır. Lojistik regresyon genellikle bu tür problemler için kullanılır çünkü basit, esnek ve uygulanması verimlidir ve tahminler bir iç çarpımın hesaplanmasına dayanır. Önerilerde bulunmak için dikkate alınabilecek özelliklere örnek olarak, belirli uygulamaların indirilip yüklenmediği, yaş, cinsiyet, konum ve şirketin veya akıllı telefonun kullanıcı hakkında sahip olduğu diğer ilgili bilgiler verilebilir.

  • 00:50:00 Bu bölümde öğretim görevlisi, bir olayın meydana gelme olasılığının 0,5'ten büyük veya ona eşit olduğu iki sınıflı sınıflandırma problemlerinde lojistik regresyonun nasıl kullanılabileceğini açıklar. Birden çok sınıf varsa, her K sınıfı için bir W vektörüyle bir softmax dağılımı kullanılabilir. Öğretim görevlisi, lojistik regresyonun tahmini basitleştirdiğini, çünkü yalnızca bir nokta çarpım hesaplamayı içerdiğini ve bunun seyreklikten yararlanılarak verimli hale getirilebileceğini vurgular. ve hesaplamanın bir kısmını felç ediyor.

  • 00:55:00 Bu bölümde, konuşmacı, lojistik regresyonun verimliliğini ve seyrekliği kullanarak ve hesaplamayı paralel hale getirerek düşük kaynaklı cihazlarda nasıl çalışabileceğini tartışıyor. Nokta çarpım hesaplaması, sıfır girdileri yok sayarak milyonlarca girdi içeren uzun vektörlerin daha hızlı hesaplanmasını sağlar. Öğrenme modeli, hızlı ve ölçeklenebilir tahminler gerektiren öneri sistemleri gibi sistemler için ideal olan bir GPU ile paralelleştirilebilir. Ayrıca, özellikleri genişletmek kolaydır ve her şeyi yeniden tasarlamak yerine yalnızca ölçeklendirmeyi gerektirir.

  • 01:00:00 Bu bölümde profesör, Newton'un lojistik regresyon yönteminin sınırlamalarını ve fazla uydurma konusunu tartışıyor. Newton'un yöntemi hızlı bir optimizasyon tekniği olsa da, büyük veri kümeleri ve milyonlarca özellik için ölçeklenebilir değildir. Lojistik regresyon, verilere çok iyi uyan küresel optimumu bulan dışbükey optimizasyonu nedeniyle kolayca aşırı uyum sağlama eğilimindedir. Aşırı uydurma, Hessian matrisinde tekilliklere neden olarak Newton'un yöntemini uygulamayı imkansız hale getirebilir. Lojistik regresyonun sigmoid işlevi sıfırdan bire gider, ancak asimptotik olarak asla bire ulaşmaz, bu nedenle bire yakın bir olasılık elde etmek için, W devrik X çubuğu keyfi olarak büyük olmalıdır, bu da fazla uydurma ile sonuçlanır.

  • 01:05:00 Bu bölümde öğretim görevlisi, lojistik regresyon modellerinde aşırı uyum konusunu tartışıyor. W devrik X çubuğu sonsuza giderken, W'nin büyüklüğünün de sonsuza gittiğini, bunun da ağırlıkların keyfi olarak büyük olmasına neden olabileceğini açıklıyorlar. Ek olarak, Hessian, sigmoid işlevi nedeniyle sıfıra eğilimli olacak ve Hessian'ın tersinin sayısal olarak hesaplanması mümkün olmayacağından Newton yönteminin uygulanmasını zorlaştıracaktır. Öğretim görevlisi, aşırı uydurmayı önlemek için, ağırlıkların büyüklüğünü en aza indirmek için bir ceza teriminin eklendiği düzenlileştirmenin kullanılmasını önerir. Bu aynı zamanda tekillik sorunlarının önlenmesine de yardımcı olur.

  • 01:10:00 Videonun bu bölümünde eğitmen, Newton'un yöntemini kullanarak bir ceza terimi ekleyerek lojistik regresyon ve genelleştirilmiş doğrusal modellerde aşırı uydurmanın nasıl önlenebileceğini tartışıyor. Bununla birlikte, lojistik regresyonun bir sınırlaması, sınıflar arasındaki sınırın her zaman doğrusal olmasıdır. Bu sınırlamanın üstesinden gelmek ve doğrusal olmayan ayırıcılarla çalışmak için eğitmen, girdileri yeni bir uzaya eşlemeyi içeren genelleştirilmiş doğrusal modeller sunar; doğrusal. Bu basit yaklaşım, doğrusal modellerin genelleştirilmesinin doğrusal olmayan ortamlarda çalışmasına izin verir ve kursun ilerleyen kısımlarında ele alınacak olan çekirdek yöntemleri için temel görevi görür.

  • 01:15:00 Bu bölümde konuşmacı, doğrusal olmayan regresyon ve genelleştirilmiş doğrusal modeller kullanarak bir fonksiyona nasıl yaklaşılacağını tartışıyor. Buradaki fikir, her bir X girişini yeni bir özelliğe eşleyen, Phi ile gösterilen bir eşleme işlevini kullanarak verileri orijinal alandan yeni bir alana eşlemektir. Eşleme işlevi, kullanıcının herhangi bir orijinal alandan yeni bir alana hareket etmesine ve onu doğrusal olmayan hale getirmesine izin verecek bir eşleme tanımlayarak doğrusal olmayanları yakalayabilen bir temel işlevi belirtir. Amaç, en iyi fonksiyonu ve o hipotez uzayını elde etmek için ağırlıklar gibi katsayıları bulmaktır. Nihayetinde, bu tekniği kullanarak, orijinal uzaydaki doğrusal olmayanları dolaylı olarak yakalarken doğrusal regresyon veya sınıflandırma gerçekleştirebiliriz.

  • 01:20:00 Bu bölümde eğitmen, veri noktalarını sınıflandırmak için lojistik regresyonun ve genelleştirilmiş doğrusal modellerin nasıl kullanılacağını açıklar. Süreç, girdi uzayını temel fonksiyonları kullanarak daha yüksek boyutlu bir uzaya eşlemeyi ve daha sonra bu yüksek boyuttaki verileri ayırmak için en uygun hiper düzlemi aramayı içerir. Eğitmen, uygun temel fonksiyonları seçmek için fonksiyonların olası uzayı hakkında önceden bilgi sahibi olunması gerektiğinin altını çizer, ancak temel fonksiyonları öğrenmek için mevcut teknikler vardır. Ayrıca eğitmen, modeldeki ağırlıkların hiper düzleme normal olan vektörü nasıl tanımladığını açıklar.

  • 01:25:00 Bu bölümde öğretim görevlisi, lojistik regresyon ve genelleştirilmiş doğrusal modeller için kullanılabilecek temel fonksiyonları ve türlerini tartışır. Öğretim görevlisi, X'in tüm kuvvetlerini belirli bir dereceye kadar alarak polinom fonksiyonlarını yaymak için kullanılabilecekleri için önce polinom tabanlı fonksiyonları tanıtır. Öğretim görevlisi daha sonra doğrusal olmayan temel fonksiyonların iki örneğini sunar: Gauss ve sigmoid fonksiyonları. Gauss tabanlı fonksiyonlar, mu ve s değiştirilerek kullanılabilir; burada mu, tümseğin x ekseni üzerindeki konumunu ve s tümseğin genişliğini gösterir. Sigmoid fonksiyonlar doğrusal olmayan fonksiyonlardır ancak olasılık dağılımları değildir ve temel fonksiyon olarak X eksi mü J bölü s'ye uygulanan Sigma şapka ile kullanılabilir. Temel işlevler olarak kullanılabilen diğer doğrusal olmayan işlevler dalgacıkları, sinüsleri ve kosinüsleri içerir.

  • 01:30:00 Dersin bu bölümünde, konuşmacı dolaylı olarak doğrusal olmayan regresyon ve sınıflandırma gerçekleştirmek için doğrusal modellerin nasıl genelleştirileceğini tartışır. X giriş değişkenini, yeni bir uzayın girişi olan Phi of X ile değiştirerek, çeşitli doğrusal olmayan fonksiyonlar kullanılabilir. Phi işlevi, orijinal X girişinin farklı bölümlerine uygulanabilir ve polinomlar veya Gaussyalılar gibi bir dizi temel işlev kullanılarak temel işlevi yakalamak için kullanılabilir. Bu, doğrusal olmayan lojistik regresyon ve genelleştirilmiş doğrusal modeller hakkında temel bir anlayış sağlayan konuyu sonlandırır.
 

CS480/680 Ders 9: Algılayıcılar ve tek katmanlı sinir ağları



CS480/680 Ders 9: Algılayıcılar ve tek katmanlı sinir ağları

Bu ders, sınıflandırma için doğrusal bir ayırıcı üreten temel tip olan algılayıcıya odaklanan sinir ağlarını tanıtır. Ders, çıktıları üretmek için bir aktivasyon fonksiyonundan geçen girdilerin doğrusal bir kombinasyonunu hesaplamak için ağırlıkların nasıl kullanıldığını ve AND, OR ve NOT kapıları gibi mantık kapılarına yaklaşmak için farklı ağırlıkların nasıl kullanılabileceğini araştırır. Öğretim görevlisi, ileri beslemeli sinir ağını ve algılayıcı öğrenme algoritmasının ikili sınıflandırma için nasıl kullanıldığını ve gradyan inişinin ağırlıkları nasıl optimize edebileceğini tartışır. Verileri ayırmak için bir çizgi kullanmanın sınırlamaları tartışıldı ve lojistik sigmoid aktivasyon fonksiyonu kullanılarak ağırlıkların nasıl eğitilebileceğine odaklanılarak lojistik sigmoid aktivasyon fonksiyonu olası bir çözüm olarak sunuldu.

Perceptronlar ve tek katmanlı sinir ağları hakkındaki bu ders, karesel hatayı en aza indirmek için lojistik sigmoid aktivasyon fonksiyonlarının kullanımını ve sıralı gradyan inişinde çok önemli bir parametre olarak öğrenme oranının tanıtılmasını kapsar. Öğretim görevlisi ayrıca, çok katmanlı sinir ağlarının, çöp tutma işlevlerini kullanarak herhangi bir işleve keyfi olarak yaklaşmak için nasıl oluşturulabileceğini ve rastgele işlevleri öğrenmek için bir ağı eğitmek için geri yayılımın nasıl kullanılabileceğini gösterir. Eğitmen, sinir ağlarının konuşma tanıma, bilgisayar görüşü, makine çevirisi ve kelime gömme gibi çeşitli problemlerin çözümünde yaygın olarak kullanıldığını belirterek, sinir ağlarının çok yönlülüğünü ve verimliliğini vurgular.

  • 00:00:00 Dersin bu bölümünde, gizli katmanları olmayan temel bir sinir ağı türü olan algılayıcıya özel bir vurgu yapılarak, sinir ağlarına kısa bir giriş üzerinde durulacaktır. Sınıflandırma için doğrusal bir ayırıcı üretir ve sinir ağlarının tarihinde çok önemli bir rol oynar. Daha sonra, daha karmaşık sinir ağları biçimleri daha genel hale gelir. Ders ayrıca beynin nasıl çalıştığına ve hesaplama yoluyla nasıl taklit edilebileceğine de değiniyor. Beyin nöronlardan oluşurken bilgisayar, hesaplamayı sıralı yapan bir elektrik sinyali aracılığıyla iletişim kuran mantık kapılarını kullanarak çalışır. Bununla birlikte, beynin sinyalleri paralel olarak yayılarak daha güçlü hale gelir.

  • 00:05:00 Bu bölümde, konuşmacı insan beynine kıyasla bilgisayarların kırılganlığını ve sinir ağlarının beynin organizasyonunu nasıl taklit etmeye çalıştığını tartışıyor. Sinir ağları, gerçek bir sinir ağındaki nöronlara karşılık gelen birim adı verilen düğümlerden ve sinapslara karşılık gelen bağlantılardan oluşur. Hesaplama, birimler arasında iletilen sayısal sinyaller aracılığıyla yapılır. Amaç, doğru model girildiğinde nöronları aktive etmek ve düzenlileştirme teknikleri kullanarak bazı nöronların silinmesini kaldırabilecek daha sağlam bir hesaplamaya izin vermektir. Sinir ağları için ilham, gerçek biyolojik sinir ağlarında kimyasal sinyallerin organizasyonu ve yayılmasından gelir.

  • 00:10:00 Bu bölümde öğretim görevlisi, girdilerin doğrusal bir kombinasyonunu hesaplamak ve yeni bir sinyal üretmek için sinir ağlarında ağırlıkların nasıl kullanıldığını açıklar. Bu yeni sinyal daha sonra çıktıyı üretmek için bir miktar doğrusal olmama uygulayan bir aktivasyon fonksiyonundan geçirilir. Ağdaki her düğüm girdileri alır, bunları ağırlıklarla yeniden ölçeklendirir ve daha sonra ağdaki bir sonraki düğümlere iletilen bir çıktı üretmek için aktivasyon işlevini uygular. Öğretim görevlisi, ağırlıkların ağın davranışı için çok önemli olduğunu ve performansı artırmak için öğrenme sürecinde ayarlanabileceğini vurgular.

  • 00:15:00 Bu bölümde öğretim görevlisi, bir sinir ağındaki birimlerin, her bir girdiye atanan ağırlıklara dayalı olarak girdilerin doğrusal bir kombinasyonunun doğrusal olmayan bir fonksiyonunu nasıl hesapladığını tartışır. Girişlerin kendileri, doğrusal olmayan bir aktivasyon fonksiyonundan geçen önceki düğümler olabilir. Sinir ağları, girdileri yeni bir alana eşlemek için temel işlevler oluşturmak yerine, ağın bir kısmının girdileri yeni bir alana nasıl yeniden eşleyeceğini öğrenmesine izin verir. Ağı daha anlamlı hale getirmek için doğrusal olmayan aktivasyon fonksiyonları gereklidir ve öğretim görevlisi bu tür fonksiyonların iki popüler örneğini açıklar: eşik aktivasyon fonksiyonu ve sigmoid fonksiyonu.

  • 00:20:00 Dersin bu bölümünde profesör, aktivasyon fonksiyonlarının sinir ağlarında kullanımını, özellikle çöp tutma fonksiyonu ve sigmoid fonksiyonunu tartışıyor. Çöp tutma işlevinin 0'lar ve 1'ler çıktısı almak için yararlı olsa da düzgün ve sürekli olmadığını, bunun da gradyan tabanlı yöntemlerle kullanımını zorlaştırabileceğini açıklıyor. Sigmoid işlevi, çöp tutma işlevinin pürüzsüz bir versiyonudur ve aynı şekle sahiptir ancak eğimi ayarlanabilir. Profesör daha sonra sinir ağlarında AND, OR ve NOT kapıları gibi temel kapıları taklit edebilen birimlerin tasarımını araştırıyor. NAND geçidini taklit edebilen çöp tutma aktivasyon fonksiyonuna sahip bir birim örneğini gösteriyor ve girişlerin sonuna karşılık gelen bir çıktıya izin verecek bazı ağırlıklar bulmanın mümkün olup olmadığını soruyor.

  • 00:25:00 Bu bölümde öğretim görevlisi, bir algılayıcı sinir ağında kapıları değil de uç gibi mantık kapılarını taklit etmek için farklı ağırlıkların nasıl kullanılabileceğini tartışır. Algılayıcıda kullanılan ağırlıkları ayarlayarak sinir ağı, bu kapıların her biri için istenen doğruluk tablosu çıktısını üretecek şekilde tasarlanabilir. Öğretim görevlisi, kapı değil kapı için ağırlıklar da dahil olmak üzere mantık kapılarının her birini taklit etmek için kullanılabilecek farklı ağırlık örnekleri sağlar.

  • 00:30:00 Bu bölümde, öğretim görevlisi iki geniş ağ sınıfını tartışıyor: bir yönde akan düğümlerin yönlendirilmiş bir grafiğinden oluşan ileri beslemeli sinir ağları; ve doğası gereği döngüsel olan ve farklı uzunluklardaki girdileri işlemek için yararlı olan tekrarlayan sinir ağları, onları doğal dil işlemede popüler kılar. Öğretim görevlisi, ileri beslemeli sinir ağlarına odaklanır ve iki giriş birimli, iki birimli bir gizli katman ve bir çıkış birimli basit bir örnek çizer. Katmanlar arasındaki bağlantıların ağırlıklarını değiştirerek, uç veya ve düğüm birimlerini taklit etmenin mümkün olduğunu ve herhangi bir Boole işlevine yaklaşmaya izin verdiğini açıklarlar.

  • 00:35:00 Bu bölümde öğretim görevlisi, temelde ikili sınıflandırma için kullanılan basit bir tek katmanlı ileri beslemeli sinir ağı olan algılayıcı kavramını açıklar. Bir algılayıcıyı eğitmek için algoritma tartışılır, burada her bir çıktı birimi, her bir XY çifti için veri seti boyunca döngü yaparak ve üretilen çıktının doğru olup olmadığına bağlı olarak ağırlıkları ayarlayarak ayrı ayrı eğitilir. Ders ayrıca sinir ağlarında ağırlıklar için matris temsilinin kullanımını tartışır.

  • 00:40:00 Bu bölümde öğretmen, bir eşik fonksiyonundan geçen birimlerle ilgilenmek için kullanılan algılayıcı öğrenme algoritmasını açıklar. Algoritma, ağın hesaplanması doğruysa, ağırlıkların aynı tutulabileceği, ancak çıktı yanlışsa, ağırlıklara X girdisini ekleyerek veya çıkararak ayarlamalar yapılması gereken çok basit bir kural uygular. , çıktıya bağlı olarak. Amaç, çıktının pozitif olması gerekiyorsa girdilerin ve ağırlıkların doğrusal kombinasyonunu artırmak veya negatif olması gerekiyorsa azaltmaktır, böylece perceptron bir çıktıyı doğru cevaba bu kadar yakın olarak hesaplar. Anahtar, çöp tutma işlevinin doğrusal kombinasyon pozitif olduğunda 1 ve negatif olduğunda 0 döndürmesinden yararlanmaktır.

  • 00:45:00 Bu bölümde konuşmacı, bir algılayıcı algoritmasının ağırlıklarını optimize etmek için gradyan inişinin kullanımını tartışıyor. Bir kayıp fonksiyonu, yanlış sınıflandırma hatası olarak tanımlanır; burada her X & Y veri noktası için, YW devrik X'in çarpımı negatif olduğunda yanlış sınıflandırılmış kabul edilir. Bir puan 1. sınıfa aitse pozitif, -1. sınıfa aitse negatif olması beklenir. Yanlış sınıflandırılan noktalar, minimize edilebilecek bir amaç elde etmek için toplanır. Daha sonra gradyan, optimizasyon için gradyanın ters yönünde bir adım atma amacına göre hesaplanır.

  • 00:50:00 Dersin algılayıcılar ve tek katmanlı sinir ağları hakkındaki bu bölümünde, profesör, algılayıcı algoritmasındaki ağırlıkları güncellemek için sıralı işleme ile gradyan inişinin kullanımını tartışıyor. Algoritma, sonunda tüm eğitim örneklerini doğru bir şekilde sınıflandırmak için doğrusal olarak ayrılabilir verilere dayanır. Eşik algılayıcı öğrenme algoritmasının, ancak ve ancak verilerin doğrusal olarak ayrılabilir olması durumunda yakınsayacağını belirten bir teorem sunulmuştur. Bu bölüm, doğrusal olarak ayrılabilen veriler ile doğrusal olarak ayrılamayan verilerin bir açıklaması ve görselleştirilmesiyle sona erer.

  • 00:55:00 Dersin bu bölümünde, profesör bir veri setini bir satırla ayırma girişiminin sınırlamalarını tartışıyor ve eşik aktivasyon fonksiyonu yerine lojistik bir sigmoid aktivasyon fonksiyonu kullanma olasılığını tanıtıyor. Lojistik sigmoid doğrusal olmayabilir, ancak yine de her sınıf için olasılığın 0,5 olduğu noktada doğrusal bir ayırıcı üretir. Bu nedenle, lojistik sigmoid kullanmak bize hala doğrusal bir ayırıcı ve lojistik regresyonla aynı olan bir hipotez alanı verir. Profesör daha sonra lojistik sigmoid aktivasyon fonksiyonu ile algılayıcının ağırlıklarının nasıl eğitileceği sorusunu ele alır.

  • 01:00:00 Bu bölümde konuşmacı, lojistik sigmoid aktivasyon fonksiyonları ile algılayıcılarda bir hedef belirleme ve karesel hatayı en aza indirme yaklaşımını tartışır. Maksimum olasılık için algoritmanın temelde lojistik regresyon ile aynı olduğunu, kare hatanın en aza indirilmesinin ise gradyanı bulmayı ve ona doğru adımlar atmayı gerektirdiğini açıklıyorlar. Ayrıca sıralı gradyan inişinde adım boyutunu tanımlamak için bir öğrenme oranı kullanma fikrini ortaya koyuyorlar ve bunun sıklıkla ayarlanması gereken kritik bir parametre olduğundan bahsediyorlar. Konuşmacı, pratikte mini veri noktaları kümelerine veya yalnızca bir veri noktasına göre adımlar atmanın yaygın olduğunu öne sürüyor.

  • 01:05:00 Bu bölümde öğretim görevlisi, çok katmanlı sinir ağlarının herhangi bir işleve keyfi olarak nasıl yaklaşabileceğini açıklıyor. Farklı nöronları bir araya getirerek, zıt eğimlere sahip iki paralel sigmoid birimi ekleyerek bir 2B çıkıntının yaratıldığını gösteriyor ve ardından iki çıkıntının dikey olarak kesiştiğinde bir tümsek oluşturacak şekilde nasıl birleştirilebileceğini gösteriyor. Bu teknik, küçük bir bölgedeki bir sınıfa ve diğer her yerde diğer sınıfa puan atayabilen sınıflandırıcıların oluşturulmasına izin verir. Öğretim görevlisi, dört sigmoid birim ve kimlik aktivasyon fonksiyonuna sahip bir sırt içeren ilgili ağı gösterir.

  • 01:10:00 Dersin Perceptronlar ve tek katmanlı sinir ağları hakkındaki bu bölümünde, profesör, çöp tutma işlevleri veya sigmoidler kullanarak tümseklerin inşasını ve herhangi bir eğriye keyfi olarak yakından yaklaşmak için bunların nasıl döşenip birleştirilebileceğini tartışıyor. . Bu yaklaşımın regresyon için kullanılabileceğini ve geri yayılım gibi algoritmalar kullanarak keyfi bir işlevi öğrenmek için bir sinir ağı eğitmenin mümkün olduğunu açıklıyor. Geri yayılım, esasen tüm kısmi türevleri aynı anda hesaplamak için ağın yapısından yararlanan bir gradyan iniş biçimidir.

  • 01:15:00 Bu bölümde eğitmen, bir sinir ağındaki tüm ağırlıklar için kısmi türevlerin, geriye yayılım algoritması kullanılarak ağ üzerinden sabit sayıda geçişte eş zamanlı olarak nasıl elde edilebileceğini açıklar. Eğitmen sinir ağlarının konuşma tanıma ve bilgisayar görüşü gibi çeşitli sorunları çözmedeki çok yönlülüğü ve gücü nedeniyle yaygın bir popülerlik kazandığını vurgular. Makine çevirisi ve kelime gömmedeki son teknoloji de sinir ağlarını kullanır ve popülerlikleri kısmen verimliliklerinden kaynaklanmaktadır.
 

CS480/680 Ders 10: Çok katmanlı sinir ağları ve geri yayılım



CS480/680 Ders 10: Çok katmanlı sinir ağları ve geri yayılım

Çok katmanlı sinir ağları ve geri yayılma hakkındaki bu ders, doğrusal modellerin sınırlamalarını ve çok katmanlı sinir ağları gibi doğrusal olmayan modellere olan ihtiyacı açıklar. Öğretim görevlisi, sinir ağlarında kullanılabilecek farklı aktivasyon fonksiyonlarını ve bunların doğrusal olmayan temel fonksiyonlara nasıl izin verdiğini tartışır. Ders, bir sinir ağındaki her ağırlığa göre hatanın gradyanını hesaplamak için geri yayılım algoritmasının nasıl kullanıldığını açıklamaya devam ediyor. Otomatik farklılaştırma araçları, bir sinir ağındaki deltaları ve gradyanları verimli bir şekilde hesaplamanın bir yolu olarak da tartışılmaktadır. Genel olarak ders, sinir ağlarının geniş bir işlev yelpazesine yaklaşmadaki esnekliğini ve gücünü vurgular.

Bu videodaki eğitmen, yavaş yakınsama, yerel optimizasyon, dışbükey olmayan optimizasyon ve fazla uydurma gibi sinir ağlarını optimize etme konularını tartışıyor. Yavaş yakınsamanın üstesinden gelmek için düzenlileştirme ve bırakma gibi teknikler kullanılabilir. Ek olarak, konuşmacı, verimliliği artırmak için adım boyutunu optimize etme ihtiyacını vurgulayarak, optimizasyon için gradyan inişinin davranışını açıklıyor. DES hibe algoritması, her bir boyutun öğrenme oranını ayrı ayrı ayarlayan bir çözüm olarak önerilmiştir. Konuşmacı ayrıca, önceki gradyanların ağırlıklı hareketli ortalaması olan RMSProp'u da sunar. Son olarak, konuşmacı, gradyanın ağırlıklı hareketli ortalamasını almayı içeren ve SGD Nesterov gibi diğer tekniklerden daha iyi performans gösterdiğini gösteren Adam'ı tartışıyor.

  • 00:00:00 Bu bölümde öğretim görevlisi, doğrusal regresyonun hızlı bir özetini ve doğrusal sınıflandırma için üç model sunar. Ancak, bu modellerin sorunu, bize hala doğrusal bir ayırıcı vermeleridir. Böylece ders, tartışmayı doğrusal olmayan modellere kaydırır ve çok katmanlı sinir ağlarına olan ihtiyacı ortaya koyar.

  • 00:05:00 Bu bölümde eğitmen, algılayıcı ve eşik aktivasyon fonksiyonu ve sigmoid aktivasyon fonksiyonu dahil olmak üzere lineer modelleri inceler. Eğitmen, doğrusal modellerin doğrusal olmayan modellere genişletilebileceğini, düz çizgi olmayan, daha ziyade eğri olan fonksiyonları barındırması için açıklar. Bunu başarmak için, verileri yeni bir alana kaydırmak için bir eşleme işlevi olan Phi of X'i kullanan doğrusal olmayan regresyon tanıtılır. Eğitmen ayrıca, doğrusal olmayan regresyon için uyarlamalı temel işlevler sağlayan çok katmanlı sinir ağlarını tanıtır ve ardından bunları genelleştirilmiş doğrusal regresyon modeliyle ilişkilendirir. Son olarak, eğitmen genelleştirilmiş doğrusal olmayan sınıflandırmayı tartışır.

  • 00:10:00 Dersin bu bölümünde, konuşmacı sınırsız doğrusal olmayan modellerle nasıl çalışılacağını tartışır. Şimdiye kadar gördüğümüz temel işlevli doğrusal modellerle ilgili sorun, temel işlevleri önceden seçmemiz gerektiğidir ve bunu yapmak için yeterli alan bilgisine sahip olmayabiliriz. Çözüm, verilere bağlı olan ve çok sayıda, hatta sonsuz sayıda temel işleve bir bedel ödemeden izin veren temel işlevleri seçmektir. Bu fikir başlangıçta çekirdek yöntemlerindeki yaklaşımdı ve 2010 yılına kadar baskın teknikler dizisiydi.

  • 00:15:00 Bu bölümde video, bugün derin öğrenmede gördüğümüz birçok başarıya yol açan çok katmanlı sinir ağlarının derin öğrenmeye girişini tartışıyor. Spesifik olarak video, her bağlantının bir matriste temsil edilebilecek bir ağırlığa sahip olduğu, tamamen bağlı düğümlere sahip iki katmanlı bir sinir ağına odaklanır. Gizli birimler ve çıktı birimleri, her katmanın kendi ağırlık kümesine sahip olduğu aktivasyon fonksiyonu ve doğrusal kombinasyonlar kullanılarak hesaplanır. Temel fonksiyonların içindeki güçleri ayarlayarak, onları uyarlamak ve eğitim setlerine göre çeşitlendirmek mümkündür, bu da daha başarılı bir derin öğrenme modeline yol açar.

  • 00:20:00 Dersin bu bölümünde profesör, sinir ağlarının nasıl birden çok katman ve ağırlıktan oluşan temelde matematiksel işlevler olduğunu açıklıyor. Doğrusal olmama eklemek için sigmoid veya hiperbolik tanjant gibi aktivasyon fonksiyonlarını kullanırlar. Bu aktivasyon fonksiyonları, bir sonraki katman için temel fonksiyonlar olarak işlev görebilir ve doğrusal olmayan regresyonda kullanılabilir. Birinci katmanda doğrusal olmayan aktivasyon işlevleri ve çıkış katmanında bir kimlik işlevi kullanılarak, bir sinir ağı doğrusal olmayan temel işlevlerin doğrusal bir kombinasyonu olarak temsil edilebilir.

  • 00:25:00 Bu bölümde, konuşmacı doğrusal olmayan regresyon ve sınıflandırma için iki katmanlı sinir ağlarını tartışıyor. İki katmanlı sinir ağı için matematiksel formül, sigmoid aktivasyon fonksiyonuna sahip gizli birimleri ve kimlik aktivasyon fonksiyonuna sahip çıkış birimlerini içerir. Sigma, model eğitildikçe temel fonksiyonların uyum sağlamasına izin vererek, bazı ağırlıklar tarafından parametreleştirilen doğrusal olmayan bir temel fonksiyon olarak hareket eder. Bu yaklaşım, doğrusal olmayan ve doğrusal regresyon arasındaki temel farktır. Benzer şekilde, sınıflandırma için konuşmacı, birinci katman aracılığıyla doğrusal olmayan temel fonksiyonları hesaplayarak aynı formülün nasıl uygulandığını gösterir.

  • 00:30:00 Bu bölümde öğretim görevlisi, benzer bir yoruma sahip olmasına rağmen, çok katmanlı sinir ağlarının lojistik regresyondan nasıl farklı olduğunu açıklıyor. Sinir ağı, eğitim sırasında güncellenen ağırlıkları kullanarak daha uyarlanabilir temel işlevlere izin verir. Doğrusal olmama, Gaussian veya 10h işlevi gibi diğer işlevlerle değiştirilebilen bir Sigma işlevinin kullanılmasından kaynaklanır. Sinir ağı, aktivasyon fonksiyonunu ayarlayarak hem sınıflandırma hem de regresyon için kullanılabilir. Öğretim üyesi ayrıca Sigma işlevini başka bir uygun işlevle değiştirerek ağda birden çok sınıfın kullanılabileceğini belirtmektedir.

  • 00:35:00 Bu bölümde ders, hem doğrusal kombinasyonun ağırlıklarını hem de doğrusal olmayan temel fonksiyonları tanımlayan ağırlıkları içeren çok katmanlı sinir ağları için ağırlıkların optimizasyonunu tartışıyor. Optimizasyon için en popüler algoritma, sinir ağının çıktısını bir hedefle karşılaştıran ve farkı hesaplayan hata minimizasyonudur. Geri yayılım, hataların hesaplanmasına ve her ağırlığa göre bir gradyanı hesaplamak için ağ üzerinden geri yayılmasına izin veren popüler bir algoritmadır. Gradyan, ağırlıkları optimize etmek için güncelleme algoritmasını hesaplamak için kullanılır. Geri yayılım algoritması elle hesaplanır, ancak Tensor Flow ve PyTorch gibi paketler otomatik farklılaştırma için araçlar sunar.

  • 00:40:00 Bu bölümde, konuşmacı bir sinir ağındaki her ağırlığa göre hatanın gradyanını veya kısmi türevini hesaplamak için kullanılan geri yayılım algoritmasını açıklamaktadır. Algoritma iki aşamaya ayrılmıştır: ağın çıktısının girdilere dayalı olarak hesaplandığı bir ileri aşama ve bir hata ölçüsü olan Delta'nın hatanın kısmi türevini hesaplamak için geri yayıldığı bir geri aşama. ağırlık. Kısmi türev, kısmi türev ve Delta J ve Zi için zincir kuralı kullanılarak iki adımda hesaplanır. Konuşmacı, iki giriş, iki gizli birim ve iki çıkış biriminden oluşan tamamen bağlı bir ağ ile algoritmayı gösterir ve algoritmanın her birimin çıktısını nasıl hesapladığını ve hataları geri yaydığını gösterir.

  • 00:45:00 Videonun bu bölümünde konuşmacı, geri yayılım algoritmasını kullanarak çok katmanlı sinir ağlarında kısmi türevlerin nasıl elde edileceğini tartışıyor. Konuşmacı, çıktı katmanından başlanarak, çıktı birimlerinin deltalarına bağlı olan özyinelemeli bir formül kullanılarak, her bir J çıktı birimine göre hatanın kısmi türevinin hesaplanabileceğini açıklar. Konuşmacı daha sonra, bir sinir ağındaki gizli ve çıkış birimlerinin çıktısını hesaplamak için ileri ve geri fazı kullanmanın basit bir örneğini gösterir.

  • 00:50:00 Bu bölümde, konuşmacı bir sinir ağındaki deltaların ve gradyanların nasıl hesaplanacağını ve otomatik farklılaşma araçlarının bunu verimli bir şekilde yapmaya nasıl yardımcı olabileceğini açıklıyor. Gizli katmanlar ve çıktı katmanları için deltaları hesaplamak için denklemler sağlarlar ve bunların gradyanları hesaplamak için nasıl kullanılacağını gösterirler. Konuşmacı, otomatik farklılaştırma araçlarının, farklı mimariler ve işlevlerle çalışırken manuel olarak gradyanları hesaplamada zamandan ve emekten tasarruf sağlayabileceğini vurguluyor. Bölüm, yalnızca üç gizli birim ile bir sinir ağının x-kare, x'in mutlak değeri ve x'in sinüsü gibi keyfi fonksiyonlara nasıl yaklaşabileceğine dair örneklerle sona eriyor.

  • 00:55:00 Bu bölümde öğretim görevlisi sinir ağlarının farklı işlevlere yaklaşma yeteneğini tartışıyor. Ağ, ikinci dereceden ve sinüs fonksiyonları gibi düz fonksiyonlara oldukça iyi yaklaşabilen doğrusal olmayan temel fonksiyonlara yakınsayabilir. Bununla birlikte, mutlak fonksiyon gibi pürüzsüz olmayan fonksiyonlar için sinir ağı, yeterli gizli birim olmadan ona yaklaşmak için mücadele eder. Bununla birlikte, adım fonksiyonu gibi süreksiz fonksiyonlar için bile, ağ yine de makul bir yaklaşım sağlayabilir. Öğretim görevlisi daha sonra, otomatik farklılaşmayı kullanarak gradyanı hesaplamayı ve stokastik gradyan inişini gerçekleştirmeyi içeren nöral ağları optimize etme tartışmasına geçer. Bu genel bir optimizasyon tekniği olsa da, yakınsama ek optimizasyon yöntemleri olmadan yavaş olabilir.

  • 01:00:00 Bu bölümde öğretim görevlisi, yavaş yakınsama, yerel optimizasyon, dışbükey olmayan optimizasyon ve fazla uydurma dahil olmak üzere sinir ağlarını optimize ederken ortaya çıkabilecek sorunları tartışıyor. Yavaş yakınsama, düzenlileştirme ve bırakma gibi tekniklerle aşılabilir. Yavaş yakınsama kavramını göstermek için öğretim görevlisi, hata fonksiyonunu temsil eden top şeklindeki bir yüzeyin resmini çizer. Gradyan iniş, küresel minimumun dışından başlarken yavaşça yakınsayabilir ve momentum ve uyarlanabilir öğrenme oranları gibi modern teknikler yakınsamayı hızlandırabilir.

  • 01:05:00 Bu bölümde öğretim görevlisi, optimizasyon için gradyan inişinin davranışını tartışıyor. Eğimin yönü genellikle kontur çizgisine diktir ve onun yönünde bir adım atmanın sorunu minimumu aşabilmesidir. Öte yandan, eğim küçükse, minimuma ulaşmak için birçok küçük adımın atılması gerekebilir. Dolayısıyla daha büyük adımların atılması gereken bölgeler olduğu gibi, daha küçük adımların daha uygun olduğu bölgeler de var. Bu davranış, eğimli inişin verimliliğini artırmak için adımların boyutunu optimize etme ihtiyacını vurgular.

  • 01:10:00 Bu bölümde, konuşmacı bir sinir ağındaki adım boyutunu belirlemek için gradyan boyutuna güvenmeyle ilgili olası sorunları tartışıyor. Degradenin boyutu farklı boyutlarda tutarlı olmayabileceğinden, DES hibe algoritması tarafından önerilen bir çözüm, şimdiye kadar görülen gradyanların karelerinin toplamını alıp adım boyutunu bölerek her bir boyutun öğrenme oranını ayrı ayrı ayarlamaktır. bu değerin karekökü ile. Bu, her bir boyuttaki eğimin büyüklüğüne göre adım boyutunda ayarlamalara izin verir. Ancak, bazı uygulamalarda öğrenme hızı çok hızlı düşerek ilerlemeyi engelleyebilir.

  • 01:15:00 Bu bölümde, konuşmacı sinir ağlarında gradyan iniş ile ilgili sorunları ve öğrenme oranını ayarlamanın stokastik gradyan iniş yapmaya nasıl yardımcı olabileceğini tartışıyor. Konuşmacı, ağırlık başına bir boyutun olduğu bir sinir ağında "boyut" kavramını tanıtıyor. Büyük meblağların birikmesi sorununu ve bu adımların boyutunun küçültülmesi gerektiğini açıklıyorlar. Konuşmacı, eski gradyanları unutan üstel bir azalma ile önceki gradyanların ağırlıklı hareketli ortalaması olan rmsprop'un tanıtılmasıyla bu soruna bir çözüm önerir. Ancak bu yöntem mükemmel değildir ve konuşmacı onun sınırlarını kabul eder.

  • 01:20:00 Bu bölümde öğretim görevlisi, kararlı olduğu bir bölgede momentumdan yoksun bir gradyan konusunu tartışıyor, bu da yön aynı olduğunda adım boyutunu artırmanın bir yolunu bulma ihtiyacına yol açıyor. Bu, Adam olarak bilinen, degradenin ağırlıklı hareketli ortalamasını almayı ve bunu sT'de saklamayı içeren buluşsal yöntemin bir versiyonuna yol açar. Güncelleme yapılırken aksiyon ve gradientte adım atmak yerine o hareketli ortalamanın aksiyonunda bir adım atılır. Teknik, 2015 yılında ICLR'de yayınlanan bir sezgiseldir ve öncekilerden temel farkı, özellikleri hakkında bazı teoriler ve yakınsama kanıtları ile birlikte gelmesidir. Bununla birlikte, yayınlandığında, bazı ispatlarda sorunlar vardı, bu da daha ilkeli bir şey bulmak için daha fazla ispatla değişiklikler yapılmasına yol açtı.

  • 01:25:00 Bu bölümde, konuşmacı birkaç iyi adım atmakla her adım için yüksek bir bedel ödemek veya çok iyi adımlar olmayan ama genel olarak yine de sonuç veren çok sayıda küçük adımı hızlı bir şekilde atmak arasındaki ödünleşimi açıklıyor. minimuma daha yakın. Ayrıca Newton'un tekniği gibi ikinci dereceden optimizasyon teknikleri gibi iyi ölçeklenemeyen optimizasyon tekniklerini de tartışıyor. Pratikte buluşsal yöntemler, iyi bir teoriden yoksun olmalarına rağmen iyi çalışma eğilimindedir. Konuşmacı daha sonra Adam ile SGD Nesterov gibi diğer teknikler arasında ampirik karşılaştırmalar yapar ve Adam'ın oldukça iyi performans gösterme eğiliminde olduğunu gösterir.
 

CS480/680 Ders 11: Çekirdek Yöntemleri



CS480/680 Ders 11: Çekirdek Yöntemleri

Bu derste, çekirdek yöntemleri kavramı, doğrusal olmayan bir işlev kullanarak verileri bir alandan yeni bir alana eşleyerek genelleştirilmiş doğrusal modelleri ölçeklendirmenin bir yolu olarak tanıtılmaktadır. Dual trick veya kernel trick, yeni uzayda nokta çiftlerinin iç çarpımını hesaplayan bir kernel fonksiyonunun kullanılmasına yol açan, ek maliyet ödemeden yüksek boyutlu uzaylarda çalışmayı sağlayan bir teknik olarak açıklanmaktadır. Veri noktaları arasındaki benzerliği ölçmek için kullanılabilen ve sınıflandırma görevlerinde yararlı olan polinom ve Gauss çekirdekleri de dahil olmak üzere, çekirdek oluşturmak için çeşitli yöntemler tartışılmaktadır. Çekirdek oluşturma kuralları, karmaşıklıklarını kontrol edebilen yeni çekirdekler oluşturmak için de tanıtılmıştır. Ders, gram matrisinin pozitif yarı-belirli olması ve özdeğerleri sıfırdan büyük veya sıfıra eşit olması gerektiğinden, Phi devrik Phi ile karşılık gelen fonksiyonları seçmenin önemini vurgular.

Çekirdek yöntemleriyle ilgili bu derste, konuşmacı çekirdekleri devrik çarpı bir matrise ayrıştırılabilen pozitif yarı-belirli fonksiyonlar olarak tanımlar. Polinom ve Gauss gibi çeşitli çekirdek türleri ve bunların uygulamaları, dizeler, kümeler ve grafikler gibi farklı veri türlerini karşılaştırmak için tartışılır. Konuşmacı ayrıca, alt dizi çekirdeklerinin, alt dizilerin uzunluğunu artırarak ve dinamik programlamayı kullanarak sözcükler arasındaki benzerliği nasıl hızlı bir şekilde hesaplayabildiğini açıklar. Ek olarak, destek vektör makinelerinin Reuters haber makaleleri kullanılarak belge sınıflandırmasında etkili olduğu gösterilmiştir.

  • 00:00:00 Bu bölümde, konuşmacı genelleştirilmiş doğrusal modelleri büyütmek için yararlı olan çekirdek yöntemlerini tanıtıyor. Genelleştirilmiş doğrusal modeller ve sinir ağları arasındaki benzerliklerin ve farklılıkların hızlı bir özeti verilir ve doğrusal olmayan sabit tabanlı fonksiyonların doğrusal modellerde kullanıldığını ve optimizasyonun daha kolay ve tipik olarak dışbükey olma eğiliminde olduğunu, buna karşın uyarlanabilir temel fonksiyonların sinir ağlarında kullanıldığını vurgular. ve optimizasyon daha zor olma eğilimindedir. Çekirdeğin tanıtılması, doğrusal olmayan eşlemeler içeren modellerle çalışırken daha geniş alan için bir bedel ödemekten kaçınacak bir numaraya yol açacaktır.

  • 00:05:00 Bu bölümde öğretim görevlisi, makine öğrenimi paradigmalarının gelişimini açıklayarak, veri miktarı bol olmadığında sınırlı hipotez alanının nasıl önemli bir sorun olmadığını vurguluyor. Bununla birlikte, 2009'dan itibaren başlayan sinir ağları çağı, çok fazla veri ve hesaplama gücü getirerek daha zengin bir hipotez alanına sahip olmayı gerekli kıldı. Öğretim görevlisi, doğrusal olmayan işlevleri kullanarak verileri yeni bir alana eşleyerek, ek maliyet ödemeden yüksek boyutlu uzaylarda çalışmayı sağlayan bir hesaplama tekniği olan dual trick veya kernel trick'i tanıtır. Bu hilenin, bir çekirdek işleviyle birlikte, çok sayıda veya sonsuz sayıda temel işlevi açıkça hesaplamak zorunda kalmadan dikkate almamıza nasıl izin verdiğini açıklıyor.

  • 00:10:00 Bu bölümde öğretim görevlisi, yeni bir uzayda nokta çiftleri arasındaki iç çarpımı hesaplamayı ve bu nokta çarpımları hesaplama maliyetini daha iyi ölçeklendirme için çok daha ucuza getirmenin yollarını bulmayı amaçlayan çekirdek yöntemlerine odaklanır. algoritmalar. Bu nedenle, iç çarpımlar çekirdek işlevleri olarak yeniden adlandırılır ve her nokta çifti için bu çekirdeklerin çıktılarını belirleyebilirsek, çekirdekleri tanımlamanın anahtarı olan Phi of X tarafından tanımlanan temel özellik uzayını hesaplamamıza gerek kalmaz. değerlendirmesi hızlıdır ve X'in Phi'sine göre hesaplama gerektirmez. Örnek olarak doğrusal regresyon kullanılır ve öğretim görevlisi W'nin gerçekten katsayılar çarpı X n olan veri noktalarının doğrusal bir kombinasyonu olduğunu gösterir ve W'yi başka bir ifadeyle, Phi çarpı A ile değiştirir; burada Phi, yeni uzaydaki tüm noktaların matrisidir.

  • 00:15:00 Bu bölümde, konuşmacı, bir haritalama işlevi kullanarak verileri bir boşluktan yeni bir alana eşlemeyi içeren çekirdek yöntemleri kavramını tanıtıyor. Yeni uzayda bir lineer regresyon probleminin optimizasyonunun, ağırlık matrisi (W) yerine haritalanan noktaların lineer bir kombinasyonunun katsayıları (a) kullanılarak nasıl yapılabileceğini gösterir. Bu, Gram matrisi olarak tanımlanan yeni uzaydaki nokta çiftlerinin iç çarpımını hesaplayan bir çekirdek işlevinin kullanılmasına yol açar. Sonuç, çekirdek işlevini kullanarak katsayıları optimize ederek regresyon sorununa çözüm bulmanın alternatif bir yoludur.

  • 00:20:00 Bu bölümde öğretim görevlisi, ikili uzayda çözümü kullanarak tahminlerin nasıl yapılacağını tartışıyor, bu da hesaplama için birincil uzaydakinden farklı bir karmaşıklıkla sonuçlanıyor. Birincil uzayda, karmaşıklık temel fonksiyonların sayısına bağlıdır, ancak ikili uzayda karmaşıklıkta bir artış olmadan yüksek boyutlu uzaylara izin veren veri miktarına bağlıdır. Anahtar, çekirdek işlevini yeni uzaydaki noktalara başvurmadan hesaplamaktır ve nokta çarpımlarına üstü kapalı olarak karşılık gelen çekirdek işlevlerini tanımlamanın çeşitli yolları vardır. Gram matrisinin pozitif yarı-belirli olması ve özdeğerlerinin sıfırdan büyük veya sıfıra eşit olması gerektiğinden, Phi devrik Phi ile karşılık gelen fonksiyonların seçilmesi önemlidir. Öğretim görevlisi, doğrudan bir çekirdeğin nasıl tanımlanacağına ve ardından karşılık gelen eşlemenin nasıl bulunacağına dair bir örnek sağlar.

  • 00:25:00 Bu bölümde öğretim görevlisi, orijinal uzay karesindeki iki vektörün nokta çarpımı olarak bir çekirdek işlevi tanımlar. Bunun uzay dönüştürme işlevi olan Phi'ye başvurmadan hesaplanabilecek geçerli bir çekirdek işlevi olup olmadığı sorusu gündeme gelir. Öğretim görevlisi, işlevi genişleterek, açıkça hesaplamadan Phi'nin eşlemesini tanımlayabilir ve temel işlevlerle birlikte geçerli bir çekirdek işlevine ulaşır. Tipik olarak çekirdek işlevleri, önce Phi'yi tanımlayarak ve ardından bir iç çarpımı yürüterek hesaplanırken, bu yöntem, orijinal uzayda çekirdek işlevinin doğrudan hesaplanmasına izin verir.

  • 00:30:00 Bu bölümde öğretim görevlisi çekirdek oluşturma yöntemini tartışır. Fikir, karmaşıklıklarını kontrol edebilen ve yeni alana bağlı olmadığından emin olabilen yeni çekirdekler oluşturmaktır. Öğretim görevlisi, geçerli yeni çekirdekler yapmak için çekirdeklerin oluşturulmasına ilişkin on kuralı açıklar ve bir işlev geçerli bir çekirdek değilse, daha karmaşık çekirdekler elde etmek için bunları bir araya getirmeye yardımcı olabilecek temel yapı taşları vardır. Ders ayrıca, orijinal uzaydaki nokta çarpımının bir kuvvete yükseltildiği ve özellik uzayının X'teki girişlerin tüm derece M çarpımları olarak elde edildiği polinom çekirdeği gibi pratikte kullanılan yaygın çekirdekleri tanıtıyor. Ders devam edecek sonraki derste Gauss çekirdeğinin tartışılması üzerine.

  • 00:35:00 Bu bölümde öğretim görevlisi, hesaplama bedeli ödemeden regresyon veya sınıflandırma modellerinde esneklik elde etmek için yüksek boyutluluğun gerekli olduğunu ve bunun bir sorun olabileceğini açıklıyor. Bu sorundan kaçınmak için, bize yeni uzaydaki nokta çiftleri arasındaki iç çarpımı söyleyen bir işlevi belirten çekirdekler kullanılır. Polinom çekirdeği daha sonra, orijinal uzaydaki iç çarpımı bir M kuvvetine yükselten ortak bir çekirdek olarak tanıtılır. Öğretim görevlisi, 2B uzayda çekirdeğin somut bir örneğini sağlar ve karşılık gelen iç çarpımı göstermek için onu genişletir. 3 boyutlu alan.

  • 00:40:00 Bu bölümde öğretim görevlisi, girdi uzayını, orijinal uzayda olmasalar bile sınıfların doğrusal olarak ayrılabileceği daha yüksek boyutlu bir uzaya dolaylı olarak dönüştürmek için kullanılan çekirdek yöntemlerini açıklar. Ders, bu yöntemin, temelde M olası özelliklerin tüm kombinasyonları olan yeni özellikler yarattığı keyfi olarak yüksek bir M kuvvetine nasıl genelleştirdiğini açıklar. Ancak bu, görüntüler için hesaplama açısından imkansız olacak şekilde, üstel olarak büyük bir talep alanına yol açacaktır. Bu soruna geçici bir çözüm bulmak için, M'ye kadar derecelerin tüm özelliklerini dikkate almak üzere çekirdeğe sabit bir C eklenebilir.

  • 00:45:00 Bu bölümde polinom çekirdeği kavramı ve Gauss çekirdeği anlatıldı. Polinom çekirdeği, iki vektörün iç çarpımını hesaplamak için kullanılır ve iki veri noktası arasındaki benzerliği ikinci dereceye kadar ölçebilir. Öte yandan Gauss çekirdeği, iki veri noktası arasındaki benzerliği hesaplayan bir formülle gösterilir ve makine öğreniminde kullanılan popüler bir çekirdektir. Çekirdekler, temel olarak nokta ürünü yeni bir alanda hesaplamak için bir kısayoldur ve sınıflandırma görevlerinde yararlı olan veri noktaları arasındaki benzerliğin bir ölçüsü olarak yorumlanabilir.

  • 00:50:00 Bu bölümde öğretim görevlisi, Gauss çekirdeğinin iki nokta arasındaki benzerlik ölçüsü olarak nasıl görülebileceğini açıklar; noktalar aynıysa yüksek, birbirlerinden uzaksa düşük bir değer alır. Bununla birlikte, özellik uzayı sonsuz olduğu için Gauss çekirdeğinin geçerli bir çekirdek olduğunu kanıtlamak zordur. Bunun yerine, öğretim görevlisi, çekirdeğin geçerliliğini doğrulamak için önceki dersteki kuralları, özellikle bir çekirdeğin üstelinin alınmasının başka bir geçerli çekirdekle sonuçlandığını belirten dördüncü kuralı kullanır ve Gauss çekirdeğini ifade etmek için diğer kuralları daha ayrıntılı olarak inceler. geçerli çekirdeklerin bir kombinasyonu olarak.

  • 00:55:00 Videonun bu bölümünde öğretim görevlisi, e üzeri eksi X eksi X Asal bölü 2 Sigma kareye eşit olan K (XX üssünün) geçerli bir çekirdek olduğunu göstermek için çeşitli kuralların kullanımını gösteriyor. . Öğretim görevlisi X eksi X asalını açar ve geçerli bir çekirdek olduğunu göstermek için 1, 2, 4 ve 8. kuralları kullanmadan önce terimleri farklı üstel sayılara ayırır. Kullanılan kurallar, a'yı kimlik matrisiyle değiştirmeyi ve X devrik X asal bölü Sigma karenin ve e üzeri X devrik X asal bölü Sigma karenin geçerli çekirdekler olduğunu göstermeyi içerir.

  • 01:00:00 Bu bölümde konuşmacı, çekirdeklerin devrik çarpı bir matrise ayrıştırılabilen pozitif yarı-belirli fonksiyonlar olduğunu açıklar. Ayrıca, örneğin bir polinom çekirdeği kullanmanın, tüm tek terimlileri belirli bir dereceye kadar inşa etmeyi gerektireceğini ve bunun da üstel boyutlulukla sonuçlanacağını açıklıyor. Bununla birlikte, doğrudan çekirdekle çalışarak, gereken tek şey, her bir veri noktası çifti arasındaki benzerliği hesaplamaktır, bu da onu hesaplama açısından daha verimli hale getirir. Sonsuz bir özellik uzayına sahip olan ve onu gelişigüzel fonksiyonları temsil etmede güçlü kılan Gauss çekirdeği de tartışılmaktadır. Ek olarak, konuşmacı, çekirdeklerin vektörlere göre tanımlanmasına rağmen kümeler, diziler veya grafikler gibi diğer nesne türlerine de uygulanabileceğini not eder.

  • 01:05:00 Bu bölümde öğretim görevlisi, çekirdek yöntemlerini kullanarak dizeleri ve belgeleri eşleme fikrini tartışıyor. Teknik, iki belge veya dizi arasındaki benzerliği, her iki belgede de görünen bitişik olmayan tüm alt dizilerin ağırlıklı toplamı olarak ölçen bir çekirdek tanımlamayı içerir. Ancak, tüm bu özellikleri sıralamak zaman alıcı ve kaynak yoğun olabilir, bu noktada vektörel olmayan çekirdekler devreye girer. Bu çekirdekler, yeni veya icat edilmiş kelimeler içerebilen ve her diziyi veya belgeyi, dizenin belirli bir alt diziyi içerip içermemesine karşılık gelen yeni bir özellik alanına eşleyebilen belgeleri karşılaştırırken kullanışlıdır.

  • 01:10:00 Bu bölümde konuşmacı, iki kelime arasındaki benzerliği belirlemek için kullanılan alt dize çekirdeği kavramını açıklar. Alt dizi çekirdeği, daha önemli eşleşmeler için daha düşük ve daha az önemli eşleşmeler için daha yüksek olan, alt dizinin uzunluğunu temsil eden bir güce yükseltilen bir lambda değeri alır. Çekirdek, iki kelimede bulunan çeşitli uzunluklardaki alt dizilerden oluşan özellik uzaylarında nokta çarpımlarını verimli bir şekilde hesaplayabilir. Bu çekirdekleri verimli bir şekilde hesaplamak için, makale, dinamik programlama kullanarak alt dizilerin uzunluğunu kademeli olarak artırmayı önermektedir. Bu, aksi takdirde üstel olacak olan çekirdeklerin doğrusal zaman hesaplamasına izin verir.

  • 01:15:00 Bu bölümde konuşmacı, çok daha zengin bir alanda çalışmak için destek vektör makinelerinin çekirdeklerle nasıl kullanılabileceğini tartışıyor. Konuşmacı, Reuters haber makalelerini kullanarak belge sınıflandırması yapan ve bu tekniği kullanarak sonuçları gösteren bir makaleden alıntı yapar. Yaklaşım oldukça güçlü olabilir ve bir sonraki derste daha ayrıntılı olarak tartışılacaktır.
 

CS480/680 Ders 13: Destek vektör makineleri



CS480/680 Ders 13: Destek vektör makineleri

Bu ders, sınıflandırma için kullanılan bir tür çekirdek yöntemi olarak destek vektör makinelerine (SVM'ler) bir giriş niteliğindedir. DVM'ler, düşük veri içeren problemler için hala popülerdir ve verilerin bir alt kümesiyle çalışıp geri kalanını göz ardı edebildikleri için seyrek kabul edilirler. Konuşmacı, karar sınırına en yakın veri noktaları olan destek vektörleri kavramını ve marjı en üst düzeye çıkarırken sınıfları ayırmak için doğrusal bir ayırıcı bulan DVM'lerin görsel örneğini açıklar. DVM'ler ve algılayıcılar arasındaki farklar, benzersiz bir maksimum marj doğrusal ayırıcı kullanan ve fazla uydurmaya daha az eğilimli olan DVM'ler ile tartışılmıştır. DVM'ler için optimizasyon problemi Lagrangian kullanılarak yeniden yazılabilir ve bu da kısıtlamalar olmadan eşdeğer bir problemle sonuçlanır. Lagrangian'dan elde edilen çözüm, ikili bir problem optimizasyonuna yol açan, çekirdek fonksiyonunu içeren bir ifade elde etmek için geri ikame edilebilir. Veri noktası çiftleri arasındaki benzerliği hesaplayan bir çekirdek işleviyle ikili uzayda çalışmanın faydaları da açıklanmaktadır. DVM'ler, en benzer olanları belirlemek için bir sorgulama noktası ile tüm destek vektörleri arasındaki benzerlik derecesini hesaplar ve tartışma aynı zamanda destek vektörlerinin sayısı ve noktaların sınıflandırılmasını nasıl etkilediği etrafında döner.

Bu video, belgelerin kelime sayımı vektörleri olarak temsil edildiği metin sınıflandırmasında destek vektör makineleri (SVM'ler) kavramını tartışmaktadır. DVM'ler, sınıflandırıcıyı farklı veri kümeleri için bile olası herhangi bir örnek için uygun hale getirerek en kötü durum kaybını en aza indirmede etkilidir. Araştırmacılar, doğruluğu kaybetmeden veya ölçeklenebilirlikten ödün vermeden verileri daha da yüksek boyutlu bir alana eşlemek için çift temsilli ve çekirdek eşlemeli SVM'leri kullandılar. Ders ayrıca, bir veri kümesinden ilgili belgelerin alınmasında ve kesinlik ile geri çağırmanın dengelenmesinde SVM'lerin kullanımını kapsar. Video, DVM'lerin veriler için doğrusal veya doğrusal olmayan ayırıcılar sağlama yeteneği ve çok sınıflı sınıflandırma ve doğrusal olarak ayrılamayan verilerle ilgili zorluklar hakkında bir tartışma ile sona eriyor.

  • 00:00:00 Bu bölümde konuşmacı, sınıflandırma için kullanılan bir tür çekirdek yöntemi olan destek vektör makinelerini (SVM'ler) tanıtır. Tarihsel olarak, DVM'ler, 2010'dan sonra sinir ağları devralana kadar makine öğrenimindeki en önemli ve popüler sınıflandırma tekniğiydi. Ancak, DVM'ler düşük verili problemler için hala iyi performans gösteriyor ve verilerin bir alt kümesiyle çalışabildikleri ve dinlenmek. Konuşmacı daha sonra iki veri sınıfının görsel bir örneğini ve DVM'lerin her sınıftaki en yakın noktaya en küçük mesafe olan marjı en üst düzeye çıkarırken bu sınıfları ayırmak için nasıl doğrusal bir ayırıcı bulduğunu sağlar.\

  • 00:05:00 Bu bölümde, destek vektör makinelerinde (SVM'ler) destek vektörleri kavramı açıklanmaktadır. Destek vektörleri, karar sınırına en yakın olan önemli veri noktalarıdır ve esas olarak doğrusal ayırıcının nereye gideceğini belirler. DVM'lerde en yakın veri noktalarına olan marj olarak adlandırılan mesafeyi maksimize eden son doğrusal ayırıcı, bir optimizasyon problemini çözerek elde edilir. Kenar boşluğunu en üst düzeye çıkarmanın ardındaki sezgi, gürültülü olabilecek veri noktalarının karar sınırı tarafından yanlış sınıflandırılmamasını sağlamaktır.

  • 00:10:00 Bu bölümde, daha iyi sınıflandırma yapabilmek için destek vektör makinelerinde (DVM'ler) maksimum marj kavramı açıklanmaktadır. Maksimum marj, sınıflandırmanın gürültüye karşı daha sağlam olmasını ve gelecekteki örneklere daha iyi genellenebilmesini sağlar. Bir noktanın ayırıcıya olan mesafesi, o veri noktası için ağırlık vektörü ile özellik vektörü arasındaki iç çarpım kullanılarak hesaplanır ve daha sonra maksimum marjı verecek şekilde normalleştirilir. Ayırıcıya herhangi bir noktanın uzaklığını hesaplama formülü de verilmiş ve DVM'lerde optimize edilmekte olan hedef tartışılmıştır. Maksimum kenar boşluğuna sahip benzersiz bir çizgi olduğu ve bu nedenle, kenar boşluğunda eşit olan herhangi iki çizginin maksimum kenar çizgisi olmadığı vurgulanır.

  • 00:15:00 Bu bölümde destek vektör makineleri (SVM'ler) ile algılayıcılar arasındaki farklar ele alınmaktadır. Perceptronlar doğrusal bir ayırıcı bulurlar ancak bu ayırıcı, ağırlıkların başlatılması için kullanılan başlangıç değerlerine bağlıdır. Algılayıcılar ayrıca eğitim için basit bir güncelleme kuralı kullanır ve doğrusal ayırıcı ile veri noktaları arasındaki mesafeyi ölçmek için etiket çevirmeye güvenir. Buna karşılık, DVM'ler, başlatmaya daha az bağımlı olan maksimum kenar boşluğu doğrusal ayırıcısını bulmak için ikinci dereceden bir optimizasyon problemi kullanır. DVM'ler ayrıca yumuşak marj sınıflandırmasına izin vermek ve doğrusal olmayan sınıflandırma için bir çekirdek numarasına sahip olmak için bolluk kavramını sunar. Genel olarak, DVM'ler, algılayıcılara kıyasla daha yüksek sınıflandırma doğruluğuna sahiptir.

  • 00:20:00 Bu bölümde öğretim görevlisi, standart algılayıcıları destek vektör makineleriyle (SVM'ler) karşılaştırır. İlki sağlamlıktan yoksundur ve hızlı bir şekilde üzerine sığabilirken, ikincisi benzersiz bir maks. marj doğrusal ayırıcı kullanır ve fazla uydurmaya daha az eğilimlidir. DVM'ler, tüm veri noktalarının doğrusal ayırıcıdan en az bir birim uzaklıkta olması kısıtlaması altında, ağırlıkları en aza indirmek için dışbükey ikinci dereceden optimizasyon yoluyla optimize edilmiştir. Bu optimizasyon karmaşık görünse de, mevcut birçok optimizasyon paketi ile hesaplamalı olarak gerçekleştirmek aslında oldukça kolaydır.

  • 00:25:00 Bu bölümde konuşmacı, noktalar arasındaki mesafenin en az bir olarak sabitlendiği ve W ölçeğinin en aza indirildiği destek vektör makineleri için daha uygun bir optimizasyon problemi sunuyor. Konuşmacı, bu problemin önceki optimizasyon problemine eşdeğer olduğunu gösterir. Bu yeni formülasyon, yeni özellik uzayındaki hesaplamaların, Gauss süreçlerinde yapılana benzer şekilde, bir çekirdek işleviyle değiştirilebilen nokta çarpımları cinsinden yapılabileceği ikili bir temsile izin verir.

  • 00:30:00 Bu bölümde konuşmacı, destek vektör makineleri için optimizasyon probleminin Lagrangian kullanılarak nasıl yeniden yazılabileceğini ve kısıtlamalar olmaksızın eşdeğer bir problemle sonuçlanacağını açıklıyor. Bu yeni hedef, ihlal edilen her kısıtlama için, zorunlu olarak pozitif olan ve bir ihlal meydana geldiğinde sıfırdan büyük olan yeni bir a değişkenine bağlı olan bir ceza süresi içerir. Bu değişken a'yı Lagrangian'ın minimumunu maksimize edecek şekilde ayarlayarak, yeni problem matematiksel olarak kısıtlamalarla orijinal probleme eşdeğerdir. Bu teknik, optimizasyon sürecini basitleştirmeye ve daha verimli hale getirmeye yardımcı olur.

  • 00:35:00 Bu bölümde öğretim görevlisi, destek vektör makineleri için optimizasyon problemlerinde ceza terimlerinin ve kısıtlamaların kullanımını tartışır. Noktalar arasındaki mesafeyi sınırlayan kısıtlamanın, bir katsayı seçilerek optimize edilen bir ceza terimi ile değiştirilebileceğini açıklarlar. Ancak bu optimizasyon problemi, çözülmesi kolay olmayan bir maksimum problemi ile sonuçlanır. Bunu çözmek için öğretim görevlisi, iç minimizasyon probleminin kapalı formda nasıl hesaplanacağını açıklar ve W'nin yeni özellik uzayındaki veri noktalarının doğrusal bir kombinasyonu olduğu bir çözüme ulaşır. Destek vektörleri olan sıfırdan farklı katsayılar W'nin değerini belirler.

  • 00:40:00 Bu bölümde öğretim görevlisi, Lagrangian'dan elde edilen çözümün çekirdek işlevini içeren bir ifade elde etmek için nasıl geri ikame edilebileceğini açıklar. Bu çekirdek işlevi, her nokta çifti arasında çekirdek işlevini doğrudan hesaplayabildiğimiz için, boyutsallık konusunda endişelenmeden yüksek boyutlu bir uzayda çalışmamıza izin verir. Bu, katsayıları elde etmek için farklı bir değişken kümesini optimize ettiğimiz ikili bir problem optimizasyonuna yol açar. Bu katsayıların çoğu sıfır olacak, bu da optimizasyon problemini seyrek hale getirecek ve hesaplama karmaşıklığını azaltacaktır. Katsayıları elde ettikten sonra, farklı sınıflara karşılık gelen pozitif veya negatif bir sonuçla, özelliklerin ve katsayıların iç çarpımını alarak veri noktalarını sınıflandırmak için bunları kullanabiliriz.

  • 00:45:00 Bu bölümde, eğitmen destek vektör makineleri (SVM'ler) kavramını doğrusal olarak ayrılabilir bir durumda açıklar. İki boyutlu bir uzayda bir doğrusal ayırıcının, normal bir vektörün nokta çarpımı ve giriş özellikleri ile temsil edilebileceğini gösterirler. Doğrusal ayırıcı üzerindeki noktalar, nokta çarpımının 0'a eşit olmasına karşılık gelir. Ardından, ağırlıkların veri noktası çiftleri arasındaki benzerliği hesaplayan bir çekirdek işleviyle değiştirilmesini içeren ikili uzayda çalışmanın faydalarını açıklarlar. Ortaya çıkan toplam, yalnızca destek vektörlerinin sayısına bağlıdır ve sorgu noktası ile veri kümesindeki her nokta arasındaki çekirdeklerin doğrusal kombinasyonunun sinüsüne dayalı olarak sınıflandırmaya izin verir.

  • 00:50:00 Bu bölümde öğretim görevlisi, DVM algoritmasının en benzer olanları belirlemek için bir sorgulama noktası ile tüm destek vektörleri arasındaki benzerlik derecesini hesapladığını açıklar. Bu en benzer destek vektörlerinin sınıfı daha sonra, sorgu noktasının tahmin edilen sınıfı için "oy" verecektir. Bu, çekirdek işlevi tarafından dikte edilen ağırlıklarla, ağırlıklı en yakın komşu yaklaşımına benzer. Ancak destek vektörlerinin sayısı her sınıf için eşit olmayabilir ve mekanın boyutuna göre değişebilir.

  • 00:55:00 Bu bölümde tartışma, destek vektörlerinin sayısı ve bunun noktaların sınıflandırılmasını nasıl etkilediği etrafında döner. Bir sınıfta daha fazla destek vektörü olmasına rağmen, destek vektörlerinin sayısı o sınıftaki noktaları sınıflandırma eğilimini etkilemez. Bunun nedeni, her destek vektörünün, bir noktanın destek vektörü ile aynı sınıfa ait olup olmadığını gösteren pozitif veya negatif toplama katkıda bulunmasıdır. Ek olarak, destek vektör makinelerinin iyi genelleştirdiği ve aşırı uydurmaya daha az eğilimli olduğu bilinmektedir, çünkü marjı en üst düzeye çıkarmak, herhangi bir temel girdi dağılımı için en kötü durum kaybındaki bir üst sınırı en aza indirmeye eşdeğerdir.

  • 01:00:00 Dersin bu bölümünde, konuşmacı destek vektör makineleri kavramını ve bunların metin sınıflandırmasında nasıl çalıştığını açıklar. Destek vektör makineleri, en kötü durum kaybını en aza indirmede ve sınıflandırıcının farklı veri kümelerine karşılık gelebilecek olası herhangi bir örneğe göre iyi olmasını sağlamada etkilidir. Ders, sınıflandırıcıların zaten sınıflandırılmış olan haber makalelerinden oluşan bir arşivle eğitildiği metin sınıflandırmasına ilişkin bir örnek olay incelemesi sunar. Popüler bir yaklaşım, kelimelerin sıralamasının göz ardı edildiği ve sözlüğün uzunluğu kadar bir vektörün yaratıldığı vektör uzayı modelini kullanarak her belgeyi bir kelime sayısı vektörüne dönüştürmekti. Bu yaklaşım, makalelerin kategorizasyonunu otomatikleştirmeye ve ölçeklenebilirliği geliştirmeye yardımcı oldu.

  • 01:05:00 Dersin bu bölümünde profesör, belgelerin, her bir özelliğin belgenin sözlüğündeki bir kelimeye karşılık geldiği yüksek boyutlu vektörler olarak nasıl temsil edilebileceğini açıklıyor. Özellik çıkarma yoluyla bu vektörlerin boyutlarını azaltmaya çalışmak doğal olsa da, çoğu kelime bir düzeyde alaka düzeyi taşıdığından, bu bilgi kaybına yol açabilir. Bu sorunu ele almak için araştırmacılar, verileri daha da yüksek boyutlu bir uzaya eşlemek için çift temsilli ve çekirdek eşlemeli destek vektör makinelerini kullandılar. Bu yaklaşım, boyutların sayısıyla iyi bir şekilde ölçeklenir, bu da onu yüksek boyutlu verileri analiz etmek için yararlı bir araç haline getirir.

  • 01:10:00 Bu bölümde konuşmacı, bir veri kümesinden belge almada destek vektör makinelerinin kullanımını tartışıyor. Kesinlik ve geri çağırma, sırasıyla alınan ilgili belgelerin yüzdesini ve veri kümesindeki ilgili belgelerin yüzdesini tahmin etmek için kullanılan ölçütlerdir. Amaç kesinlik ve geri çağırmayı dengelemektir ve destek vektör makinelerinin bu amaç için en iyi algoritma olduğu görülmüştür. Tüm özellikleri koruyabildiler ve doğruluğu kaybetmeden veya ölçeklenebilirlikten ödün vermeden daha yüksek boyutlu bir alana eşleyebildiler. Daha yüksek boyutlu bir uzayda gereken destek vektörlerinin sayısı artabilir, ancak o uzayda çalışmanın ek bir maliyeti yoktur.

  • 01:15:00 Bu bölümde, destek vektör makinelerini (SVM'ler) ve verilerimiz için bize nasıl doğrusal veya doğrusal olmayan bir ayırıcı verebileceklerini öğreniyoruz. DVM'ler, iyi bir genelleme için bir marjı en üst düzeye çıkarmak üzere benzersiz bir hiper düzlem kullanır ve küresel optimalliği sağlamak için dışbükey ikinci dereceden optimizasyon kullanabiliriz. Bununla birlikte, ele alınması gereken iki önemli soru vardır: çok sınıflı sınıflandırma yapabilir miyiz ve verilerimiz doğrusal olarak ayrılamazsa ne yaparız? Bir sonraki slayt grubu bu sorunları ele alacaktır.
 

CS480/680 Ders 14: Destek vektör makineleri (devam)



CS480/680 Ders 14: Destek vektör makineleri (devam)

Dersin bu bölümü, destek vektör makinelerini (SVM'ler) kullanırken gevşek değişkenler sunarak ve yumuşak bir kenar boşluğu göz önünde bulundurarak doğrusal olarak ayrılamayan verileri ve çakışan sınıfları ele almaya odaklanmıştır. Konuşmacı, gevşek değişkenlerin kenar boşluğu içindeki noktaların bir sınıflandırma hatası vermeden sınıflandırılmasına nasıl izin verdiğini açıklar. Hata minimizasyonu ve model karmaşıklığı arasındaki değiş tokuşu ayarlayan ağırlık C tarafından kontrol edilen gevşek değişkenlerin kullanımını düzenlemek için optimizasyon problemine bir ceza terimi eklenir. Konuşmacı ayrıca, birden çok sınıfa sahip SVM'ler için fiili yaklaşım olan, hepsine karşı bir, ikili karşılaştırma ve sürekli sıralama dahil olmak üzere çok sınıflı sınıflandırma problemleri için DVM'lerin kullanımına yönelik farklı yaklaşımları tartışır. Ek olarak, her bir sınıf çifti için ağırlık vektörlerinin farkıyla tanımlanan doğrusal ayırıcı etrafında bir tampon içeren çok sınıflı marj kavramı tanıtılır.

  • 00:00:00 Bu bölümde öğretim görevlisi, destek vektör makinelerini (SVM'ler) kullanırken doğrusal olarak ayrılamayan veriler ve çakışan sınıflarla nasıl başa çıkılacağını tartışır. Çözüm, gevşek değişkenleri tanıtmak ve tüm noktaların ayırıcıdan en az bir birim uzakta olması gerektiği varsayımını gevşeten yumuşak kenar boşluğu olarak bilinen şeyi dikkate almaktır. Gevşek değişkenler, marjın birden az olmasına izin verir, böylece marj içindeki noktalar bile bir sınıflandırma hatası vermeden sınıflandırılabilir.

  • 00:05:00 Bu bölümde, esnek değişkenler tanıtılarak kenar boşluğu içindeki yanlış sınıflandırılmış noktalara ve noktalara izin vermenin bir yolu olarak yumuşak kenar boşluğu kavramı tanıtılmaktadır. Gevşek değişkenlerin kullanımını düzenlemek ve gevşek değişken cezasının en aza indirilmesini sağlamak için optimizasyon problemine bir ceza terimi de eklenir. Bu, hata minimizasyonu ve model karmaşıklığı arasındaki dengeyi de kontrol eden C ağırlığı tarafından kontrol edilir. Gevşek değişkenlerin toplamı, genellikle yanlış sınıflandırma sayısının bir üst sınırıdır. C ağırlığı, hata minimizasyonu ile model karmaşıklığı arasındaki dengeyi ayarlayan bir düzenlileştirme katsayısı olarak düşünülebilir ve C sonsuza gittiğinde, orijinal sabit marj sınıflandırıcısı geri kazanılır.

  • 00:10:00 Bu bölümde, konuşmacı destek vektör makinelerini ve yanlış sınıflandırmaların ve aykırı değerlerin nasıl ele alınacağını tartışmaya devam ediyor. Yumuşak kenar boşlukları, küçük yanlış sınıflandırmaları kaldırabilir, ancak yine de aykırı değerlere karşı hassastır. Destek vektörleri, eşitliğe sahip aktif kısıtlamalara karşılık gelirken eşitsizliği olanlar, mesafe zaten birden büyükse aktif değildir, yani tüm gevşek değişkenler sıfır olacaktır. Konuşmacı ayrıca, destek vektör makinelerinin birden çok sınıfla çalışacak şekilde nasıl genişletileceğine de değiniyor; burada tarihsel olarak üç yaklaşım ele alındı; bunlardan biri "herkese karşı bir" yaklaşımıydı; burada her bir destek vektör makinesi, bir sınıf ile diğer tüm sınıflar arasında ayrım yapacaktı.

  • 00:15:00 Dersin bu bölümünde, konuşmacı birden çok sınıfa sahip verileri sınıflandırmak için destek vektör makinelerini kullanmaya yönelik farklı yaklaşımları açıklıyor. İlk yaklaşım, herkese karşı, her sınıf için diğerlerine karşı bir destek vektör makinesi eğitmeyi içerir, ancak bu, sınıflandırmada çelişkilere yol açabilir. İkinci yaklaşım olan ikili karşılaştırma, her sınıf çifti için hesaplama açısından pahalı olabilecek eğitim destek vektör makineleri gerektirir. Üçüncü yaklaşım olan sürekli sıralama, tek bir destek vektör makinesini bu değerlere dayalı olarak sınıfları sıralamak için sürekli bir değer döndürmesi için eğitir. Konuşmacı bu yaklaşımları örnekler kullanarak açıklar ve hesaplama maliyeti nedeniyle ikili karşılaştırmanın ideal olmadığı sonucuna varır ve birden çok sınıfa sahip destek vektör makinelerini kullanmak için fiili yaklaşım olarak bire karşı-herkese en az elverişli ve sürekli sıralamayı bırakır.

  • 00:20:00 Bu bölümde öğretim görevlisi, çok sınıflı sınıflandırma problemleri için destek vektör makinelerini kullanmaya yönelik farklı yaklaşımları tartışır. Farklı sınıflar arasında ayrım yapmak için birden fazla doğrusal ayırıcı kullanmanın nasıl belirsiz noktalara yol açtığını açıklar ve alternatif bir yaklaşım olan sürekli sıralamayı tanımlar. Bu yaklaşımın arkasındaki fikir, her sınıf için ayrı ağırlık vektörleri kullanmak ve girdi verilerinin nokta çarpımlarının büyüklüğünü her sınıfın ağırlık vektörüyle karşılaştırmak ve en büyük nokta çarpımı olan sınıfı seçmektir. Bu yaklaşım, farklı sınıfların nokta çarpımlarını karşılaştırmak için marj kavramını genelleştirir ve doğru sınıfın, tüm yanlış sınıflardan en az bir kat daha büyük bir iç çarpıma sahip olmasını sağlar.

  • 00:25:00 Dersin bu bölümünde sunum yapan kişi, Destek Vektör Makinelerinde (SVM'ler) çok sınıflı kenar boşluğu kavramını açıklar. Çoklu sınıf marjı, her bir sınıf çifti için ağırlık vektörlerinin farkıyla tanımlanan doğrusal ayırıcı etrafında bir tampona sahip olmaya karşılık gelir. Optimizasyon sorunu, yalnızca kısıtlamaların değiştirilmesiyle ikili DVM'lerinkiyle aynı kalır. Örtüşen sınıflar ve birden çok sınıfla, yumuşak bir marjla çok sınıflı sınıflandırmayı ele almak için gevşek değişkenler ve bir ceza terimi getirilebilir. Çok sınıflı SVM artık birden çok sınıf ve çakışan sınıflarla çalışan genel bir formülasyondur.
 

CS480/680 Ders 15: Derin sinir ağları



CS480/680 Ders 15: Derin sinir ağları

Bu video, derin sinir ağları kavramları, kaybolan gradyan problemi ve görüntü tanıma görevlerinde derin sinir ağlarının evrimi dahil olmak üzere derin öğrenmenin temellerini kapsar. Öğretim görevlisi, derin sinir ağlarının işlevleri daha özlü bir şekilde temsil etmek için nasıl kullanılabileceğini ve ağ derinleştikçe giderek daha yüksek seviyeli hale gelen özellikleri nasıl hesapladıklarını açıklar. Düzeltilmiş doğrusal birimlerin (ReLU) kullanımı ve toplu normalleştirme dahil olmak üzere, kaybolan gradyan sorununa yönelik çözümler ele alınmaktadır. Ders aynı zamanda maksimum çıkış birimlerini ve çoklu lineer parçalara izin veren ReLU'ların bir genellemesi olarak avantajlarını da kapsar.

Derin sinir ağları üzerine olan ders, etkili derin öğrenme için çözüm gerektiren iki sorunu tartışıyor: çok katmanlı ağ ifadesi nedeniyle fazla uydurma sorunu ve karmaşık ağları eğitmek için yüksek hesaplama gücü gereksinimi. Öğretim görevlisi, hesaplama sırasında paralel hesaplamanın yanı sıra eğitim sırasında düzenlileştirme ve bırakma gibi çözümler önerir. Ders ayrıca, girdiyi ve gizli birimlerin büyüklüklerini ölçeklendirerek test sırasında bırakmanın nasıl kullanılabileceğini ayrıntılarıyla açıklar. Son olarak, konuşma tanıma, görüntü tanıma ve makine çevirisi alanlarında derin sinir ağlarının bazı çığır açan uygulamalarını tanıtarak ders sonlandırılır.

  • 00:00:00 Bu bölümde, derin öğrenmenin temellerini, özellikle derin sinir ağının ne olduğunu ve normal sinir ağından nasıl farklı olduğunu öğreniyoruz. Birçok gizli katmana sahip sinir ağları kavramı ilk kez 1980'lerde önerildiğinden, "derin öğrenme" teriminin daha çok pazarlama amaçlı kullanıldığını öğreniyoruz. Bununla birlikte, derin sinir ağlarını kullanmanın avantajı, verileri iyi bir şekilde sığdırmalarına izin vererek, oldukça anlamlı olma eğiliminde olmalarıdır. Buradaki zorluk, onları etkili bir şekilde eğitmekte yatmaktadır ve "büyük ve kaybolmakta olan sorun" burada devreye girmektedir.

  • 00:05:00 Bu bölümde öğretim görevlisi, büyük sinir ağlarını eğitme sorunlarını ve çok sayıda ağırlık ve parametre nedeniyle fazla uydurma sorununu tartışıyor. Araştırmacılar, yeterli sayıda gizli birim ile herhangi bir işleve yaklaşabildikleri için tek gizli katmanlı sinir ağlarına yöneldiler. Bununla birlikte, çok sayıda gizli katmanlı sinir ağları, parite fonksiyonunun bir örneğinde gösterildiği gibi, ağın toplam boyutunu azaltma avantajına sahiptir ve bu, üstel olarak azaltılabilir. Öğretim görevlisi, eşlik işlevini kodlayan bir sinir ağı mimarisini gösterir; burada gizli katman, mantıksal "ve" işlevini kodlayan bir eşikleme algılayıcısı iken, çıktı birimi bir "veya" mantıksal işlevidir.

  • 00:10:00 Bu bölümde öğretim görevlisi, açılan giriş sayısının tek mi yoksa çift mi olduğunu tespit etmek için bir sinir ağının nasıl kurulabileceğini açıklar. Tamamen bağlı ağdaki her gizli birim, girdilerin tek olduğu ve çıktı biriminin gizli birimlerin OR'si olduğu belirli bir modeli kontrol etmekten sorumludur. Tek olan 4 girişli 8 model vardır ve her gizli birim bu modellerden birinden sorumludur. Bununla birlikte, öğretim görevlisi, genel olarak, n girdiye sahip olmanın, katlanarak çok sayıda gizli birim ile sonuçlanacağını, bu yaklaşımın ölçeklenemez hale geleceğini ve alternatif bir yaklaşım önereceğini belirtiyor.

  • 00:15:00 Bu bölümde öğretim görevlisi, birden çok katmanı içeren ve işlevleri daha kısa ve öz bir şekilde temsil etmek için kullanılabilen derin sinir ağları kavramından bahsediyor. Ders, yalnızca bir gizli katmana sahip üstel olarak daha büyük bir ağ veya birden çok gizli katmana sahip doğrusal boyutta bir ağ tarafından temsil edilebilen bir işlev örneği, eşlik işlevi sağlar. Öğretim görevlisi daha sonra, girişlerin (piksel yoğunlukları gibi) ağa beslendiği ve çıktıda bir sınıflandırma oluşturmak için ara değerlerin hesaplandığı yüz tanıma gibi bilgisayarla görme görevleri için derin sinir ağlarının pratikte nasıl kullanılabileceğini tartışır.

  • 00:20:00 Bu bölümde video, derin nöral ağların, ağın başında basit olan ve daha derine inildikçe kademeli olarak daha üst düzey hale gelen özellikleri nasıl hesapladığını tartışıyor. Bilgisayar görüşünde, derin öğrenmeden önce uygulayıcılar, görevleri için özellikleri manuel olarak tasarlardı. Ancak derin öğrenme, özelliklerin ağın bir parçası olarak öğrenilmesine izin vererek ham verilerle çalışmayı mümkün kılar. Bu atılımın öncülüğünü 2006 yılında ilk etkili derin sinir ağını tasarlayan Geoff Hinton yaptı.

  • 00:25:00 Bu bölümde, derin sinir ağlarının tarihi ve bunların konuşma tanıma ve görüntü sınıflandırmasındaki buluşları tartışılıyor. İlk atılım, 2009 yılında Geoff Hinton'un sınırlı Boltzmann makinelerini kullanarak derin sinir ağlarını katman katman eğitmek için bir yol geliştirmesiyle geldi ve konuşma tanıma kıyaslamalarında önemli bir gelişme sağladı. Tekrarlayan sinir ağları daha sonra 2013 civarında kısıtlı Boltzmann makinelerinin yerini alarak daha da iyi sonuçlara yol açtı. İkinci atılım, 2010 yılında ImageNet Büyük Ölçekli Görsel Tanıma Yarışması önerildiğinde görüntü sınıflandırmasında geldi. Yıllarca süren araştırmalara rağmen, bilgisayarlar görüntüleri 1000 kategori arasında doğru bir şekilde sınıflandıramadı. Ancak, 2012 yılına kadar derin öğrenme algoritmaları hata oranını %26'dan %15'e düşürdü ve 2016 yılına kadar Microsoft, insan performansını geride bırakarak %3,1'lik bir hata oranına ulaştı.

  • 00:30:00 Bu bölümde konuşmacı, özellikle görüntü tanıma görevlerinde derin sinir ağlarının tarihini ve gelişimini tartışıyor. Görüntü sınıflandırma görevleri için hata oranı, 2012 yılında Jeff Hinton'ın grubu tarafından AlexNet adlı bir evrişimli sinir ağının tanıtılmasıyla önemli ölçüde azaltıldı. Bu, sinir ağlarının dikkate değer sonuçlar elde edebileceği anlayışına yol açtı ve hata oranını daha da iyileştirmek için daha karmaşık mimariler tasarlandı. Zamanla, ağların derinliği arttı ve daha derin ağlara doğru açık bir eğilim vardı. Görüntü tanıma görevleri için derin sinir ağlarını uygulama ve kullanma yeteneği, daha iyi eğitim teknikleri ve aşırı uydurmayı önleme dahil olmak üzere çeşitli yeniliklerin bir sonucuydu.

  • 00:35:00 Bu bölümde, önceki katmanlardaki kenarlarla ilişkili ağırlıkların kısmi türevleri büyüklük olarak daha küçük olduğunda ortaya çıkan ve ağ derinleştikçe ihmal edilebilir değerlere neden olan derin sinir ağlarındaki yok olan gradyanlar sorunu ele alınmaktadır. Bu, araştırmacıların çok katmanlı sinir ağlarını eğitmelerini zorlaştırıyordu çünkü alt katmanlar eğitilmiyordu ve bu nedenle ağın tahminlerini iyileştirmek için anlamlı çıktılar sağlamıyordu. Bunun nedeni kısmen sigmoid işlevi veya gradyanı her zaman 1'den az olan hiperbolik tanjant işlevi gibi kullanılan aktivasyon işlevlerinden kaynaklanıyordu, bu da ağırlıkları optimize etmeyi ve ilk hesaplamayı ayarlamayı zorlaştırıyordu.

  • 00:40:00 Bu bölümde öğretim görevlisi, derin bir sinir ağında yok olan gradyan problemini açıklıyor. Bir sigmoid aktivasyon birimi ile bir oyuncak sinir ağı yaratır ve gradyanın, faktörlerin ürünü olan kısmi türevlerden nasıl oluştuğunu gösterir; her faktör ya sigmoidin kısmi türevi ya da bir ağırlıktır. Sigmoidin kısmi türevleri her zaman birden küçük olduğundan ve ağırlıklar birden küçük büyüklüklere sıfırlandığından, bu çarpanları çarpmak kısmi türevleri gitgide küçültür. Bu, katmanlara geri döndüğümüzde ağırlıkların giderek daha az etkiye sahip olmasıyla sonuçlanır ve bu da gradyan yok olma problemine yol açar. Öğretim görevlisi daha sonra ön eğitim, farklı aktivasyon fonksiyonları, atlama bağlantıları ve toplu normalleştirme gibi bazı yaygın çözümleri sunar ve olası çözümler olarak doğrultulmuş doğrusal birimlere ve maks. çıkış birimlerine odaklanır.

  • 00:45:00 Bu bölümde öğretim görevlisi sorunlu aktivasyon fonksiyonları nedeniyle ortaya çıkan yok olan gradyan probleminin çözümlerini tartışır. Olası bir çözüm, girdilerin veya sıfırın doğrusal bir kombinasyonunu döndüren doğrultulmuş doğrusal birim (ReLU) gibi sıfırdan büyük türevleri olan aktivasyon fonksiyonlarını kullanmaktır. Başka bir çözüm, verilerin gradyanın bire yakın olma eğiliminde olduğu bir aralıkta etkili bir şekilde olmasını sağlayan toplu normalleştirmedir. Bu çözümler, gradyanı sinir ağı boyunca yayan, yeterli yolun bir gradyanına sahip olduğu sürece, yok olan gradyanlara sahip bazı yollara izin verir.

  • 00:50:00 Bu bölümde, eğitmen doğrultulmuş doğrusal birimleri (ReLU'lar) ve bunların avantajlarını ve dezavantajlarını tartışıyor. ReLU'lar başlangıçta eleştirildi çünkü sıfırda bir süreksizlikleri var, bu da gradyan inişini kullanan hesaplama gradyanlarında sorunlara neden oluyor. Ancak sayısal değerler nadiren tam olarak sıfır olduğu için bu konu pratikte önemli değildir. Buna karşılık, ReLU'lara yaklaşan yumuşak kayıp fonksiyonu pürüzsüz ve süreklidir, ancak gradyanı her yerde birden azdır. Bu nedenle, ReLU'ları pürüzsüz hale getirmek, yok olan gradyan sorununu ortadan kaldırmaya yardımcı olmaz. ReLU'ların göz ardı edilebilecek bir kısmı olmasına rağmen, doğrusal kısımda her birimin kendisi için bir şeyler üreteceği girdiler olduğu için yine de kullanışlıdırlar.

  • 00:55:00 Bu bölümde, konuşmacı doğrultulmuş lineer birimlerin (ReLU'lar) avantajlarını tartışıyor ve maksimum çıkış birimleri kavramını tanıtıyor. ReLU'ların popüler hale geldiğini çünkü gradyanın kaybolmadığı durumlarda daha hızlı eğitilebileceklerini ve daha az gradyan inişi gerektireceğini açıklıyor. Konuşmacı daha sonra, yalnızca sıfır parça ve doğrusal bölüm yerine birden çok doğrusal parçaya izin veren ReLU'ların bir genellemesi olarak maksimum çıkış birimlerini tanıtır ve bunların farklı doğrusal kombinasyonların maksimumunu alarak nasıl yapılandırıldıklarını gösterir. Bir maksimum çıkış biriminin şeklinin, her biri bir çizgiye karşılık gelen çoklu doğrusal kombinasyonlara sahip olduğu ve bir maksimum birim ile kimlik birimlerinin gizli bir katmanının bir toplamı haline geldiği gösterilmiştir.

  • 01:00:00 Dersin bu bölümünde profesör, derin öğrenmenin etkili olabilmesi için çözülmesi gereken iki sorunu tartışıyor. İlk sorun, çok katmanlı ağların yüksek ifade gücü nedeniyle ortaya çıkan fazla uydurma sorunudur. Düzenleme, ağırlıkları küçük ve kısıtlı tutmak için ağırlıkların büyüklüğünü en aza indirmeyi içeren bir çözümdür. Başka bir çözüm, ağı sağlam olmaya zorlamak ve fazla uydurmayı önlemek için bazı ağ birimlerinin eğitim sırasında rastgele bırakıldığı bırakmadır. İkinci sorun, GPU'lar veya dağıtılmış bilgi işlem kullanılarak paralel hesaplama yoluyla elde edilebilen karmaşık ağları eğitmek için yüksek hesaplama gücüne duyulan ihtiyaçtır.

  • 01:05:00 Bu bölümde konuşmacı, derin sinir ağları için test süresi boyunca bırakmanın kullanımını tartışıyor. Eğitim sırasında bırakma, fazla uydurmayı önlemek için girdi veya gizli birimlerin bir kısmının ağdan rastgele bırakıldığı bir tekniktir. Ancak test sırasında tüm ağ kullanılır ve bu da lineer kombinasyonların büyüklüklerinin daha yüksek olmasına neden olabilir. Bu sorunu çözmek için, giriş birimleri 1 eksi düşürme olasılığı ile çarpılarak yeniden ölçeklendirilir ve aynısı gizli birimler için yapılır. Konuşmacı, üç girişi, dört gizli birimi ve bir çıkışı olan tamamen bağlı bir ağ örneği sağlar ve eğitim sırasında girdi ve gizli birimlerin bir kısmını bırakmak için bir rasgele sayı üretecinin kullanımını açıklar.

  • 01:10:00 Bu bölümde eğitmen, bir sinir ağında tüm girdi veya gizli birimler kaldırılırsa ne olacağını ve bırakma düzenlemesinin bu sorunu nasıl çözebileceğini tartışır. Tüm birimlerin kaldırılması olası olmasa da kaldırılırlarsa doğruluğu etkileyebilir. Bırakma düzenlemesi, fazla uydurmanın önlenmesine yardımcı olur ve ağı, bırakılan özelliklere göre sağlam olmaya zorlar. Bırakma düzenlileştirme algoritması, bazı birimlerin bırakıldığı ve kalan birimlerin büyüklüklerini 1 eksi düşme olasılığının çarpıldığı, parçalanmış bir ağ oluşturmak için Bernoulli değişkenlerini örneklemeyi içerir. Eğitim sırasında, gradyan, parçalanmış ağa göre hesaplanır.

  • 01:15:00 Bu bölümde sunum yapan kişi, ağı sağlam kılmak ve aşırı uyumu önlemek için derin sinir ağlarında kullanılan bırakma tekniğini tartışıyor. Bırakma, her yinelemenin, belirli düğümleri bırakarak, öğrenilenleri kodlayabilecek bir hipotez veya işlevle sonuçlanan, bozulmuş bir ağı hesapladığı, yaklaşık ve örnek bir öğrenme şeklidir. Tüm ağ, hesaplanmakta olanın ayarlanmasıyla birlikte, tüm sakatlanmış ağların ortalaması olarak düşünülebilir. Bu yöntem, Bayesci öğrenmeye benzer ve derin bir Gauss sürecine göre bazı hesaplamalara yaklaştığı kanıtlanmıştır. Bu, okulu bırakmanın pratikte neden işe yarayabileceğini haklı çıkarmaya yardımcı olur. Sunumu yapan kişi konuşma tanıma, görüntü tanıma ve makine çevirisi dahil olmak üzere derin sinir ağlarının çığır açtığı bazı uygulamaları tanıtarak bitirir.

  • 01:20:00 Bu bölümde konuşmacı, Gauss'ların bir karışımını kullanan gizli bir Markov modeli olan, konuşma tanıma için tarihsel olarak en son teknolojiyi açıklamaktadır. Bununla birlikte, 2009'da Geoff Hinton ve araştırma grubu, Gauss karışımını, yığılmış kısıtlı Boltzmann makinesi kullanan derin bir sinir ağıyla değiştirmeyi önerdi. Olasılığa dayalı bir model ile derin bir sinir ağı arasındaki bu hibrit model, çeşitli kıyaslamalarda gözlemlenen hata oranında önemli bir azalmaya yol açtı. Bu atılım nedeniyle, Google ve Microsoft dahil olmak üzere birçok şirket derin sinir ağlarından yararlanmaya başladı ve sonuçta derin öğrenme alanında bir rönesansa yol açtı.

  • 01:25:00 Bu bölümde öğretim görevlisi, 2012'de gerçekleşen görüntü tanıma atılımından başlayarak sinir ağlarındaki atılımları tartışıyor. Atılım, piksel yoğunluklarının 2B dizilerini girdi olarak alan evrişimli sinir ağlarının geliştirilmesinden kaynaklanıyordu. özellikleri farklı ayrıntı düzeylerinde hesaplayan evrişim katmanlarına ve tamamen bağlantılı yoğun katmanlara sahiptir. Veri büyütme, döndürme ve diğer faktörlere karşı değişmez hale getirerek tanımayı iyileştirmek için de kullanıldı. Sonuç, bir yarışmaya en iyi giriş için hata oranında %26,2'den %16,4'e önemli bir düşüş oldu. %16 hala nispeten yüksek olmasına rağmen, görüntüleri binlerce sınıf arasında doğru bir şekilde sınıflandırmak zordur ve en üstteki yerine ilk beş tahmin doğruluğu ölçülmüştür.

  • 01:30:00 Bu bölümde öğretim görevlisi, örnek olarak bir kudretin görüntüsünü kullanarak derin bir sinir ağı algoritmasının performansını tartışıyor. Algoritma, beş potansiyel sınıf döndürür ve doğru sınıf olma olasılığını belirlemek için her birine bir güven puanı atar. Ağ genellikle konteyner gemisi ve motorlu scooter gibi nesneleri yüksek bir güvenle doğru bir şekilde tanıyarak iyi performans gösterir, ancak bir nesneyi yanlış sınıflandırdığı durumlar da vardır.
 

CS480/680 Ders 16: Evrişimli sinir ağları



CS480/680 Ders 16: Evrişimli sinir ağları

Bu video, evrişimli sinir ağlarını (CNN'ler) tanıtır ve temel özelliklere sahip belirli bir sinir ağı türü olarak görüntü işlemedeki önemini açıklar. Öğretim görevlisi, kenar algılama gibi görüntü işleme için evrişimin nasıl kullanılabileceğini ve CNN'lerin benzer şekilde özellikleri nasıl algılayabildiğini tartışır. Evrişimli katman kavramı ve parametreleri, CNN'lerin paylaşılan ağırlıklarla geri yayılım ve gradyan inişini kullanarak eğitim süreciyle birlikte açıklanır. Öğretim görevlisi ayrıca, daha küçük filtreler kullanmak ve her evrişimden sonra doğrusal olmayan aktivasyon gibi etkili CNN mimarileri oluşturmak için tasarım ilkeleri sağlar.

Evrişimli Sinir Ağları (CNN'ler) hakkındaki bu derste, konuşmacı, derin sinir ağlarının karşılaştığı yok olan gradyan sorununa bir çözüm olarak artık bağlantılar kavramını tartışıyor. Bu atlama bağlantıları, ağ yollarının kısaltılmasına ve gereksiz katmanların göz ardı edilmesine izin verirken, sıfıra yakın çıktılar üretmekten kaçınmak için gerekirse bunları kullanmaya devam edebilir. Kaybolan gradyan sorununu azaltmak için toplu normalleştirme tekniklerinin kullanımı da tanıtılmıştır. Ayrıca konuşmacı, CNN'lerin video dizilerinde olduğu gibi ikiden fazla boyutlu ardışık verilere ve tensörlere uygulanabileceğini ve 3D CNN'lerin de belirli uygulamalar için bir olasılık olduğunu belirtiyor. TensorFlow çerçevesinin, çok boyutlu dizilerle hesaplama için tasarlandığı vurgulanmıştır.

  • 00:00:00 Bu bölümde sunum yapan kişi, evrişimli sinir ağlarını (CNN'ler) tanıtıyor ve temel özelliklere sahip belirli bir sinir ağı türü olarak görüntü işlemedeki önemini açıklıyor. Ders, CNN'lerin büyük veri kümelerini ve dizileri işlemek için nasıl ölçeklenebileceğini tartışmaya devam ediyor. Sunucu, CNN'lerin adını, yumuşatma için evrişim kullanma örneğiyle, üçüncü bir işlev üretmek için iki işlevi değiştiren evrişimin matematiksel işleminden aldığını açıklıyor. Ders notları, evrişim işlemi için ağırlıklandırma fonksiyonları olarak Gauss'lardan da yararlanır.

  • 00:05:00 Bu bölümde, hem sürekli hem de ayrık durumlarda konvolüsyon kavramı tartışılmaktadır; burada çıktı, Y, bir komşuluktaki X'lerin ağırlıklı bir kombinasyonudur. Görüntülere uygulandığında bu, her pikselin x ve y yönlerinde belirli bir koordinatta o işlevin bir ölçümü olduğu 2 boyutlu bir işlevdir. Her piksel yoğunluğuna uygulanan ağırlıklar yeni bir görüntü, Y üretebilir. Örnek olarak, dikey kenarları algılamak için gri tonlamalı bir görüntüde kenar algılama için basit bir evrişim kullanılabilir.

  • 00:10:00 Bu bölümde konuşmacı, sinir ağlarındaki özellikleri algılamak için konvolüsyonların nasıl kullanılabileceğini tartışıyor. Bir evrişim, esas olarak, belirli bir görev için önemli olabilecek kenarlar veya diğer modeller gibi özelliklerin algılanmasına yardımcı olabilecek, belirli bir ağırlık modeline dayanan bir birim alt kümesinin doğrusal bir kombinasyonudur. Konuşmacı ayrıca, bir ağırlık modelinin, bir komşuluktaki bir özelliği algılamak için filtreyi belirlediğini ve doğrusal olmayan bir aktivasyon fonksiyonunun çıkışı yükselttiğini açıklıyor. Gab veya filtreler, insan görsel korteksinin nasıl çalıştığından ilham alan ortak özellik haritalarına karşılık gelen popüler bir filtre sınıfıdır.

  • 00:15:00 Bu bölümde öğretim görevlisi evrişimli sinir ağlarının nasıl çalıştığını açıklıyor. Fikir, belirli bir özelliğe karşılık gelen ağırlık yamaları uygulayarak bir görüntüdeki küçük kenarları tespit etmektir ve her yamanın büyüklüğü rengiyle belirlenir. Bu yamalar, evrişim ve havuzlama katmanları arasında geçiş yaparak bir görüntüye uygulanır. Evrişim katmanı, aynı ağırlıklara sahip belirli bir boyutta bir filtre kullanarak başka bir vektöre karşılık gelen bir evrişimi hesaplayarak çalışır. Bir evrişimli sinir ağının temel unsurları, bir görüntüdeki farklı özellikleri algılamak için değişen bu evrişim ve havuzlama katmanlarıdır.

  • 00:20:00 Bu bölümde sinir ağlarında evrişimli katman kavramı anlatılmaktadır. Evrişimli katmanlar, kendisine bir dizi ağırlık veya filtre uygulanmış sabit boyutlu bir pencere veya yama kullanır. Bu filtre, katmandaki her pencerede yeniden kullanılarak, tamamen bağlı bir katmana kıyasla girişler ve çıkışlar arasındaki bağlantıların çok daha seyrek bir temsilini oluşturur. 1 boyutlu bir örnekte, 3'e 1 boyutunda bir yama alınır ve her giriş penceresine bir filtre uygulanır. Benzer şekilde, bir 2B örnekte, kenarlar gibi belirli özellikleri algılamak için kayan pencerelere uygulanan aynı ağırlık setiyle 3'e 3 boyutunda bir yama alınır. Evrişimli katmanlar, pencere örnekleri arasında aynı filtreyi yeniden kullanarak daha kompakt ve verimli ağ tasarımı sağlar.

  • 00:25:00 Bu bölümde öğretim görevlisi, görüntü veya sinyalin her parçası için aynı ağırlık setini kullanarak evrişimli sinir ağlarını ve bunların görüntü ve ses sinyalleriyle nasıl çalıştıklarını açıklıyor. Ağ, yerel bir eşit varyansı hesaplayan bir havuzlama filtresi uygulayarak özellikleri algılar ve ağın özellikleri konumlarından bağımsız olarak tanımasına olanak tanır. Bu yöntem, girdi olarak bir bitmap görüntüsü ve çıktı olarak 0'dan 9'a kadar bir etiket üreten rakam tanıma için kullanılabilir. Öğretim görevlisi, geri yayılım ve otomatik türevin, aynı ağırlığa sahip kenarlar için ağırlıkları güncelleyerek paylaşılan ağırlıkları ele aldığını not eder.

  • 00:30:00 Videonun bu bölümünde öğretim görevlisi evrişimli sinir ağlarının (CNN'ler) nasıl çalıştığını açıklıyor. İlk adım, küçük filtrelerden daha büyük özelliklerin algılanmasına izin veren bir filtre kullanarak giriş görüntüsüne 5x5 evrişim uygulamaktır. Bu, farklı konumlardaki özelliklerin varlığını veya yokluğunu kontrol etmek için kullanılabilen 28x28 boyutunda bir özellik haritası üretir. Daha sonra, her 2x2 yamanın maksimum değeri alınarak özellik haritasının boyutunu 14x14'e düşürmek için bir maksimum havuzlama katmanı uygulanır. Daha sonra, tekrar maksimum havuzlamadan geçen 12 özellik haritası üreten daha yüksek seviyeli özellikleri tespit etmek için 5x5 filtre kullanılarak başka bir evrişim uygulanır. Maksimum havuzlamanın ardındaki sezgi, yüz tanımada gözler veya burun gibi bazı özelliklerin tam konumunun biraz değişebileceğidir.

  • 00:35:00 bu bölümde öğretim görevlisi, sınıflandırma için tasarlanmış bir sinir ağının ikinci bölümünü tartışır. Genel yaklaşım, tamamen bağlantılı bir katman almak, özellikleri düzleştirmek ve geri yayılım yoluyla ayarlanan ağırlıklarla sınıfları hesaplamak için bir düğüm vektörü oluşturmaktır. Evrişimli sinir ağlarının güzelliği, evrişimli filtreler için ağırlıkların insanlar tarafından tasarlanmaması, ancak ağın ilgili özellikleri çıkarmayı öğrenmesine izin vererek, ağ eğitilirken rastgele başlatılıp güncellenmesidir. Ağ, veri odaklı bir çözüm aracılığıyla pratikte daha iyi çalışan özellikleri optimize edebilir ve ortaya çıkarabilir.

  • 00:40:00 Bu bölümde öğretim görevlisi, düğümlerin tamamen bağlı olmak yerine yalnızca birkaç bağlantıya sahip olduğu gerçeğine atıfta bulunan evrişimli sinir ağlarındaki seyrek bağlantı kavramını tartışıyor. Bu, çok daha az sayıda ağırlığa ve daha seyrek bir hesaplamaya izin verir. Öğretim görevlisi ayrıca bir sinir ağının evrişim katmanında filtre sayısı, çekirdek boyutu, adım ve dolgu gibi parametrelerin nasıl belirlendiğini açıklar. Sağlanan örnekler, bu parametrelerin evrişimli katmanları tanımlamada nasıl kullanıldığını daha fazla netleştirmeye yardımcı olur.

  • 00:45:00 Bu bölümde öğretim görevlisi evrişimli sinir ağlarının nasıl çalıştığını açıklıyor. Öğretim görevlisi, evrişimli bir katmanın bir girdi görüntüsünü ona bir çekirdek uygulayarak nasıl işlediğini gösterir. Çekirdeğin boyutu, çıktının boyutunu belirler ve adım, çekirdeğin girdi boyunca ne kadar hareket ettiğini belirler. Dolgu, girişin orijinal boyutunu korumak için de kullanılabilir. Öğretim görevlisi, farklı çekirdek boyutlarının ve adımlarının evrişim katmanının çıktı boyutunu nasıl etkilediğine dair örnekler sunar.

  • 00:50:00 Bu bölümde öğretim görevlisi, ağırlıkların değişkenler arasında paylaşıldığı geri yayılım ve gradyan inişini kullanarak evrişimli sinir ağlarını (CNN'ler) eğitme sürecini tartışır. Kısmi türevi hesaplama işlemi, bir değişken işlevde birden çok kez görünüyorsa farklı değildir ve eğitim için Adam ve RMSprop gibi algoritmalar kullanılabilir. Bir sinir ağı mimarisi tasarlamak söz konusu olduğunda, probleme bağlıdır ve bir bilimden çok bir sanattır. Bununla birlikte, daha az parametre ve daha derin bir ağ için tek bir büyük filtre yerine bir dizi küçük filtre kullanmak gibi bazı pratik kurallar iyi sonuçlar vermiştir.

  • 00:55:00 Videonun bu bölümünde eğitmen, evrişimli sinir ağı (CNN) mimarileri tasarlamak için pratik bir kuralı açıklıyor. Daha küçük filtreler kullanmanın daha iyi çalışma eğiliminde olduğunu ve daha büyük filtrelere kıyasla daha az parametre ürettiğini öne sürüyor. Daha büyük bir filtre yerine daha küçük filtrelerden oluşan bir yığın kullanılarak, gerekli parametre sayısı azaltılırken alıcı alan aynı kalır. Ek olarak, her evrişimden sonra doğrusal olmayan aktivasyon eklemek, CNN'lerin performansını artırabilir. Bu tasarım ilkeleri, çeşitli uygulamalar için etkili mimariler oluşturmak için yararlı olabilir.

  • 01:00:00 Bu bölümde, artık katmanların evrişimli sinir ağlarında kullanımı ele alınmaktadır. Artık katmanlar, çok fazla katman eklenmesinin neden olduğu ağların kalitesindeki bozulmayı önlemenin bir yolu olarak 2015 yılında önerildi. Buradaki fikir, ağa giden yolları kısaltmak, derinliği etkili bir şekilde azaltmak ve gradyanı daha etkili bir şekilde yaymak için atlamalı bağlantılar oluşturmaktır. Kalan bağlantı bazı katmanları atlar ve X girdisini atlanan katmanların çıktısına ekler. Bu şekilde, ek katmanlar kullanışlı değilse, ağın performansına zarar vermeden göz ardı edilebilirler.

  • 01:05:00 Bu bölümde, konuşmacı evrişimli sinir ağlarında (CNN'ler) artık bağlantılar kavramını tanıtıyor ve yok olan gradyan problemini nasıl çözebileceklerini açıklıyor. Temel olarak bir katmanın çıktısına kimlik işlevini ekleyen atlama bağlantılarını kullanarak, ağa, isterse bunları kullanabilmesine rağmen, yararlı olmayan belirli katmanları yok sayma seçeneği verilir. Bu, sıfıra yakın çıktılar üreten katmanlar sorununu ortadan kaldırır, bu da ağın bu katmanları tamamen göz ardı etmesine neden olabilir. Konuşmacı ayrıca atlama bağlantılarının gradyan boyutunu etkilemediğinden bahseder ve yok olan gradyan sorununu azaltmak için başka bir yaklaşım olarak toplu normalleştirmenin kullanılmasını önerir.

  • 01:10:00 Videonun bu bölümünde, konuşmacı kaybolan gradyan problemi ve evrişimli sinir ağlarında normalleştirme gibi sorunlarla başa çıkma tekniklerini tartışıyor. Toplu normalleştirme, değerlerin, her boyut için ayrı ayrı, 1 varyansıyla ve 0 merkezli olarak kullanılan veri yığınına göre normalleştirildiği, yaygın olarak kullanılan bir buluşsal yöntemdir. Ek olarak, atlamalı bağlantılar, geri yayılım için daha kısa yollar sağladıkları için degradelerin daha hızlı yayılmasına yardımcı olabilir. Son olarak, konuşmacı, evrişimli sinir ağlarının, video dizileri gibi uygulamalarda görüldüğü gibi, sıralı veriler ve ikiden fazla boyutlu tensörler dahil olmak üzere, bilgisayar görüşünden daha fazlası için kullanılabileceğini belirtiyor. TensorFlow çerçevesi, yalnızca vektörler veya matrislerle sınırlı olmak yerine, çok boyutlu dizilere göre hesaplamalar gerçekleştirmek için tasarlanmıştır.

  • 01:15:00 Bu bölümde 3B evrişimli sinir ağlarının var olduğundan ve çok yaygın olmasalar da kullanılabilecekleri bazı uygulamalardan bahsedilmektedir.