Makine Öğrenimi ve Sinir Ağları - sayfa 48

 

CS480/680 Ders 17: Gizli Markov Modelleri


CS480/680 Ders 17: Gizli Markov Modelleri

Ders, doğruluğu artırabilen dizi verilerindeki korelasyonlardan yararlanmak için kullanılan bir tür olasılıksal grafik model olan Gizli Markov Modellerini (HMM) tanıtıyor. Model varsayımları durağan bir süreci ve gizli bir durumun yalnızca önceki duruma bağlı olduğu bir Markov sürecini içerir. HMM'deki üç dağılım, ilk durum dağılımı, geçiş dağılımı ve veri tipine bağlı olarak kullanılan son tip ile emisyon dağılımıdır. Algoritma, izleme, tahmin, filtreleme, yumuşatma ve büyük olasılıkla açıklama görevleri için kullanılabilir. HMM, kararlılık korelasyonu için yürüteç cihazları kullanan yaşlı insanlar için bir dizi girdiye ve gizli durumlara dayalı olarak en olası çıktı dizisini tahmin etmek gibi konuşma tanıma ve makine öğrenimi için kullanılmıştır. Bir huzurevindeki yaşlı yetişkinlerin faaliyetleri hakkında veri toplamaya dayalı olarak yaşlı yetişkinler tarafından gerçekleştirilen aktiviteleri otomatik olarak tanımak için bir yürüteç üzerindeki değiştirilmiş sensörleri ve kameraları içeren bir deney gerçekleştirildi. Etkinlik tanıma bağlamında denetimli ve denetimsiz öğrenmede gösterim de tartışıldı.

Ders, toplanan verilerin sürekli olduğu pratik uygulamalarda yaygın olarak kullanılan Gizli Markov Modellerinde (HMM'ler) Gauss emisyon dağılımlarının kullanımına odaklanmaktadır. Öğretim görevlisi, bu yöntemin, verilerin ampirik ortalama ve varyansına karşılık gelen ortalama ve varyans parametrelerini hesaplamayı ve bunları başlangıç ve geçiş dağılımlarının çözümünü hesaplamak için kullanmayı içerdiğini açıklar. Geçiş dağılımı, bağıl frekans sayımlarına karşılık gelir ve çözümleri elde etmek için maksimum olasılık kullanılır. Bu yaklaşım, başlangıç ve emisyon dağılımının da kullanıldığı Gauss karışımları çözümüne benzer.

  • 00:00:00 Bu bölümde öğretim görevlisi, şimdiye kadar tartışılan sinir ağlarından farklı olan Gizli Markov Modelleri (HMM) kavramını tanıtıyor. Öğretim görevlisi, veriler bağımsız veri noktalarının aksine dizilerden geldiğinde HMM'nin kullanılabileceğini ve bir veri noktası için tahminlerin bir sonraki veri noktası için tahminlerle ilişkili olduğunu açıklar. Öğretim görevlisi, bir fonem veya kelimenin tahmininin bir sonraki fonem veya kelime ile ilişkilendirildiği konuşma tanıma örneğini sağlar. Bu korelasyonlardan yararlanmak, tahminlerin doğruluğunu artırabilir. Öğretim görevlisi ayrıca, HMM'nin, daha sonra tartışılacak olan, dizi verileriyle başa çıkabilen ve bilgileri bir dizideki farklı noktalar arasında yayan tekrarlayan bir sinir ağına (RNN) genelleştirilebileceğini açıklar.

  • 00:05:00 Dersin bu bölümünde konuşmacı, Gauss karışımlarının bir genellemesi olarak gizli Markov modellerini tanıtıyor. Gizli Markov modellerinin, doğruluğu artırmak için sıralı verilerdeki korelasyonlardan yararlandığını ve bunların, y verildiğinde x koşullu olasılık dağılımını izleyen y üzerinden bir dağılımı ifade etmek için kullanıldığını açıklıyor. Bu, x girişi için bir sınıf koşullu dağılımının, çok terimli bir dağılımdan y örneklendikten sonra ifade edildiği bir Gauss karışımından farklıdır. Konuşmacı ayrıca bu model ile koşullu rastgele alan ve tekrarlayan sinir ağları arasında bir karşılaştırma yapar.

  • 00:10:00 Bu bölümde öğretim görevlisi gizli bir Markov modeli tasarlarken yapılan varsayımları açıklar. İlk varsayım, sürecin durağan olduğu, yani geçiş ve emisyon dağılımlarının zamandan bağımsız olduğudur. İkinci varsayım, sürecin Markovcu olduğu, yani belirli bir gizli durumun yalnızca önceki gizli duruma bağlı olduğudur. Bu varsayımlar, birlikte ortak bir dağılım oluşturan bir başlangıç dağılımı, bir geçiş dağılımı ve bir emisyon dağılımı ile olasılıksal bir grafik model oluşturur. İlk dağılım, ilk gizli durum için dağılımı tanımlar ve tipik olarak bir multinomdur.

  • 00:15:00 Bu bölümde, Gizli Markov Modellerindeki üç dağılımı öğreniyoruz: ilk durum dağılımı, geçiş dağılımı ve emisyon dağılımı. Gauss emisyon dağılımı, sürekli veriler için kullanılırken, multinomial emisyon dağılımı, doğal dil işleme için kelime dizileri gibi ayrık veriler için kullanışlıdır. Bu dağılımları çarparak, robot lokalizasyonu gibi çeşitli uygulamalar için kullanılabilecek ortak dağılımı türetebiliriz.

  • 00:20:00 Bu bölümde bir robotun kilometre sayacı okumalarındaki yanlışlıklar ve drift nedeniyle kaybolma problemini öğreniyoruz. Bu soruna bir çözüm, gizli bir Markov modelinin kullanılmasıdır; burada gizli durum olan Y'ler, robotun konum koordinatlarına karşılık gelir ve girdiler, sensörler tarafından yapılan bazı ölçümlere karşılık gelir. Geçiş dağılımı, hareketteki belirsizlikler nedeniyle robotun farklı konumlarda bulunma olasılığını yakalarken, emisyon dağılımı, ölçüm yanlışlıklarını hesaba katmak için sensörler tarafından elde edilen ölçümler üzerinde bir dağılıma sahiptir. Gizli Markov modeli, herhangi bir zaman adımında robotun konumunun olasılığının hesaplanmasını içeren yerelleştirme için kullanılabilir.

  • 00:25:00 Bu bölümde konuşmacı, Gizli Markov Modelleri (HMM) ile ilgili görevlerin sınıflandırılabileceği dört geniş kategoriyi açıklar. Bu kategoriler, izleme, tahmin, belirsizliği giderme ve büyük olasılıkla açıklamayı içerir. İzleme görevi için kullanılan algoritma ileri algoritma olarak bilinir. Verilen X için Y olasılığının hesaplanmasına izin veren, önceki tüm ölçümler verildiğinde önceki gizli durumun olasılığı açısından sorgunun yinelemeli ayrıştırmasını içerir. Algoritma, verilen ilk gizli durumu hesaplayarak çalışır. ölçüm ve ardından o zaman adımına kadar verilen ölçümler bir sonraki gizli durumu hesaplar ve zamanda ileri giderek diziyi artırmaya devam eder.

  • 00:30:00 Bu bölümde öğretim görevlisi, mevcut durumu verilen bir sistemin gelecekteki durumunu tahmin etmeyi içeren Gizli Markov Modelleri (HMM'ler) kullanarak tahmin görevini tartışır. Bu görevin örnekleri arasında hava durumu ve borsa tahmini yer alır. Hesaplama, izlemeye benzer şekilde, iki aşamalı bir ileri algoritma kullanılarak yapılır: izleme ve tahmin. Sağlanan örnekte öğretim görevlisi, yalnızca X1 ve X2 verildiğinde Y4 olasılığının nasıl hesaplanacağını gösterir. Öğretim görevlisi ayrıca, tahminli HMM'lerin, modelin mevcut metin verildiğinde bir sonraki gözlemlenebilir metni tahmin ettiği metin üretimi için kullanılabileceğinden bahseder.

  • 00:35:00 Bu bölümde öğretim görevlisi, Gizli Markov Modellerinin (HMM'ler) filtreleme, yumuşatma ve geriye dönük akıl yürütmeyi içeren görevlerini tartışır. Filtreleme, geçmiş gözlemlere dayalı olarak bir sistemin mevcut durumunu tahmin etmeyi ifade ederken, yumuşatma, bu durumdan önceki ve sonraki gözlemleri kullanarak önceki durumları tahmin etmeyi ifade eder. Geriye bakış muhakemesi, bir durumun özelliğinin, o durumdan önceki ve sonraki verili gözlemlerde hesaplanmasını içerir. Öğretim görevlisi, HMM'lerin artık bu görevler için son teknoloji olmadığını, ancak daha etkili olma eğiliminde olan tekrarlayan sinir ağlarının öncüsü olduklarını vurguluyor. Bu görevler için hesaplama, ileri-geri algoritmasının oluşturulmasına yol açan yinelemeli bir şekilde yapılır.

  • 00:40:00 Bu bölümde konuşmacı, konuşma tanıma ve makine çevirisi için Gizli Markov Modellerinin (HMM'ler) kullanımını tartışıyor. HMM'ler, bir dizi girdiye ve gizli durumlara dayalı olarak en olası çıktı dizisini hesaplamak için kullanılır. Viterbi algoritması, maksimizasyonu gerçekleştirmek için bu dinamik programlama prosedürüne uygulanır. Yaşlı insanların yürümek için kullandıkları sensör ölçümleri ve Walker cihazları kullanılarak bir aktivite tanıma uygulaması da tartışılmaktadır. Walker'ı olan bir kişinin aktivitelerini anlamak, Walker'ın stabilite için kullanılmasına rağmen bazı durumlarda meydana geldiği gözlemlenen, düşmeye yol açabilecek veya düşüşü tetikleyebilecek en olası manevraların belirlenmesine yardımcı olur.

  • 00:45:00 Bu bölümde konuşmacı, bir huzurevindeki yaşlı yetişkinlerin faaliyetleri hakkında veri toplamak için sensörler ve kameralar içeren değiştirilmiş bir yürüteç kullanılarak yapılan bir çalışmayı tartışıyor. Yürüteçte, yürüteçlerin her bir bacağındaki ağırlığı ölçen 3D ivmeölçer ve yük sensörleri gibi sensörler ve bacaklara geriye doğru bakan bir kamera vardı. Deney, katılımcıların ortak günlük aktiviteleri simüle eden bir engelli parkurdan geçmesini içeriyordu. Toplanan veriler, katılımcılar tarafından gerçekleştirilen etkinlikleri otomatik olarak tanıyan bir Hidden Markov modeli geliştirmek için kullanıldı. Model, sensörler için sekiz kanala sahipti ve ilk geçiş ve emisyon dağılımlarının parametrelerini tahmin etmek için makine öğrenimini kullandı.

  • 00:50:00 Bu bölümde konuşmacı, sensör ölçümlerine dayalı olarak bir kişinin etkinliğini tahmin eden bir algoritmanın gösterimini tartışıyor. Algoritma, kişinin etkinliğini ve çıktı tahminlerini izlemek için bir Gizli Markov Modeli veya Koşullu Rastgele Alan kullanır ve bunlar daha sonra manuel olarak etiketlenmiş doğru davranışlarla karşılaştırılır. Kişinin etkinliği görsel olarak dalgalanan eğriler olarak temsil edilir ve videonun sağ panelinde, doğru davranış için kırmızı bir kare ve algoritmanın tahmini için mavi bir kare ile gösterilen 13 ayrı etkinlik görüntülenir. Konuşmacı, teorik olarak mümkün olsa da, kişinin kendi hareketlerini her zaman güvenilir bir şekilde değerlendiremeyebileceğinden ve birinin eylemlerini sürekli olarak duyurmasının garip olabileceğinden, sensörleri takan kişinin faaliyetlerini belirtmesinin pratik olmadığını açıklıyor. Ek olarak, denetimsiz öğrenme kullanılırsa, algoritma bir etkinlik çıkarsayabilir ancak bunu doğru bir şekilde adlandıramaz.

  • 00:55:00 Bu bölümde konuşmacı, etkinlik tanıma bağlamında hem denetimli hem de denetimsiz öğrenmeye yönelik yaklaşımı tartışıyor. Denetimli öğrenme için, Y'ler bilinir ve amaç, verilerin olasılığını en üst düzeye çıkarmaktır. Tartışılan bir yaklaşım, türevi hesaplamak, sıfıra ayarlamak, parametreleri izole etmek ve pi teta ve phi için değerler ve tahminler elde etmektir. İki aktivite ve ikili ölçüm durumunda, modelin Ortak Dağılımı'nı genişletmek ve türevi sıfıra ayarlamak mümkündür. Ortaya çıkan cevaplar doğaldır ve verilerdeki sınıf sayısının oranını içerir.

  • 01:00:00 Bu bölümde öğretim görevlisi, toplanan veriler genellikle sürekli olduğu için pratik uygulamalarda yaygın bir uygulama olan Gauss emisyon dağılımlarının kullanımını tartışır. Bu yöntem, toplanan verilerin ampirik ortalamasına ve varyansına karşılık gelen ortalama ve varyans parametrelerinin kullanılmasını içerir. Başlangıç ve geçiş dağılımları için çözüm öncekiyle aynıdır, geçiş dağılımı ise göreli frekans sayımlarına karşılık gelir. Daha sonra bu çözümleri elde etmek için maksimum olasılık kullanılır. Bu teknik, aynı zamanda bir başlangıç ve emisyon dağılımına sahip olduğumuz Gauss karışımları çözümüne benzer.
 

CS480/680 Ders 18: Tekrarlayan ve tekrarlayan sinir ağları



CS480/680 Ders 18: Tekrarlayan ve tekrarlayan sinir ağları

Bu derste konuşmacı, sabit bir uzunluğa sahip olmayan sıralı veriler için uygun modeller olarak tekrarlayan ve tekrarlayan sinir ağlarını tanıtıyor. Tekrarlayan sinir ağları, çıktıların girdi olarak geri beslendiği belirli düğümler nedeniyle herhangi bir uzunluktaki dizileri işleyebilir ve H'nin her zaman adımında hesaplanma şekli, ağırlık paylaşımını içeren aynı f fonksiyonunun kullanılmasıdır. Ancak, erken girdilerden gelen bilgileri hatırlayamama ve tahmin kayması gibi sınırlamalardan muzdarip olabilirler. Öğretim görevlisi ayrıca, giriş ve çıkış dizilerinin doğal olarak eşleşmediği uygulamalar için iki RNN'den (bir kodlayıcı ve bir kod çözücü) yararlanan çift yönlü tekrarlayan sinir ağı (BRNN) mimarisini ve kodlayıcı-kod çözücü modelini açıklar. Buna ek olarak öğretim görevlisi, kaybolan gradyan problemini azaltabilen, uzun menzilli bağımlılıkları kolaylaştırabilen ve seçici olarak bilgi akışına izin veren veya engelleyen Uzun Kısa Süreli Bellek (LSTM) birimlerinin faydalarını açıklar.

Yinelenen ve yinelenen sinir ağları hakkındaki bu ders, gradyan sorunlarını önlemek için Uzun Kısa Süreli Bellek (LSTM) ve Geçitli Tekrarlayan Birim (GRU) birimlerinin kullanımı ve makine çevirisinde dikkat mekanizmalarının önemi dahil olmak üzere bir dizi konuyu kapsar. Cümle anlamını ve kelime hizalamasını korumak için. Öğretim görevlisi ayrıca, tekrarlayan sinir ağlarının diziler, grafikler ve ağaçlar için tekrarlayan sinir ağlarına nasıl genelleştirilebileceğini ve cümlelerin nasıl ayrıştırılacağını ve ayrıştırma ağaçlarını kullanarak cümle yerleştirmelerinin nasıl üretileceğini tartışır.

  • 00:00:00 Videonun bu bölümünde konuşmacı, sabit bir uzunluğa sahip olmayan sıralı verilere uygun modeller olarak tekrarlayan ve tekrarlayan sinir ağlarını tanıtıyor. Daha önce tartışılan ileri beslemeli sinir ağları, zaman serisi verileri veya makine çevirisi gibi değişken uzunluktaki verilerle uğraşırken sorunlara yol açan sabit uzunlukta bir girdi varsayar. Çıktıların girdi olarak geri beslendiği belirli düğümlere sahip olan tekrarlayan sinir ağları, herhangi bir uzunluktaki dizileri işleyebilir. Konuşmacı bunu bir şablon ve ağın yayınlanmamış bir versiyonu kullanarak açıklıyor. Ağaçlara veya grafiklere genelleşen yinelemeli sinir ağları da tartışılmaktadır.

  • 00:05:00 Bu bölümde konuşmacı, tekrarlayan sinir ağlarının farklı zaman adımlarında nasıl bağlandığını ve nasıl eğitildiklerini tartışıyor. Konuşmacı, RNN'leri eğitmek için, ağın zaman içinde çözülmesini ve ileri beslemeli bir sinir ağı oluşturulmasını içeren, zaman içinde geri yayılım olarak bilinen bir teknikle birlikte gradyan inişinin kullanıldığını açıklıyor. Konuşmacı ayrıca, her adımdaki H'nin hesaplanma şeklinin, ağırlık paylaşımını içeren aynı f fonksiyonunun kullanılması olduğunu not eder. f fonksiyonu hem önceki H'den hem de mevcut X'ten girdi alır ve onun için kullanılan ağırlıklar her zaman adımında aynıdır.

  • 00:10:00 Bu bölümde öğretim görevlisi tekrarlayan sinir ağlarını (RNN'ler) ve ağırlık paylaşımını açıklar. RNN'ler, her zaman adımında aynı işlevi tekrar tekrar kullanan ve aynı ağırlıkları paylaşan ağlardır. Bu, geri yayılım sırasında gradyanın türetilmesini farklı hale getirebilecek bir miktar ağırlık paylaşımı olduğu anlamına gelir. Öğretim görevlisi ayrıca H'nin genellikle bir vektör olduğundan ve F'nin bir vektör çıktısı veren bir fonksiyon olduğundan bahseder. Bu etki, birden küçük veya birden büyük çarpma faktörlerinin yok olan veya patlayan bir eğime yol açabileceği gradyan kaybolması ve patlama problemi dahil olmak üzere eğitim için zorluklar yaratır.

  • 00:15:00 Dersin bu bölümünde, konuşmacı tekrarlayan sinir ağlarının (RNN'ler) sınırlamalarını ve bunların erken girdilerden gelen bilgileri nasıl hatırlayamayacağını tartışıyor. Bu, ilk kelimenin son kelime kadar önemli olduğu makine çevirisi gibi uygulamalar için sorunlu olabilir. Bununla birlikte, etkinlik tanıma gibi etkinlikler için, son ölçümler daha önemli olduğundan, RNN'nin bir süre önce gerçekleşen sensör ölçümlerini unutması sorun olmayabilir. RNN'lerle ilgili diğer bir sorun, tahminlerdeki hataların zaman içinde birikerek tahminlerin kaymasına neden olduğu tahmin kaymasıdır. Konuşmacı ayrıca RNN'leri gizli Markov modelleriyle (HMM'ler) karşılaştırır ve RNN'lerin HMM'leri genelleştirmek için nasıl kullanılabileceğini açıklar.

  • 00:20:00 Bu bölümde konuşmacı gizli bir Markov modeli ile tekrarlayan sinir ağı arasındaki farkı açıklıyor. Gizli bir Markov modelinde, oklar olasılıksal bağımlılıkları gösterirken, yinelenen bir sinir ağında oklar işlevsel bağımlılıkları gösterir. Konuşmacı, tekrarlayan bir sinir ağında gizli durumları ve çıkışları tanıtır ve grafiğin hesaplamaya karşılık geldiğini açıklar.
    yapılıyor. Gizli durum, önceki gizli durumu ve girdiyi alan bir fonksiyon kullanılarak hesaplanır ve gizli durumu girdi olarak alan başka bir fonksiyon kullanılarak çıkış elde edilir. Nihayetinde amaç, olasılıkları hesaplamak veya etkinlikleri tanımak için bu hesaplamayı kullanmaktır.

  • 00:25:00 Bu bölümde, sınıflandırma bağlamında, özellikle aktivite tanımada Gizli Markov Modelini taklit etmek için Tekrarlayan Sinir Ağlarını kullanma kavramı tartışılmaktadır. RNN, gizli durumu çıktıdan ayırmak için kullanılır, yani çıktı yalnızca bazı işlevler aracılığıyla dönüştürülen gizli duruma bağlıdır. Bunun bir örneği, çıktıyı dönüştürmek için HT'ye ve farklı ağırlık kümelerine uygulanan doğrusal olmayan bir aktivasyon fonksiyonu kullanılarak gösterilmiştir. RNN'nin ileri algoritması, Gizli Markov Modeli'ne benzer şekilde, X1'e dayalı olarak y1'i, X1 ve X2'ye dayalı olarak y2'yi vb. hesaplayabilir.

  • 00:30:00 Bu bölümde öğretim görevlisi, yalnızca ileri hesaplamaya izin veren tek yönlü tekrarlayan sinir ağı mimarisinin sınırlamalarını tartışır ve bu soruna bir çözüm olarak çift yönlü tekrarlayan sinir ağı (BRNN) mimarisini sunar. Öğretim görevlisi, ileri ve geri gizli durumları, girdileri ve çıktıları içeren BRNN mimarisinin bir diyagramını çizer. İleri ve geri gizli durumlar aracılığıyla önceki ve sonraki bilgileri toplayarak, BRNN mimarisi çift yönlü hesaplamaya izin verir ve her iki yöndeki girdilere dayalı tahminleri hesaplayabilir.

  • 00:35:00 Videonun bu bölümünde öğretim görevlisi, makine çevirisi, soru yanıtlama ve konuşma aracıları gibi giriş ve çıkış dizilerinin doğal olarak eşleşmediği uygulamalarda tekrarlayan sinir ağlarının nasıl kullanılabileceğini tartışıyor. Bu sorunların üstesinden gelmek için genellikle kodlayıcı kod çözücü modeli veya diziden diziye model olarak bilinen farklı bir mimari kullanılır. Bu mimari iki RNN kullanır - bir kodlayıcı ve bir kod çözücü. Kodlayıcı, girdi dizisini, girdinin gömülmesi olan bir bağlam vektörüne kodlar ve kod çözücü, karşılık gelen çıktı dizisini üretmek için bağlam vektörünü kullanır. Bu yaklaşım, farklı uzunluklarda giriş ve çıkış dizilerine izin verir ve giriş ve çıkıştaki kelimeler arasında senkronizasyon yoktur.

  • 00:40:00 Dersin bu bölümünde eğitmen, giriş cümlelerini bir bağlam vektörüne (C) özetlemek için tekrarlayan bir sinir ağı kullanan makine çevirisinde diziden diziye modelin mimarisini tanımlar. modelin hafızası. Bağlam vektörü, her bir kelimenin farklı bir çıktıya karşılık geldiği bir dizi çevrilmiş kelimeyi çözmek ve üretmek için kullanılır. Model ayrıca çevirinin ilerleyişini takip etmek ve bağlam vektöründen gelen bilgilerin zaman içinde unutulmamasını sağlamak için gizli durumları kullanır. Eğitmen, çevrilen cümlenin tutarlılığını sağlamak için kod çözme sürecinin her adımında hem bağlam vektörünü hem de önceki gizli durumu beslemenin yararlı olduğunu açıklar.

  • 00:45:00 Videonun bu bölümünde, profesör sinir ağlarında bilgi akışında artıklığın kullanımını tartışıyor. Bilgileri kodlamak için kullanılan vektör tipik olarak yüksek boyutludur ve 500-1000 değere sahip olabilir, bu da onu tüm cümleleri kodlamak için ideal kılar. Video ayrıca, tekrarlayan bir sinir ağı kullanan bir model kullanılarak elde edilen çeviri örneklerini de gösteriyor. Model, büyük bir veri külliyatı üzerinde eğitildi ve dilbilim veya makine çevirisinin incelikleri hakkında çok fazla bilgiye ihtiyaç duymadan makine çevirisindeki en son teknolojiyi eşleştirebildi ve bu da onu önemli bir ilerleme haline getirdi. Ek olarak, sinir ağlarındaki uzun menzilli bağımlılıkları iyileştirmek için 1990'larda Uzun Kısa Süreli Bellek (LSTM) birimi önerildi.

  • 00:50:00 Bu bölümde öğretim görevlisi, kaybolan gradyan problemini azaltabilen ve bilgileri uzun süre hatırlama yetenekleri nedeniyle uzun menzilli bağımlılıkların öğrenilmesini kolaylaştırabilen Uzun Kısa Süreli Bellek (LSTM) birimlerinin faydalarını tartışıyor. zaman dilimleri. LSTM biriminin anahtarı, giriş, unutma ve çıkış kapıları dahil olmak üzere kapıların tanıtılmasıdır. Bu kapılar 0 ile 1 arasında bir değer alıp bunu girdi, gizli durum veya çıktı ile çarparak bilgi akışını düzenler. Öğretim görevlisi ayrıca LSTM hücre mimarisini açar ve aralarındaki bağlantıları düzenlemek için her bağlantıya kapılar sunar. Bu modifikasyonlar, LSTM biriminin bilgi akışına seçici olarak izin vermesini veya engellemesini ve makine çevirisi gibi görevlerde uzun süreli belleği kolaylaştırmasını sağlar.

  • 00:55:00 Bu bölümde öğretim görevlisi, bir tür tekrarlayan sinir ağı olan Uzun Kısa Süreli Bellek (LSTM) birimlerinin yapısını ve varyasyonlarını açıklar. LSTM birimleri, giriş kapısı, çıkış kapısı, unutma kapısı ve hafıza kapısı gibi bilgi akışını düzenleyen birkaç kapının bir kombinasyonu kullanılarak oluşturulur. Bu kapılar, hem mevcut X'i hem de önceki gizli durumu girdi olarak alır ve 0 ile 1 arasında bir değer çıkarır ve yeni bilgilerin girmesine izin verilmesine veya eski bilgilerin unutulmasına karar verir. Öğretim görevlisi ayrıca, daha yeni LSTM birimlerinin bellek depolama için gizli durumlar yerine hücre durumlarını kullandığından ve çıktı olarak Y yerine H'ye sahip olduğundan bahseder. Ders, LSTM biriminin farklı kapılarını yöneten belirli denklemleri açıklayarak sona erer.

  • 01:00:00 Bu bölümde eğitmen, Uzun Kısa Süreli Bellek (LSTM) birimlerinin nasıl çalıştığını ve yok olan ve patlayan degradeler gibi gradyan problemlerini önlemede nasıl yararlı olduğunu açıklar. Ağın hafızasını taşıyan hücre durumunu neyin etkileyebileceğini belirlemek için kapıların kullanıldığı açıklanmaktadır. Eğitmen ayrıca Gated Recurrent Unit (GRU) olarak bilinen kapılı birimlerin 2014 yılında LSTM birimlerinin basitleştirilmiş bir versiyonu olarak önerildiğini not eder. GRU, LSTM ünitelerinde kullanılan kapılardan birini kaldırır.

  • 01:05:00 Bu bölümde konuşmacı, uzun kısa süreli bellek (LSTM) birimini yalnızca iki kapıya sahip olarak basitleştiren kapılı tekrarlayan birimi (GRU) tanıtıyor: sıfırlama kapısı ve güncelleme kapısı. Güncelleme kapısı, yeni girdinin gizli duruma mı geçeceğini yoksa zaten içinde olanı mı koruyacağını belirler. Bu, birimin karmaşıklığını azaltır ve daha verimli hale getirerek daha iyi performans sağlar. Bununla birlikte, GRU kullanılmasına rağmen, her adımda bozulan bir miktar bellek vardır, bu nedenle, her çıktı kelimesini giriş sırasındaki bazı kelimelerle hizalamak için özellikle makine çevirisinde yararlı olan dikkat mekanizmaları geliştirildi ve modelin çalışmasını sağladı. orijinal cümlenin anlamını koruyun ve kelimeden kelimeye hizalamayı kontrol edin.

  • 01:10:00 Bu bölümde, bir kelime dizisinin kodunu çözmek için bağlam vektörleri fikri tanıtıldı. Bağlam vektörü, kodlama sürecindeki her zaman adımıyla ilişkili tüm gizli durumların ağırlıklı bir kombinasyonuna dayanır. Ağırlıklar, amaçlanan çıktı ile girdi sözcüğü arasında bir hizalama olduğunda daha yüksek olasılık üreten bir softmax aracılığıyla elde edilir. Hizalama, bir iç çarpım kullanılarak hesaplanır ve olası girdilerin ağırlıklı bir kombinasyonunun hesaplanmasına izin veren bir softmax aracılığıyla bir olasılığa dönüştürülür. Bunu yaparak, tüm cümleyi özetlemek yerine, üretmek istediğimiz sonraki birkaç kelime için önemli olan bağlamı özetleyen bir bağlam vektörü yaratırız.

  • 01:15:00 Bu bölümde öğretim görevlisi, makine çevirisinde dikkat mekanizmalarının kullanımını tartışır. Dikkat mekanizması, bağlam vektörü olarak yalnızca son gizli durumu kullanmak yerine, her zaman adımında hesaplanan gizli durumların dışbükey bir kombinasyonunu almayı içerir. Kombinasyon için kullanılan ağırlıklar, bir softmax'tan elde edilen olasılıklardır ve önceki gizli durum ile önceki tüm girdiler arasındaki hizalamaları hesaplamak için kullanılırlar. Bu, makine çevirisi modelinin çevirmek üzere olduğu kavramları girdinin doğru kısmıyla hizalamasına olanak tanır. Dikkat kullanımı, makine çevirisini geliştirdi ve öğretim görevlisi, 2015 yılında onu kullanan yazarların elde ettiği bazı sonuçları sunuyor.

  • 01:20:00 Dersin bu bölümünde konuşmacı, makine çevirisinde uzun cümleler konusunu ve çeviri sürecinde geriye dönüp bakmayı sağlayan bir mekanizmaya sahip olmanın önemini tartışıyor. Araştırmacı, tekrarlayan bir sinir ağının doğruluğunu dikkatli ve dikkatsiz olarak karşılaştırır ve iki dilli çalışma altında değerlendirme (BLEU) puanını kullanarak doğruluktaki farklılıkları ölçer. Dikkati kullanan üst eğri, cümle uzunluğu arttıkça bile tutarlı bir doğruluk düzeyi gösterir. Bu, giriş dizisindeki tüm kelimelerin konumlarından bağımsız olarak kod çözmedeki bir sonraki adım için bağlam vektörünü etkilemesine izin veren dikkat mekanizmasına bağlanabilir.

  • 01:25:00 Bu bölümde öğretim görevlisi, uzun cümlelerle çalışırken tekrarlayan sinir ağlarının sınırlamalarını ve bu sorunu çözmek için dikkat mekanizmalarının önemini tartışır. Tekrarlayan sinir ağları, ilk kelimelerin üzerine sonraki kelimeleri yazma eğilimindedir ve bu da uzun dizilerle uğraşırken çeviri kalitesinin düşmesine neden olur. Dikkat mekanizmaları bu sorunu belirli kelimelere odaklanarak çözer ve sinir ağının keyfi uzunluktaki daha uzun dizilerle başa çıkmasına izin verir. Dikkat mekanizmaları, kelime hizalamasının mutlaka bire bir olmadığı farklı dilleri işlemeye de yardımcı olur. Öğretim görevlisi, farklı dillerdeki kelimelerin hizalanmasını gösteren çeviri haritalarının üretilmesinde dikkat mekanizmalarının nasıl çalıştığına dair örnekler sunar.

  • 01:30:00 Bu bölümde konuşmacı, tekrarlayan sinir ağlarının diziler, grafikler ve ağaçlar için kullanılabilen tekrarlayan sinir ağlarına nasıl genelleştirilebileceğini açıklar. Anahtar, girdileri dönüştürmek ve bunları, girdinin anlamını yakalayan bir çıktı veya katıştırma üretecek şekilde yinelemeli olarak birleştirmektir. Değişken uzunluktaki girdilerle başa çıkmak için konuşmacı, grafikteki farklı düğümleri birleştirmek için kuralların farklı uygulamaları arasında ağırlık paylaşımının önemini vurgular. Konuşmacı ayrıca, sözdizimini yansıtan ve bilgi işlem ve yerleştirmede yararlı olabilecek bir grafik oluşturmak için ayrıştırma ağaçlarının veya bağımlılık grafiklerinin kullanılmasını önerir.

  • 01:35:00 Bu bölümde öğretim görevlisi, seçim bölgesi ayrıştırma ağaçlarını kullanarak bir cümlenin nasıl ayrıştırılacağını ve tüm cümleler için yerleştirmelerin nasıl üretileceğini tartışır. Buradaki fikir, konuşma etiketlerinin bölümlerini bulmak ve cümle yapısını anlamak için bunları ifadeler halinde birleştirmek ve ağaçları ayrıştırmaktır. Kuralları her dönüşümle ilişkilendirerek ve aynı kuralın tüm uygulamalarındaki ağırlıkları paylaşarak, daha umut verici ve insanların cümleleri anlama biçimiyle tutarlı olan yerleştirmeler üretebiliriz. Bazı araştırmacılar, bu şekilde gömmeler oluşturarak çok iyi sonuçlar elde edebileceğimizi göstermiştir.

  • 01:40:00 Videonun bu bölümünde konuşmacı, doğru bir ayrıştırma ağacının kullanılmasıyla daha iyi bir cümle yerleştirme elde etme potansiyelini tartışıyor. Önceki slayt setini tamamlarlar ve bir sonrakine geçerler.
 

CS480/680 Ders 19: Dikkat ve Trafo Ağları



CS480/680 Ders 19: Dikkat ve Trafo Ağları

Bu derste sinir ağlarında dikkat kavramı tanıtılmakta ve trafo ağlarının geliştirilmesindeki rolü tartışılmaktadır. Dikkat, başlangıçta bilgisayar görüşünde incelendi ve insanların doğal olarak belirli alanlara odaklanmasına benzer şekilde önemli bölgelerin tanımlanmasına izin verdi. Makine çevirisine dikkat çekmek, yalnızca dikkat mekanizmalarını kullanan ve geleneksel sinir ağları kadar iyi sonuçlar üreten dönüştürücü ağların yaratılmasına yol açtı. Trafo ağları, tekrarlayan sinir ağlarına göre, uzun menzilli bağımlılıklarla ilgili sorunları çözme, kaybolan ve patlayan gradyanlar ve paralel hesaplama avantajlarına sahiptir. Ders, her bir çıkış konumunun girişle ilgilenmesini sağlayan trafo ağlarındaki çok kafalı dikkati araştırıyor. Transformatör ağlarında maskelerin, normalizasyon katmanlarının ve Donora katmanının kullanımı tartışılmakta ve dikkatin bir yapı taşı olarak kullanılması kavramı araştırılmaktadır.

Dikkat ve dönüştürücü ağlar hakkındaki bu derste, konuşmacı farklı katmanlardaki gradyanları ayırmak için normalleştirmenin önemini ve ayrıca cümlelerde kelime sırasını korumak için konumsal gömmenin önemini açıklıyor. Konuşmacı, trafo ağlarının karmaşıklık tahminlerini tekrarlayan ve evrişimli sinir ağlarıyla karşılaştırarak, trafo ağının uzun menzilli bağımlılıkları yakalama ve kelimeleri eş zamanlı olarak işleme yeteneğini vurguluyor. Transformatör ağlarının ölçeklenebilirliği artırma ve rekabeti azaltmadaki avantajları da tartışılırken, doğruluk ve hız açısından etkileyici performans sergileyen GPT, BERT ve XLNet gibi trafo ağlarının tanıtılması, tekrarlayan sinir ağlarının geleceği hakkında soru işaretleri uyandırıyor.

  • 00:00:00 Bu bölümde, öğretim görevlisi sinir ağlarında dikkat kavramını ve bunun trafo ağlarının geliştirilmesindeki rolünü tanıtır. Dikkat ilk olarak, insanların doğal olarak belirli bölgelere odaklanmasına benzer şekilde, bir dikkat mekanizmasının bir görüntüdeki ilgi alanlarını tanımlayabileceği fikriyle bilgisayar görüşünde incelenmiştir. Bu kavram daha sonra makine çevirisine uygulandı ve sonunda yalnızca dikkat mekanizmalarından oluşan ve en az geleneksel sinir ağları kadar iyi sonuçlar ürettiği gösterilen dönüştürücü ağların oluşturulmasına yol açtı. Dikkat, nesne algılamada nesnelerin konumu gibi istenen çıktıya katkıda bulunan bir görüntüdeki önemli özellikleri vurgulamak için de kullanılabilir.

  • 00:05:00 Bu bölümde öğretim görevlisi, kod çözücünün giriş cümlesine bakabildiği 2015'teki çığır açan makine çevirisi çalışmasında görüldüğü gibi, dikkatin tanıma sürecinde bir yapı taşı olarak nasıl kullanılabileceğini tartışıyor. 2017'de araştırmacılar, bir dizideki eksik kelimelerin tahmin edilmesine ve kurtarılmasına olanak tanıyan genel dil modelleme teknikleri geliştirmek için dikkatin kullanıldığını gösterdi. Özel olarak dikkat bloklarını kullanan dönüştürücü ağ, doğal dil işlemede son teknoloji haline gelir ve uzun menzilli bağımlılıklarla başa çıkma ve GPU'larda paralel hesaplamayı optimize etme yeteneği nedeniyle tekrarlayan sinir ağlarını geride bırakır. Bu nedenle dönüşüm ağları, doğal dil işleme görevleri için verimli bir seçimdir.

  • 00:10:00 Bu bölümde konuşmacı, dikkat ve dönüştürücü ağların geleneksel tekrarlayan sinir ağlarına göre avantajlarını açıklıyor. Dikkat blokları, dizinin herhangi bir kısmı arasında bağlantıların kurulmasına yardımcı olarak uzun vadeli bağımlılık probleminden kaçınır. Ek olarak, trafo ağları, tüm sekans için aynı anda hesaplama yaparak daha fazla paralelleştirmeye ve eğitilmesi gereken daha az adıma izin verir ve yok olan ve patlayan gradyan sorununu çözer. Konuşmacı ayrıca, veri tabanına erişim için bir yaklaşım biçimi olarak dikkati gözden geçiriyor ve sinir ağları için dikkat mekanizmalarında kullanılan denklemi tanıtıyor.

  • 00:15:00 Bu bölümde, konuşmacı benzerlik fonksiyonunun bir dağılımı nasıl hesapladığını ve dikkat mekanizmasının bir nöral mimariye nasıl genelleştirilebileceğini açıklıyor. Konuşmacı, nokta çarpımı ve ölçekli nokta çarpımı dahil olmak üzere benzerliği ölçmek için kullanılabilecek çeşitli işlevler önerir ve anahtarlar ile sorgu arasındaki benzerliği hesaplamak için bunların nasıl uygulanabileceğini açıklar. Konuşmacı ayrıca, dikkat mekanizmasına tekabül eden geri çağırma sürecinde yüksek benzerliğe sahip değerlerin ağırlıklı bir kombinasyonu fikrini de ortaya koyar.

  • 00:20:00 Dersin bu bölümünde hocamız dikkat mekanizmasının ilk katmanını detaylı olarak anlatıyor. Katman, bir sorgu ile bellekteki her bir anahtar arasındaki benzerliği hesaplar. Benzerliği hesaplamanın en yaygın yolu, nokta çarpımı kullanmak veya nokta çarpımı boyutsallığın kareköküne bölerek ölçeklendirmektir. Başka bir yol, sorguyu bir ağırlık matrisi kullanarak ve ardından bir iç çarpım alarak yeni bir alana yansıtmaktır. Bu adım, sinir ağının, sorgu ile anahtar arasındaki benzerliği daha doğrudan karşılaştırmak için bir W eşlemesini öğrenmesini sağlayacaktır.

  • 00:25:00 Bu bölümde, softmax işlevini kullanan tamamen bağlı bir ağda dikkat değerlerinin nasıl hesaplandığını tartışıyoruz. Ağırlıklar, bir benzerlik ölçüsü elde etmek için bir sorguyu çeşitli anahtarlarla karşılaştıran bir ifade kullanılarak hesaplanır ve bu, her anahtara bir ağırlık atamak için kullanılır. Daha sonra dikkat değeri, her tuşla ilişkili değerlerin doğrusal bir kombinasyonu kullanılarak hesaplanır. W matrisi ile temsil edilen ağırlıklar, geri yayılım yoluyla sinir ağı tarafından öğrenilir ve Q'nun W'nin kapsadığı uzaya projeksiyonu optimize edilir. Ortaya çıkan ağırlıklar, çıktı kelimesi başına bir ağırlık ve gizli vektörler ile bir çıktı üretmek için kullanılır. VI olarak kullanılan her bir giriş sözcüğü ile ilişkilendirilmiştir.

  • 00:30:00 Bu bölümde ders, dikkat mekanizması ve dönüştürücü ağları tartışır. Dikkat mekanizması, bir bağlam vektörünün üretilmesine izin vererek, bir çıktı sözcüğü için gizli vektörleri girdi sözcükleri için gizli vektörlerle birleştirmenin bir yoludur. 2017'de sunulan trafo ağı, optimizasyonu hızlandıran ve işlemleri paralelleştiren sıralı verilerde tekrarı ortadan kaldırır. Makine çevirisindeki trafo ağının iki bölümü vardır: bir kodlayıcı ve bir kod çözücü. Kodlayıcı, kelime konumlandırmayı hesaba katmak için konumsal kodlamanın eklenmesiyle birlikte, çok kafalı dikkat ve ileri beslemeli bir sinir ağı yoluyla tüm kelime dizisini paralel olarak işler.

  • 00:35:00 Bu bölümde ders, dikkati her konum ve diğer tüm konumlar arasında hesaplayan çok başlı dikkat mekanizmasını açıklamaktadır. Çok başlı dikkat, her kelimeyi alır ve onu bir dikkat mekanizması yoluyla cümledeki diğer bazı kelimelerle birleştirerek, kelime çiftlerinden gelen bilgileri birleştiren daha iyi bir yerleştirme üretir. Derste ayrıca, orijinal girdiyi çok başlı dikkatten çıkan şeye götüren ve ardından bunu normalleştiren artık bir bağlantı ekleyen bir Donora katmanı tartışılır. Modelin kelime çiftlerini, çift çiftlerini vb. birleştirebilmesi için blok birkaç kez tekrarlanır. Bu sürecin çıktısı, bir dizi yerleştirmedir ve cümlede her konum için bir yerleştirme vardır. Ders daha sonra, her konumda bir etiket çıktısı için olasılıklar üreten bir softmax kullanarak bazı çıktılar üreten kod çözücüyü araştırır. Kod çözücü ayrıca iki dikkat katmanı içerir; bunlardan birincisi, çıktı sözcükleri arasındaki kişisel dikkattir ve ikincisi, çıktı sözcüklerini girdi sözcükleriyle birleştirir.

  • 00:40:00 Bu bölümde konuşmacı, çıkıştaki her pozisyonun girişteki pozisyonlara katılmasını sağlamak için kullanılan Trafo Ağlarındaki çok başlı dikkat mekanizmasını tartışıyor. Çok kafalı dikkat, anahtar-değer çiftlerini sorgularla ayrıştırarak, en yüksek ağırlıkları bulmak için bunları anahtarlarla karşılaştırarak ve çıktıyı üretmek için karşılık gelen değerlerin ağırlıklı bir kombinasyonunu alarak çalışır. Bu süreç, farklı projeksiyonları hesaplamak ve sözlükteki kelimeler üzerinde bir dağılım üretilene kadar yerleştirmeleri iyileştirmek için farklı doğrusal kombinasyonlarla birçok kez tekrarlanır.

  • 00:45:00 Dersin bu bölümünde, profesör çok başlı dikkat kavramını ve bunun evrişimli sinir ağlarındaki özellik haritalarıyla nasıl karşılaştırılabileceğini tartışıyor. Çok başlı dikkatteki farklı doğrusal kombinasyonlar, değerlerin bulunduğu alanı yansıtan veya değiştiren farklı filtreler olarak düşünülebilir. Bu, CNN'lerdeki çoklu özellik haritalarına karşılık gelen çoklu ölçekli nokta ürün dikkatleriyle sonuçlanır. Temas katmanı, bu farklı dikkatleri birleştirir ve sonunda, bunların doğrusal bir kombinasyonu, çok başlı bir dikkatle sonuçlanır. Ek olarak, profesör, gelecekteki kelimelere bağımlılık yaratacak bağlantıları geçersiz kılan veya ortadan kaldıran ve onu makine çevirisi görevleri için uygun hale getiren çok başlı dikkat maskesini açıklıyor.

  • 00:50:00 Videonun bu bölümü, Transformer ağı bağlamında maskelerin kullanımını tartışıyor. Sunum yapan kişi, softmax işlevinde belirli bağlantıları geçersiz kılmak için maskelerin nasıl kullanıldığını ve eksi sonsuz değerlerine sahip maskelerin kullanılmasının düzgün bir dağılımın korunmasını nasıl sağladığını açıklar. Sunum yapan kişi ayrıca, eğitim sırasında maske kullanımının paralel hesaplamaya nasıl izin verdiğini ve öğretmen zorlama tekniğinin eğitim sırasında girdi ve çıktıyı nasıl ayırdığını tartışır.

  • 00:55:00 Videonun bu bölümünde trafo ağlarında normalizasyon katmanının önemi ele alınmaktadır. Normalleştirme katmanı, ağırlıkların nasıl ayarlandığına bakılmaksızın her katmanın çıktısının 0 ortalamasına ve 1 varyansına sahip olmasını sağladığından, ağı optimize etmek için gradyan inişinin ihtiyaç duyduğu adım sayısını azaltmaya yardımcı olur. , çıktıların ölçeği aynıdır, bu da katmanlar arasındaki gradyan rekabetini azaltır ve yakınsamayı hızlandırır. Katman normalleştirmesinin, tek bir gizli birimden ziyade bir katman düzeyinde normalleştirmesi nedeniyle toplu normalleştirmeden farklı olduğu, daha küçük yığınlar ve hatta bir çevrimiçi veya akış ortamında her seferinde bir veri noktası için uygun hale geldiğine dikkat edilmelidir.

  • 01:00:00 Videonun bu bölümünde, konuşmacı gradyanların farklı katmanlarda nasıl geliştiğini ayrıştırmak için normalleştirmenin önemini tartışıyor. Ayrıca, trafo ağına giriş yerleştirme işleminden sonra eklenen konumsal yerleştirme konusuna da girerler. Konumsal yerleştirme, dikkat mekanizmasının, bir cümledeki kelimelerin sırasını korumak için önemli olan konumsal bilgileri yakalayabilmesini sağlar. Konuşmacı, konumsal gömmenin bir mühendislik hilesi olduğunu açıklıyor ve onu hesaplamak için kullanılan formülü tartışıyor, ancak ağın bu yönüne yaklaşmanın farklı yolları olabileceğini belirtiyorlar.

  • 01:05:00 Dersin bu bölümünde, konuşmacı bir trafo ağının karmaşıklık tahminlerini tekrarlayan bir sinir ağının veya evrişimli sinir ağınınkilerle karşılaştırır. Öz-dikkat ağı olarak da bilinen trafo ağı, n'nin karesi düzeyinde bir karmaşıklığa sahiptir çünkü dikkat mekanizması, bir katmandaki her bir konum için diğer tüm konumlarla ilgilenirken aynı zamanda bunların yerleşimlerini de hesaplar. Bununla birlikte, trafo ağı ilk kelimeden bilgi kaybetmez ve bilginin kelime çiftleri arasında anında akmasına izin vererek, uzun menzilli bağımlılıkları yakalamada etkili olur. Ek olarak, bir trafo ağında sıralı işlemler yoktur, bu da tüm kelimelerin aynı anda ve paralel olarak işlenebileceği anlamına gelir. Buna karşılık, tekrarlayan bir sinir ağı, n'ye kadar olabilen sıralı işlemlere ve yol uzunluğuna sahiptir.

  • 01:10:00 Dersin bu bölümünde, konuşmacı trafo ağlarının avantajlarını, özellikle de rekabeti azaltma ve ölçeklenebilirliği geliştirme yeteneklerini tartışıyor. Konuşmacı daha sonra makine çevirisi için farklı modelleri, özellikle İngilizce'den Almanca'ya ve İngilizce'den Fransızca'ya karşılaştırmaya devam ediyor ve transformatör modellerinin olağanüstü sonuçlar vermediğini, ancak hesaplama süresini büyük ölçüde azalttıklarını ve eğitim için daha verimli bir seçenek haline getirdiklerini gösteriyor. . Konuşmacı ayrıca denetimsiz dil modellemesi için 2018'de önerilen GPT ve GPT-2 gibi diğer trafo ağ türlerini de tartışıyor.

  • 01:15:00 Bu bölümde video, GPT ve BERT adı verilen iki tür trafo ağını tanıtıyor. GPT, okuduğunu anlama, çeviri, özetleme ve soru cevaplama gibi çeşitli görevler için kullanılabilen bir dil modelidir. Model, gelecekteki çıktıyı dikkate almadan bir kelime dizisi oluşturmak için önceki çıktıları dikkate alır. Araştırmacılar, ağı belirli bir göreve uyarlamadan bunu farklı görevlere uyguladılar ve tamamen denetimsiz bir şekilde son teknolojiye yaklaşmayı başardıklarını gördüler. BERT, transformatörlerden gelen iki yönlü kodlanmış gösterimleri temsil eder ve ana ilerlemesi, bir kelimeyi hem önceki kelimeye hem de gelecekteki kelimelere dayalı olarak tahmin ederek onu GPT'den daha iyi hale getirmesidir.

  • 01:20:00 Bu bölümde öğretim görevlisi trafo ağlarında, özellikle BERT ve XLNet'te yapılan gelişmeleri tartışıyor. BERT, modellere göreve özgü verilerle ince ayar yapma becerisiyle övünür ve bu da on bir görevde son teknolojide büyük bir gelişme sağlar. Bununla birlikte, XLNet daha da etkileyici bir performans ortaya koydu ve çoğu görevde eksik girdilere izin vermesi ve bunun sonucunda genelleme yaparken daha iyi performans göstermesi nedeniyle BERT'i geride bıraktı. Bu trafo ağlarının doğruluk ve hız açısından iyi performans gösterdiği kanıtlanmıştır ve tekrarlayan sinir ağlarının geleceği hakkında soru işaretlerine neden olur.
 

CS480/680 Ders 20: Otomatik kodlayıcılar



CS480/680 Ders 20: Otomatik kodlayıcılar

Otomatik kodlayıcılar, kodlayıcı-kod çözücülerle yakından ilişkili bir ağ ailesini ifade eder; fark, otomatik kodlayıcıların bir girdi alıp aynı çıktıyı üretmesidir. Sıkıştırma, gürültü giderme, seyrek bir temsil elde etme ve veri oluşturma için önemlidirler. Doğrusal otomatik kodlayıcılar, hiçbir bilginin kaybolmamasını sağlarken yüksek boyutlu vektörleri daha küçük gösterimlere eşleyerek sıkıştırma sağlar ve girdiden sıkıştırılmış gösterime ve geriye doğru doğrusal bir dönüşümü hesaplamak için ağırlık matrislerini kullanır. Buna ek olarak, derin otomatik kodlayıcılar karmaşık eşlemelere izin verirken, olasılıklı otomatik kodlayıcılar veri üretimi için kullanılabilecek ara gösterim ve girdi üzerinden koşullu dağılımlar üretir. Otomatik kodlayıcılar tarafından doğrusal olmayan işlevlerin kullanılması, girdinin kayıpsız bir şekilde sıkıştırılmasına yol açan, verilerin asıl boyutsallığını yakalayan daha düşük boyutlu bir uzay üzerine bir projeksiyon olan doğrusal olmayan manifolddan yararlanır.

  • 00:00:00 Otomatik kodlayıcılarla ilgili dersin bu bölümünde sunum yapan kişi, bunların kodlayıcı-kod çözücülerle yakından ilişkili bir ağ ailesi olduğunu açıklıyor; tek fark, Otomatik kodlayıcıların bir girdi alıp aynı çıktıyı üretmesi. Otomatik kodlayıcılar, sıkıştırma, gürültü giderme, seyrek bir gösterim elde etme ve veri oluşturma gibi görevler için önemlidir. Sıkıştırma, hiçbir bilginin kaybolmamasını sağlarken yüksek boyutlu vektörleri daha küçük temsillere eşlemeyi içerir. Bunu başarmak için girdi, daha küçük bir gösterim üreten bir kodlayıcıya beslenir ve ardından sıkıştırılmış gösterimin girdinin tüm bilgilerine sahip olmasını sağlamak için girdiye geri kodu çözülür. Doğrusal Otomatik Kodlayıcılar, girdiden sıkıştırılmış gösterime ve tekrar girdiye doğrusal bir dönüşümü hesaplamak için ağırlık matrislerini kullanır.

  • 00:05:00 Bu bölümde öğretim görevlisi, otomatik kodlayıcılar ile ana bileşen analizi (PCA) arasındaki bağlantıyı açıklar. PCA'nın tipik kullanımının, verilerdeki varyasyonu korurken verileri daha düşük boyutlu bir hiper düzleme yansıtmak olduğunu belirtiyor. Bununla birlikte, Öklid mesafesini en aza indirmek için bir otomatik kodlayıcı (doğrusal eşlemelere sahip) kullanıldığında, bunun PCA ile aynı çözümü verdiğini ve bunun da onu boyut azaltma için kullanışlı bir araç haline getirdiğini açıklıyor. Öğretim görevlisi, otomatik kodlayıcıdaki WF ve WG matrislerinin, WG x WF X'i verdiği için esasen birbirinin tersi (veya sözde tersi) olduğunu vurgular.

  • 00:10:00 Bu bölümde öğretim görevlisi, otokodlayıcıların güzelliğini, yani kendilerini PCA'dan farklı olarak doğrusal eşlemelerle sınırlamamalarını açıklıyor. Bunun yerine, otomatik kodlayıcılar, doğrusal olmayan bir manifold yoluyla daha düşük boyutlu bir uzaya yansıtılabilen verilerin gizli temsilini bulmak için doğrusal olmayan işlevleri kullanabilir. Bu manifold, girdinin kayıpsız bir şekilde sıkıştırılmasına yol açabilen verilerin içsel boyutsallığını yakalayabilir. Bununla birlikte, H'nin optimal boyutsallığının belirlenmesi, yapı öğrenimi için özel teknikler gerektirecektir.

  • 00:15:00 Bu bölümde video, derin otomatik kodlayıcıları ve seyrek gösterimleri tanıtıyor. Derin otomatik kodlayıcılar, gizli katmana ulaşmadan önce birden çok katmana sahiptir, bu da karmaşık eşlemelere izin verirken, seyrek temsiller, F tarafından üretilen vektördeki sıfır olmayan girişlerin sayısını en aza indirerek ara temsillere yapı dayatır. Bu, dışbükey olmayan optimizasyon yoluyla yapılabilir veya çıktının l1 normunu en aza indirmek için l1 düzenlemesini kullanarak. Ayrıca video, girişin bozuk bir sürümünü besleyerek ve orijinal X'i kurtarmaya çalışarak gürültü giderme için otomatik kodlayıcı kullanmanın bir örneğini sunar.

  • 00:20:00 Bu bölümde öğretim görevlisi, koşullu dağılımlara odaklandıkları için deterministik olanlardan farklı olan olasılıksal veya stokastik otomatik kodlayıcıları açıklamaktadır. Deterministik bir otomatik kodlayıcıda, kodlayıcı, kod çözücünün girdiyi yeniden yapılandırmak için doğrudan kullanabileceği bir ara gösterim üretirken, olasılıksal bir otomatik kodlayıcı, ara gösterim ve girdi üzerinden koşullu dağılımlar üretir. Uygun son aktivasyon fonksiyonlarına sahip bir sinir ağı tasarlayarak, son katman, dağılımlar olarak yorumlanabilecek modeller üretmek için kullanılabilir. Çıkış katmanındaki doğrusal birimler, gerçek veriler için koşullu dağılımları kodlamak için kullanılabilirken, sigmoid birimler ikili verilerle çalışabilir. Öğretim görevlisi, bu olasılıksal otomatik kodlayıcıların, deterministik olanlardan önemli bir fark olan veri üretimine izin verdiğini vurgular.

  • 00:25:00 Dersin bu bölümünde, konuşmacı otomatik kodlayıcının olasılıksal grafik modelini açıklıyor. X girişi, rastgele bir değişken olarak kabul edilir ve X çıkışı, girişin yaklaşık bir versiyonudur. H, gizli katmanı temsil eden başka bir rasgele değişkendir ve oklar koşullu bağımlılıkları gösterir. Ağırlıklar, koşullu dağılımlarla temsil edilir ve kod çözücü, koşullu bir dağılımdır. Farklı çıktı türleri üretmek için farklı aktivasyon fonksiyonları kullanılır. Konuşmacı ayrıca hem ikili hem de Gauss vektörleri için H üzerinden bir dağılıma dayalı olarak X üzerinden bir dağılımın nasıl hesaplanacağını tartışır.

  • 00:30:00 Bu bölümde öğretim görevlisi, olasılıksal otomatik kodlayıcı gibi bir mimarinin veri üretmek için nasıl kullanılabileceğini açıklar. Deterministik bir otomatik kodlayıcı ile, kod çözücü bir miktar gömme alır ve bir veri noktası oluşturur. Bununla birlikte, bir dağılıma sahip olarak, ara gösterim üzerinden bazı dağılımlardan örnek alabilir ve bunu bir veri noktası oluşturmak için kullanabiliriz. Örneğin, olasılıksal otomatik kodlayıcıyı yüzlerle eğitirsek, gizli temsilden kolayca örnek alabilir ve ardından veri setindekinden farklı ancak benzer yeni bir yüz üretebiliriz. Görüntüler üzerindeki dağılımdan örnekleme yaparak bir görüntü elde ederiz.

  • 00:35:00 Bu bölümde konuşmacı, olasılıklı otomatik kodlayıcılar kullanarak yeni görüntülerin oluşturulmasını tartışıyor. Konuşmacı, otomatik kodlayıcının, giriş veri noktalarını, yakındaki noktaların kodunun yeni görüntülere dönüştürülebileceği bir alandaki gömmelere eşleyerek nasıl yeni görüntüler oluşturabileceğini açıklar. Ancak konuşmacı, gerçekten yeni görüntüler oluşturmak için uygun gömmelerin örneklenmesine izin veren bir dağıtım olması gerektiğini belirtiyor. Otomatik kodlayıcıda kullanılan dağılım, benzer görüntülerin üretilmesine yol açabilen giriş veri noktası X'e göre koşullanır. Bu sınırlamanın üstesinden gelmek için, bir sonraki slayt seti, doğrudan bir H ile örnekleme ve yeni görüntüler oluşturma mekanizmalarını tartışacaktır.
 

CS480/680 Ders 21: Üretken ağlar (varyasyonel otomatik kodlayıcılar ve GAN'lar)



CS480/680 Ders 21: Üretken ağlar (varyasyonel otomatik kodlayıcılar ve GAN'lar)

Bu ders, varyasyonel otomatik kodlayıcılar (VAE'ler) ve üretken çekişmeli ağlar (GAN'lar) gibi ağlar aracılığıyla verilerin çıktı olarak üretilmesine izin veren üretici ağlara odaklanır. VAE'ler, verileri orijinal alandan yeni bir alana eşlemek için bir kodlayıcı ve ardından orijinal alanı kurtarmak için bir kod çözücü kullanır. Öğretim görevlisi, VAE'lerin arkasındaki konsepti ve eğitimde ihtiyaç duyulan dağılımların integralini hesaplamadaki zorlukları açıklar. GAN'lar iki ağdan oluşur - bir üretici ve bir ayrımcı - burada üretici ağ yeni veri noktaları oluşturur ve ayrımcı ağ, üretilen ve gerçek olanlar arasında ayrım yapmaya çalışır. Ağların güçlü yönleri arasında bir denge sağlamak ve küresel yakınsama sağlamak da dahil olmak üzere GAN uygulamasındaki zorluklar tartışılmaktadır. Ders, oluşturulan görüntülerin örnekleri ve bir sonraki ders için bir önizleme ile sona erer.

  • 00:00:00 Dersin bu bölümünde, üretici ağlara ve bunların veri üretimi için nasıl kullanılabileceğine odaklanılır. Sınıflandırma ve regresyon şimdiye kadar derste işlenen ana teknikler olsa da, üretken ağlar verilerin çıktı olarak üretilmesine olanak tanır. Bu, özellikle doğal dil üretimi, konuşma sentezi ve görüntü ve video üretimi için kullanışlıdır. Varyasyonel otomatik kodlayıcılar ve üretken çekişmeli ağlar, şu anda veri üretimi için kullanılan en popüler ağlar arasındadır. Bu ağlar, bir veri setinde bulunana benzer gerçekçi veriler üretmek için kullanılır.

  • 00:05:00 Bu bölümde öğretim görevlisi, deterministik bir kodlayıcı yerine koşullu bir dağılımı kodlayan olasılıksal bir kodlayıcıya sahip olduğumuz olasılıksal otomatik kodlayıcılar fikrini tartışıyor. Benzer şekilde kod çözücü de bir koşullu dağıtımdır ve veriler üzerinden dağıtım oluşturarak yeni veri noktalarının üretilmesini mümkün kılan bir üretici olarak düşünülebilir. Varyasyonel bir otomatik kodlayıcı, sabit bir dağılımdan, ortalama 0 ve varyans 1 olan bir Gauss'tan gizli bir vektör H'yi örneklemek için kullanılır ve ardından kodlayıcının H üzerindeki dağılımını X'e mümkün olduğunca yakın hale getirmeye çalışan bir hedef oluşturur. sabit dağılım, iyi numune sonuçları sağlar.

  • 00:10:00 Bu bölümde öğretim görevlisi varyasyonel otomatik kodlayıcıların (VAE'ler) arkasındaki konsepti açıklıyor. VAE'ler, verileri orijinal alandan yeni bir alana eşlemek için bir kodlayıcı ve ardından orijinal alanı kurtarmak için bir kod çözücü kullanır. Kodlayıcı, kod çözücü tarafından orijinal uzaya geri eşlenebilen yeni noktaları örneklemek için kullanılabilecek bir dağılım üretir. Ancak, oluşturulan veri noktalarının orijinal verilerle aynı tipte olmasını sağlamak için kodlayıcının dağılımının sabit bir dağılıma mümkün olduğunca yakın olması gerekir. Ders, VAE'ler için amaç fonksiyonunu ve bu hedefe ulaşmak için ağın nasıl optimize edileceğini kapsar.

  • 00:15:00 Bu bölümde öğretim görevlisi, kodlayıcının H üzerindeki dağılımının ve her H için X üzerindeki dağılımının integralini hesaplamanın zorluklarını tartışır. Kodlayıcı ve kod çözücü karmaşık olduğundan bu integral kapalı biçimde hesaplanamaz nöral ağlar. Bunu ele almak için öğretim görevlisi, integrale yaklaşmak ve kodlayıcıdan örnekleme yoluyla bir H üretmek ve ardından kod çözücünün dağılımıyla elde edilen dağılımı tahmin etmek için tek bir örneğin kullanılmasını önerir. Yaklaştırma, eğitim sırasında yapılır ve öğretim görevlisi, bir degradeyi hesaplamaya devam etmek için dikkatli değerlendirme gerektiren bir örnekleme adımı olduğundan, bunun normal otomatik kodlayıcılardan farklı olduğunu vurgular.

  • 00:20:00 Videonun bu bölümünde konuşmacı, değişken otomatik kodlayıcılar gibi üretken ağların eğitiminde kullanılan yeniden önceliklendirme hilesini açıklıyor. Kodlayıcı ve kod çözücü ağ mimarileri, optimizasyon sırasında gradyanların hesaplanmasını zorlaştıran örnekleme adımlarını içerir. Bunu ele almak için, gizli değişken için optimum ortalama ve varyansa sahip dağılımı elde etmek üzere kodlayıcının çıkışı H ile çarpılan yeni bir değişkenin, H tilde'nin örneklenmesini sağlamak için sabit bir Gauss dağılımı tanıtıldı. Dönüştürülen H daha sonra, yeniden oluşturulmuş X çıktısını oluşturmak için kod çözücü ağında kullanılır.

  • 00:25:00 Bu bölümde, konuşmacı sinir ağlarının gradyanların geri yayılımını engellemeden bir veri dağıtımından örnekler oluşturmasına izin veren "yeniden parametrelendirme" adı verilen bir numarayı açıklıyor. İşin püf noktası, farklı ama sabitlenebilir bir dağılımdan (Gaussian gibi) örneklemeyi ve ardından örneği istenen dağılımdan bir örneğe dönüştürmek için bazı matematiksel işlemleri kullanmayı içerir. Bu şekilde, örnek, geri yayılım sırasında gradyanların içinden geçmesine izin veren ağa bir girdidir. Konuşmacı daha sonra bu numaranın üretici bir ağı eğitmek ve eğitilen ağdan yeni veri noktaları oluşturmak için nasıl kullanıldığını açıklar.

  • 00:30:00 Bu bölümde konuşmacı, üretken ağlarda sabit dağıtım ile kodlayıcı dağıtımı arasındaki farkı en aza indirmek için kullanılan bir mesafe ölçüsü olan geri dönüş kitaplığı sapmasının kullanımını tartışıyor. Konuşmacı, sabit dağılım olarak ortalama sıfır birim varyansa sahip Gauss'u kullanır ve kodlayıcıyı buna yakın bir dağılım üretmesi için eğitir. Düzenlileştirme terimini kullanarak, kod çözücü, eğitim setindekine benzer bir veri noktası üretebilir, bu durumda bunlar yüzlerin görüntüleridir. Otomatik kodlayıcının olasılıksal doğası nedeniyle biraz bulanık olan, varyasyonel bir otomatik kodlayıcı tarafından oluşturulan görüntü örnekleri gösterilmektedir. Konuşmacı daha sonra olasılıksal olarak oluşturulmamış daha keskin, daha gerçekçi görüntüler üretmek için iki ağ (bir oluşturucu ve bir ayrımcı) kullanan üretken çekişmeli ağları (GAN'lar) tanıtır.

  • 00:35:00 Bu bölümde öğretim görevlisi, Üretici Düşman Ağlarının (GAN'lar) nasıl çalıştığını açıklar. GAN'lar iki ağdan oluşur: bir üretici ağ ve bir ayrımcı ağ. Jeneratör ağı yeni veri noktaları oluştururken ayrımcı ağ, üretilen veri noktaları ile gerçek veri noktalarını birbirinden ayırmaya çalışır. Ayrımcı, oluşturucuya geri bildirim sağlayarak bir öğretici görevi görür ve daha gerçekçi veri noktaları oluşturmasına yardımcı olur. Eğitim, ayrımcı ağının gerçek veri noktalarını ve sahte olanları tanıma olasılığını en üst düzeye çıkarmaya çalışırken, üretici ağı bu olasılıkları en aza indirmeye ve ayrımcıyı kandırmaya çalıştığı bir amaç fonksiyonunu optimize ederek yapılır. Amaç işlevi, bir veri noktasının sahte olma olasılığı olarak yeniden yazılabilir.

  • 00:40:00 Bu bölümde eğitmen, bir üretici ve bir ayrımcıdan oluşan Üretken Düşman Ağlarının (GAN'lar) mimarisini açıklamaktadır. Jeneratör, bir örnek vektör alır ve simüle edilmiş veriler üretirken, ayırıcı, gerçek veya sahte olarak sınıflandırmak için hem gerçek hem de üretilmiş verileri alan bir sınıflandırıcıdır. GAN'ın amacı, üretici (WG) ve ayrımcı (WD) için farklı ağırlık kümeleriyle geri yayılımı kullanarak bu iki ağı optimize etmektir. Eğitmen, GAN hedefini en aza indirmek için eğim yönünde adımlar atılarak ağırlıkların güncellendiğini açıklamaya devam eder.

  • 00:45:00 Bu bölümde konuşmacı, üretken bir rakip ağı eğitmek için bir algoritmayı tartışıyor. Algoritma, ayrımcı için ağırlıkların optimize edildiği ve ardından hedefi optimize etmek için K adımın atıldığı bir dış döngü içerir. Bundan sonra, jeneratörü optimize etmek için tek bir adım atılır. Amaç, üreticinin eğitim setini oluşturmak için kullanılan dağılımı öğrenmesi ve böylece gerçek ortamdan ayırt edilemeyen gerçek veriler üretebilmesidir. Başarılı olursa, ayırıcı %50 hata oranına sahip olacak ve bir veri noktasının gerçek mi yoksa sahte mi olduğunu söylemek imkansız olacaktır.

  • 00:50:00 Videonun bu bölümünde öğretim görevlisi, rakip bir ortamda çalışan üretici ve ayrımcı olarak adlandırılan iki ağdan yararlanan üretken modellemeye yönelik bir yaklaşım olan Üretken Karşıt Ağların (GAN'lar) uygulanmasında ortaya çıkan zorlukları tartışıyor. yeni veriler oluştur. Biri diğerine hakim olabileceğinden, kilit konulardan biri, her iki ağın güçlü yönleri arasında bir denge sağlamaktır. Dışbükey olmayan optimizasyon, optimal olmayan yerel optimumlara yol açabileceğinden, optimizasyon sırasında küresel yakınsama elde etmek diğer bir zorluktur. Bu zorluklara rağmen, GAN'ların bazı yönleri pratikte iyi çalışıyor çünkü oluşturulan rakamlar ve yüzler eğitim setlerindeki gerçek veri noktalarına benziyor, ancak yine de bazı ince ayarlara ihtiyaç duyulabilir.

  • 00:55:00 Videonun bu bölümünde konuşmacı, üretken rakip ağlardan (GAN'lar) ve bunların nasıl benzer ancak farklı yüzler oluşturabileceklerinden bahsediyor. At, köpek ve bulanık bir görüntü dahil olmak üzere oluşturulmuş görüntülere örnekler veriyor. Konuşmacı ayrıca bir sonraki dersin makine öğreniminde farklı bir konuyu ele alacağından da bahseder.
 

CS480/680 Ders 22: Toplu öğrenme (torbalama ve hızlandırma)



CS480/680 Ders 22: Toplu öğrenme (torbalama ve hızlandırma)

Ders, öğrenme sonuçlarını iyileştirmek için çoklu algoritmaların bir araya geldiği toplu öğrenmeyi tartışır. İncelenen iki ana teknik torbalama ve artırmadır ve konuşmacı daha zengin bir hipotez elde etmek için hipotezleri birleştirmenin önemini vurgular. Ders, ağırlıklı çoğunluk oylama sürecini ve hata olasılığını ve ayrıca yükseltmenin sınıflandırma doğruluğunu iyileştirmek için nasıl çalıştığını açıklar. Konuşmacı ayrıca, toplu öğrenmenin pek çok sorun türüne uygulanabilirliğine dikkat çekerek hızlandırma ve topluluk halinde öğrenmenin avantajlarını da ele alıyor. Son olarak video, veri bilimi yarışmalarında topluluk öğreniminin kullanımını göstermek için Netflix meydan okuma örneğini takip ediyor.

Topluluk halinde öğrenme üzerine olan bu derste, konuşmacı, doğrulukta bir artış elde etmek için farklı modellerden hipotezleri birleştirmenin değerini vurguluyor; bu yaklaşım, halihazırda oldukça iyi çözümlerle başlarken özellikle yararlı olabilecek bir yaklaşımdır. Ağırlıklı bir tahmin kombinasyonu almanın önemini tartışıyor ve iki hipotezin ortalamasının bazen tek başına bireysel hipotezlerden daha kötü olabileceğine dikkat edilmesi gerektiğine dikkat çekiyor. Konuşmacı ayrıca görevin sınıflandırma mı yoksa regresyon mu olduğuna bağlı olarak ağırlıkların normalleştirilmesinin gerekli olabileceğini açıklar.

  • 00:00:00 Öğrenme sonuçlarını iyileştirmek için çoklu algoritmaları ve hipotezleri birleştirme süreci olan topluluk öğrenmenin önemi tanıtılır. Ders, torbalama ve artırma tekniklerini tartışır ve belirli bir problem için hangi bireysel algoritmanın en uygun olduğunu belirlemenin zorluğunu vurgular. Genellikle bir deneme yanılma meselesidir, ancak kusurlu hipotezleri birleştirmek, seçimlerin seçmenlerin tercihlerini veya komitelerin uzman görüşlerini birleştirmesine benzer şekilde daha iyi bir genel sonuca yol açabilir. Birden çok algoritmayı birleştirerek amaç, daha sağlam ve doğru bir tahmin veya sınıflandırma elde etmektir.

  • 00:05:00 Öğretim görevlisi topluluk öğrenimini ve bunun makine öğrenimi modellerinin doğruluğunu iyileştirmek için nasıl kullanılabileceğini tartışır. Toplu öğrenme, potansiyel olarak daha iyi olan daha zengin bir hipotez elde etmek için birden fazla kusurlu hipotezi birleştirmeyi içerir. Ders, topluluk halinde öğrenmenin iki yönteminden bahseder: torbalama ve artırma. Torbalama tekniği, farklı algoritmalar tarafından üretilen bir hipotez çantasını alıp oylama yoluyla birleştirmeyi içerirken, artırma, iyi performans gösterenlere daha fazla ağırlık vermek için hipotezlerin ağırlıklarını ayarlamayı içerir. Öğretim görevlisi, doğrusal olmayan sınırlar elde etmek için doğrusal ayırıcıları genelleştirmek için bu tekniklerin nasıl kullanıldığını açıklar ve bir politop örneği verir.

  • 00:10:00 Birden çok hipotezin tahminlerde bulunduğu ve en çok oyu alan sınıfın seçildiği, sınıflandırma için çoğunluk oyu kavramı tanıtılır. Hipotezlerin sayısı ne kadar fazlaysa, çoğunluğun yanlış olma olasılığı o kadar fazladır. Hipotezler bağımsız olduğunda, çoğunluk oyu daha sağlam hale gelir. Hipotez sayısına ve hata olasılığına dayalı olarak çoğunluğun hata yapma olasılığını hesaplamak için matematiksel bir denklem tanıtılır. %10 hata yapan beş hipotezin, çoğunluk oylama yönteminin sağlamlığını gösteren, çoğunluk oylamasının yanlış olma olasılığını %1'den daha az sağladığı bir örnek verilmiştir.

  • 00:15:00 Video, bağımsız hipotezlerin varsayımı gibi temel toplu öğrenme tekniklerinin sınırlamalarını tartışıyor. Bu sınırlamaları ele almak için, korelasyonları ayarlamak ve daha iyi hipotezlere daha yüksek ağırlıklar vermek için ağırlıklı çoğunluk oyu kullanılabilir. Bu teknik güçlendirme olarak bilinir ve daha sonra daha yüksek bir doğruluk elde etmek için bir araya getirilen sınıflandırıcılar üreten temel bir öğrenici kullanılarak yapılır. Güçlendirme çerçevesi, genel doğruluğu artırmak için hipotezlerini birleştirerek daha iyi algoritmalar tasarlamak adına kötü algoritmaların terk edilmesi gerektiği inancının üstesinden gelmeyi başardı.

  • 00:20:00 Öğretim görevlisi, hipotezler üretmek için bir temel öğrenici kullanmayı ve ardından farklı bir hipotez elde etmek için eğitim seti ağırlıklarını bozmayı içeren topluluk öğrenmede güçlendirme kavramını tartışır. Yanlış sınıflandırılmış örneklerin ağırlıklarını artırarak, daha doğru bir hipotez elde etme şansı artar. Öğretim görevlisi, denetimli öğrenme tekniklerinin ağırlıklı bir eğitim seti ile çalışacak şekilde ayarlanabileceğini ve bunun, hedefi değiştirerek ve her veri noktası için bir ağırlık getirerek basitçe yapılabileceğini açıklıyor. Bu yöntem, her veri noktasının kayıp fonksiyonunun ağırlıklı bir kombinasyonunun oluşturulmasına izin verir.

  • 00:25:00 Öğretim görevlisi, topluluk öğreniminde güçlendirme kavramını açıklar. Güçlendirme, yüksek ağırlıklara sahip örneklerin doğru sınıflandırmaya yöneldiği ağırlıklı bir eğitim seti ile öğrenmeyi içerir. Güçlendirme çerçevesi, bir hipotezin veri kümesinden karşılık gelen ağırlıklarla tekrar tekrar öğrenildiği, örneklerin yanlış sınıflandırma için kontrol edildiği ve ağırlıklarının artırıldığı ve sonunda, örneklem içi hipotezin, ağırlıklar kullanılarak oluşturulan hipotezlerin ağırlıklı bir çoğunluğu olduğu bir döngü içerir. doğrulukları ile orantılıdır. İki tür ağırlık vardır, veri noktaları için olanlar ve hipotezler için olanlar. Öğretim görevlisi, fikrin sınıflandırma doğruluğunu artırmak olduğunu ve ağırlıklı veri kümeleriyle çalışan herhangi bir algoritmanın güçlendirme için temel öğrenici olarak kullanılabileceğini vurgular.

  • 00:30:00 Konuşmacı, artırma algoritmalarında yanlış sınıflandırılmış veri noktalarının ağırlıklarını artırma kavramını tartışıyor. Bunun, doğru sınıflandırılmış veri noktalarının ağırlıklarını dolaylı olarak azaltma etkisine sahip olduğunu, ancak önemli olanın ağırlıkların göreli büyüklüğü olduğunu açıklıyorlar. Algoritma daha sonra kaybı en aza indirir ve yanlış sınıflandırma için daha yüksek bir bedel ödemekten kaçınmak için doğru şekilde sınıflandırmaya çalışır. Konuşmacı ayrıca, eğitim seti test seti ile aynı dağılımı izlemiyorsa, dağılımı bozmak için ağırlıkların kullanılabileceğini de not eder. Bununla birlikte, kusurlu hipotezlerin ağırlıklarının arttırılması, aşırı uydurmayı önleyebileceği ve genellemeyi iyileştirebileceği için, artırma tipik olarak bu amaç için kullanılmaz.

  • 00:35:00 Eğitmen, uyarlanabilir güçlendirme algoritmasının işleyişini basit bir veri seti kullanarak çoklu hipotez üretmenin görsel bir örneğiyle açıklar. Algoritma, ağırlıklı çoğunluk oylarını kullanarak, her hipotezin doğruluğuyla orantılı ağırlıklar atar ve bunlar, en iyi performans gösteren hipotezlerin ağırlıklı bir kombinasyonunu hesaplamak için kullanılır. Bu kombinasyondan oluşan topluluk daha sonra tahminlerde bulunmak için kullanılır.

  • 00:40:00 Öğretim görevlisi, aşırı uydurmayı önlemek için birden fazla hipotezi birleştirme kavramını açıklıyor. Mükemmel bir hipotezimiz olsa bile, aşırı uydurmayı önlemek için birden fazla hipotezi birleştirmenin daha iyi olduğunu savunuyorlar. Öğretim görevlisi, derin bir sinir ağının eğitim setinde mükemmel doğruluğa yol açabileceğini, ancak bunun basit ve hızlı olmadığını, topluluk öğrenimi ile birlikte kullanılan bir temel öğrenicide istediğimiz şeyin bu olduğunu belirtiyor. Öğretim görevlisi ayrıca Adaboost algoritmasını ve bunun hipotezlere ve veri örneklerine ağırlık atamak için nasıl çalıştığını açıklar.

  • 00:45:00 Konuşmacı, boost'un arkasındaki teoriyi ve avantajlarını açıklıyor. Güçlendirme, en azından rastgele bir sınıflandırıcı kadar iyi olan hipotezler üreten algoritmalar olan zayıf öğrenicilerle iyi çalışır. Amaç, doğruluğu ve performansı iyileştirmektir. Konuşmacı, veri örnekleri ve hipotezler için ağırlıkların nasıl hesaplanacağını ve bunların nasıl normalleştirileceğini açıklar. Güçlendirme, fazla uydurmaya karşı sağlam olma eğilimindedir ve uygulanması basittir, bu da onu birçok soruna uygulanabilir kılar. Ek olarak, güçlendirme birden fazla hipotez üretir, sadece bir tane değil, bu da daha iyi doğruluğa yol açar.

  • 00:50:00 Birden çok modelin tahminlerini birleştirmek için kullanılan bir teknik olan boosting ve topluluk öğrenimini öğreniyoruz. Boosting, farklı ağırlıklara sahip birden fazla hipotez üretme, hepsini birleştirme ve en iyisini seçme yöntemidir. Bayesçi öğrenmeye bir yaklaşım olarak, genelleme için birden fazla hipotezi birleştirmede seçici olurken aynı anda bir hipotez üretmenin izlenebilir bir yoludur. Boosting, Microsoft tarafından üretilen Kinect ve öneri sistemlerini %10 oranında iyileştirmek için kullanıldığı Netflix challenge dahil olmak üzere çeşitli endüstriyel uygulamalara sahiptir. Güçlendirme, her zaman işe yaramayabilecek ve herhangi bir teori olmadan gelebilecek diğer buluşsal yöntemlerin aksine, genellikle uzman tahminlerini birleştirmek için çok iyidir.

  • 00:55:00 Konuşmacı, Kaggle'ın kökenlerini ve veri bilimi yarışmaları düzenlemeye nasıl başladıklarını tartışıyor. Netflix'in doğruluğu %10 artırmak için bir yarışma başlattığı 2006 yılına kadar gidiyor. İlk ekip olan Bellcore, %8,43'lük bir iyileşme sağladı ancak eşiği karşılayamadı. Ardından konuşmacı, ekiplerin topluluk öğrenimini kullanarak yıllar içinde nasıl işbirliği yapmaya başladığını ve büyük ödül ekibinin nasıl oluşturulduğunu anlatıyor. Ekipler, her bir algoritmanın katkıda bulunduğu ekip puanındaki gelişmeyle orantılı olarak, büyük ödülün bir milyon dolarını paylaşmak için güçlerini birleştirdi. Büyük ödül ekibi, birçok araştırmacının büyük bir örneğini oluşturarak %9,46'ya ulaşmayı başardı ve son gün Bellcore, pragmatik ve kaos sunarak ödülü kazandı.

  • 01:00:00 Konuşmacı, topluluk halinde öğrenmenin önemini ve değerini, özellikle de yarışmaları kazanma bağlamında tartışıyor. BellKor'un Pragmatik Kaos ekibinin doğruluğunu birkaç yüzde puanı artırmak için toplu öğrenme tekniklerini kullanarak Netflix Ödülü'nü kazanması örneğini kullanıyor. Topluluk öğrenmenin, zayıf öğrenenler yerine zaten oldukça iyi çözümlerle başlarken özellikle yararlı olduğunu ve farklı modellerden hipotezleri birleştirerek doğrulukta bir artış elde etmenin mümkün olduğunu belirtiyor. Ek olarak, toplu öğrenmenin dağıtılmış hesaplamaya iyi bir şekilde katkıda bulunduğundan ve birden çok makine veya çekirdek aracılığıyla elde edilebileceğinden bahseder.

  • 01:05:00 Eğitmen, daha yüksek bir maliyete yol açmamak için hipotezler yerine tahminlerin ağırlıklı bir kombinasyonunu alma kavramını açıklar. Buradaki fikir, her hipotezin bir tahminde bulunacağı ve bu tahminlerin ağırlıklara göre birleştirileceğidir. Ancak, bazen iki hipotezin ortalaması aslında tek başına hipotezlerden daha kötü olabileceğinden, hipotezleri birleştirirken dikkatli olunmalıdır. Eğitmen ayrıca, görevin sınıflandırma mı yoksa regresyon mu olduğuna bağlı olarak ağırlıkların normalleştirilmesi gerekebileceğinden bahseder.
 

CS480/680 Ders 23: Akışları normalleştirme (Priyank Jaini)



CS480/680 Ders 23: Akışları normalleştirme (Priyank Jaini)

Bu derste Priyank Jaini, yoğunluk tahmini için bir yöntem olarak akışları normalleştirmeyi tartışıyor ve bunların GAN'lar ve VAE'ler gibi diğer üretken modellerden nasıl farklı olduğunu tanıtıyor. Jaini, olasılık kütlesinin korunumu kavramını ve bunun akışları normalleştirmede değişkenlerin değişim formülünü türetmek için nasıl kullanıldığını açıklıyor. Ayrıca, dönüşüm ailelerini ve permütasyon matrisleri kavramını kullanarak akışları normalleştirmede üçgen yapıyı oluşturma sürecini açıklıyor. Jaini ayrıca, daha yüksek dereceli polinomlar kullanan ve herhangi bir hedef yoğunluğunu yakalayabilen ve onları evrensel kılan kareler toplamı (SOS) akışları kavramını da sunar. Son olarak Jaini, görüntü üretimi için akış tabanlı yöntemlerde gizli alanı ve bunun faydalarını tartışıyor ve izleyicilerden akış tabanlı modellerin potansiyel dezavantajları üzerinde düşünmelerini istiyor.

Priyank Jaini'nin akışları normalleştirme üzerine yaptığı bu derste, çok sayıda parametreyle yüksek boyutlu dönüşümleri yakalamanın zorluklarını tartışıyor. Normalleştirme akışları, bu tür sorunların üstesinden gelmek için darboğazlar kullanan GAN'ların aksine, tam bir temsil elde etmek için her iki boyutun da aynı olmasını gerektirir. Jaini, akışları normalleştirme deneylerinde yüksek boyutlu veri kümeleriyle ilişkili parametreleri öğrenmenin zor olabileceğinin altını çiziyor. Ayrıca akışları normalleştirmenin çok modlu dağılımları nasıl yakalayabileceğine ilişkin soruları ele alıyor ve doğrusal afin dönüşümleri uygulamak için bir kod sunuyor.

  • 00:00:00 Doktora öğrencisi Priyank Jaini, denetimsiz öğrenmede temel bir sorun oluşturan yoğunluk tahmini sorununu çözmek için bir derin üretken modeller ailesi olarak akışları normalleştirmeyi tartışıyor. Jaini, yoğunluk tahmininin makine öğreniminde önemli örnekleme, Bayesci çıkarım ve görüntü sentezi gibi çok çeşitli uygulamaları olduğunu açıklıyor. Jaini ayrıca normalleştirme akışlarının önceki derslerde tartışılan varyasyonel otokodlayıcılardan (VAE'ler) ve üretken rakip ağlardan (GAN'lar) nasıl farklı olduğuna dair kısa bir giriş sağlar. Akışları normalleştirmenin koşullu üretken modeller için yararlı olduğunu ve yoğunluk tahmini için kullanılabileceğini önermektedir.

  • 00:05:00 Konuşmacı, Üretken Çekişmeli Ağlar (GAN'lar) ve Değişken Otomatik Kodlayıcılar (VAE'ler) dahil olmak üzere üretken modeller için çerçeveyi tartışıyor ve alternatif bir yaklaşım olarak akışları normalleştirmeyi tanıtıyor. Hem GAN'lar hem de VAE'ler, sentetik örnekler oluşturmak veya verileri yeniden yapılandırmak için bir kaynak dağılımı ve bir dönüşüm kullanır, ancak bunlar yoğunluk fonksiyonlarını açıkça değil örtük olarak temsil eder. Aksine, normalleştirme akışları, yoğunluk fonksiyonlarının açık bir temsilini verir ve olasılık kütlesinin korunumu ilkesi üzerinde çalışır. Amaç, gerçek veri dağılımına yaklaşmak için basit bir kaynak dağılımını (örneğin, Gauss) daha karmaşık bir hedef dağılımına dönüştüren bir dönüşümü öğrenmektir.

  • 00:10:00 Priyank Jaini, olasılık kütlesinin korunumu kavramını ve bunun değişkenlerin değişim formülünü türetmek için nasıl kullanıldığını tanıtıyor. 0-1 aralığında bir rasgele değişken örneği veriyor ve olasılık yoğunluğu 1/3 olan tek tip bir rasgele değişkenle sonuçlanan Z'nin T fonksiyonunu uyguluyor. Değişkenlerin değişimi formülünün, kaynak rasgele değişken Z ve T işlevi açısından hedef rasgele değişken X'in yoğunluğunu bulmak için kullanıldığını açıklar. Formülü, T işlevinin Rd'den öğrenildiği çok değişkenli duruma genişletir. Rd'ye ve formül QX = PZ çarpı T'nin gradyanının determinantı çarpı tersi olur.

  • 00:15:00 Konuşmacı, belirli bir giriş vektörünü (X) başka bir vektöre (Z) eşleyen bir işlevi öğrenmeyi içeren akışları normalleştirme kavramını açıklar. D olarak gösterilen işlev, T1'den TD'ye kadar tek değişkenli işlevlerden oluşur , X'in bileşenlerini alır ve Z'nin bileşenlerini çıkarır. Amaç, basit bir kaynak yoğunluğu PZ kullanarak girdi veri kümesinin (QX) yoğunluğunu yaklaşık olarak tahmin etmek ve değişkenlerin değişimini kullanarak veri noktalarının olasılığını en üst düzeye çıkarmaktır. formül. Bununla birlikte, D fonksiyonunun tersinir ve birebir olması gerekliliği de dahil olmak üzere bazı problemler ortaya çıkar.

  • 00:20:00 Öğretim görevlisi, yalnızca gözlemlenen veriler verildiğinde gizli uzayın nasıl hesaplanacağını tartışır. Bunu yapmak için, eşleme işlevinin ters işlevi gereklidir. Bununla birlikte, pratikte determinantı hesaplamak pahalıdır, bu nedenle öğretim görevlisi, determinantın hesaplanmasının kolay olduğu üçgen haritalar kavramını tanıttı. Ders daha sonra, normalleştirici akış araştırmasının, yoğunluk tahmininin yapılabilmesi için üçgensel olan bu dönüşümleri oluşturmaya ve bu dönüşümlerin farklı normalleştirici akışlarda nasıl kullanılabileceğine odaklandığını açıklar.

  • 00:25:00 Öğretim görevlisi, akışları normalleştirmek için üçgen bir yapı oluşturma sürecini açıklar. Yapı, belirli bir yoğunluğa (Q(X) yaklaşmak için basit bir yoğunluk, P(Z) seçmeyi içerir. Yoğunluk P(Z), normal veya düzgün dağılım gibi herhangi bir olasılık dağılımı olabilir. Başlangıçta, Küme 1'den X1 elde etmek için bir dönüşüm t1 kullanılır. Ardından, yinelemeler devam ederken, dönüşüm t2, X2'yi vererek 1 ve Z2'deki panoları girdi olarak alır. İşlem, TD Z1, Z2, ..., ZD'yi girdi olarak alıp XT'yi çıktı olarak verene kadar devam eder. Amaç, matrisin köşegen elemanlarının log toplamını bulmayı içeren bir negatif log olasılığını optimize ederek olasılığı maksimize etmektir. Öğretim görevlisi, üçgen yapıyı oluşturmak için kullanılabilecek dönüşüm ailelerine örnekler verir ve eklem yoğunluğunun, marjinallerin ve koşullu dağılımların bir ürünü olarak nasıl yazılabileceğini açıklar.

  • 00:30:00 Öğretim görevlisi akışları normalleştirme kavramını tartışır. Normal dağılımlar verilere bağlıdır ve verilerin işlevleridir. Standart Gaussian'dan bu normal dağılıma bir dönüşüm öğrenilir. Dönüşüm yinelemeli olarak yapılır ve ortaya çıkan fonksiyon üçgendir. Bu dönüşümleri istifleyerek, çoklu rasgele değişkenlerle daha karmaşık bir dönüşüme izin veren bir maske otomatik gerilemeli akış oluşturulur. Her dönüşümün determinantı ve son dönüşüm, Jacobian ve tersi alınarak kolayca hesaplanabilir. Dönüşümü tanımlayan parametreler, bir log olasılığını en aza indirerek eğitilir.

  • 00:35:00 Sunucu, yoğunluk tahmininde daha karmaşık bir dönüşüm oluşturmak için rastgele değişkenlerin sırasını değiştirmek ve korelasyonları kırmak için bir permütasyon matrisinin nasıl kullanılacağını açıklar. Birden çok dönüşümü üst üste koyarak, dönüşümün karmaşıklığı artırılarak, hoş bir biçim izlemese bile gerçek hayattaki herhangi bir yoğunluğun yakalanmasına izin verilir. Bununla birlikte, permütasyon uygulandığında, dönüşüm artık üçgensel değildir ve Jacobian'ı hesaplama açısından pahalı hale getirir. Bir permütasyon matrisi kullanma yöntemi zamandan tasarruf sağlar ve tam dönüşüme yaklaşır.

  • 00:40:00 Konuşmacı, akışları normalleştirmede kullanılan çeşitli dönüştürme yöntemlerini tartışır. Real NVP'nin girdiyi iki parçaya bölen, bir parçaya doğrusal dönüşüm uygulayan ve diğer parçayı değiştirmeden bırakan bir doğrusal dönüşüm yöntemi olduğunu açıklıyor. Daha sonra, daha karmaşık dönüşümler oluşturmak için bunun birden çok katmanını istiflerler. Konuşmacı ayrıca nöral otoregresif akışların lineer dönüşümler yerine derin nöral ağları kullandığından ve evrensel olduğundan bahseder. Ayrıca, doğrusal dönüşümler veya sinir ağları yerine polinomların karelerinin toplamının kullanılmasını öneren makalesinden bahsediyor. Bu yöntem, başka bir sinir ağından gelen katsayılara sahip yüksek dereceli polinomları kullanır ve aynı zamanda evrenseldir.

  • 00:45:00 Öğretim görevlisi, bilgisayar bilimi ve optimizasyonda daha önce keşfedilen polinomların kareler toplamının bir genellemesi olan kareler toplamı (SOS) akışlarının özelliklerini tartışır. Diğer yöntemlerden farklı olarak, SOS akışları, katsayı üzerinde herhangi bir kısıtlama olmaksızın basıklık ve çarpıklık gibi hedef dağılımın daha yüksek dereceli momentlerini kontrol edebilen daha yüksek dereceli polinomları kullanır. SOS akışlarının eğitilmesi daha kolaydır ve herhangi bir hedef yoğunluğunu yakalayabilir, bu da onları stokastik simülasyondaki uygulamalarla evrensel hale getirir. Öğretim görevlisi ayrıca, yüzleri daha eski bir sürüme enterpolasyon yapabilen görüntüler üretmek için tersine çevrilebilir bir çapraz insan konvolüsyonları ve afin bağlantı katmanları kullanan "Glow" adlı bir mimari sunar.

  • 00:50:00 Priyank Jaini, normalleştirme akışlarının mimarisini ve bunların görüntü üretimi için nasıl kullanılabileceğini açıklıyor. Algoritma, birden çok ifadeye sahip afin bir bağlantı katmanı ve rastgele bir döndürme matrisi, W kullanarak çalışır. Bir LU ayrıştırması kullanarak matrisin determinantını sabitlerler. Bunu kullanarak, bir girdi görüntüsünü gizli bir temsile dönüştürerek ve ardından istenen sonuca ulaşmak için gizli alan içinde belirli bir yönde hareket ederek yaşlı ve genç insanların görüntüleri arasında enterpolasyon yapabilirler. Sonuçlar, oluşturulan görüntülerin keskin olduğunu ve log-olasılık ile oluşturulan görüntülerin bulanık olacağına dair önceki varsayımlarla çeliştiğini gösteriyor.

  • 00:55:00 Öğretim görevlisi, girdinin belirli özelliklerini yakalayan ve görüntü üretimi için akış tabanlı yöntemlerde kullanılan gizli bir dağıtım olan gizli alan kavramını tartışır. Öğretim görevlisi, yaşlanan bir kişinin görüntüsünü oluşturmak için gizli alanı kullanan bir doğrusal enterpolasyon örneği sağlar. Öğretim görevlisi ayrıca yoğunlukların açık temsili ve Jacobian determinantını yakalamak için verimli üçgen dönüşümlerin kullanımı gibi akış modellerini normalleştirmenin faydalarını vurgular. Bununla birlikte, öğretim görevlisi aynı zamanda dinleyicilere akış tabanlı yöntemlerin olası dezavantajlarına ilişkin bir soru sorar ve bunlardan biri hesaplama karmaşıklığıdır.

  • 01:00:00 Öğretim görevlisi, akışları normalleştirmede çok sayıda parametreyle yüksek boyutlu dönüşümleri yakalamanın zorluklarını tartışır. GAN'lar bu sorunun üstesinden gelmek için bir darboğaz kullanırken, tam gösterimi elde etmek için normalleştirici akışlar her iki boyutun da aynı olmasını gerektirir. Öğretim üyesi, akışları normalleştirme deneylerinde kullanılan veri setlerinin boyutlarının yüksek olduğunu ve bunun ilişkili parametrelerin öğrenilmesini zorlaştırdığını vurgular. Öğretim görevlisi ayrıca normalleştirme akışlarının çok modlu dağılımları nasıl yakalayabileceği ve sinir ağlarının ağırlıkları üzerindeki eğitimin ağ parametreleri üzerinde dolaylı olarak nasıl eğitim verdiği ile ilgili soruları yanıtlar.

  • 01:05:00 Priyank Jaini, Eric Jack'in bir öğreticisinden öğrendiği lineer afin dönüşümleri uygulamak için yaklaşık yüz satır kod sağladığını açıklıyor. Bu ağları eğitmenin basit bir süreç olduğundan bahsediyor ve ilgilenenler için kodu sunuyor.
 

CS480/680 Ders 24: Gradyan artırma, torbalama, karar ormanları



CS480/680 Ders 24: Gradyan artırma, torbalama, karar ormanları

Bu ders, makine öğreniminde gradyan artırma, paketleme ve karar ormanlarını kapsar. Gradyan artırma, kayıp fonksiyonunun negatif gradyanına dayalı olarak önceki tahmin ediciye yeni tahmin ediciler eklemeyi içerir ve bu da regresyon görevlerinde artan doğruluğa yol açar. Ders ayrıca, düzenli hale getirme ve eğitim süreçlerini erken durdurma yoluyla fazla uydurmanın nasıl önleneceğini ve performansın nasıl optimize edileceğini araştırıyor. Buna ek olarak, ders, son bir tahmin elde etmek için alt örneklemeyi ve farklı temel öğrenicileri birleştirmeyi içeren torbalamayı kapsar. Karar ağaçlarının temel öğreniciler olarak kullanımı ve rastgele ormanların oluşturulması da tartışılmakta ve Microsoft Kinect'in hareket tanıma için rastgele ormanları kullandığı gerçek hayattan bir örnek verilmektedir. Topluluk yöntemlerinin paralel hesaplama için faydaları tartışılmakta ve makine öğrenimi sistemlerindeki ağırlık güncellemelerini anlamanın önemi vurgulanmaktadır. Bu ders, sinir ağları veya gizli Markov modelleri içindeki öngörücüleri birleştirmede ortalama ağırlıklarla ilgili olası sorunları ele alır ve bunun yerine tahminlerin çoğunluk oyu veya ortalama alma yöntemiyle birleştirilmesini önerir. Profesör ayrıca Waterloo Üniversitesi'nde mevcut çeşitli ilgili kurslar, optimizasyon ve lineer cebir alanında birkaç yüksek lisans düzeyinde kurs ve yapay zeka, makine öğrenimi, veri sistemleri, istatistik ve optimizasyon konularına odaklanan bir lisans veri bilimi programı önermektedir. Ders, genel bilgisayar bilimi derecelerine kıyasla veri bilimi konularında uzmanlaşma ve istatistikle örtüşme konusunda algoritmik yaklaşımların önemini vurgular.

  • 00:00:00 Eğitmen eğim artırmayı tartışır. Adaboost algoritmasının sınıflandırma için mükemmel olduğunu, ancak regresyon için olmadığını belirtiyor. Kayıp fonksiyonunun negatif gradyanının hesaplandığı ve bir sonraki öngörücünün bu gradyana uygun olduğu gradyan artırmayı tanıtıyor. Tahmin ediciyi istenen çıktıya değil, negatif eğime uydurduğundan, bu biraz mantıksız. Bu, bir gradyan iniş adımını taklit edecek ve bunu tekrar tekrar uygulayarak nihai tahmin edici, tüm tahmin edicilerin toplamı olacaktır. Bu yöntem özellikle regresyon için kullanışlıdır. Eğitmen, bu algoritmanın çok çeşitli kayıp fonksiyonları ile kullanılabileceğini ve regresyonda güçlendirme için bir çözüm olduğunu açıklar.

  • 00:05:00 Algoritmanın her adımında, hedef ile tahmin edilen değer arasındaki farka bir miktar kayıp fonksiyonuna sahip bir tahmin edicinin eşlik ettiği gradyan artırma kavramı açıklanır. Negatif gradyan daha sonra artıklara yaklaşmak için alınır ve bir sonraki tahmin edici artık veri kümesi için eğitilir. Amaç, bu yeni öngörücüyü bir öncekine ekleyerek hatayı azaltmaktır. Algoritmanın sözde kodu daha sonra verilir, burada başlangıçta, her veri noktası için kayıpları en aza indirerek ilk öngörücü bir sabit olarak ayarlanır.

  • 00:10:00 Profesör, birkaç zayıf öğreniciyi tek bir güçlü öğrenicide birleştiren, makine öğreniminde güçlü bir kavram olan gradyan artırmayı açıklıyor. Buradaki fikir, sadece bir sabit olan basit bir öngörücü ile başlamak ve ardından her veri noktası için sözde bir kalıntı hesaplayarak, yeni bir artık veri seti oluşturarak, bu verilere göre yeni bir temel öğreniciyi eğiterek her yinelemede yeni bir tahmin edici hesaplamaktır. ayarlayın ve tahmin ediciye bir miktar adım uzunluğu ile çarpılan yeni hipotezi ekleyin. Adım uzunluğu, hatayı azaltmak için negatif gradyan yönünde bir adım atmak için bir optimizasyon ifadesinin en aza indirilmesiyle seçilir. Ağırlık güncellemesi, negatif gradyan hesaplandığında gerçekleşir, ancak kendi başına bir ağırlık güncellemesi değildir.

  • 00:15:00 Konuşmacı, bir sinir ağı, karar ağacı veya başka herhangi bir regresör türü olabilecek temel bir öğrencinin eğitim aşaması sırasında ağırlık güncelleme sürecini açıklar. Tahmin ediciyi optimize ederken, tüm fonksiyonlar, yani FK-1, HK ve Etha k zaten optimize edildiğinden ve sabit ağırlıklara ayarlandığından, ağırlıkların güncellenmediğini açıklığa kavuştururlar. Bu fonksiyonlardan gelen tahminlerin kombinasyonu, her adımda kademeli olarak iyileşen ve daha düşük bir kayıp fonksiyonuna yol açan bir tahmin ediciye yol açar. Ancak süreç uzun vadede sıfır kaybına yol açmayabilir.

  • 00:20:00 Eğitmen, gradyan artırma ile kademeli olarak hatayı azaltma potansiyelini tartışıyor, ancak bunun tahmin edicilerin alanına ve verilerde bulunan gürültü miktarına bağlı olarak fazla uydurmaya yol açabileceğini belirtiyor. Algoritma, ağırlıkları değiştirmeden daha büyük bir örnek oluşturmak için daha fazla hipotez eklemeyi içerir. Eğitmen, sınıfa gradyan artırma ile aşırı uyum riski hakkında bir soru sorar ve aşırı uyum riski olduğu sonucuna varır, ancak düzenlileştirme veya erken durdurma gibi teknikler kullanarak bu oluşumun önlenmesi mümkündür.

  • 00:25:00 Öğretim görevlisi, bir doğrulama seti kullanarak rastgeleleştirme ve eğitim sürecini erken durdurma da dahil olmak üzere fazla uydurmayı azaltmanın yollarını tartışır. Ders daha sonra gradyan artırma tekniğini tanıtıyor ve performans ve doğruluk için optimize edilmiş popüler XG boost paketinden bahsediyor. Öğretim görevlisi ayrıca, bağımsız hipotezlerin kullanımı ve hipotezlerin sıralı olarak oluşturulmasına ve bunların artırmadaki kombinasyonlarına kıyasla torbalamada çoğunluk oyu dahil olmak üzere, torbalama ve artırma arasındaki temel farkları ana hatlarıyla belirtir.

  • 00:30:00 Konuşmacı, makine öğrenimindeki artırma ve paketleme tekniklerini tartışıyor. Güçlendirme, bazı ilişkili hipotezlere ve dengesiz doğrulukla hipotezlere izin veren ağırlıklı tahminleri içerir. Arttırma esnektir ve korelasyon sorununa karşı koymak için farklı hipotezlerin ağırlıklarını belirleyebilir. Buna karşılık, torbalama, hipotezler arasındaki korelasyonu azaltmak için bir veri alt kümesi üzerinde bir temel öğrenciyi eğitmeyi içeren önyükleme örneklemesini içerir. Konuşmacı, bu tekniklerin, hipotez bağımsızlığına ilişkin varsayımların tutabileceği veya yaklaşık olarak tutabileceği bazı kurulumları tasarlamak için pratik bir yol sunduğunu, keyfi kısıtlamaları azalttığını ve modeli daha güvenilir hale getirdiğini belirtir.

  • 00:35:00 Konuşmacı, korelasyonu azaltmak için özellikleri alt-örnekleyerek örnek-içi öğrenme paradigmasında rastgeleden daha iyi olan basit bir yordayıcı elde etme fikrini tartışıyor. Hem veri noktalarını hem de özellikleri alt-örnekleyerek, temel öğreniciye beslenen daha küçük bir veri seti elde edilir ve süreç her öngörücü için tekrarlanır. Ortaya çıkan hipotezler daha az ilişkilidir, bu da torbalamayı daha iyi bir seçenek haline getirir. Torbalama algoritması, K tahmin edicinin oluşturulduğu ve her tahmin edici için verinin alt-örneklendiği ve temel öğrenicinin örtüşmeye bağlı olarak farklı hipotezler ürettiği bir döngüden oluşur.

  • 00:40:00 Birden çok model oluşturmak için eğitim verilerinden birden çok rasgele örnek çıkararak çalışan bir teknik olan torbalamayı öğreniyoruz. Buradaki fikir, temel öğrenicilerin her birinden bir hipotez oluşturmak ve daha sonra nihai bir tahmin yapmak için bunları birleştirmektir. Amaç sınıflandırma ise çoğunluk oyu alınarak tahmin yapılırken, regresyon için tahminin ortalaması alınarak karar verilir. Literatürdeki popüler uygulama, temel öğrenen olarak bir karar ağacı kullanmaktır ve çeşitli veri alt kümeleri üzerinde birden fazla karar ağacı eğitildikten sonra bunlara rastgele orman diyoruz. Rastgele ormanlar, dağıtılmış bilgi işlem için de kullanılabilir. Duruş ve hareket tanıma için rastgele orman kullanan Microsoft Kinect'in gerçek hayattan bir örneği verilmiştir.

  • 00:45:00 Video, Kinect'i ve onun kızılötesi spektrumda bir nokta bulutu yansıtarak ve noktaları algılamak için bir kızılötesi kamera kullanarak nasıl bir derinlik haritası oluşturduğunu tartışıyor. Microsoft, noktaların dağılımına dayalı olarak derinlik bilgilerinin gerçek zamanlı çıkarımını sağlamak için bazı donanımlar oluşturmuştur. Kinect, bitişik piksellerin mevcut pikselin derinlik değeriyle karşılaştırıldığı rastgele bir orman yaklaşımıyla vücut bölümlerini ve hareketleri tanımlamak için pikselleri etiketleme yeteneğine sahiptir. Alt örnekleme tekniği, komşu pikselleri basitleştirmek için kullanılır ve vücut bölümünün boyutuna göre mesafelerin karşılaştırılması, mevcut pikseli sınıflandırmak için ipuçları verir, ancak bu yöntem zayıf kabul edilir.

  • 00:50:00 Konuşmacı, çok sayıda hafif sınıflandırıcının paralel olarak dağıtılmasına ve kullanılmasına olanak tanıyan, böylece büyük veriler için iyi ölçekleme sağlayan torbalama, güçlendirme ve diğer topluluk yöntemlerinin faydalarını tartışıyor. GPU'lar, hesaplamayı paralelleştirmenin anahtarı haline geldi ve paralelleştirme konusunda endişelenmeden vektörleri, matrisleri ve tensörleri işlemek için çeşitli çerçeveler var. Bununla birlikte, konuşmacı, gizli katmanlar ve değişkenler bu yaklaşımla ilgili sorunlara neden olabileceğinden, sınıflandırıcıların veya öngörücülerin güçlerinin ortalamasını almanın sezgisel ancak güvenilir olmayan yöntemine karşı uyarıda bulunur.

  • 00:55:00 Sunucu, bir mimarideki bireysel sistemlerin ortalamasının alınmasının nasıl sorunlu olabileceğini açıklıyor. Sunum yapan kişi tahtaya bir özel-veya kodlamak için 0 ve 1 değerlerini alan boole değişkenlerini kullandıkları bir örnek çizer. Sunucu, neyin geldiğini hesaplamak için tasarlanmış boolean değişkenleri için ağırlıklar ayarlar. Ayarlanan ağırlıklar, iki modelin her birini bulmak için çalışır ve bunlardan biri tetiklendiği sürece, sunucu ve/veya onları başka bir çöp tutma ünitesi aracılığıyla birleştirerek. Sunucu, ağırlıkları değiştirmenin sistemin çıktısını nasıl etkileyebileceğini açıklamaya devam ediyor.

  • 01:00:00 Konuşmacı, tahmin edicileri sinir ağlarında veya gizli Markov modellerinde birleştirirken ortalama ağırlık almanın tehlikelerini tartışıyor. Tehlike, aynı şeyi hesaplamayan simetrik çözümlerin olabileceği ve ağırlıkların ortalamasının alınmasının, doğru şeyi hesaplamayan bir tahminciyle sonuçlanabileceği gerçeğinde yatmaktadır. Bunun yerine, yapılacak güvenli şey, sınıflandırma için çoğunluk oyu veya regresyon için ortalamanın alınması yoluyla yapılabilecek tahminleri birleştirmektir. Konuşmacı ayrıca, daha fazla bilgi edinmek isteyenler için Waterloo Üniversitesi'nde makine öğrenimiyle ilgili başka kurslar da önerir.

  • 01:05:00 Profesör, makine öğrenimiyle ilgili mevcut kursu tamamlayacak diğer kursları tartışıyor. İlk olarak, Lineer cebir makine öğrenimi için çok önemli bir temel olduğundan, mevcut kursu almadan önce Hesaplamalı Lineer Cebir kursu almayı öneriyor. Ek olarak, makine öğreniminde önemli bir faktöre, yani veri karmaşıklığına odaklanan Makine Öğreniminin Teorik Temelleri adlı kurstan bahsediyor. Belirli bir miktarda veri ile ulaşılabilir doğruluk düzeyinin belirlenmesinin karmaşık bir konu olduğunu açıklıyor, bu nedenle kurs, istenen bir doğruluk düzeyine ulaşmak için ihtiyaç duyulan veri miktarını belirleyen ilkeleri türetmeyi amaçlıyor. Son olarak profesör, makine öğrenimi algoritmalarını anlamak için faydalı olan Veri Bilimi İçin Optimizasyon ve Optimizasyonun Temelleri gibi lisansüstü düzeydeki diğer derslerden bahseder.

  • 01:10:00 Öğretim görevlisi, öğrencilerin alabileceği veri bilimi ile ilgili mevcut dersleri ve programları tartışır. Bu kurslar, lisans ve lisansüstü düzeylerde veri bilimi programlarında düzenli olarak sunulmayan 800 seviyeli kurslardan oluşmaktadır. Öğretim görevlisi, bu ders ile istatistik dersleri arasında bir miktar örtüşme olsa da, buradaki yaklaşımın daha algoritmik olduğuna dikkat çekiyor. Veri bilimi programları, yapay zeka, makine öğrenimi, veri sistemleri, istatistik ve optimizasyonun kesiştiği konuları kapsar. Öğrencilerin bu programlarda aldıkları dersler, veri bilimi konularında uzmanlaşmayı vurgularken, genel bir bilgisayar bilimi yüksek lisans derecesi farklı konularda genişlik gerektirir.
 

Yapay Zekadan Korkmalı mıyız? Emad Mostaque, Alexandr Wang ve Andrew Ng ile | 39



Yapay Zekadan Korkmalı mıyız? Emad Mostaque, Alexandr Wang ve Andrew Ng ile | 39

Bu YouTube videosunun konukları, yapay zekanın (AI) potansiyel tehlikeleri, çeşitli sektörlerdeki aksamalar ve güncel kalmaları için çalışanların yeniden beceri kazanmasının önemi dahil olmak üzere çeşitli yönlerini tartışıyor. Panelistler ayrıca AI araçlarının kullanılabilirliğini, AI'nın sağlık hizmetlerinde uygulanmasını, bilgi dağıtım sistemlerinde standardizasyonu, AI'da zenginlik yaratma potansiyelini ve sağlık ve eğitimde dil modellerinin kullanımını tartışıyorlar. Ek olarak, yönetişimde yapay zeka modellerinin sorumlu bir şekilde uygulanması, şeffaflık ve etik hususlara duyulan ihtiyacı vurguladılar. Son olarak, panelistler sağlık ve eğitim için yapay zekada mahremiyet gibi konularda izleyicilerin bazı sorularını kısaca yanıtlıyor.

  • 00:00:00 Konuklar, konu bu teknoloji olduğunda yapay zekanın potansiyel tehlikelerini ve şeffaflık ve dikkat ihtiyacını tartışıyorlar. Ayrıca, yapay zekanın çeşitli sektörlerde neden olduğu kesintiye ve bu kesinti karşısında güncel kalabilmeleri için çalışanların yeniden beceri kazanmasının önemine de değiniyorlar. Konuklar, insanların yapay zekanın getirdiği değişikliklere uyum sağlamasına yardımcı olmak için çevrimiçi eğitim ve hükümetlerle ortaklık gibi potansiyel çözümler sunuyor. Nihayetinde, AI'nın şimdiye kadar gördüğümüz her şeyden daha hızlı servet yaratma ve herkesi yükseltme potansiyeline sahip olduğuna, ancak dikkatli ve sorumlu bir şekilde ele alınması gerektiğine inanıyorlar.

  • 00:05:00 Uzmanlar, AI araçlarının kullanılabilirliğini Google'ın kullanıcı dostu arayüzüne kıyasla tartışıyor. Yapay zeka araçlarının çok fazla eğitim gerektirmeden kullanımı daha kolay olacak şekilde gelişebileceğini umuyorlar. Üretken yapay zeka, tüm medya setinin büyük gövdelerinde eğitilir ve doğal dil anlayışına odaklanır. Ancak, AI'nın politikasının ve benimsenmesinin nispeten belirsiz olduğu ve eğitim kursları ve politika yapıcılarla iletişimin onu daha erişilebilir hale getirebileceği konusunda hemfikirler. Panel ayrıca yapay zeka programlamasında kavramları tanımlamanın zorluklarından ve artan istem kullanımının yanı sıra iyi tanımlanmış benzersiz yapısal adlara duyulan ihtiyaçtan da bahsediyor.

  • 00:10:00 Chicago'dan bir doktor, panelistlere AI'nın sağlık hizmetlerinde bakım noktası ve hasta değerlendirmesi açısından en verimli şekilde nasıl kullanılabileceğini soruyor. Panel katılımcıları, pazarda avantaj elde etmek için somut kullanım durumları bulmayı ve bunları uygulamayı öneriyor, çünkü pazara ilk önce girmek çok önemli. Ayrıca euroscape.com gibi araçlar aracılığıyla bir veri seti oluşturmayı ve bunun üzerine yeni bir model eğitmek için verileri etiketlemeyi ve açıklama eklemeyi öneriyorlar. Potansiyel olarak küçük başlayıp kademeli olarak genişleyen yapay zeka geliştirmek ve uygulamak için diğer şirketlerle ortaklık kurmayı veya bir ekip kurmayı öneriyorlar.

  • 00:15:00 Konuşmacılar, yapay zekanın asla engelleyemeyeceği herhangi bir ticari faaliyet olup olmadığını tartışıyor. Bazı fiziksel görevler ve endüstriler, yapay zeka tarafından kesintiye uğratılmaktan diğerlerinden daha uzak olsa da, konuşmacılar, yapay zekanın asla engelleyemeyeceği hiçbir ticari faaliyet olmadığı konusunda hemfikirdir. Bununla birlikte, AI kararlarını yorumlamanın zorluğunu ve bilgileri iyileştirmek ve sosyal ağlarda yanlış veya yanıltıcı bilgilerin yayılmasıyla mücadele etmek için merkezi güven ve standart depolarına duyulan ihtiyacı tartışıyorlar.

  • 00:20:00 Konuşmacılar, yapay zekanın (AI) giderek daha fazla benimsenmesine uyum sağlamak için bilgi dağıtım sistemlerinde standardizasyon ihtiyacını tartışıyor. Ayrıca, şu anda gerçekleştiği ve geleceği şekillendirmeye devam edeceği için, etik kaygıların önemine ve yapay zekanın sonuçlarına da değiniyorlar. Konuşma, hızlı müdahale süreleri ve insani çabaların koordinasyonu için kullanılabileceği, felaket kurtarmada yapay zekanın pratik uygulamalarına doğru kayıyor. Panel ayrıca, yapay zeka için değerli kullanım durumlarını belirlemek için teknoloji hakkında teknik bir anlayışa ve iş odaklı bir zihniyete sahip olması gereken bir Yapay Zeka Baş Sorumlusunun rolünü de tartışıyor.

  • 00:25:00 Konuşmacılar, yapay zeka teknolojisine ayak uydurmak için gereken uygulama ve tutkuyu tartışıyor. Şirketlerin yapay zekadaki en son trendlere ayak uydurması için dahili bir havuz oluşturmayı ve yapay zeka sistemlerine yüklenebilecek tüm mevcut verilerin kataloglanmasını öneriyorlar. Ayrıca yapay zeka endüstrisinde servet yaratma potansiyelini tartışıyorlar ve bu alanda kendilerinin veya bir şirketin becerilerini geliştirmeye yatırım yapmayı öneriyorlar. Bazıları harekete geçmek için çok geç olduğunu düşünse de, konuşmacılar aslında yapay zeka için henüz erken günler olduğunu ve yakın gelecekte önemli bir büyümenin beklendiğini öne sürüyorlar.

  • 00:30:00 Peter, glikoz seviyelerini izlemenin önemini tartışıyor ve bireylerin fizyolojileri ve genetiğine dayalı olarak farklı gıdaların kendilerini nasıl etkilediğinin farkında olmalarını sağlamak için glikoz seviyelerinin sürekli izlenmesini sağlayan bir şirket olan Levels'ı tavsiye ediyor. Daha sonra konuşma, yapay zekanın nasıl evrensel bir tercüman olarak işlev görebileceğine ve farklı bakış açıları arasında bağlam ve anlayış sağlayabileceğine vurgu yaparak teknolojinin dünya barışına nasıl katkıda bulunabileceğine geçiyor. Panelistler ayrıca açık yapay zeka konusuna ve Etik Komitesinin görevden alınmasına değinirken, bir üye açık yapay zeka tarafından yapılan işe hayranlığını ifade ederken aynı zamanda kararla ilgili endişelerini de kabul ediyor.

  • 00:35:00 Konuşmacılar, büyük yapay zeka modellerini devreye almanın getirdiği sorumluluğu ve bunların getirdiği faydaların risklere karşı olası değiş tokuşunu tartışıyor. OpenAI'nin teknolojiyi sorumlu bir şekilde konuşlandırmasına değiniyorlar ve AI kullanımının olumsuz yönlerini hafifletmeye çalışan etik AI ekiplerinin çabalarını takdir ediyorlar. Konuşma, potansiyel olarak tehlikeli teknoloji söz konusu olduğunda şeffaflık ve sorumlu yönetişim ihtiyacını da ele alıyor. Son olarak, konuşmacılar, sürecin karmaşıklığını ve mevcut teknolojinin sınırlamalarını kabul ederek, yatırım karar vermede AI kullanımına değiniyor.

  • 00:40:00 Grup, özellikle hemşirelik veya triyaj personelini destekleyen sohbet robotları oluşturmak için sağlık hizmetlerinde dil modellerinin kullanımını tartışıyor. GPT-Neo ve TF-Plan T5 gibi kararlı sohbet modellerinin kullanılmasından bahsediyorlar, ancak sağlık verileri oldukça hassas olduğundan, kontrol edilebilen ve sahiplenilebilen açık kaynaklı bir model oluşturmanın kritik önem taşıdığına dikkat çekiyorlar. Grup ayrıca eğitimde dil modellerinin kullanımını, özellikle de Chad-GPT gibi araçların deneme veya kitap incelemeleri yazmak için kullanılmasıyla ilgili tartışmayı tartışıyor. Şeffaflığın yararlarını ve öğrencilerin büyümelerini sınırlamadan bu araçları etkili bir şekilde kullanmaları için nasıl eğitileceklerini tartışıyorlar. Son olarak grup, eğitim bağlamında kopya çekmeyi neyin tanımladığı sorusuyla uğraşır.

  • 00:45:00 Panelistler, hızlı bir turda izleyicilerden gelen bazı soruları kısaca yanıtlıyor. Konular, müzik ve sanatta içerik oluşturma, sağlık hizmetleri için yapay zekada mahremiyet ve 15 yaşındaki bir çocuğun Python almaya devam edip üniversiteye gitmesi gerekip gerekmediğini içerir. Panelistler, veri gizliliğinin önemine ve sağlık hizmetlerinde denetlenebilir ve yorumlanabilir yapay zeka ihtiyacına değiniyor. Ayrıca yapay zeka etiğinin ve Çin gibi ülkeler tarafından potansiyel kötüye kullanımının bir sonraki oturumda tartışılacağından da bahsediyorlar.
Should We Be Fearful of Artificial Intelligence? w/ Emad Mostaque, Alexandr Wang, and Andrew Ng | 39
Should We Be Fearful of Artificial Intelligence? w/ Emad Mostaque, Alexandr Wang, and Andrew Ng | 39
  • 2023.04.20
  • www.youtube.com
This episode is supported by exceptional companies such as Use my code MOONSHOTS for 25% off your first month's supply of Seed's DS-01® Daily Synbiotic: http...
 

“Yapay Zekanın Babası” Geoffrey Hinton, Yapay Zekanın “Varoluşsal Tehdidi” Konusunda Uyardı | Amanpour ve Şirketi



“Yapay Zekanın Babası” Geoffrey Hinton, Yapay Zekanın “Varoluşsal Tehdidi” Konusunda Uyardı | Amanpour ve Şirketi

"Yapay zekanın vaftiz babası" olarak tanınan Geoffrey Hinton, hızla gelişen dijital zekaların sonuçlarını ve insan öğrenme yeteneklerini aşma potansiyellerini araştırıyor. Bu yapay zeka sistemlerinin oluşturduğu varoluşsal tehdide ilişkin endişelerini dile getirerek, çeşitli yönlerden insan beyninden daha iyi performans gösterebilecekleri konusunda uyarıda bulunuyor. Beyinden önemli ölçüde daha az depolama kapasitesine sahip olmalarına rağmen, dijital zekalar, insanlarınkini binlerce kez aşan bol miktarda sağduyu bilgisine sahiptir. Ayrıca, beyne kıyasla üstün algoritmalar kullanarak daha hızlı öğrenme ve iletişim becerileri sergilerler.

Hinton, yapay zekaların şakaların neden komik olduğunu açıklayabildiği ve insanlara kıyasla belirli kavramların daha derinden anlaşıldığını öne sürdüğü Google'ın Palm sistemini kullanarak yaptığı ilgi çekici bir keşfi paylaşıyor. Bu, bağlantı kurma ve bilgi edinme konusundaki olağanüstü yeteneklerini vurgular. İnsan sezgilerinin ve önyargılarının, hayvanlara cinsiyet nitelikleri atfetmemizi sağlayan sinirsel aktivitemize gömülü olduğunu vurguluyor. Ancak bu düşünce süreçleri, yapay zekanın gelecekte oluşturacağı potansiyel tehditlere de ışık tutuyor.

AI'nın duyarlılığıyla ilgili endişeleri ele alan Hinton, tanımının etrafındaki belirsizliği ve gelişimini çevreleyen belirsizliği kabul ediyor. İş yerinden edilme, gerçeği ayırt etmenin zorluğu ve sosyo-ekonomik eşitsizliği şiddetlendirme potansiyeli dahil olmak üzere yapay zekanın sunduğu çeşitli zorlukları gündeme getiriyor. Bu riskleri azaltmak için Hinton, yapay zeka tarafından üretilen sahte videoların ve görüntülerin üretimini suç sayan, sahte parayı yönetenlere benzer katı düzenlemeler getirmeyi öneriyor.

Uluslararası işbirliğinin önemini vurgulayan Hinton, Çinlilerin, Amerikalıların ve Avrupalıların hepsinin kontrol edilemeyen yapay zekanın ortaya çıkmasını önlemede kazanılmış bir çıkarı paylaştığının altını çiziyor. Google'ın AI geliştirme konusundaki sorumlu yaklaşımını kabul ediyor, ancak araştırmacıların bu akıllı sistemler üzerinde kontrol sahibi olmalarını sağlamak için kapsamlı deneylere duyulan ihtiyacı vurguluyor.

Hinton, tıp, afet tahmini ve iklim değişikliği anlayışı gibi alanlarda dijital zekanın değerli katkılarını kabul ederken, yapay zeka geliştirmeyi tamamen durdurma fikrine katılmıyor. Bunun yerine, yapay zekanın potansiyel olumsuz etkilerini anlamak ve azaltmak için kaynakların tahsis edilmesini savunuyor. Hinton, süper zeki yapay zekanın gelişimini çevreleyen belirsizlikleri kabul ediyor ve toplumun iyileştirilmesi için optimize edilmiş bir geleceği şekillendirmek için kolektif insan çabasının gerekliliğini vurguluyor.

  • 00:00:00 Bu bölümde yapay zekanın vaftiz babası olarak bilinen Geoffrey Hinton, yaratılmakta olan dijital zekaların insanlık için varoluşsal bir tehdit olan insan beyninden nasıl daha iyi öğreniyor olabileceğini tartışıyor, uyarısında bulunuyor. Beynin yüzde biri kadar depolama kapasitesine sahip olmasına rağmen, dijital zekaların nasıl binlerce kat daha fazla temel sağduyu bilgisine sahip olduğunu anlatıyor. Ek olarak, daha düşük bir öğrenme algoritması kullanan beyinden çok daha hızlı öğrenebilir ve birbirleriyle iletişim kurabilirler. Palm adlı bir Google sistemini kullanarak, bu yapay zekaların şakaların neden komik olduğunu açıklayabildiğini fark ettiğini açıklıyor ve bu, onların bazı şeyleri insanlardan daha iyi anladıklarını gösteriyor ve bu da onların bağlantılara bilgi aktarmanın daha iyi yollarına işaret ediyor.

  • 00:05:00 Bu bölümde, "Yapay zekanın vaftiz babası" Geoffrey Hinton, insan sezgisinin ve önyargılarının, hayvanlara belirli cinsiyet niteliklerini bu şekilde atfettiğimiz sinirsel aktivitemizde temsil edildiğini açıklıyor. Bununla birlikte, bu tür düşünce süreçleri, yapay zekanın gelecekte neden bir tehdit olabileceğine de işaret ediyor. Hinton, yapay zekanın duyarlılığıyla ilgili endişeleri ele alıyor ve insanların bunun duyarlı olmadığını iddia etmelerine rağmen, bu tanımla ne demek istediklerinden her zaman emin olmadıklarına dikkat çekiyor. Ayrıca, AI'nın işleri devralmak, gerçeği deşifre etmeyi zorlaştırmak ve sosyo-ekonomik eşitsizliği artırmak da dahil olmak üzere çeşitli tehditleri vardır. Bu sorunlarla mücadele etmek için Hinton, yapay zeka aracılığıyla oluşturulan sahte videoların ve görüntülerin üretimini suç sayacak olan sahte para için oluşturulanlar gibi katı düzenlemelere sahip olmayı öneriyor.

  • 00:10:00 Bu bölümde, önde gelen bir istihbarat araştırmacısı olan Geoffrey Hinton, yapay zekanın oluşturduğu varoluşsal tehdide karşı uyarıda bulunuyor. Bu makinelerin süper zeki olma ve kontrolü insanlardan devralma riskinden bahsediyor. Hinton ayrıca Çinlilerin, Amerikalıların ve Avrupalıların bu sonucu önlemede ortak çıkarları olduğunu ve bu nedenle tehlikeli yapay zekanın gelişmesini önlemek için işbirliği yapmaları gerektiğini açıklıyor. Ayrıca Google'ı sorumlu bir teknoloji devi olarak gösteriyor ancak bu makineleri geliştiren kişilerin, araştırmacıların bu yapay zekayı nasıl kontrol edeceklerini anlamalarına yardımcı olmak için çok sayıda deney yapmaları gerektiğini vurguluyor.

  • 00:15:00 Bu bölümde yapay zeka uzmanı Geoffrey Hinton, tıp, doğal afetleri tahmin etme ve iklim değişikliğini anlama gibi çeşitli alanlarda dijital zekanın faydalı katkılarını kabul ediyor. Bununla birlikte, AI gelişimine ara verme fikrine katılmıyor ve bunun yerine, AI'nın olumsuz etkilerini anlamak ve bunlardan kaçınmak için karşılaştırılabilir miktarda kaynak kullanılması gerektiğini öneriyor. Hinton ayrıca süper zekaların gelişimiyle birlikte gelen belirsizliklerin altını çiziyor ve insanlığın geleceğin daha iyi olması için çok çaba sarf etmesi gerektiğini vurguluyor.
“Godfather of AI” Geoffrey Hinton Warns of the “Existential Threat” of AI | Amanpour and Company
“Godfather of AI” Geoffrey Hinton Warns of the “Existential Threat” of AI | Amanpour and Company
  • 2023.05.09
  • www.youtube.com
Geoffrey Hinton, considered the godfather of Artificial Intelligence, made headlines with his recent departure from Google. He quit to speak freely and raise...