Makine Öğrenimi ve Sinir Ağları - sayfa 20

 

Mega-R3. Oyunlar, Minimaks, Alfa-Beta



Mega-R3. Oyunlar, Minimaks, Alfa-Beta

Bu video, normal minimaks, alfa-beta eklemeleri, alfa-beta budama, statik değerlendirme, aşamalı derinleştirme ve düğüm yeniden sıralama dahil olmak üzere oyun teorisi ve minimaks algoritmasıyla ilgili çeşitli konuları kapsar. Eğitmen örnekler kullanarak bu kavramların açıklamalarını ve gösterimlerini sağlar ve izleyicilerden bir oyun ağacındaki farklı düğümlerdeki değerlerin belirlenmesine katılmalarını ister. Video, buluşsal işlevlerdeki potansiyel kusurların tartışılmasıyla ve yaklaşan sınav için tavsiyelerle sona eriyor.

  • 00:00:00 Bu bölümde öğretim üyesi oyun kavramını tanıtıyor ve oyunların farklı bileşenlerine odaklanılacağından bahsediyor. Daha sonra normal minimaks algoritmasını ve oyun ağacında belirli bir noktada minimaks değerinin nasıl hesaplanacağını açıklamaya devam ederler. Öğretim görevlisi, örnek bir oyun ağacı kullanarak, izleyiciyi algoritma boyunca yönlendirir ve çeşitli düğümlerde minimum değeri belirler. Pamuk Prenses ilkesi ve büyükbaba maddesine de kısaca değinilmiştir.

  • 00:05:00 Videonun bu bölümünde konuşmacı oyun teorisindeki minimaks formülüne alfa ve beta eklemelerini açıklıyor. Bu sayıların eklenmesini, her iki tarafın da en kötüye hazırlanırken mümkün olan en iyi sonucu bulmaya çalıştığı Soğuk Savaş ile karşılaştırıyor. Alfa ve beta, her iki taraf için bir güvenlik önlemi veya en kötü durum senaryosu sağlayan sayıları temsil eder. Konuşmacı, alfa-beta aramanın minimaks'tan daha karmaşık olduğunu ve bazı insanlar için zor olabileceğini öne sürüyor. Bununla birlikte, alfa-beta aramada uzmanlaşmanın minimaks problemlerini anlama ve çözmede yardımcı olabileceğinden de bahseder.

  • 00:10:00 Bu bölümde, öğretim görevlisi sırasıyla Büyütücü ve Küçültücü için nükleer seçenekler olarak alfa ve beta kavramını açıklar. Alfayı negatif sonsuz olarak ve betayı pozitif sonsuz olarak ayarlamak, hem Büyütücünün hem de Küçültücünün her seferinde gördükleri ilk yola bakmalarını sağlayan bir güvenlik önlemi oluşturur. Algoritma ilerledikçe, oyunun olası sonucuna bağlı olarak alfa ve beta değeri değişir. Beta alfadan düşük olduğunda veya alfa betadan düşük olduğunda, algoritma dalı budar ve oyunculardan birinin artık o dalı keşfetmek istemediğinin sinyalini verir. Öğretim görevlisi ayrıca, oyun ağacının farklı düğümlerinde alfa ve beta sayıları çizmenin farklı yöntemleri olduğunu da not eder.

  • 00:15:00 Bu bölümde konuşmacı alfa-beta algoritmasında kullanılan Pamuk Prenses prensibini anlatıyor. İlke, üst düğümlerden alfa ve beta değerlerini devralmayı, ancak bir üst düğüme çıkarken kendisi için daha iyi değeri almayı içerir. Alfa negatif sonsuz ve beta pozitif sonsuz olmak üzere varsayılan alfa ve beta değerleri de tartışılmıştır. Konuşmacı daha sonra bir alfa-beta budama örneği gösterir ve izleyicilerden arama ağacındaki her bir düğümdeki alfa ve beta değerlerini belirlemelerini ister. Alfa-beta algoritmasının, üst düğümlerden miras alınan değerlere dayalı olarak belirli düğümleri aramaktan kaçınabileceğini vurgulamak için hileli bir soru atılır.

  • 00:20:00 Bu bölümde konuşmacı, daha iyi bir sonuca yol açması muhtemel olmayan karar ağacı dallarının kesilmesini içeren alfa-beta budama ilkesini açıklıyor. Konuşmacı, bir düşmanın nükleer saldırısının seçeneklerini içeren bir örnek verir ve alfa-beta budama ilkesine dayanarak hangi seçeneklerin budanacağını belirler. Ek olarak, konuşmacı, karar ağacı oyununda sonsuzlukla başlayan simge durumuna küçültücünün aksine, bir dalın budanıp budanmayacağını belirlemek için bir akıl sağlığı testi ve Maximizer'ın bir dalı atlayıp atlamayacağını belirleme becerisi sağlar.

  • 00:25:00 Videonun bu bölümünde konuşmacı, bir oyun ağacındaki farklı düğümlerdeki değerleri analiz ederek bir minimaks algoritmasında alfa ve beta değerlerini belirleme sürecini tartışıyor. Konuşmacı, küçültücü bir düğümle karşılaşıldığında beta değerinin pozitif sonsuza ayarlandığını ve bir büyütücü düğümle karşılaşıldığında alfa değerinin negatif sonsuza ayarlandığını açıklıyor. Konuşmacı daha sonra algoritmanın nasıl çalıştığını ve alfa değeri beta değerinden büyük veya ona eşit olduğunda düğümlerin nasıl budandığını göstermek için bir oyun ağacındaki belirli değerleri kullanır. Son olarak, konuşmacı, aşamalı derinleştirme kullanılarak bir oyun ağacında düğümlerin hangi sırayla değerlendirildiğini tartışır.

  • 00:30:00 Bu bölümde, konuşmacı, esas olarak yaprak düğümlere sayısal değerler atamaktan sorumlu işlev olan statik değerlendirme kavramını açıklar. Statik değerlendirici bu değerleri yaprakların alt kısmına atar ve değerlendirme sırası yalnızca yapraklara atıfta bulunur. Konuşmacı ayrıca, her düğümün büyük ebeveyninden (alfa veya beta) aynı türün değerini alarak başladığı Pamuk Prenses İlkesini açıklar. Maksimize edicinin hangi yolu izleyeceği üzerinde kontrolü yoktur; izlenecek yolu seçen simge durumuna küçültücüdür. Statik değerlendirme kavramı, belirli bir yolun ortadan kaldırılıp kaldırılmayacağının belirlenmesine yardımcı olduğundan, alfa-beta budama tekniği için çok önemlidir. Temelde, statik değerlendirme, algoritmanın verimliliğine katkıda bulunur ve alfa-beta budamasının birkaç statik değerlendirmeden kurtularak daha fazla zaman kazanmasını sağlar.

  • 00:35:00 Bu bölümde konuşmacı, satranç gibi oyunlarda tahta konumunu değerlendirmek için kullanılan statik değerlendirme kavramını açıklar. Değerlendirme uzun zaman alır ve oyunun durumunun dikkatli bir şekilde analiz edilmesini gerektirir. Arama ağacının yaprak düğümleri, oyunun durumunun analizine dayanan sezgisel değer tahminleri oldukları için statik olarak adlandırılır. Konuşmacı ayrıca, yalnızca iki seviye derinliğe sahip bir ağaçta kademeli derinleşme kavramını tanıtıyor ve alfa-beta'nın mümkün olduğu kadar çok budamasına izin vermek için ağacın nasıl yeniden düzenlenebileceğini soruyor.

  • 00:40:00 Bu bölümde eğitmen, dalları potansiyel kazanana göre yeniden sıralayarak en iyi düğümü arama sürecini optimize etmek için minimaks algoritmasının nasıl kullanılacağını açıklar, çünkü tüm yanlış olanları hızlı bir şekilde reddetmek daha kolaydır. nihai kazanan ilk olarak seçilir. Eğitmen, her bir yaprak düğüme bir ikili değer atayarak bu kavramı açıklar ve değerleri her bir alt ağaç için nihai kazananı hesaplamak için kullanır, böylece en uygun hareketi bulur. Bu yaklaşımı aşamalı derinleştirme ile birleştirmek, değerlendirilmesi gereken düğüm sayısını önemli ölçüde azaltacaktır.

  • 00:45:00 Bu bölümde öğretim görevlisi, aşamalı derinleşmeyi ve alfa-beta budamayı iyileştirmek için düğümleri yeniden sıralama olasılığını tartışıyor. Aşamalı derinleşme, küçük, dallanmayan ağaçlar için zaman kaybı olabilirken, daha büyük, daha karmaşık ağaçlar için çok önemlidir. Bununla birlikte, aşamalı derinleştirme sonuçlarına dayalı olarak düğümleri yeniden sıralama kavramı, buluşsal işlevin doğruluğuna bağlıdır. Öğretim görevlisi, hiçbir buluşsal işlevin mükemmel olmadığını ve kusurlu bir buluşsal işlevin, düğümleri yeniden sıralarken daha kötü sonuçlara yol açabileceğini vurgular. Son olarak öğretim görevlisi, duruma nasıl ulaşıldığına bakılmaksızın aynı buluşsal değerin her zaman belirli bir oyun durumuyla ilişkilendirileceği durumlarda olduğu gibi tutarlı buluşsal işlevler için buluşsal değerleri önbelleğe almanın nasıl yapılabileceğini açıklar.

  • 00:50:00 Videonun bu bölümünde, eğitmen her zaman en iyi hamle yerine en kötü hamleyi veren buluşsal yöntemi kullanmanın olası dezavantajlarını tartışıyor. Riskleri en aza indirmeye yardımcı olsa da, mümkün olan en kötü budama ile sonuçlanarak garantili başarının olmamasına yol açabilir. Eğitmen, yaklaşan kısa sınavın ilginç olacağından ve çeşitli zorluklar içereceğinden bahseder. Ancak, öğrencilere bu konuda fazla strese girmemelerini ve hafta sonunun tadını çıkarmalarını tavsiye ediyor.
Mega-R3. Games, Minimax, Alpha-Beta
Mega-R3. Games, Minimax, Alpha-Beta
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterThis mega-recitation covers Problem ...
 

Mega-R4. sinir ağları



Mega-R4. sinir ağları

Video, temsilleri, girdiler ve çıktılar üzerindeki karışıklık, sigmoid ve performans fonksiyonları, ağırlıklar ve sapmalar, geri yayılım, sigmoid ve performans fonksiyonlarını değiştirme, eşik ağırlıkları, görselleştirme ve sinir ağlarının potansiyeli dahil olmak üzere sinir ağlarının çeşitli yönlerini kapsar. Eğitmen sınav için gerekli çeşitli formülleri ve deltaların yinelemeli olarak nasıl hesaplanacağını ve ayarlanacağını açıklar. Ayrıca basit problemleri çözmek için gereken sinir ağlarının türlerini tartışıyor ve Maryland Üniversitesi'ndeki bir oyun oynama yarışmasında sinir ağlarının yakın zamanda gerçek dünyadaki bir uygulamasından bahsediyor. Son olarak, araştırmadaki sınırlamaları ve karmaşıklıkları nedeniyle sinir ağlarının gözden düşmesine rağmen, sınavlar için hala yararlı olduğundan bahseder.

  • 00:00:00 Bu bölümde Patrick, 603'teki problemler için sinir ağları çizmenin yeni bir yolunu tanıtıyor. Aynı sinir ağının iki farklı temsilini gösteriyor ve neden sağdakinin tercih edildiğini açıklıyor. Ayrıca öğrencilerin sinir ağları ile çalışırken sıklıkla karşılaştıkları girdiler ve çıktılar üzerindeki karışıklık ve ağırlıklarla örtülü çarpma gibi bazı sorunları tartışıyor. Patrick, eski sınavlarla çalışan öğrenciler için bir dönüştürme kılavuzu sağlar ve sınav için gerekli formüller üzerinde çalışır. Son olarak sigmoid fonksiyonunun farklı bir fonksiyona çevrilme olasılığından bahseder ve bu olursa öğrencilere artı olarak değiştirmelerini tavsiye eder.

  • 00:05:00 Bu bölümde eğitmen 1 bölü 1 artı e üzeri eksi x olan sigmoid fonksiyonunu ve sigmoid'in türevinin kendisi olduğu önemli özelliğini açıklar. Sinir ağlarına sonuçlarının ne kadar yanlış olduğunu söyleyen performans fonksiyonu da ele alınmıştır. Tercih fonksiyonlarını 1/2 D olarak seçtiler, bu da istenen çıktı eksi gerçek çıktının karesidir ve bunun nedeni, performansın türevinin negatif olması ve hesaplamayı kolaylaştırmasıdır. Eğitmen daha sonra sigmoid fonksiyonunu başka bir fonksiyona dönüştürmekten ve geri yayılım fonksiyonlarına ne olduğunu analiz etmekten, özellikle de ağırlıkları istenen sonuca doğru adım adım değiştirmeyi içeren yeni ağırlık hesaplamasından bahseder.

  • 00:10:00 Bu bölümde konuşmacı sinir ağlarında kullanılan ağırlıkları ve biasları açıklıyor. Ağırlıklar, "w1I" ve "w2B" gibi isimlerle temsil edilir; burada "I" ve "B" ağdaki düğümlerdir. Önyargı ofsetleri her zaman -1'e eklenir ve yokuş tırmanma adımlarının boyutunu belirleyen alfa değeri sınavlarda verilir. Düğümlerin girdileri "I" ile temsil edilir ve belirli bir ağırlıktaki değişiklik nedeniyle sinir ağının çıkışındaki değişiklik olan delta ile çarpılır. Deltalar, ağırlıkların ağın performansına ne kadar katkıda bulunduğunu belirlemek için kısmi türevler kullanılarak hesaplanır.

  • 00:15:00 Bu bölümde konuşmacı, sinir ağlarının son aşamasında nihai ağırlıkları elde etmek için türev kullanma sürecini ve zincir kuralını tartışır. Sigmoid fonksiyonunun türevi kullanılır ve yeni ağırlıkların deltalarını hesaplamak için önceki katmanlardaki ağırlıkların da dikkate alınması gerekir. Konuşmacı, belirli bir düğümün tüm alt öğelerini toplamayı içeren ve sonuç olarak çıktıyı etkileyen özyinelemeli bir çözüm önerir. Bu işlem, nihai ağırlıklar için deltalar elde edilene kadar yinelemeli olarak gerçekleştirilir.

  • 00:20:00 Bu bölümde, eğitmen sigmoid fonksiyonunun ve performans fonksiyonunun değiştirilmesinin sinir ağında kullanılan denklemleri nasıl etkileyebileceğini tartışır. Sigmoid fonksiyonu değiştirilirse değişen tek şeyin, sigmoid fonksiyonunun yeni türevi ile değiştirilen Delta F denklemi olduğunu açıklıyor. Benzer şekilde, performans fonksiyonu değiştirilirse, yalnızca Delta F denkleminin ayarlanması gerekir. Eğitmen daha sonra bir sinir ağındaki eşik ağırlıkları ile normal ağırlıklar arasındaki farkı ve bunların ağın genel işlevini nasıl etkilediğini açıklamaya devam eder.

  • 00:25:00 Bu bölümde, konuşmacı sinir ağlarının nasıl görselleştirileceğinden ve sorunları etkili bir şekilde çözmek için sizin için anlamlı olan bir temsile sahip olmanın ne kadar önemli olduğundan bahsediyor. Bir toplayıcı düğümün nasıl çalıştığını ve türevinin sadece bir olduğunu açıklıyor. Delta F ve Delta a için bir formül sağlar ve bir sinir ağı için çıktının hesaplanmasını ve yeni ağırlıkları bulmak için bir adım geri yayılım gerçekleştirmeyi içeren B Bölümü için süreci açıklar. Herkesi takip edip etmediklerini kontrol etmeye çağıramayacağından, öğrencilerden şüphelerini açıklığa kavuşturmak için sorular sormalarını ister.

  • 00:30:00 Bu bölümde video, sinir ağı için yeni ağırlıkları ve bir geri yayılım adımından sonra çıktının ne olacağını tartışıyor. Yeni ağırlıklar, eski ağırlıklar, öğrenme oranı sabiti ve delta değerleri kullanılarak hesaplandı. Çıktının en sonunda 3 olduğu belirlendi. Ardından video, ağın verilen verileri öğrenmek için eğitilmesi durumunda ne olacağı sorusunu gündeme getiriyor ve sinir ağlarının ağdaki her bir düğüm için grafikler üzerinde nasıl çizgiler çizebileceğini açıklamaya devam ediyor. Ancak bu ağın ne çekeceğini tahmin etmenin biraz zor olduğuna dikkat çekiliyor.

  • 00:35:00 Transkriptin bu bölümünde konuşmacı, her seferinde toplandığı için yalnızca bir düğüme kadar kaynayan ve asla bir eşik değeri almayan, onu dijital yerine analog yapan bir sinir ağını tartışıyor. Sinir ağının basitleştirilmiş biçimi, her dairenin bir sigmoide sahip olduğu daireler tarafından temsil edilen düğümler içerir. ABCDEF'in her birini yalnızca bir kez kullanarak birden altıya kadar eşleştirmesi gereken bir problem var. Konuşmacı, her sigmoid düğümün resme bir çizgi çizebileceğini açıklar; bu çizgi, her iki girişi de alırsa köşegen veya bir girdiyi alırsa yatay/dikey olabilir. İkincil düzey düğümler, ilk ikisi üzerinde ve/veya gibi mantıksal bir mantıksal işlem yapabilir. Konuşmacı daha sonra en kolay problemi, yani problem 6'yı belirlemeye devam eder ve her ağın bir probleme bire bir eşlenmesinin olduğu sonucuna varır, bu da altı problemin hepsini birlikte çözebilir.

  • 00:40:00 Bu bölümde, konuşmacı bir X veya sinir ağı oluşturmanın ne kadar zor olduğunu tartışıyor çünkü tek bir düğümde yüksek olması gereken iki giriş arasında ayrım yapmak zor. Bununla birlikte, pek çok olasılık vardır ve konuşmacı, değerleri vermek için düğüm 3 ve düğüm 4'ün kullanılmasını ve bir XOR ile sonuçlanan bir eşik kombinasyonu sağlamak için düğüm 5'in kullanılmasını önerir. Konuşmacı ayrıca, B gibi iki yatay çizgiyi eşleştirmenin imkansız olduğunu, ancak D'nin bir yatay çizgi ve bir dikey çizgi çizmesi gerektiğinden, iki yatay çizgi oluşturmak için B'yi kullanmaları gerektiğini açıklıyor.

  • 00:45:00 Bu bölümde konuşmacı sinir ağları için çizim alıştırmasının amacını açıklıyor. Basit problemler çizerek, insanlar bunları çözmek için ihtiyaç duyulabilecek sinir ağlarının türlerini görebilirler. Bu, insanların belirli bir problem için çok basit veya çok karmaşık sinir ağları tasarlamaktan kaçınmasına yardımcı olabilir. Konuşmacı ayrıca, Maryland Üniversitesi'ndeki bir oyun oynama yarışmasında sinir ağlarının yakın tarihli gerçek dünya uygulamasına bir örnek sunuyor.

  • 00:50:00 Videonun bu bölümünde, konuşmacı sinir ağlarının farklı görevleri ve kuralları öğrenmedeki potansiyelini tartışıyor. Bir sinir ağının bir dizi rastgele veriden herhangi bir şey öğrenmek üzere eğitildiği bir deneyi anlatıyor ve deneyin sonuçları belirsizken, çalışmadaki diğer katılımcılar deneysel testler yoluyla kuralların temel özelliklerini bulmaya çalıştı. Konuşmacı, sinir ağlarının bilişsel bilim ve yapay zeka dahil olmak üzere birçok araştırma alanında kullanıldığını, ancak sınırlamaları ve karmaşıklıkları nedeniyle gözden düştüğünü açıklamaya devam ediyor. Buna rağmen, konuşmacı, bugün araştırmalarda kullanılan herhangi bir gerçek sinir ağının bir sınav için çok karmaşık olacağını açıklığa kavuşturmasına rağmen, kısa sınavlar amacıyla basit ağlar oluşturduklarından bahsediyor.
Mega-R4. Neural Nets
Mega-R4. Neural Nets
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterWe begin by discussing neural net fo...
 

Mega-R5. Vektör makineleri desteklemek



Mega-R5. Vektör makineleri desteklemek

Videoda, başka hiçbir veri noktasıyla aynı olmayan destek vektörlerini bularak verideki bölme çizgisini veya karar sınırlarını belirleyen Destek Vektör Makineleri (SVM'ler) anlatılmaktadır. Ayrıca, vektörleri doğrudan manipüle etmeden çekirdeğin iç çarpımı hesaplamasını sağlayan çekirdek işlevlerinin kullanımını içerir. Profesör, en geniş yol için en iyi W'yi sağlayan Alfaları bulma hedefini ve W'nin SVM için karar sınırı olduğunu açıklar. Öğrenciler, SVM'nin arkasındaki sezgiyi sorgular ve Alfalara dayalı optimizasyon, daha iyi veri sınıflandırması için en geniş yolu oluşturur. SVM Kernel ayrıca süreci optimize etmeye yardımcı olarak daha verimli hale getirir.

  • 00:00:00 Bu bölümde konuşmacı, Destek Vektör Makinelerini (SVM'ler) tanıtır ve bunların kursta öğrenilmesi en zor şeylerden biri olduğunu belirtir. Ancak, artık bazı problemleri geniş, karmaşık denklem kümeleriyle uğraşmak zorunda kalmadan çözmeye yardımcı olabilecek bazı kestirme yollar olduğunu açıklıyor. Eldeki problem destek vektörlerinin daire içine alınmasını, sokağın kenarlarının çizilmesini, ortadaki noktalı çizginin gösterilmesini ve hem W hem de B'nin verilmesini gerektirir. Konuşmacı daha sonra DVM'lerdeki önemli denklemleri ve iki katsayı kullanarak noktalı çizginin nasıl bulunacağını açıklar. ve W1 ve W2'nin iki katsayı olduğu ve X1 ve X2'nin X vektörünün iki bileşeni olduğu doğrusal bir denklem.

  • 00:05:00 Bu bölümde video, Kartezyen koordinatlardaki bir çizginin denklemini ve destek vektör makinelerinde W nokta X artı B eşittir 0 denklemiyle nasıl ilişkili olduğunu tartışıyor. Video, alfaların sınırı oluşturmaya yönelik her noktanın önemini belirlemek için kullanıldığını ve pozitif alfaların negatif alfalara eşit olduğunu açıklıyor. Video ayrıca W ve B için çözerken kullanılacak denklemleri sağlıyor ve çözümü belirlemede destek vektörlerinin önemli olduğundan bahsediyor. Sunum yapan kişi, destek vektörlerinin sınır çizgileri üzerindeki vektörler olduğunu ve amacın bunları daire içine almak olduğunu açıklar.

  • 00:10:00 Bu bölümde, konuşmacı destek vektörünün ne olduğu sorusuna değinir ve çok sayıda boyutun olduğu daha karmaşık problemlerde vektörlerin iki grafik üzerinde çizilemediği durumlarda veri noktalarını temsil etmek için kullanıldığını açıklar. boyutlu düzlem. Konuşmacı, destek vektörlerinin hiper düzlemi bağlayan noktalar olduğunu ve pozitif ve negatif veri noktaları arasında mümkün olan en geniş boşluğa sahip olmaya çalışılarak bulunduğunu açıklar. Ek olarak, konuşmacı bazen üçüncü destek vektörünün bulunmayabileceğini not eder ve bir düzlem üzerindeki bir nokta çifti örneği ile noktalarını açıklar.

  • 00:15:00 Bu bölümde, konuşmacı bir destek vektör makinesinde W ve B'nin nasıl bulunacağını açıklıyor. Bir denklemde noktaları birleştirmenin eski yöntemini kullanmak yerine, konuşmacı denklemi y = mx + b biçimine dönüştürerek ucuz bir strateji sunar. Konuşmacı y = x - 1'i ayarlayarak bunun yeni bir y = -w1/w2 - b/w2 denklemi bulmak için nasıl kullanılabileceğini gösterir. Bu formu kullanarak, konuşmacı sonsuz sayıda olası denklem olduğunu ve w1/w2'nin -1'in bir skaler katı ve B/w2'nin 1'in bir skaler katı olduğunu gösterir.

  • 00:20:00 Bu bölümde konuşmacı, bir destek vektör makinesi için W1, W2 ve B'yi hesaplamak amacıyla K değerinin nasıl belirleneceğini tartışır. W'nin büyüklüğü, bileşenlerin karesi toplamının karekökü kullanılarak hesaplanabilir, bu kök 2 bölü 4'e eşittir. W1 ve W2 oranı negatif 1'e eşit olduğundan, karesi alındığında, W1 karesi W2'nin karesine eşittir. Böylece, bu formül kullanılarak, W1 negatif 1/4 olarak hesaplanır ve W1 negatif olduğu için W2 ve B eşittir pozitif 1/4. Konuşmacı ayrıca bir denkleme dayanarak alfa artı ve alfa eksi değerlerinin eşit olduğunu önerir.

  • 00:25:00 Bu bölümde konuşmacı Destek Vektör Makineleri örnekleri üzerinden çalışmalarını sürdürür. Konuşmacı, ikinci örnekte fazladan bir eksi işaretinin eklendiğini belirtiyor. Bu yeni negatif işaret verilen destek vektörünün nasıl belirleneceğini açıklamaya devam ediyorlar. Mesafeyi belirlemek için yapılan hesaplamalar gösterilir ve W'nin büyüklüğü kök 2 bölü 3 olarak bulunur. Konuşmacı, bu örnekte yeni noktaların eklenmesi nedeniyle alfaların hesaplanmasının daha uzun sürdüğünü, ancak nihai cevaba ulaşıldığını not eder. .

  • 00:30:00 Bu bölümde, verilerin sınıflandırılması için doğrusal bir temel çizgiyi uygun olmayan tek boyutlu bir vektör üzerinde destek vektör makinelerinin kullanılmasına odaklanılmaktadır. Bu sorunu çözmek için, verileri yeni bir boyuta getirmek için bir çekirdek işlevi kullanılır. Fonksiyon tipik olarak Phi olarak adlandırılır ve X vektörüne uygulandığında onu bu yeni boyuta getirir. Bu yeni boyutta, verileri sınıflandırmak için düz bir çizgi çizilebilir. DVM'lerin mucidi, korkunç bir canavar olsa bile Phi işleviyle çalışmaya gerek olmadığını fark etti, çünkü çekirdek, Phi'yi açıkça hesaplamadan yeni boyutta iki vektör arasındaki iç çarpımı hesaplamak için kullanılabilir.

  • 00:35:00 Bu bölümde, konuşmacı, düzenli bir uzayda iki vektörün nokta çarpımını bulmak için bir çekirdek işlevinin nasıl kullanılacağını açıklıyor; bu, vektörlerin kendilerini doğrudan kullanma ihtiyacını ortadan kaldırıyor. X ve Z vektörlerini çekirdeğe koyarak, ortaya çıkan fonksiyon, iki vektörün iç çarpımının yerini alan Phi of X ile noktalı Phi of Z'yi döndürür. Konuşmacı, çekirdek işlevine bir örnek verir ve izleyiciyi sınavı çözmek için karşılık gelen Phi işlevini bulmaya davet eder. Konuşmacı ayrıca, DVM'ler için alfaları hesaplamanın karmaşık olabilse de, çekirdek işlevini kullanmanın doğrudan vektör manipülasyonu ihtiyacını ortadan kaldırmada yararlı bir kısayol olduğunu da belirtiyor.

  • 00:40:00 Bu bölümde, konuşmacı kosinüs ve sinüs değerlerini kullanarak noktaların yeni bir boyutta grafiğini çiziyor. Artılar ve eksiler, ilgili kosinüs ve sinüs değerlerinin yanı sıra gösterilir. İkinci kadranda üç nokta ve üçüncü kadranda üç nokta vardır. Konuşmacı daha sonra iki negatif arasındaki farkı ve dikey açıortay üzerinde negatif ve pozitif noktalar olarak bulunan destek vektörlerinin nasıl bulunacağını tartışır. İki negatif nokta aynı doğru üzerindedir ve açıortayın zıt taraflarında olmak yerine daire içine alınmıştır.

  • 00:45:00 Bu bölümde profesör, destek vektörlerinin ardındaki fikri ve bunların SVM'de kullanımlarını açıklıyor. Bir destek vektörünün başka herhangi bir veri noktasıyla aynı olmadığını ve DVM tarafından oluşturulan bölme çizgisinin veya sınırların bu vektörler tarafından belirlendiğini açıklıyor. Test verilerinde noktalı çizgi, SVM için karar sınırıdır. Algoritma, en geniş yol için en iyi W'yi veren Alfa kombinasyonlarını matematiksel olarak kontrol ederek Alfaları optimize eder. Öğrenciler SVM'nin arkasındaki sezgiyi sorgular ve profesör W'nin karar sınırı olduğunu ve Alfalara dayalı optimizasyonun verileri daha iyi bir şekilde sınıflandırmak için en geniş yolu oluşturduğunu açıklar. SVM Kerne ayrıca optimizasyon sürecini optimize etmeye yardımcı olarak daha kolay ve verimli hale getirir.
Mega-R5. Support Vector Machines
Mega-R5. Support Vector Machines
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterWe start by discussing what a suppor...
 

Mega-R6. artırma



Mega-R6. artırma

"Mega-R6. Boosting" videosunda konuşmacı, makine öğrenimindeki boost kavramını açıklıyor ve hataları en aza indirmek için doğru sınıflandırıcıları seçme sürecini gösteriyor. Vampirleri belirli niteliklere göre tanımlamaya bir örnek veriyorlar ve en etkili sınıflandırıcıların nasıl seçileceğini tartışıyorlar. Seçilen sınıflandırıcılar, kaç tanesinin doğru şekilde sınıflandırıldığını belirlemek için veri noktalarına uygulanan son bir sınıflandırıcı oluşturmak için kullanılır. Konuşmacı ayrıca sürecin ne zaman durdurulacağını seçmenin önemli olduğunu vurgular ve tam doğruluğa ulaşmanın her zaman mümkün olmayabileceğini kabul eder.

  • 00:00:00 Bu bölümde konuşmacı, bir dizi farklı sınıflandırıcı içeren makine öğrenimindeki güçlendirme kavramını tartışıyor. Örnek olarak kullanılan problem, vampirleri kötülük, emo, ışıltı ve romantik ilgilerin sayısı gibi çeşitli niteliklere göre tanımlamayı içerir. Güçlendirmenin anahtarı, herhangi bir olası sınıflandırıcı için, verilerin 50/50 bölünmesi olmadığı sürece, bir şekilde üstün bir sınıflandırıcı oluşturmak için kullanılabilmesidir. Dahası, konuşmacı, aslında listelenenlerden daha fazla sınıflandırıcı olduğunu, çünkü birçoğunun bu özel problem için göz ardı edilen karşıt versiyonları olduğunu not eder.

  • 00:05:00 Bu bölümde konuşmacı, artırma için 50/50'lik bir bölmenin yazı tura atmak kadar iyi olduğu için nasıl yararsız olduğunu açıklıyor. Ancak bazı durumlarda, 50/50'den daha kötü olan bir sınıflandırıcı, yine de 50/50'lik bir sınıflandırıcıdan daha iyidir. Artırmadaki sonraki turlar, her bir veri noktasının ağırlıklarının değiştirilmesini gerektirir ve en iyi performansı gösteren sınıflandırıcı, en fazla ağırlığı doğru alan sınıflandırıcı olacaktır. Ağırlığın yarısından daha azını doğru alan sınıflandırıcılar genellikle uygun olsa da, konuşmacı, ağırlığın yarısından fazlasını doğru elde etmek için terslerinin kullanılmasını önerir.

  • 00:10:00 Bu bölümde, konuşmacı her bir sınıflandırıcıyı inceler ve hangi veri noktalarının yanlış sınıflandırıldığını bulur. Tüm kötü şeylerin vampir olduğu ve tüm kötü olmayan şeylerin vampir olmadığı varsayımıyla, kötülük hayır'a eşit olduğunda melekleri, Edward Cullen'ı, Saya Otonashi'yi ve Lestat de Lioncourt'u yanlış anladıklarına karar verirler. Benzer mantık emo karakterlere ve dönüşen karakterlere uygulanır. Ancak ışıltılı evete eşit olduğunda, bir, iki, dört, beş, altı, yedi ve sekizi yanlış anlarlar ve romantik çıkarların sayısı ikiden fazla olduğunda, Searcy ve Edward Cullen'ı yanlış anlarlar. Romantik ilgilerin sayısının dörtten fazla olması söz konusu olduğunda, hiçbir karakter bu kategoriye girmez, dolayısıyla hiçbiri yanlış sınıflandırılmaz.

  • 00:15:00 Videonun bu bölümünde, konuşmacı vampirlerin sınıflandırılmasını ve hangi sınıflandırıcıların yanlış olabileceğini tartışıyor. Konuşmacı, kaçınılmaz olarak yanlış negatif sınıflandırıcılara yol açacak bazı pozitif sınıflandırıcılar olduğunu belirtiyor. Konuşmacı daha sonra birkaç sınıflandırıcı listeler ve bireylerin en çılgın rüyalarında bunlardan yalnızca altı tanesini kullanacağını iddia eder. Konuşmacı, izleyicilerden yararlı olduğunu düşündükleri sınıflandırıcılar hakkında fikir ister ve kullanılmaya değer görülenleri yuvarlak içine alır. Yararlı olduğu düşünülen sınıflandırıcılar, E ve F sınıflandırıcıları gibi yalnızca birkaç yanlış yapan sınıflandırıcılardır.

  • 00:20:00 Bu bölümde, konuşmacı Mega-R6'da güçlendirme için doğru altı veri noktasını seçme sürecini açıklıyor. Kilit noktalardan biri, aralarından seçim yapabileceğiniz birçok farklı veri noktası olsa da, bazılarının kesinlikle diğerlerinden daha iyi olmasıdır. Örneğin, F veri noktası her zaman E'den daha kötüdür, bu nedenle asla seçilmemelidir. Konuşmacı ayrıca, altı veri noktasını seçerken, aynı yanlış cevapların katı bir alt kümesine sahip olmayanları seçmenin önemli olduğunu da not eder. Altı veri noktasını seçme süreci, hatayı en aza indirmek için her bir veri noktasının ağırlığının dikkatli bir şekilde değerlendirilmesini gerektirir.

  • 00:25:00 Videonun bu bölümünde sunum yapan kişi, güçlendirme sürecini ve görev için en iyi sınıflandırıcıların nasıl seçileceğini tartışıyor. Yararsız sınıflandırıcıların üzerinin nasıl çizileceğini ve hatayı en aza indirenlerin nasıl seçileceğini açıklıyor. Sunum yapan kişi daha sonra, on veri noktasının tümünü eşit olarak ağırlıklandırarak ve E sınıflandırıcısını en iyisi olarak seçerek güçlendirme sürecini göstermeye devam eder. Hata daha sonra beşte bir oranında hesaplanır ve süreç oradan devam eder.

  • 00:30:00 Videonun bu bölümünde sunum yapan kişi, bir sınıflandırıcı tarafından verilen tüm kararların nasıl doğru alınacağını açıklıyor. Bu süreç, her kararın ağırlıklarının doğru olanlar için 1/2 ve yanlış olanlar için 1/2 olacak şekilde değiştirilmesini içerir. Sunum yapan kişi, ağırlıkları toplamayı ve en iyi kararı seçmeyi kolaylaştıracak şekilde yeniden yazmayı içeren bu süreci otomatikleştirmek için bir yöntemin ana hatlarını çizer. Bu örnekte, en küçük hata miktarına sahip karar seçilmiştir.

  • 00:35:00 Bu bölümde konuşmacı, Mega-R6 boost oyununda en iyi sınıflandırıcıyı belirleme sürecini tartışıyor. Transkript, en iyi sınıflandırıcıyı belirlemeyi kolaylaştırmak için dairelerin içindeki ve dışındaki sayıların toplamını ve daire içindeki sayıları değiştirme sürecini içeren hesaplamaları içerir. Konuşmacı, bir sınıflandırıcı belirlenirken önceki turların göz ardı edilmesinin ve sadece mevcut ağırlıkların dikkate alınmasının önemli olduğunu belirtmektedir. Konuşmacı ayrıca sınıflandırıcıların arka arkaya iki kez kullanılamayacağını açıklar ve bu tasarım özelliğinin nedenini tartışır. En iyi sınıflandırıcı, en az sayıda yanlış cevaba sahip olduğu için A olarak belirlenir.

  • 00:40:00 Transkriptin bu bölümünde, konuşmacı boosting yöntemini kullanarak son sınıflandırıcının nasıl hesaplanacağını tartışır. Son sınıflandırıcı, onu oluşturmak için kullanılan ağırlıklı sınıflandırıcıların bir kombinasyonudur. Konuşmacı daha sonra çıktıyı belirlemek için basit bir oylama kullanarak kaç tanesinin doğru sınıflandırıldığını belirlemek için son sınıflandırıcıyı on veri noktasına uygular. Bir veri noktası, Twilight'tan Edward Cullen yanlış çünkü üç sınıflandırıcıdan ikisi onu bir vampir olarak sınıflandırmadı.

  • 00:45:00 Videonun bu bölümünde konuşmacı, çeşitli karakterlerin özelliklerine ve aşk ilgi alanlarına göre kötü, emo veya vampir olduklarını ve bunları sınıflandırmak için bir güçlendirme algoritmasının doğruluğunu tartışıyor. Tartışma, sınıflandırma sürecini daha hızlı hale getirmek için çoklu sınıflandırıcıların kullanılmasıyla ilgili bir soruya yol açar, konuşmacı bunun bir dereceye kadar doğru olduğunu, ancak daha fazla sayıda sınıflandırıcıdan geçmeyi gerektirdiğini açıklar. Konuşmacı ayrıca, her şeyi doğru yapmak için yakınsama sürecinin her zaman kolay olmadığını ve belirli sayıda turdan sonra durmayı seçmeyi gerektirebileceğini vurguluyor.
Mega-R6. Boosting
Mega-R6. Boosting
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterThis mega-recitation covers the boos...
 

Mega-R7. Ramak kalalar, Arch Learning



Mega-R7. Ramak kalalar, Arch Learning

Videoda, farklı ışık kaynakları türleri ve özellikleri hakkında öğrenmeyi içeren, ramak kala öğrenme kavramı tanıtılmaktadır. Arch Learning yaklaşımı, bir modeli iyileştirmek için zorunlu bağlantı, yasak bağlantı, ağaç tırmanma, kümeyi genişletme, kapalı aralık ve bırakma bağlantısını içeren altı buluşsal yöntem kullanır. Videoda, seti genişletme, ağaca tırmanma, kapalı aralık ve bırakma bağlantısı gibi makine öğreniminde kullanılan çeşitli teknikler tartışılıyor. Konuşmacılar ayrıca, Arch Learning modelinin kırılganlığı ve sıralamaya karşı savunmasızlığı ile ilgili konulardan bahsediyor ve bu da çelişkili bilgilere tutarsız tepkilere yol açıyor. Video ayrıca Mega-R7 için genelleştirme kavramını ve önceki modellerden nasıl farklı olduğunu tartışıyor. Ek olarak, bilginin alt kümelerini ifade etme becerileri açısından İrlandaca öğrenme ile kafes öğrenme arasındaki ödünleşimler ve ayrıca farklı uygulama ayrıntılarına sahip çoklu modeller kullanılarak sisteme öğretilmesi tartışılır.

  • 00:00:00 Bu bölümde, farklı ışık kaynakları türleri ve özellikleri hakkında bilgi edinmeyi içeren ramak kala Öğrenme Ağacı kavramı tanıtılmaktadır. Başlangıç modeli, elektrikle çalışan düz tabanlı ve gölgeli bir akkor ampuldür. Arch öğrenme yaklaşımı, zorunlu bağlantı, yasak bağlantı, ağaca tırmanma, kümeyi genişletme, kapalı aralık ve bırakma bağlantısını içeren altı buluşsal yöntemin kullanılmasını içerir. Bağlantı gerektir, daha önce alakasız bir özelliği bir gereksinim haline getirir ve yasak bağlantı, bir özelliği yasaklar. Bu buluşsal yöntemler, belirli özellikleri gerekli veya gereksiz kılarak modeli iyileştirmeye yardımcı olur ve ramak kala senaryolarını belirlemeye yardımcı olabilir.

  • 00:05:00 Bu bölümde konuşmacı, seti genişletme, ağaca tırmanma, kapalı aralık ve bırakma bağlantısı gibi makine öğreniminde kullanılan çeşitli teknikleri tartışıyor. Kümeyi genişletme tekniği, bir dizi olumlu örnek oluşturmayı, ancak yer kazanmak için belirli öğeleri yasaklamayı içerir. Ağaca tırmanma tekniği, daha genelleştirilmiş bir model oluşturmak için ağaçta yukarı doğru hareket ederken, kapalı aralık kabul edilebilir kılmak için tüm aralığı kapsar. Düşen bağlantı tekniği, tüm öğeler kabul edilebilirse, bir bağlantıyı bırakarak sistemin cimri olmasına izin verir. Konuşmacı daha sonra her bir tekniğin kullanımının üzerinden geçer ve modeli yeni örnekleri daha kabul edilebilir hale getirmek ve sınav süresini hızlandırmak için makine öğrenimindeki bilginin önemini vurgular.

  • 00:10:00 Bu bölümde video, genelleyici fikrini ve bunun nasıl olumlu örneklere genişletilebileceğini veya yakın aralıklarla nasıl büyütülebileceğini tartışıyor. Ancak olumsuz bir örnek olursa sistemi karmaşıklaştırabilir ve uygulamanın ayarlanması gerekebilir. Video daha sonra bir lamba örneği ve olumlu bir örnek olduğunda aralığı genelleştirmek için genelleştirici buluşsal yöntem kullanılarak modelin nasıl uyarlanabileceğini sunar. Olumsuz bir örnek varsa, uygulamanın sistemin etkin çalışması için drop-link yaklaşımını kullanması gerekebilir.

  • 00:15:00 Videonun bu bölümünde konuşmacılar, 1960'larda geliştirilen bir tür makine öğrenimi modeli olan Arch Learning modeliyle ilgili birkaç konuyu tartışıyor. Sistemin ne kadar kırılgan olduğunu ve sıralamaya karşı özellikle savunmasız olduğunu açıklarlar; bu, verilerin sunulma sırasının sistemin öğrenme yeteneğini büyük ölçüde etkileyebileceği anlamına gelir. Ayrıca, sistemin nasıl tutarsız olabileceğini ve çelişkili bilgilere zayıf tepki verebileceğini açıklarlar. Konuşmacılar ayrıca kafes öğrenimi adı verilen, gördüğü tüm örnekleri saklayan ve bunları yeni örneklerle karşılaştırıp karşılaştırarak, kalıpları belirlemesine ve bir konuyu daha iyi anlamasına olanak tanıyan alternatif bir öğrenme türünü açıklar.

  • 00:20:00 Bu bölümde video, zarafet ve sadelik aramak için kasıtlı olarak bazı şeyleri hatırlamayan bir sistem olan arch öğrenim kavramını tartışıyor. Bu bölüm fikri, deneyimledikleri her şeyi saklamadıkları ve hatırlamadıkları için daha önce oynadıkları bir bloğu size anlatamayan bir bebeğe benzetiyor. Ancak insanlar iyi öğretmenlerdir ve bir makinenin öğrenebileceği uygun örnekler sunar. Video ayrıca, kapsamı daha cimri, zarif ve basit olacak şekilde ayarlamak yerine ağaca tırmanarak isabet için nasıl genelleştirileceğinden bahsediyor. Son olarak, bir flüoresan lamba örneği ele alınır ve genelleme için kullanılan buluşsal yöntem, ağaca düz bir tabandan bir taban desteğine tırmanmaktır.

  • 00:25:00 Bu bölümde konuşmacı, Mega-R7 için yeni bir modeli ve önceki modellerden nasıl farklı olduğunu tartışıyor. Sistemin benzer ancak daha önce gördükleriyle tamamen aynı olmayan girdilerle karşılaştığı durumlar olan ramak kala olaylarının bazı örneklerini gözden geçirirler. Konuşmacı, bu ramak kalaların modelde herhangi bir değişiklik gerektirmediğini ve olduğu gibi bırakılmasının kabul edilebilir olduğunu açıklıyor. Ayrıca, konuşmacı, flüoresan gibi olumsuz bir örneğin ramak kala olarak kabul edilip edilmeyeceğine ilişkin bir soruyu ele alır ve bunun olmayacağını, çünkü sistemin hafızasız olduğunu ve flüoresanın eskiden pozitif bir örnek olduğunu bilmediğini söyler. .

  • 00:30:00 Bu bölümde konuşmacı, bilginin alt kümelerini ifade etme becerileri açısından İrlandaca öğrenme ve kafes öğrenmedeki ödünleşimleri tartışıyor. İrlandaca öğrenme, hafızasız olmakla birlikte, olumlu bir örneğini görmeden bir alt kümeyi kabul edilebilir olarak ifade edemez, bu da bir miktar ifade kaybına yol açabilir. Bununla birlikte, bu sorun kafes öğrenmede düzeltilmiştir, ancak kendi sorunları vardır. Konuşmacı ayrıca, farklı ampuller ve elektrik kaynakları kullanırken taban desteğine sahip olma gerekliliğini karşılayan birden fazla model sunmak gibi sistemin nasıl öğretileceğini de vurgular. Birini diğerine tercih etmek farklı sonuçlara yol açabileceğinden, uygulama detaylarının sorulması ve açıklığa kavuşturulması gerekir.
Mega-R7. Near Misses, Arch Learning
Mega-R7. Near Misses, Arch Learning
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterThis mega-recitation covers a questi...
 

AlphaGo - Film | Tam ödüllü belgesel



AlphaGo - Film | Tam ödüllü belgesel

Go oyununda insan oyuncuları yenmek için tasarlanmış AlphaGo bilgisayar programının geliştirilmesi hakkında bir belgesel. Film, programın beş maçlık bir maçta dünya şampiyonu bir insan oyuncuya karşı kazandığı zaferi konu alıyor. Bazı izleyiciler, makineler bilişsel görevleri yerine getirmede giderek daha iyi hale geldikçe, AlphaGo'nun zaferinin bildiğimiz insan ırkının sonunun habercisi olabileceğini düşünüyor.

  • 00:00:00 Bu video, Go oyununda dünya şampiyonu bir insan oyuncuyu yenen bir bilgisayar programı olan AlphaGo hakkındadır. Video, AlphaGo'nun zaferinin önemini açıklıyor ve bilgisayarın bir insan oyuncuya karşı oynadığı görüntüleri gösteriyor. AlphaGo'nun arkasındaki şirket DeepMind, dünyanın en güçlü Go oyuncusu Demyster Harbis'i projeyi çalışırken görmek için Londra'daki ofislerini ziyaret etmeye davet etmek istiyor. Katılmakla ilgileniyorsanız, çok minnettar olurlar!

  • 00:05:00 DeepMind tarafından geliştirilen bir bilgisayar programı olan AlphaGo, profesyonel Go oyuncusu Lee Sedol'u beş maçlık bir maçta yener. Belgesel, takımın programı ve maçı geliştirme ve eğitme çabalarını konu alıyor.

  • 00:10:00 Google tarafından geliştirilen bir bilgisayar programı olan AlphaGo, Avrupa şampiyonu Go oyuncusu Lee Sedol'u beş maçlık bir maçta yendi. Belgesel, AlphaGo'nun gelişimini ve maç hazırlıklarını konu alıyor. İlk şüphelere rağmen, halk AlphaGo'nun performansından büyük ölçüde etkilendi ve hatta bazıları bunu yapay zeka alanındaki insan egemenliğinin sonunun bir işareti olarak müjdeledi.

  • 00:15:00 Go oyununda insan şampiyonları yenmek için tasarlanmış bir bilgisayar programı olan AlphaGo, geçen hafta yapılan bir maçta bir insan oyuncu olan Lee Sedol tarafından alenen yenildi. Video, kaybın öneminin yanı sıra AlphaGo ekibinin sistemlerini iyileştirmek için devam eden çabalarını tartışıyor.

  • 00:20:00 "Dünyanın en iyi Go oyuncusu" olduğu söylenen bir bilgisayar programı olan AlphaGo, beş maçlık bir maçta profesyonel bir insan oyuncuyla karşı karşıya gelir. Fanway, ekibin danışmanıdır ve stratejilerini geliştirmelerine yardımcı olur.

  • 00:25:00 AlphaGo, yarın tarihi bir maçta profesyonel Güney Koreli go oyuncusu Lee Sedol ile karşı karşıya gelecek. Belgesel, takımı maça hazırlanırken takip ediyor ve beklentilerini tartışıyor.

  • 00:30:00 Bir masa oyununda bir insan şampiyonu yenen bir bilgisayar programı olan AlphaGo, ödüllü bir belgeselin konusu. Belgesel, programın gelişimini ve bir insan rakibe karşı başarılı eşleşmesini konu alıyor.

  • 00:35:00 Google tarafından geliştirilen bir bilgisayar programı olan AlphaGo, beş maçlık bir maçta dünya şampiyonu bir insan oyuncuyu yener. Programın başarısı, deneyimlerinden öğrenme yeteneği gibi, birçokları için sürpriz oldu.

  • 00:40:00 DeepMind tarafından geliştirilen bir bilgisayar programı olan AlphaGo, profesyonel bir Go oyuncusunu beş maçlık bir maçta mağlup etti. Bilgisayar programı insanlar tarafından geliştirildi ve yapay zeka araştırmalarında bir dönüm noktası olarak kabul ediliyor.

  • 00:45:00 Go oyununda profesyonel bir oyuncuyu yenmek için tasarlanmış bir bilgisayar programı olan AlphaGo, Google DeepMind Challenge'ın ikinci oyunundaki performansıyla gözlemcileri hayrete düşürdü. AI'nın politika ağı, değer ağı ve ağaç arama, eldeki oyun durumu için en iyi hamleyi tahmin etmede oldukça etkiliydi ve AlphaGo için bir zafere yol açtı.

  • 00:50:00 Google tarafından geliştirilen bir bilgisayar programı olan AlphaGo, dünyaca ünlü bir insan oyuncuya karşı bir şampiyonluk maçı kazandı. Belgesel, maçı ve AlphaGo'nun zaferinin önemini inceliyor.

  • 00:55:00 AlphaGo, dünya şampiyonu bir insan oyuncuya karşı oynanan üç maçın ikisini kazandı, ancak seyirciler arasındaki üzüntü ve kayıp duygusu elle tutulur cinsten. AlphaGo sadece bir bilgisayar programıdır, ancak yorumcular ona bilinçli bir varlıkmış gibi atıfta bulunur ve artan gücünün sonuçlarından endişe duyarlar.
AlphaGo - The Movie | Full award-winning documentary
AlphaGo - The Movie | Full award-winning documentary
  • 2020.03.13
  • www.youtube.com
With more board configurations than there are atoms in the universe, the ancient Chinese game of Go has long been considered a grand challenge for artificial...
 

Deepmind AlphaZero - İnsan Bilgisi Olmadan Oyunlarda Ustalaşmak



Deepmind AlphaZero - İnsan Bilgisi Olmadan Oyunlarda Ustalaşmak

Video, DeepMind'in önceden herhangi bir insan verisi olmadan devasa durum uzaylarına sahip oyunlarda başarılı olmak için birleşik bir politika ve değer ağı kullanan derin pekiştirmeli öğrenme mimarisi AlphaZero'nun gelişimini araştırıyor. AlphaZero'nun algoritması, tüm Monte Carlo ağaç araması tarafından seçilen eylemi tahmin etmek için bir sinir ağını eğitmeyi ve zaman içinde daha güçlü oyuncular oluşturmak için bilgiyi yinelemeli olarak damıtmayı içerir. Algoritma etkileyici öğrenme eğrileri gösterdi, sadece birkaç saatlik eğitimde önceki sürümlerden daha iyi performans gösterdi ve önceki arama motorlarından daha az konumu değerlendirmesine rağmen olağanüstü ölçeklenebilirlik sergiledi. Video ayrıca AlphaZero'nun genel amaçlı pekiştirmeli öğrenme potansiyelini gösterirken en iyi insan ve makine yaklaşımlarını birleştirme becerisini tartışıyor.

  • 00:00:00 Videonun bu bölümünde David, DeepMind'ın profesyonel bir oyuncuyu ve dünya şampiyonunu yenmeyi başaran derin pekiştirmeli öğrenme mimarisinin orijinal versiyonu olan AlphaGo'dan bahsediyor. AlphaGo iki evrişimli sinir ağı kullanır: olasılık dağılımına dayalı olarak oynanacak hamleleri öneren bir politika ağı ve oyunun galibini tahmin eden bir değer ağı. Ağlar, bir insan veri seti üzerinde denetimli öğrenme ve pekiştirmeli öğrenme ve kendisine karşı oynanan oyunlar aracılığıyla eğitilir. AlphaGo'nun Go oyunundaki başarısı, makine öğrenimi ve yapay zeka tabanlı yaklaşımların muazzam durum uzaylarına sahip oyunlarda başarılı olma potansiyelini gösteriyor.

  • 00:05:00 Bu bölümde, konuşmacı AlphaGo'nun eğitim hattını ve Go oyunundaki arama havuzunun genişliği göz önüne alındığında aramayı daha izlenebilir hale getirmek için politika ağı ile değer ağını nasıl kullandığını tartışıyor. Politika ağı, arama ağacının genişliğini azaltmak için hareketler önerirken, değer ağı, aramanın derinliğini azaltmak için oyunun kazananını herhangi bir konumdan tahmin eder. Bu, algoritmanın, yalnızca en ilgili parçaları dikkate alarak büyük bir arama ağacını seçici bir şekilde genişleten Monte Carlo ağaç aramasını kullanarak ağacın önemli kısımlarında verimli bir şekilde arama yapmasına olanak tanır. Bu, daha derin ağlar ve daha fazla pekiştirmeli öğrenme yinelemesi ile eğitilen ve dünyanın en iyi insan oyuncularına karşı 60 oyun sıfıra karşı kazanan AlphaGo Master'ın geliştirilmesine yol açtı.

  • 00:10:00 Bu bölümde konuşmacı, tamamen rastgele oyunlardan başlamak ve yalnızca oyunun kurallarını kullanmak yerine, önceden herhangi bir insan verisi olmadan Go oyununun nasıl oynanacağını öğrenen AlphaGo Zero'nun gelişimini anlatıyor. AlphaGo Zero, orijinal AlphaGo'dan farklıdır, çünkü el yapımı hiçbir özellik kullanmaz, ilke ağını ve değer ağını birleştirir, rastgele Monte Carlo sunumları olmadan daha basit arama kullanır ve karmaşıklığı azaltmak için daha basit bir yaklaşıma sahiptir, bu da daha fazla genelliğe yol açar, potansiyel olarak uygulanabilir. herhangi bir etki alanı. AlphaGo Zero algoritması, her konum için mevcut sinir ağını kullanarak bir Monte Carlo ağaç araması yürütmeyi ve önerilen hareketi oynamayı, ardından tamamlanmış oyunda ulaşılan konumlardan yeni bir sinir ağı eğitmeyi içerir.

  • 00:15:00 Bu bölümde konuşmacı, tüm bilgileri damıtmak için tüm Monte Carlo Ağaç Araması (MCTS) tarafından seçilen eylemi doğrudan tahmin etmek üzere bir sinir ağının eğitilmesini içeren AlphaGo Zero algoritmasının sürecini açıklıyor. doğrudan davranışına ve oyunun galibini tahmin etmek için yeni bir değer ağının eğitimi. Prosedür, her seferinde daha güçlü bir oyuncu oluşturmak ve daha yüksek kaliteli veriler üretmek için yinelenir, bu da daha güçlü ve daha güçlü oyuna yol açar. AlphaGo Zero, araştırmasını politika değerlendirmesine dahil ederek, sinir ağları için yüksek kaliteli sonuçlar ve kesin eğitim sinyalleri sağlayan, aramaya dayalı politika geliştirmeyi kullanır. Öğrenme eğrisi, AlphaGo Zero'nun önceki sürümleri yalnızca 72 saatte geçtiğini ve 21 gün sonra insan oyuncuları 60 sayı yendiğini gösteriyor.

  • 00:20:00 Bu bölümde konuşmacı, Avrupa şampiyonunu beş oyunla sıfıra kadar mağlup eden orijinal versiyondan başlayarak, tamamen rastgele ağırlıklarla eğitilmiş ve tamamen rastgele ağırlıklarla eğitilmiş AlphaGo Zero'ya kadar, AlphaGo'nun geliştirilen çeşitli versiyonlarını tartışıyor. yaklaşık 5.000 Elo, bu da onu AlphaGo'nun en güçlü versiyonu yapıyor. Yeni sürüm AlphaZero, aynı algoritmayı üç farklı oyuna uygular: satranç, shogi ve go. Bilhassa satranç oyunu, yapay zeka tarihinde en çok çalışılan alan olan bilgisayar satrancı ile yapay zekada çok çalışılan bir alan olmuştur ve şu anda tartışmasız insanlardan daha iyi olan son derece uzmanlaşmış sistemlerle sonuçlanmıştır.

  • 00:25:00 Bu bölümde konuşmacı, satranca göre hesaplanması daha zor olan ve daha büyük ve daha ilginç bir hareket alanına sahip olan shogi oyununun karmaşıklığını tartışıyor. Shogi için en güçlü bilgisayar programlarının insan dünya şampiyonu seviyesine ancak yakın zamanda ulaştığını ve bunun da DeepMind için takip edilmesi ilginç bir vaka çalışması olduğunu açıklıyor. Hem satranç hem de shogi için son teknoloji motorlar, uzun yıllar boyunca insan büyükustalar tarafından ayarlanan el yapımı bir değerlendirme işleviyle zenginleştirilmiş alfa-beta aramasına ve çok sayıda yüksek düzeyde optimize edilmiş motora dayalıdır. arama uzantıları Konuşmacı daha sonra en iyi satranç programı Stockfish'in bileşenlerini tam anlamıyla aynı bileşenlerden hiçbirine sahip olmayan AlphaZero ile karşılaştırır ve bunları kendi kendine oynamaya, pekiştirmeli öğrenmeye ve Monte Carlo aramaya dayalı ilkeli fikirlerle değiştirir. Konuşmacı satrancın mükemmel öteleme değişmezliğine sahip olması, simetriden yoksun olması, bileşik eylemlerle daha ilginç bir hareket alanına sahip olması ve beraberlik içermesi bakımından Go'dan farklı olduğunu belirtiyor.

  • 00:30:00 Bu bölümde konuşmacı üç oyun için öğrenme eğrilerini tartışıyor: satranç, shogi ve go. AlphaZero, tüm oyunlar için aynı ağ mimarisini ve ayarlarını kullanarak sıfırdan sadece dört saatlik eğitimle satranç oyununda dünya şampiyonu Stockfish'i geride bıraktı. AlphaZero, AlphaGo Zero'nun önceki sürümlerini ve şu anki dünya şampiyonu Shogi'yi yalnızca birkaç yüz bin adımdan veya 8 saatlik eğitimden sonra kolaylıkla yendi. AlphaZero'nun Monte Carlo ağaç aramasının ölçeklenebilirliği, önceki programlarda kullanılan alfa-beta arama motorlarıyla karşılaştırıldı; buna saniyede yaklaşık 70 milyon konumu değerlendiren Stockfish dahil, AlphaZero ise saniyede yalnızca yaklaşık 80 bin konumu değerlendiriyor. Konuşmacı, MCTS'nin sinir ağları gibi derin işlev yaklaşımlayıcılarla birleştirildiğinde daha az konum sırasını değerlendirmesine rağmen bu kadar etkili olmasının nedeninin, aramada mevcut olan yaklaşım hatalarını ortadan kaldırmaya yardımcı olması ve böylece daha iyi performansla sonuçlanması olduğunu teorileştiriyor. ölçeklenebilirlik. Son olarak AlphaZero, satranç oyunundaki en yaygın 12 insan açılımını seçerek insan satranç bilgisini kendisi keşfetti.

  • 00:35:00 Bu bölümde, konuşmacı AlphaZero'nun belirli satranç açılışlarını nasıl kullandığını ve bunları kendi kendine oynama sırasında nasıl oynadığını tartışıyor. AlphaZero, bu varyasyonları oynamak için önemli miktarda zaman harcadı, ancak sonunda daha sık oynanan bazılarını göz ardı ederek farklı açılışları tercih etmeye başladı. Konuşmacı ayrıca AlphaZero'nun diğer alanlara aktarılabilen genel amaçlı derin pekiştirmeli öğrenme yöntemlerinin kullanılmasında kaydedilen ilerlemeden bahseder. Bir algoritma ne kadar özelleşmişse, diğer alanlara o kadar az uyum sağlayabilir. İnsan ve makinenin bir arada kullanılması ilginç bir olasılık olsa da, konuşmacı AlphaZero'nun önceki satranç programlarından daha insani bir şekilde oynadığını vurgulayarak, her iki dünyanın en iyilerini birleştirme yeteneğine işaret ediyor.

  • 00:40:00 Bu bölümde konuşmacı, oyunun kurallarını yalnızca insan bilgisi olarak AlphaGo Zero'ya yerleştirmiş olmalarına rağmen, bunun eylemlerin temel kodlamasını ve kodunu çözmeyi içerdiğini açıklıyor. Örneğin, satrançta, alınan taşı ve onu yere bırakmak için kullanılan uçağı kodlamak için uzamsal temsili kullandılar. Kural dışı hareketleri eylem alanından hariç tutarlar. Konuşmacı ayrıca, oyun başına yalnızca bir çalışma gerçekleştirdikleri için deneylerine hata çubuklarını dahil etmediklerini açıklıyor. Ancak, birden çok deney yürüttüler ve sonuçlar çok tekrarlanabilir.
Deepmind AlphaZero - Mastering Games Without Human Knowledge
Deepmind AlphaZero - Mastering Games Without Human Knowledge
  • 2018.01.29
  • www.youtube.com
2017 NIPS Keynote by DeepMind's David Silver. Dr. David Silver leads the reinforcement learning research group at DeepMind and is lead researcher on AlphaGo....
 

AlphaGo - Yapay Zeka tarihin en zor tahta oyununda nasıl ustalaştı?



AlphaGo - Yapay Zeka tarihin en zor tahta oyununda nasıl ustalaştı?

Video, tamamen kendi kendine oynama yoluyla ve insan veri kümeleri kullanılmadan eğitilmiş bir yapay zeka sistemi olan AlphaGo Zero'nun teknik ayrıntılarını araştırıyor. Sistem, değeri ve güçlü hareketleri tahmin etmek için artık bir ağ mimarisi ve iki araştırmalı bir yaklaşım kullandı. Video, oyun sonuçlarını tahmin etme yeteneği ve sistemin keşfi ve Go'daki iyi bilinen hareketlerden uzaklaşması dahil olmak üzere yapılan iyileştirmeleri vurgular. Bununla birlikte, sistemin gerçek dünya uygulaması mükemmel bir simülatör ihtiyacı ile sınırlıdır ve bu da yaklaşımın diğer alanlara uygulanmasını zorlaştırır.

  • 00:00:00 Bu bölümde, AlphaGo Zero'nun önceki sürümlere göre iyileştirmelerinin teknik detayları ele alınmaktadır. İlk büyük değişiklik, AlphaGo Zero'nun tamamen kendi kendine oyundan antrenman yapması ve insan profesyonel Go oyuncularının veri setlerini kullanmamasıydı. Ayrıca oyun için önceden hazırlanmış özelliklerin hiçbirini kullanmaz ve bunun yerine tamamen tahta durumunu gözlemleyerek öğrenir. Ağ mimarisi tamamen kalıntı bir mimariye dönüştürüldü ve ayrı bir ilke ve değerlendirme ağına sahip olmak yerine artık her ikisini de yapan tek bir büyük ağda birleştirildi. Montecarlo sunumları, değer tahmini yapmak ve güçlü hareketler bulmak için tek ağı kullanan daha basit bir iki araştırma yaklaşımıyla değiştirildi. Genel olarak, bu, 19'a 19'a 16 ikili sayıların bir tahta temsili, bir artık ağ ve özellik vektöründen üretilen bir değer gösterimi ve politika vektörü ile sonuçlandı.

  • 00:05:00 Bu bölümde video, AlphaGo'nun iyi hamlelerin yüksek olasılıklarına ve kötü hareketlerin düşük olasılıklarına yol açan bir ağ mimarisi kullanılarak nasıl iyi hamleler yapmak üzere eğitildiğini açıklıyor. AlphaGo'nun ilk sürümü, profesyonel Go hareketlerinden oluşan bir veri kümesi üzerinde denetimli öğrenme kullanılarak ve ardından kendi kendine oynatmayı kullanan bir ince ayar aşaması kullanılarak eğitildi. Bununla birlikte, yeni sürüm AlphaGo Zero, herhangi bir veri seti kullanmaz ve Monte Carlo ağaç araması kullanarak tamamen kendi kendine oynayarak öğrenir ve kendi kendine ağırlık eğitim sürecini dengeler. Arama ağacını patlatarak ve Monte Carlo ağaç aramasını kullanarak, sistem hangi hareketlerin güçlü hangilerinin güçlü olmadığını tahmin edebilir. Son olarak, video, sürecin Go gibi mükemmel bir simülatöre sahip olduğunuz oyunlara özgü olduğunu ve bu yaklaşımın gerçek dünyadaki uygulamalarını zorlaştırdığını vurguluyor.

  • 00:10:00 Bu bölümde konuşmacı, AlphaGo'nun ağ mimarisinde yapılan iyileştirmeleri gösteren çeşitli grafikleri tartışıyor. Bir grafik, önceki sürümlere göre önemli bir gelişme ile AlphaGo Zero ağının mevcut tahta konumuna dayalı olarak bir oyunun sonucunu tahmin etme yeteneğini göstermektedir. Konuşmacı ayrıca, normal bir evrişimli mimariden artık bir ağa geçişin büyük bir gelişmeyle sonuçlandığını belirtiyor. Ek olarak, bir grafik AlphaGo Zero'nun Go oyunundaki iyi bilinen hareketleri nasıl keşfettiğini ve sonra nasıl ilerlediğini gösterir. Genel olarak konuşmacı, Google DeepMind ekibinin sonuçlarından etkilendi ve izleyicileri yorumlar bölümünde soru sormaya teşvik ediyor.
AlphaGo - How AI mastered the hardest boardgame in history
AlphaGo - How AI mastered the hardest boardgame in history
  • 2017.11.13
  • www.youtube.com
In this episode I dive into the technical details of the AlphaGo Zero paper by Google DeepMind.This AI system uses Reinforcement Learning to beat the world's...
 

Sıfırdan AlphaZero – Makine Öğrenimi Eğitimi



Sıfırdan AlphaZero – Makine Öğrenimi Eğitimi

00:00:00 - 01:00:00 "Sıfırdan AlphaZero – Makine Öğrenimi Eğitimi" videosu, kullanıcılara Tic için verilen örneklerle insanüstü seviyelerde karmaşık masa oyunları oynamak için Python ve PyTorch kullanarak AlphaZero algoritmasını nasıl oluşturacaklarını ve eğiteceklerini öğretir. -tac-toe ve Connect 4. Algoritmanın temel bileşenlerinden biri, en umut verici eylemi seçmeyi, ağacı genişletmeyi ve eğitim için geri yayılan sonuçlarla oyunu simüle etmeyi içeren Monte Carlo ağaç aramasıdır. Öğretici, Monte Carlo araştırma algoritması sırasında düğümlerin genişletilmesini, kendi kendine oynama sürecini ve ilke ile MCTS dağılımı ile değer ve nihai ödül arasındaki farkı en aza indiren kayıp işlevlerini kullanarak modelin nasıl eğitileceğini gösterir. Video, bir Tic-tac-toe oyunu oluşturarak ve onu bir süre döngüsü boyunca test ederek sona erer.

01:00:00 - 02:00:00 AlphaZero'yu sıfırdan oluşturmaya yönelik eğitimin bu bölümünde eğitmen, Tic-tac-toe oyunu için Monte Carlo Ağaç Arama (MCTS) algoritmasının uygulanmasını gösteriyor. Algoritma, seçim, genişletme, simülasyon ve geri yayılım aşamaları için tekrarlanan yinelemelerin bir döngüsünü tanımlayan bir arama yöntemi içeren yeni bir MCTS sınıfı aracılığıyla uygulanır. Video ayrıca, biri politika ve diğeri değer için olmak üzere iki kafa içeren ve atlamalı bağlantılara sahip artık bir ağ kullanan AlphaZero sinir ağı mimarisinin uygulanmasını da kapsıyor. İlke başlığı, en umut verici eylemi belirtmek için bir softmax işlevi kullanırken, değer başlığı mevcut durumun ne kadar iyi olduğuna dair bir tahmin verir. Konuşmacı ayrıca ResNet sınıfı için başlangıç bloğunun ve omurganın uygulanmasını tartışır ve Tic-Tac-Toe'da belirli bir durum için bir ilke ve değer elde etmek için AlphaZero modelinin nasıl kullanılacağını açıklar.

02:00:00 - 03:00:00 "Sıfırdan AlphaZero" eğitimi, makine öğrenimi yoluyla AlphaZero algoritmasının oluşturulmasını gösteriyor. Sunucu, MCTS algoritmasının güncellenmesi, kendi kendine oynama ve eğitim yöntemlerinden, olasılık dağılımına sıcaklık ekleme, modelde ağırlık azaltma ve GPU desteği ve kök düğüme gürültü ekleme gibi iyileştirmelere kadar geniş bir yelpazedeki konuları kapsar. Öğretici, düğüm durumunun nasıl kodlanacağını, politika ve değer çıktılarının nasıl alınacağını ve softmax, geçerli hareketler ve Dirichlet rasgele gürültü kullanarak politikanın nasıl değiştirileceğini göstererek, izleyiciyi bu özelliklerin uygulanması boyunca adım adım yönlendirir. umut verici eylemler kaçırılmaz.

03:00:00 - 04:05:00 Makine öğrenimini kullanarak sıfırdan AlphaZero oluşturmaya yönelik bu YouTube eğitiminde eğitmen, politikaya gürültü faktörü ile keşif ekleme, eğitim modelleri için CPU ve GPU desteği dahil etme gibi çeşitli konuları ele alıyor. daha karmaşık oyunlar, Connect Four oyunu oluşturmak için kaynak kodunu güncelleme, paralelleştirme yoluyla AlphaZero uygulamasının verimliliğini artırma, kendi kendine oynanan oyunlar için Python'da iki yeni sınıf oluşturma, verimliliği artırmak için durumları kodlama, Monte Carlo Ağaç Arama algoritmasını uygulama AlphaZero için ve paralelleştirilmiş fs0 kullanarak Connect Four için bir model eğitimi. Eğitim, verimli ve etkili bir AlphaZero uygulaması oluşturmaya odaklanarak her konuda adım adım rehberlik sağlar. Sunum yapan kişi, Kegel ortamları paketini kullanarak bir Dörtlü Bağlantı ortamının nasıl oluşturulacağını gösterir, ardından eğitimli bir AlphaZero modeline dayalı MCTS arama algoritmasını kullanan iki temsilci ile oyunu çalıştırır ve görselleştirir. Sunucu ayrıca kodda küçük düzeltmeler yapar ve eğitimli modele dayalı tahminler için MCTS algoritmasını kullanarak birinci oyuncuyu aracı olarak tanımlar. Eğitim, sunum yapan kişinin her kontrol noktası için jüpyter not defterleri içeren bir GitHub deposu ve Tic-tac-toe ve Connect Four için son modeli içeren bir ağırlıklar klasörü sağlaması ve varsa Mu Zero hakkında bir takip videosu yapmakla ilgilendiğini belirtmesiyle sona erer. buna ilgi.


Bölüm 1

  • 00:00:00 Bu bölümde eğitim, insanüstü seviyelerde karmaşık tahta oyunları oynamayı öğrenmek için makine öğrenimi tekniklerini kullanan bir yapay zeka algoritması olan AlphaZero kavramını tanıtıyor. Algoritma başlangıçta DeepMind tarafından geliştirildi ve Go gibi oyunlarda etkileyici sonuçlar elde edebiliyor ve hatta matematikte yeni algoritmalar icat edebiliyor. Eğitim, kullanıcılara Python ve PyTorch kullanarak sıfırdan AlphaZero oluşturmayı ve Tic-tac-toe ve Connect 4 gibi oyunlarda eğitmeyi ve değerlendirmeyi öğretecek. Algoritmanın kendi kendine oynama ve eğitim olmak üzere iki bileşeni vardır ve bir nöral ağ kullanır. giriş durumuna göre bir politika ve değer üretin. Algoritma, bu döngüyü tekrarlayarak oyunu insanlardan daha iyi oynamak için kendini optimize edebilir.

  • 00:05:00 Bu bölümde video, kendi kendine oynatma için kullanılan bir arama algoritması olan Monte Carlo ağaç aramasını ve genel algoritmayı açıklıyor. Bir durumda, bu durumda bir blok pozisyonu alır ve geleceğe bir ağaç inşa ederek en umut verici eylemi bulur. Her düğüm, bir durumu ve gelecekte o yönde oynarken elde edilen toplam galibiyet sayısını ve toplam ziyaret sayısını saklar. Her düğümün çocuklarının kazanma oranı, en umut verici eylemi belirlemek için kullanılır ve bu bilgi, tic-tac-toe gibi gerçek bir oyunda kullanılabilir. Düğümler için veriler, seçim aşamasında daha da genişletilebilecek bir yaprak düğüme ulaşana kadar ağaçta aşağı doğru yürüyerek oluşturulur.

  • 00:10:00 Bu bölümde, konuşmacı oyun oynamak için Monte Carlo Ağaç Arama (MCTS) ile ilgili farklı aşamaları tartışıyor. Seçim aşaması, daha yüksek bir UCB formülüne sahip ve nispeten az ziyaret edilmiş bir alt düğümün seçilmesini içerir. Genişletme aşaması, yeni bir düğüm oluşturmayı ve onu ağaca eklemeyi içerirken, simülasyon aşaması, bir terminal düğüme ulaşılana kadar oyunun rastgele oynanmasını içerir. Geri yayılım aşamasında, simülasyon aşamasından elde edilen sonuçlar ağaca geri yayılır ve her düğüm için kazanma ve ziyaret sayısı güncellenir.

  • 00:15:00 Videonun bu bölümünde eğitmen, algoritmanın bir sonraki düğümü seçmek için ağaçta yürüdüğü seçim aşamasından başlayarak Monte Carlo Ağaç Arama (MCTS) sürecinin bir örneğini inceliyor. Daha sonra, yeni bir düğümün yaratıldığı genişleme aşamasına geçerler, ardından bir uç düğüme ulaşmak için rastgele eylemlerin gerçekleştirildiği simülasyon aşaması gelir. Algoritma daha sonra oyunun kazanılıp kazanılmadığını, kaybedilmediğini veya bir kuralın ihlal edilip edilmediğini kontrol eder. Oyun kazanıldığı için, MCTS işlemi sırasında geçilen düğümler için galibiyet ve ziyaret sayısı güncellenerek geri yayılım gerçekleştirilir. Yeni bir seçim aşaması ve genişleme aşaması ile süreç tekrarlanır, yeni bir düğüm oluşturulur ve simülasyon aşaması bir kez daha gerçekleştirilir.

  • 00:20:00 Bu bölümde, eğitim, AlphaZero kullanarak MCTS algoritmasında simülasyon ve geri yayma sürecinden geçer. Bu öğreticide sunulan örnek, simülasyon aşamasındaki bir kaybı göstermektedir. Geri yayılma sırasında yalnızca ziyaret sayısı artar ve yapay zeka simülasyon sırasında oyunu kaybettiği için toplam galibiyet sayısı aynı kalır. Öğretici daha sonra AlphaZero kullanarak MCTS'nin seçim ve genişletme süreçlerini açıklamaya devam eder. Öğretici, her çocuk için UCB puanının nasıl hesaplanacağını ve en yüksek puana sahip çocuğun nasıl seçileceğini gösterir. İşlem daha sonra, genişlemenin gerçekleştiği bir yaprak düğüme ulaşana kadar AI'nın her düğüm için UCB formülünü hesaplamasıyla tekrarlanır.

  • 00:25:00 Eğitimin bu bölümünde, Monte Carlo araştırma tekniğinin Genel AlphaZero algoritmasına uyarlandığında nasıl değiştiğine odaklanılmaktadır. Algoritmada yapılan iki kritik değişiklik var. İlk olarak modelden elde edilen poliçe, poliçe bilgileri ile UCB formülü güncellenerek seçim aşamasına dahil edilir. İkinci olarak, simülasyon aşaması ortadan kaldırılır ve sinir ağından elde edilen değer, seçim aşaması politikasıyla birlikte geriye yayılım için kullanılır. Bu değişikliklerle, oyunun nasıl oynanacağını anlayan bir model olduğunda Monte Carlo araştırma tekniği önemli ölçüde gelişebilir.

  • 00:30:00 "Sıfırdan AlphaZero – Makine Öğrenimi Eğitimi" videosunun bu bölümünde sunum yapan kişi, genişletme aşamasında yağın olası yönlerini genişletmek için küçük bir değişiklik yapıyor, böylece yalnızca bir yeni düğüm yerine tüm olası düğümler oluşturulabiliyor düğüm. Daha sonra, çok renkli araştırmanın nasıl uyarlandığını göstermek için bir beyaz tahta üzerinde yinelemeleri gözden geçirirler. Genişletme aşamasında, politika ve değer almak için sinir ağı çağrılarak ve düğümlere kazanma sayısı, ziyaret sayısı ve politika bilgisi eklenerek yeni düğümler oluşturulur. Ardından, geri yayılım adımında, değer geri yayılır. Sunucu, UCB formülünden bahseder ve ziyaret sayısı sıfır olan düğümler için kazanma olasılığının hesaplanamayacağını ve sıfır hatayla bölünmeyi önlemek için ele alınması gerektiğini belirtir.

  • 00:35:00 Eğitimin bu bölümünde, konuşmacı Monte Carlo araştırma algoritması sırasında düğümleri genişletme sürecini açıklıyor. Algoritma, bir oyunda belirli bir durum için en iyi hamleyi belirlemek için kullanılır. Konuşmacı, düğümlerin nasıl genişletildiğine ve her bir alt düğüm için ilke ve değerin nasıl hesaplandığına ilişkin bir örnek üzerinden ilerliyor. Yeni alt düğümün değerini kök düğüme geri yayma işlemi de açıklanmaktadır. Öğretici daha sonra, bir oyunun boş bir durumdan başlayarak bir algoritma tarafından kendisine karşı oynandığı ve çocukların ziyaret sayısı dağılımına dayalı olarak en iyi hamleyi belirlemek için Monte Carlo araştırmasını kullandığı kendi kendine oynama sürecini açıklamaya devam eder. kök düğüm.

  • 00:40:00 Bu bölümde, Monte Carlo Ağaç Arama (MCTS) kullanılarak modelin nasıl eğitileceğini görüyoruz. Amaç, MCTS dağılımı ve her eyalet için ödül dahil olmak üzere, oynarken kazanılan tüm bilgileri depolamaktır. Ödül, o durumdaki oyuncu için oyunun nihai sonucuna bağlıdır. Verileri topladıktan sonra, politika ile MCTS dağılımı ve V değeri ile nihai ödül Z arasındaki farkı en aza indiren bir kayıp fonksiyonu kullanarak modeli eğitmek için kullanırız. Bunu, ağırlıkları güncellemek için geri yayılımı kullanarak yaparız. Teta modeli. Genel olarak bu süreç, modelin oyunu nasıl oynayacağını daha iyi anlamasına ve optimize olmasına yardımcı olur.

  • 00:45:00 Bu bölümde, AlphaZero'yu makine öğrenimini kullanarak sıfırdan oluşturmaya ilişkin video eğitimi, bir Jupyter Not Defteri oluşturarak ve satır ve sütun sayımının yanı sıra eylem boyutuna sahip basit bir tic-tac-toe oyunu oluşturarak başlar. . Öğretici daha sonra ilk durumu, bir işlem yapıldıktan sonraki durumu ve yasal hamleleri almak için yöntemler yazar. Eylem girişi, bir NumPy dizisinde kullanılmak üzere bir satır ve sütun biçiminde kodlanır. Kod, Connect Four'a genişletme planları ile farklı ortamları veya masa oyunlarını çözmek için esnek olacak şekilde yazılmıştır.

  • 00:50:00 Bu bölümde YouTuber, bir oyuncunun hamlesinden sonra kazanıp kazanmadığını kontrol edecek bir yöntem yazıyor. Hamlenin satırını ve sütununu alarak ve ardından o hamleyi yapan oyuncuyu belirleyerek başlarlar. Daha sonra np.sum ve np.diac yöntemlerini kullanarak arka arkaya üç, sütunda üç ve iki köşegen olan tic-tac-toe oyununu kazanmanın tüm olası yollarını kontrol ederler. Ek olarak, geçerli hamlelerin toplamını hesaplayarak ve sıfır olup olmadığını kontrol ederek beraberliği kontrol ederler. Son olarak, get value adlı yeni bir yöntem oluştururlar ve oyun bittiğinde değeri ve true değerini döndüren yöntemi sonlandırırlar.

  • 00:55:00 Bu bölümde yazar bir Tic-tac-toe oyunu ve oyuncuyu değiştirmek için bir rakip yöntemi yazıyor. Oyunu çalıştırarak test ederler ve bir while döngüsü kullanırlar. Döngüde, durum ve geçerli hareketler yazdırılır ve kullanıcıdan hareketlerini girmesi istenir. Oyun, eylemin geçerli olup olmadığını ve oyunun sonlandırılıp sonlandırılmadığını kontrol eder. Oyun devam ederse, oyuncu ters çevrilir. Değer bire eşitse oyuncu kazanır ve beraberlik varsa yazdırılır.

Bölüm 2

  • 01:00:00 AlphaZero'yu makine öğrenimi kullanarak sıfırdan oluşturmaya ilişkin eğitimin bu bölümünde, eğitmen gösteri amacıyla kullanılacak oyun olarak tic-tac-toe'yu seçerek başlıyor. Argüman olarak oyun ve hiperparametrelerle başlayan çok renkli araştırma (MCTS) için yeni bir sınıf oluşturulur. Bu sınıf içinde, seçim, genişletme, simülasyon ve geri yayılma aşamalarının tekrarlanan yinelemeleri için bir döngü ile bir arama yöntemi tanımlanır ve sonuçta kök düğümün çocuklarının ziyaret sayısı dağılımını döndürür. Ardından, oyun durumu, ebeveyn, yapılan işlem, çocuklar ve ziyaret sayısı gibi özniteliklerle bir düğüm için bir sınıf tanımlanır. Kök düğüm ayrıca oyun, hiperparametreler, başlangıç durumu ve üst ve eylem yer tutucuları için Hiçbiri ile tanımlanır.

  • 01:05:00 Bu bölümde video, AlphaZero algoritmasında oyun sırasında ağaçtaki düğümleri seçme sürecini anlatıyor. Bir düğümün tamamen genişletilip genişletilmediğini belirleme yöntemi, genişletilebilir hareketlerin sayısı ve düğümün sonlandırılıp sonlandırılmadığına ilişkin bilgiler kullanılarak tanımlanır. Seçim aşamasında, düğüm tamamen genişletilirken algoritma aşağı doğru seçim yapar. Algoritma, seçim için düğümün tüm çocukları üzerinde döngü yapar, her çocuk için UCB puanını hesaplar ve ardından en yüksek UCB puanına sahip çocuğu seçer. UCB puanı, Q değeri, keşif veya kullanım için bir sabit C ve bir logaritmik fonksiyon kullanılarak hesaplanır. Q değeri, çocuğun ziyaret toplamının ziyaret sayısına bölümü olarak tanımlanır ve Q değerinin 0 ile 1 aralığında olmasını sağlamak için yapılan ayarlamalar yapılır.

  • 01:10:00 Bu bölümde, eğitim videosu AlphaZero'nun seçim sürecini kapsar. Kod, rakibi kötü bir duruma sokacağı için çok olumsuz veya düşük değere sahip bir çocuğu seçer. Çocuğun Q değeri daha sonra ebeveyne neredeyse 1 olan bir Q değeri vermek için tersine çevrilir. Bu şekilde, ağaç üzerinde çocuk kötü bir konumda olacak şekilde çalışılır. Video, bu değişiklikleri kodda uygulamak için gereken adımların üzerinden geçiyor ve son olarak seçilen düğümün bir terminal olup olmadığını kontrol etmenin önemini açıklıyor. Ek olarak, get value özelliğinde oyunun bakış açısını hesaba katmak için yeni bir yöntem eklenir.

  • 01:15:00 Makine öğrenimi kullanarak AlphaZero'yu sıfırdan oluşturmaya yönelik eğitimin bu bölümünde, eğitmen bir düğümün uçbirim olup olmadığının nasıl kontrol edileceğini, geriye yayılacağını ve genişletme ve simülasyon gerçekleştireceğini açıklıyor. Tanımlananlardan genişletilebilir bir hareketin örneklenmesiyle, bir alt öğe için yeni bir durum oluşturulur ve seçim yönteminin içinde daha sonra başvurmak üzere alt öğeler listesine yeni bir düğüm eklenir. Eğitmen ayrıca, oyuncuları açıkça tanımlamak yerine oyuncuları değiştirmek için durumu tersine çevirme fikrini tartışır, mantığı tek oyunculu oyunlar için daha basit hale getirir ve kodun geçerli olmasını sağlar.

  • 01:20:00 Bu bölümde konuşmacı Tic-Tac-Toe oyunu için bir alt düğüm oluşturuyor ve perspektif değiştirme yöntemini açıklıyor. Oyuncuyu rakip için -1 olarak ayarlarlar ve perspektifi çevirmek için çarpmayı kullanırlar. Alt düğümü oluşturduktan sonra, onu alt düğüm listesine ekler ve döndürürler. Ardından konuşmacı, bir uç düğüme ulaşılana ve değer elde edilene kadar rastgele eylemler gerçekleştirmek için sunumları kullandıkları simülasyon sürecini tartışmaya geçer. Elde edilen değeri, düğümün oyuncusunun daha umut verici olması için kazandığı düğümleri geri yaymak için kullanırlar.

  • 01:25:00 Videonun bu bölümünde sunum yapan kişi, AlphaZero oyun oynama programı için Monte Carlo Ağaç Arama (MCTS) algoritmasını oluşturmaya devam ediyor. Bir eylemi seçmek, bir sonraki durumu almak ve bu durumun terminal olup olmadığını kontrol etmek için mevcut ham durumun nasıl kullanılacağını gösterirler. Sunucu, birinci veya ikinci oyuncunun oyunu kazandıkları zaman pozitif bir değer alması arasında ayrım yapmak için bir if ifadesi yazar ve ardından her düğüm için değeri ve ziyaret sayısını güncellemek üzere geri yayılım yöntemini yazmaya devam eder. Son olarak sunum yapan kişi, en umut verici eylemlerin olasılığını hesaplayan bir değişken oluşturur, action_props.

  • 01:30:00 Bu bölümde, eğitim videosu Tic-tac-toe oyunu için bağımsız bir Monte Carlo Ağaç Arama (MCTS) algoritmasının nasıl uygulanacağını gösterir. Öğretici, tüm çocuklar arasında nasıl dolaşılacağını ve her çocuk için aksiyon dekorlarının nasıl yazılacağını gösterir. Her çocuğun ziyaret sayısı onları olasılığa dönüştürmek için kullanılır. Olasılıkların toplamı daha sonra olasılıklara dönüştürmek için 1'e bölünür. Daha sonra MCTS nesnesi oluşturulur ve UCB formülündeki C değeri için 2'nin karekökü kullanılır. Komut dosyası oyuna karşı test edilir ve algoritma nötr durumla test edilir. MCTS ağacı daha sonra, en çok ziyaret edilen çocuğu döndürmek için en iyi çocuk işleviyle birlikte kullanılır.

  • 01:35:00 Bu bölümde AlphaZero algoritması için sinir ağı mimarisi ele alınmaktadır. Sinir ağına girdi olarak verilen durum, oyuncu pozitif, oyuncu negatif ve boş alanlar için üç farklı düzlemde kodlanmış bir tahta pozisyonudur. Bu kodlama, kalıpları tanımaya ve oyunun nasıl oynanacağını anlamaya izin verir. Kullanılan sinir ağı mimarisi, ilk X değerini depolamak ve çıktıyı evrişimli bloklardan ve ilk X değerinden çıktının toplamı olarak vermek için atlamalı bağlantılara sahip artık bir ağdır. Model, politika başlığı ve değer kafası olmak üzere iki kısma ayrılmıştır ve tic-tac-toe durumunda, politika kafasında her potansiyel eylem için bir tane olmak üzere dokuz nöron vardır.

  • 01:40:00 Bu bölümde konuşmacı AlphaZero sinir ağının mimarisini sıfırdan açıklıyor. Ağın biri ilke ve diğeri değer olmak üzere iki "başı" vardır. Politika kafasının dokuz nöronu vardır ve çıktı, belirli bir eylemin ne kadar umut verici olduğunu gösteren bir olasılık dağılımına dönüştürmek için soft-max işleviyle uygulanır. Değer kafasının yalnızca bir nöronu vardır ve tüm potansiyel değerleri negatif bir ile pozitif bir aralığında sıkıştırmak için 10 saatlik aktivasyon fonksiyonunu kullanır ve mevcut durumun ne kadar iyi olduğuna dair bir tahmin verir. Kod, PyTorch derin öğrenme çerçevesi kullanılarak bir Jupyter not defterinin içine yerleştirilmiştir. Model, bir başlangıç bloğu ve evrişimli artık blokların bir omurgasını içerir ve her blok, bir evrişimli katmanı, ardından iki toplu iş normalleştirme katmanı ve bir ReLU aktivasyon fonksiyonu içerir.

  • 01:45:00 Bu bölümde konuşmacı, bir conf 2D bloğu, bir toplu norm bloğu ve bir değer bloğu oluşturmayı içeren AlphaZero modeli için başlangıç bloğunun oluşturulmasını tartışıyor. Ayrıca bir dizi dinlenme bloğu kullanarak model için bir omurga oluşturdular ve dinlenme blokları için bir sınıf oluşturdular. Kalan bloklar, atlanan bağlantıları kullanarak girişi güncellemek için kullanılan bir conf bloğu, bir toplu norm bloğu ve başka bir conf bloğundan oluşur. Forward yöntemi, girdiyi conf blokları aracılığıyla beslemek ve elde edilen çıktıyı artığa eklemek için tanımlanır.

  • 01:50:00 Bu bölümde, konuşmacı AlphaZero algoritması için sıfırdan bir artık ağ (ResNet) oluşturma kodunu gözden geçiriyor. Belirtilen sayıda gizli katman için kalan bloklar üzerinde döngü yaparak ResNet'in omurgasının nasıl oluşturulacağını gösterirler. Ardından, nn.sequential'ı kullanarak ve sıradaki katmanları tanımlayarak ilke başlığını ve değer başlığını oluştururlar. Son olarak, konuşmacı, girişi başlangıç bloğundan geçirerek, kalan bloklar üzerinde döngü yaparak ve sonunda toplamı döndürerek ResNet sınıfı için forward yönteminin nasıl tanımlanacağını gösterir.

  • 01:55:00 Bu bölümde, konuşmacı Tic-Tac-Toe'da belirli bir durum için bir ilke ve değer elde etmek için AlphaZero modelinin nasıl kullanılacağını açıklıyor. Modelden bir tensör durumu geçirerek ilke ve değeri elde etmek için kod yazar ve ardından ilkeyi düzleştirir ve değer öğesini alır. Ayrıca durumu doğru formatta kodlamanın ve tensöre parti boyutu eklemenin önemini açıklıyor.

Bölüm 3

  • 02:00:00 Bu bölümde, konuşmacı, nokta öğe yöntemini kullanarak bir ilke tensörünün bir değişkene nasıl dönüştürüleceğini gösterir ve ardından en yüksek olasılığa sahip eylemleri seçmek için softmax işlevini uygular. Konuşmacı daha sonra nerede oynanacağını göstermek için Matplotlib'i kullanarak ilke dağıtımını görselleştirir. Daha sonra konuşmacı, yeniden üretilebilirliği sağlamak için Torch için bir tohum ayarlar ve yaprak düğümün durumuna dayalı bir değer ve ilkeyi tahmin etmek için bir ResNet model girişi vererek MCTS algoritmasını günceller. Simülasyon kısmı kaldırılır ve modelden elde edilen değer geri yayılım için kullanılır.

  • 02:05:00 Videonun bu bölümünde sunum yapan kişi, bir tic-tac-toe oyununun düğüm durumunun nasıl kodlanacağını ve onu modele girdi olarak vermek için torch.tensor kullanılarak bir tensöre nasıl dönüştürüleceğini gösteriyor. Logitlerden oluşan politikanın torch.softmax kullanılarak olasılık dağılımına dönüştürülmesi gerekmektedir. Sunum yapan kişi ayrıca ilke ve geçerli hamleleri kullanarak yasa dışı hareketleri nasıl maskeleyeceğini ve ilkeleri yüzdeleri temsil edecek şekilde nasıl yeniden ölçeklendireceğini açıklar. Değer, value.item() çağrılarak değer başlığından çıkarılır. Ayrıca sunum yapan kişi, düğümün bir yaprak düğüm olması durumunda genişletme politikasının ve geri yayılım değerinin nasıl kullanılacağını gösterir.

  • 02:10:00 AlphaZero'yu makine öğrenimi kullanarak sıfırdan oluşturmaya ilişkin eğitim videosunun bu bölümünde, konuşmacı genişletme ve UCB formül yöntemlerinin nasıl güncelleneceğini açıklıyor. Genişletme yöntemi, tüm olası yönlerde hemen genişletmek ve seçim sırasında UCB formülünde daha sonra kullanmak üzere olasılığı düğüm nesnesinin içinde depolamak için güncellenir. Yeni UCB formülü, standart çok renkli araştırmadan farklı bir formül kullanır ve konuşmacı, math.log dosyasının nasıl kaldırılacağını ve çocuğun ziyaret sayısına bir nasıl ekleneceğini gösterir. Bu güncellemeler, daha önce ziyaret edilmemiş bir çocukta UCB yönteminin kullanılmasına izin verir.

  • 02:15:00 Bu bölümde eğitmen, MCTS'yi hareket seçimi için çocuk hakları politikasıyla günceller ve bir oyun çalıştırarak test eder. Daha sonra bir model, optimize edici, oyun ve diğer argümanları alan bir AlphaZero sınıfını tanımlayarak ana AlphaZero algoritmasını oluşturmaya geçerler. Ayrıca, kendi kendine oynama ve eğitim yöntemlerini tanımlarlar ve çoklu oynama, veri toplama, modeli eğitme ve yeniden test etme döngülerini yineleyen bir döngü oluştururlar. Eğitmen ayrıca eğitim verilerini depolamak için bir hafıza sınıfı oluşturur ve eğitim döngüsündeki her kendi kendine oynanan oyun üzerinde döngüler yapar.

  • 02:20:00 Eğitim videosunun bu bölümünde sunum yapan kişi, AlphaZero için kendi kendine oynatma ve eğitim döngüsü kodunu gözden geçiriyor. Kendi kendine oynatma yönteminden elde edilen yeni verilerin bellek listesine nasıl genişletileceğini ve oynatma sırasında toplu düğmelerden kaçınmak için model modunun değerlendirme moduna nasıl değiştirileceğini kapsar. Eğitim döngüsü, tren yönteminin nasıl çağrılacağı ve modelin ağırlıklarının nasıl saklanacağı ile de detaylandırılmıştır. Son olarak, yeni bir hafıza tanımlama, bir başlangıç durumu oluşturma ve oyun boyunca döngü yaparken aynı zamanda terminal durumlarını kontrol etme ve verileri Tuple biçiminde belleğe döndürme dahil olmak üzere kendi kendine oynatma yöntemi açıklanmaktadır.

  • 02:25:00 Bu bölümde, video eğitimi, daha sonra eğitim verilerini toplamak için kullanmak üzere nötr durumu, aksiyon dekorlarını ve oyuncu bilgilerinin hafızada nasıl saklanacağını açıklamaktadır. Öğretici, NumPy'nin random.choice işlevini kullanarak eylem donanımlarından bir eylemin nasıl örnekleneceğini ve ardından bu eyleme dayalı olarak nasıl oynanacağını gösterir. Video ayrıca, durumun sonlandırılıp sonlandırılmadığının nasıl kontrol edileceğini ve sonlandırıldıysa, bir oyuncunun oynadığı her örnek için nihai sonucun nasıl döndürüleceğini anlatır. Son olarak, öğretici, tarafsız durumun, eylem donanımlarının ve sonucun bellek değişkenine nasıl ekleneceğini ve bu verilerin daha sonra eğitim için nasıl alınacağını gösterir.

  • 02:30:00 "Sıfırdan AlphaZero" eğitiminin bu bölümünde, farklı oyunlar için negatif değerleri rakip tarafından algılanan değerlerle değiştirerek daha genel hale getirmek için kod güncellendi. Döngülerin görselleştirilmesi, tqdm paketi ve ilerleme yolları kullanılarak geliştirilmiştir. AlphaZero'nun uygulanması, bir resnet modeli, bir Adam iyileştirici ve belirli bağımsız değişkenlerle sınıfın bir örneği oluşturularak test edilir. Tic-Tac-Toe oyunu, 4 dinlenme bloğu ve 64'lük gizli bir boyut ile örnek olarak kullanılmıştır. Keşif sabiti, arama sayısı, yinelemeler, kendi kendine oynanan oyunlar ve çağlar belirlenir ve model ileride kullanılmak üzere kaydedilir. .

  • 02:35:00 Eğitimin bu bölümünde, Eğitim Yöntemi, AlphaZero uygulaması içinde, eğitim verilerinin karıştırılması ve eğitim için farklı örneklerden oluşan bir partiyi örneklemek üzere tüm bellek üzerinde gruplar halinde döngülenmesiyle uygulanır. Durumlar, MCTS donanımları ve son ödüller, demetler listesini MP dizileri listelerine aktarmak için zip yöntemi çağrılarak örnekten elde edilir. Bunlar daha sonra NP dizilerine dönüştürülür ve değer hedefleri, modelin çıktısıyla daha iyi karşılaştırma için her bir değer kendi alt dizisinde olacak şekilde yeniden şekillendirilir.

  • 02:40:00 Eğitimin bu bölümünde video yaratıcısı, şu şekilde modelden çıkış politikasını ve çıkış değerini elde etmek için torch.float32'yi kullanarak durumu, politika hedeflerini ve değer hedeflerini tensörlere nasıl dönüştüreceğini tartışır. durumunu tahmin etmesine izin verir. Geri yayılım yoluyla toplam kaybı en aza indirmek için her iki kaybın toplamını hesaplamak için kullandıkları politika kaybı ve değer kaybını tanımlamaya devam ederler. Daha sonra, eğitim sürecinin yinelemelerini gösteren ilerleme çubuklarıyla birlikte varsayılan toplu iş boyutu 64'ü kullanarak eğitim sürecini gösterirler. Modeli 3 yineleme için eğittikten sonra, sinir ağının oyun hakkında ne öğrendiğini test etmek için statik modeli yüklerler.

  • 02:45:00 Eğitim videosunun bu bölümünde sunum yapan kişi, bir oyun oynamak için sinir ağı modelini nasıl kullanacağını ve nerede hamle yapacağını tahmin etme yeteneğini test ettiğini gösteriyor. Model, MCTS aramasında bir simülasyon çalıştırarak, nerede oynanacağına dair bir dağılım ve verilen durum için bir değer tahmini sağlayabilir. Sunum yapan kişi, eğitim ve test sırasında algoritmayı daha hızlı hale getirmek için algoritmaya GPU desteği de ekler. Sunum yapan kişi, varsa bir Nvidia GPU kullanmak için aygıtın nasıl bildirileceğini ve modele argüman olarak nasıl iletileceğini gösterir. Ek olarak, hızı optimize etmek için kendi kendine oynama ve eğitim sırasında model cihaza taşınır.

  • 02:50:00 Bu bölümde konuşmacı, performansını iyileştirmek için AlphaZero'ya eklenebilecek birkaç ince ayarı tartışıyor. İlk olarak, modele ağırlık azaltma ve GPU desteği eklerler. Daha sonra, eylemleri örneklerken olasılıkların daha esnek bir dağılımına izin veren sıcaklık kavramını tanıtırlar. Daha yüksek bir sıcaklık daha fazla keşfe yol açarken, daha düşük bir sıcaklık daha fazla sömürüye yol açar. Son olarak, konuşmacı, Monte Carlo araştırması sırasında kök düğüme verilen ilk ilkeye gürültünün eklenmesini önerir. Bu ince ayarlar, AlphaZero algoritmasının sonuçlarını önemli ölçüde iyileştirebilir.

  • 02:55:00 AlphaZero'yu makine öğrenimi aracılığıyla sıfırdan oluşturmaya yönelik eğitimin bu bölümünde, rastgeleliği dahil etmek ve daha fazlasını keşfetmek için kök düğüme gürültü eklemeye ve aynı zamanda umut vaat eden hiçbir eylemin kaçırılmamasını sağlamaya odaklanılıyor. Bu, önce save.model'i çağırarak ve torch.tensor ile durum için modelin cihazını kullanarak bir ilke ve değer elde ederek gerçekleştirilir. Politika daha sonra softmax kullanılarak değiştirilir ve yasa dışı hareketleri maskelemek için geçerli hareketlerle çarpılır. Dirichlet rasgele gürültüsü, eski ilke birden küçük bir katsayı ile çarpılarak ve bu katsayı başka bir katsayı ile rasgele gürültü ile çarpılarak ilkeye eklenir. Bu şekilde politika, özellikle modelin oyun hakkında fazla bir şey bilmediği başlangıçta daha fazla keşfe izin verecek şekilde değiştirilir.

4. Bölüm

  • 03:00:00 Bu bölümde, video eğitimi, bir gürültü faktörü kullanarak ilkeye keşif eklemeye odaklanır. Bot, politikayı değiştirerek, keşfi artırarak sıklıkla seçilmeyen eylemlere öncelik verebilir. Video, ilke denkleminin nasıl ayarlanacağını ve Alfa değerinin, oyundaki farklı eylemlerin sayısına bağlı olarak rastgele dağılımın görünüşünü değiştiren NP nokta rastgele nokta dirichlet işlevine girdi olarak nasıl kullanılacağını özetlemektedir; ortama göre değişir. Kök düğüm genişletme politikası da ana hatlarıyla belirtilmiş olup, önceki Monte Carlo araştırmasının başlangıcında alt öğenin seçilmesi konusunda anlaşmaya varılması için genişletme sonrasında düğümün geri yayılmasının (ziyaret sayısı bir olarak ayarlanmıştır) sağlanması.

  • 03:05:00 Eğitimin bu bölümünde eğitmen, Connect Four gibi daha karmaşık oyunlarda eğitim modelleri için CPU ve GPU desteği ekler. Torch.device() kullanarak bir cihaz tanımlarlar ve bir CPU veya CUDA cihazı kullanıp kullanmamaya karar vermek için torch.cuda.is_available() öğesini kontrol ederler. Ayrıca cihazı tensör durum yığınına ve statik dosyanın yüklenmesine eklerler. Eğitmen, modeli Tic-Tac-Toe üzerinde eğitir ve test eder ve modelin kural dışı hareketleri tanımayı öğrendiğini gösterir. Daha sonra Connect Four oyununu satır sayısı, sütun sayısı ve eylem boyutu ile tanımlarlar.

  • 03:10:00 Bu bölümde, video eğitimi, bir Connect Four oyunu oluşturmak için kaynak kodunun güncellenmesini anlatıyor. Oyun, boş bir dizi ve kazanmak için gereken taş sayısı için dört değişkenli bir sıra değişkeninde kaydedilmiş bir nokta ile başlatılır. Sonraki durumu al yöntemi, belirli bir sütuna bakarak bir satır almak ve ardından bir taşı yerleştirmek için o sütundaki en derin boş alanı bulmak üzere güncellenir. Geçerli hamleleri al yöntemi, mevcut hamleler için en üst satırı kontrol edecek şekilde güncellendi. Kazanma kontrolü yöntemi, Tic Tac Toe oyunundan her iki köşegeni de kontrol etmek için ince ayarlarla kopyalanır ve sonraki durumu al yöntemi, sütun değişkeni yerine eylem değişkenini kullanacak şekilde güncellenir. Güncellenen kod, çalıştığından emin olmak için test edilir.

  • 03:15:00 Bu bölümde, konuşmacı Tic-tac-toe'yu Connect Four oyunuyla değiştirir ve doğrulamak için arama sayısını 20 olarak ayarlar. Modelin daha iyi öğrenmesi için modelin boyutu da dinlenme bloğu sayısı için 9 ve gizli dim için 128 olarak değiştirilmiştir. Daha sonra eğitimin verimliliği artırılır, böylece karmaşık ortamlar için daha az zaman alır. Model daha sonra birkaç saat süren bir yineleme için eğitilir. Değerlendirme seti daha sonra modelin bir şey öğrenip öğrenmediğini test etmek için kullanılır.

  • 03:20:00 Eğitimin bu bölümünde paralelleştirme yoluyla AlphaZero uygulamasının verimliliğini artırmaya odaklanılıyor. Plan, politika ve değer için paralel tahminler elde etmek üzere durumları gruplandırarak uygulamayı mümkün olduğunca paralel hale getirmektir. Bu şekilde, modelin çağrılma sayısı büyük ölçüde azaltılır, böylece GPU kapasiteleri tam olarak kullanılır ve hız artar. Öğretici, Ray gibi paketler kullanmadan Python kullanarak paralelleştirilmiş sürümün nasıl uygulanacağını açıklar ve orijinal sınıfların üzerine kopyalanarak "AlphaZeroParallel" ve "MCTSParallel" adlı yeni bir sınıf oluşturulur.

  • 03:25:00 Bu bölümde, konuşmacı Python'da iki yeni sınıfın oluşturulmasını tartışıyor: kendi kendine oynanan oyunlar hakkında bilgi depolamak için "SPG" ve kullanarak "save_play" ve "search" yöntemlerini uygulayan "ParallelMCD". yeni "SPG" sınıfı. "SPG" sınıfı, oyunun ilk durumunu, boş bir hafıza listesini ve "Yok" olarak ayarlanmış "kök" ve "not" değişkenlerini depolar. "ParallelMCD" sınıfı, "oyun"u ve paralel oyunların sayısını girdi olarak kullanarak bir "SPG" örnekleri listesi oluşturmak için "set_play" yöntemini de günceller. Daha sonra "while" döngüsü, tüm kendi kendine oynanan oyunlar bitene kadar "set_play" yöntemini çalıştırır, bu da verimli paralelleştirme sağlar.

  • 03:30:00 Bu bölümde konuşmacı, verimliliği artırmak için tüm durumların bir listesinin nasıl alınacağını ve bunların bir sayı dizisine nasıl dönüştürüleceğini açıklıyor. Ayrıca, negatif bire ayarlanan oyuncu için değerleri negatif olanla çarpmak için tek bir işlev çağrısı kullanarak tüm durumlar için perspektifin nasıl değiştirileceğini gösterirler. Ardından, konuşmacı tarafsız durumların Monte Carlo araştırmasına nasıl aktarılacağını, Monte Carlo araştırma arama yönteminin nasıl güncelleneceğini ve tüm grup durumlarını kullanarak videoda politikaların nasıl alınacağını gösterir. Son olarak, get encoded state yöntemini çağırırken yalnızca bir değil birkaç durumla çalışmak için kodlanmış durumun sırasının nasıl değiştirileceğini ve bu işlemin tic-tac-toe oyununa nasıl kopyalanacağını açıklıyorlar.

  • 03:35:00 bu döngü bir numpy dizisine dönüşür ve bunun yerine numpy'nin vektörleştirmesi kullanılır. Daha sonra modeli, her biri arasında döngü yapmak zorunda kalmadan numpy dizisindeki tüm durumlara uygulayabiliriz, bu da çok zaman kazandırır. Ardından çıktıyı orijinal biçimine geri döndürebilir ve her zamanki gibi MCTS aramasının geri kalanına devam edebiliriz. Son olarak, kendi kendine oynanan her oyun için istatistikleri güncelliyoruz ve seçilen eylem için kök düğümü döndürüyoruz. Bu, AlphaZero algoritmasını kullanan politika ve değer ağı ile MCTS aramasının uygulanmasını tamamlar.

  • 03:40:00 Videonun bu bölümünde eğitmen, SPG sınıfları yerine tüm genişletilebilir düğümleri depolamak için kodda bazı değişiklikler yapıyor. Ardından, bunları depolamak için bir liste oluşturarak ve her güvenli oyun için eşleme dizini alarak hangi güvenli oyun oyunlarının genişletilebilir olup olmadığını bulmaya odaklanır. Eğitmen, herhangi bir genişletilebilir oyun olup olmadığını kontrol eder ve varsa, politika ve değerin daha sonra elde edilebilmesi için durumlar istiflenir ve kodlanır.

  • 03:45:00 Eğitimin bu bölümünde eğitmen, AlphaZero için Monte Carlo Ağaç Arama algoritmasının kod uygulamasını açıklıyor. Genişletilebilir durumların nasıl kullanılacağını gösterirler ve sıkıştırmayı çözmeye, sıkıştırmaya veya gürültü eklemeye ihtiyaç duymazlar, ayrıca ilkeyi almak için bir dizin oluştururlar ve kendi kendine oynanan oyun dizininde ilkeleri tahsis etmek için dizinleri eşlerler. Düğümler SPG politikası kullanılarak genişletilir, SPG nokta değeri kullanılarak geri yayılım yapılır ve ardından OSF Planet yöntemi yerine eylem propları elde edilir. Eğitmen, paralelleştirme kodunu kopyalar ve AlphaZero için Monte Carlo Ağaç Arama algoritmasının uygulanmasının bir parçası olarak OSF Planet yöntemi yerine aksiyon prop'larıyla çalışmak için değişiklikler yapar.

  • 03:50:00 Bu bölümde, video eğitimi, MCTS aramasının paralel uygulanması için kodun güncellenmesine odaklanmaktadır. Eğitmen, "SPG class" yerine "spg.state" diyerek kendi kendine oynanan oyunları uçbirimdeyse listeden çıkarmanın ve durumu güncellemenin önemini vurgular. Kod ayrıca, belleği genel bölgesel belleğe eklemek ve tüm kendi kendine oynanan oyunlardaki döngü tamamlandıktan sonra oynatıcıyı çevirmek için değiştirilir. Amaç, verimli çalışan ve daireyi uygun zamanda kendi kendine oynanan oyunlar listesinden çıkaran sorunsuz bir döngü oluşturmaktır.

  • 03:55:00 Bu bölümde konuşmacı, paralelleştirilmiş fs0 uygulamasını kullanarak Connect Four için bir model eğitmeyi tartışıyor. Model, sekiz yineleme için eğitilir ve sonuçları bir Connect Four panosu kullanarak değerlendirir. Konuşmacı, pratikte kullanılan diğer arama algoritmalarına kıyasla arama sayısının oldukça az olduğunu ancak sonuçların tatmin edici olduğunu belirtiyor. Modele karşı oynayarak bazı hamleler yaparlar ve model buna göre tepki verir. Genel olarak, eğitim birkaç saat sürdü, ancak son model oyunun nasıl oynanacağına dair iyi bir anlayışa sahip.
  • 04:00:00 Eğitimin bu bölümünde sunum yapan kişi, Kegel ortamları paketini kullanarak Connect Four ortamının nasıl oluşturulacağını ve oyunu iki temsilci ile nasıl oynayacağını gösterir. Ajanlar, eğitimli bir AlphaZero modeline dayalı tahminler yapmak için MCTS arama algoritmasını kullanır. Sunucu ayrıca, fs03'te sıcaklık eylemi özelliklerini dahil etmek ve sıradan optimize edici yerine save.optimizer'ı kullanmak gibi kodda bazı küçük düzeltmeler yapar. Ek olarak, sunum yapan kişi, ilkenin ark Max'ini her zaman elde etmek için sıcaklığı sıfıra ayarlar ve oyuna biraz rastgelelik eklemek için yansıma epsilonunu bire ayarlar. Son olarak sunum yapan kişi, birinci oyuncuyu eğitilmiş modele dayalı tahminler yapmak için MCTS algoritmasını kullanan hesaplanmış bir aracı olarak tanımlar.

  • 04:05:00 "Sıfırdan AlphaZero - Makine Öğrenimi Eğitimi"nin bu bölümünde, konuşmacı oyuncu 1 ve oyuncu 2 için farklı oyuncuları denemek için daha fazla esneklik sağlayan kodlar yazarak oyunu ve tartışmaları modeller. Daha sonra hücreyi çalıştırırlar ve birbirlerine karşı oynayan modellerin görselleştirmelerini alırlar, bu da model tüm saldırıları savunabildiği için berabere ile sonuçlanır. Ayrıca oyunu ve argümanları değiştirerek ve yolu güncelleyerek Tic-tac-toe kodunun nasıl değiştirileceğini gösterdiler, bu da modellerin birbirlerine karşı oynamasına ve tekrar berabere kalmasına neden oldu. Öğretici tamamlandı ve konuşmacı, her kontrol noktası için jupyter not defterleri içeren bir GitHub deposu ve Tic-tac-toe ve Connect Four için son modeli içeren bir ağırlıklar klasörü sağladı. Konuşmacı ayrıca, herhangi bir ilgi olursa Mu Zero hakkında bir devam videosu yapmakla ilgilendiklerini ifade etti.
AlphaZero from Scratch – Machine Learning Tutorial
AlphaZero from Scratch – Machine Learning Tutorial
  • 2023.02.28
  • www.youtube.com
In this machine learning course, you will learn how to build AlphaZero from scratch. AlphaZero is a game-playing algorithm that uses artificial intelligence ...
 

ChatGPT Üzerinden Google Paniği [Yapay Zeka Savaşları Başladı]



ChatGPT Üzerinden Google Paniği [Yapay Zeka Savaşları Başladı]

Video, Google'ın sohbet robotlarının daha güçlü hale gelme potansiyeline nasıl hazırlandığını ve bunun iş modellerini nasıl etkileyebileceğini tartışıyor. Microsoft'un, kullanıcıların Bing ile daha insansı bir şekilde iletişim kurmasını sağlayacak bir sohbet robotu üzerinde çalıştığı ve bu özelliğin şu anda görüntülerin bulunmadığı aramalar için faydalı olacağı bildiriliyor. Microsoft, bu özelliğin müstehcen veya uygunsuz görseller oluşturmaması için açık AI ile yakından çalıştıklarını söyledi. Görünüşe göre Bing, sohbet GPT ve Dali 2 özellikleri entegre edilerek büyük bir revizyondan geçiyor.

  • 00:00:00 Google, 1998'de başka bir evin yanında bir ev kiralıyordu. Masa tenisi diğer evdeydi.

  • 00:05:00 Video, Google'ın sohbet robotlarının daha güçlü hale gelme potansiyelinden nasıl endişe duyduğunu ve bunun iş modellerine nasıl zarar verebileceğini tartışıyor. Google'ın bununla mücadele etmek için bir plan üzerinde çalıştığı ve kurucu ortakları Larry Page ve Sergey Brin'in konuyu tartışmak üzere bir toplantıya davet edildiği bildirildi.

  • 00:10:00 Bu videoda Google, açık yapay zekaya fazladan 10 milyar dolar yatırım yapan Microsoft ile rekabet halinde görülüyor. Bununla birlikte, bu, gerçekten başlama şansı bulamadan yapay zekanın ölümüne yol açabileceğinden, açık yapay zeka hareketinin çıkarına en uygun olmayabilir. Google'ın ayrıca, Microsoft'un şirkete 300 milyon yatırım yapmasına yol açan, bazıları sohbet GPT'ye benzeyen 20 AI projesi üzerinde çalıştığı bildiriliyor. Bunun nasıl sonuçlanacağı belli değil, ancak görünüşe göre Google güvenlik sorunlarını arka koltuğa koymak ve AI ürünlerini serbest bırakmak zorunda kalacak.

  • 00:15:00 Video, Microsoft'un kullanıcıların Bing ile daha insansı bir şekilde iletişim kurmasını sağlayacak bir sohbet robotu üzerinde çalıştığına dair söylentilerden bahsediyor. Ayrıca, bu özelliğin şu anda görsellerin bulunmadığı aramalarda faydalı olacağından da bahsediliyor. Son olarak video, bu entegrasyonun kullanıcıların metin yazmasına ve resimler oluşturmasına nasıl olanak sağlayacağından bahsediyor; bu, özellikle resimlerin şu anda bulunmadığı aramalar için faydalı olacak. Microsoft, bu özelliğin müstehcen veya uygunsuz görseller oluşturmaması için açık AI ile yakından çalıştıklarını söyledi. Görünüşe göre Bing, sohbet GPT ve Dali 2 özellikleri entegre edilerek büyük bir revizyondan geçiyor. Piyasaya sürüldüğünde herkesin dikkatini çekeceği kesin.
Google Panics Over ChatGPT [The AI Wars Have Begun]
Google Panics Over ChatGPT [The AI Wars Have Begun]
  • 2023.02.06
  • www.youtube.com
Google's newly announced BARD AI system is mentioned at 12:25In this episode we see why Google has called a code red because of ChatGPT but why? Why is ChatG...