Makine Öğrenimi ve Sinir Ağları - sayfa 13

 

Ders 12: Damla Analizi, İkili Görüntü İşleme, Green Teoremi, Türev ve İntegral



Ders 12: Damla Analizi, İkili Görüntü İşleme, Green Teoremi, Türev ve İntegral

Bu derste profesör, fikri mülkiyet, patentler, ticari marka ve kenar algılama için görüntü işleme teknikleri dahil olmak üzere bir dizi konuyu kapsar. Ders, 2B yapay görmede doğruluğun önemini ve bulanık veya odaklanmamış kenarları algılamanın zorluklarını vurgular. Profesör, karma kısmi türevleri, Laplace'ları ve alt piksel enterpolasyonunu kullanarak kenar algılamayı bulma yöntemlerini ve ayrıca tepe noktası bulmada önyargı telafisi ve düzeltme kalibrasyonu tekniklerini kapsar. Genel olarak, ders bu konulara ve pratik uygulamalarına kapsamlı bir genel bakış sağlar.

Görüntü işlemeyle ilgili bu derste, konuşmacı, gradyan yönlerini nicelemeden kaçınmak ve kenar konumunu belirlemede doğruluğu artırmak için çeşitli yöntemleri tartışıyor. Daha hassas gradyan yönü belirlemesi için tarama tabloları ve niceleme yerine enterpolasyon tercih edilen bir yöntem olarak önerilir. Ayrıca, adım boyutunun bir daire ile sabitlenmesi ve çok ölçekli analizin kullanılması, alternatif gradyan hesaplama yöntemleri olarak tartışılmaktadır. Konuşmacı ayrıca, gradyanın y bileşenini sıfıra indirmek için bir görüntüyü döndürmeye yönelik yinelemeli bir yaklaşımı açıklıyor ve özel açılardan döndürmek için kordik kavramını tanıtıyor. Tipik ev ödevi probleminden daha fazla iş olduğu için öğrencilere kısa sınava erken başlamaları hatırlatılır.

  • 00:00:00 Bu bölümde, profesör daha uzun olan ve bir ev ödevi probleminden iki kat daha fazla sayılan kısa sınavı tartışıyor. Test, güncel materyallere daha fazla vurgu yaparak bu noktaya kadar olan kurs içeriğini kapsar. Profesör daha sonra, faydalı ve tasarım patentleri gibi farklı patent türlerinden bahsederek fikri mülkiyet ve patentler hakkında kısa bir tartışma sunar. Patent sahipleri ile hükümet arasındaki sosyal sözleşme de tartışılmakta olup, burada patent sahipleri bir şeyin tam olarak nasıl yapılacağını açıklama karşılığında belirli bir yıl için sınırlı bir tekel almaktadır. Tartışma, patent davalarında yasal en iyi usul kavramına değinerek sona ermektedir.

  • 00:05:00 Markanızı veya logonuzu bir ticari marka ile koruyabilirsiniz. Telif hakkıyla korunan materyalin küçük bölümlerinin, örneğin eğitim amaçlı olarak kullanılması ve telif hakkı yasalarını ihlal etmeksizin tersine mühendislik yazılımları için istisnalar mevcuttur. Telif hakkı yasaları, yazarın yaşam süresi artı belirli bir yıl sayısını korumak için kullanılır, ancak o zamandan beri yazarın yaşam süresi artı 75 yıl veya daha fazla olacak şekilde güncellenmiştir. Ticari marka yasaları, telif haklarına göre daha kısıtlayıcı olan markaları ve logoları korur.

  • 00:10:00 Bu bölümde konuşmacı, bir şirket adının ve logosunun ticari marka haline getirilmesiyle ilgili kuralları tartışır ve bunun alanında benzersiz olması gerektiğini ve ortak bir kelime olamayacağını vurgular. Ticari marka, şirketi korumaya hizmet edebilecek şekiller, işaretler ve renkler de içerebilir. Konuşmacı ayrıca şirketin yasal koruması olmamasına rağmen ürünlerinin ayrıntılarını gizli tuttuğu ticari sır kavramına da değiniyor. Konuşmacı daha sonra kenar bulma ile ilgili düşük seviyeli bir patenti tanıtıyor ve kenarlar bulunduğunda, nesne tanıma ve konum ve tutumu belirleme için daha karmaşık görüntü işleme görevlerinin gerçekleştirilebileceğinden bahsediyor. Konuşmacı, 2B yapay görme dünyasında doğruluğun inanılmaz derecede önemli olduğunu ve neredeyse mükemmel şekilde çalışması gerektiğini belirtiyor.

  • 00:15:00 Bu bölümde öğretim görevlisi, türevleri tahmin etmek için kullanılan çeşitli yöntemleri tartışarak blob analizinin ve ikili görüntü işlemenin temellerini gözden geçirir. Tartışılan ilk fikir, kenar olarak bir bükülme noktasını belirlemek için parlaklık gradyanına bakmak ve ardından bir tepe noktası arayan türevi incelemekti. e alt x için farklı yaklaşımlar gibi çeşitli türev tahmin yöntemleri incelendi ve Taylor serisi açılımı kullanılarak en düşük dereceli hata terimi bulundu. Son olarak ders, kas elektrik sinyali analizini ve gürültü ve sinyal bozulması nedeniyle yüksek hassasiyetli birinci türevler ararken sürecin ne kadar karmaşık hale gelebileceğini inceler.

  • 00:20:00 Bu bölümde öğretim görevlisi, kenarları algılamak için kenar operatörünün uzunluğunu seçmeyle ilgili ödünleşimleri tartışır. Çok uzun bir operatör kullanmanın, farklı özelliklerin birbiriyle etkileşime girmesine yol açarak kenarları algılamayı zorlaştırabileceğini açıklıyor. Bu değiş tokuş, kenarların birbirine oldukça yaklaştığı bir küp görüntüsündeki kenarları tespit ederken uygulanabilir. Öğretim görevlisi daha sonra ikinci dereceden türevlerin iki kez uygulanan birinci türevlerin evrişimi kullanılarak nasıl hesaplanabileceğini açıklar ve bu yöntemin sonuçların doğruluğunu kontrol etmek için nasıl kullanılabileceğini gösterir. Son olarak, türevleri türetmek için kullanılan hesaplamalı molekülleri tasarlamanın farklı yollarını kontrol etmenin önemini açıklıyor.

  • 00:25:00 Dersin bu bölümünde, profesör 2 boyutlu şablon kullanarak karışık kısmi türev bulma sürecini açıklıyor. Şablon, işlevlerden birinin ters çevrilmesini ve üst üste binen alanları belirlemek için diğerinin üzerine bindirilmesini içerir, bu da 2x2'lik bir şablonla sonuçlanır. Profesör, ters çevrilmemiş hesaplama şablonlarını kullanırken işaretlerin tersine çevrilmesine dikkat etmenin önemli olduğunu belirtiyor. Ayrıca karışık kısmi türevin, döndürülmüş bir koordinat sisteminde ikinci bir türev olarak düşünülebileceğine de işaret ederler. Genel olarak, bölüm 2B'de karışık kısmi türevleri bulmanın net ve ayrıntılı bir açıklamasını sağlar.

  • 00:30:00 Bu bölümde Laplacian konusu, merkezi simetrik bir diferansiyel operatör için Laplacian'a bir yaklaşım elde etmek üzere iki operatörün ortogonal yönlerde eklendiği ikinci bir türev operatörü olarak yeniden tanıtılmaktadır. Merkezi simetrik bir diferansiyel operatör için Laplacian'ın daha yumuşak bir versiyonunu oluşturmak üzere bu iki operatörün ağırlıklı toplamı daha sonra tanıtılır ve bu yeni operatör bir görüntüye uygulandığında hesaplama açısından daha da verimlidir. Ek olarak, bu ağırlıklı katsayıların değerlerini belirlemeye yönelik teknikler, örneğin en düşük dereceli hata terimi veya toplamların sıfıra eşit olması gibi tartışılır.

  • 00:35:00 Bu bölümde konuşmacı, altıgen yerine dikdörtgen piksellerin kullanılması konusunu tartışıyor. Galaksimizin merkezindeki kara deliğin radyo frekansları kullanılarak görüntülenmesi gibi, insanların verimlilik konusunda endişe duyduğu durumları açıklıyor. Konuşmacı ayrıca doğrusal ve doğrusal olmayan operatörler arasında ayrım yapar ve Robert'ın döndürülmüş koordinat sisteminde hesaplama türevlerinde şablon kullanımını tartışır. Ek olarak, her yerde zayıf bir yanıt elde etmek için kenar operatörlerini her yere uygulama konseptini, ancak kenarlarda güçlü bir yanıt olan maksimum olmayan bastırmayı açıklıyor.

  • 00:40:00 Bu bölümde, konuşmacı kenar algılama kavramını tartışır ve kenar algılama için bir eşik uygulamanın sakıncalarını vurgular. Bunun yerine konuşmacı, kenar noktasını belirlemek için gradyan yönündeki maksimum değer dışındaki her şeyi kaldırmayı önerir. Konuşmacı ayrıca maksimum olmayan bastırma ve tie-break'teki asimetri sorunlarından bahsediyor. Son olarak, konuşmacı, alt piksel kenar konumunu belirlemek için kenar yanıt profiline bir parabolün nasıl sığdırılacağını açıklar. Konuşmacı, eğrinin şeklinin seçiminin keyfi olduğunu kabul ediyor, ancak ikinci dereceden bir polinomun çoğu durumda iyi bir tahmin olarak nasıl işe yarayabileceğini açıklıyor.

  • 00:45:00 Bu bölümde, alt piksel enterpolasyonunu kullanarak kenar algılamayı öğreniyoruz. Gradyan yönü bize, potansiyel kenar noktasını gerçek kenar konumuna yansıtmaya yardımcı olmak için nicelleştirdiğimiz kenarın yönünü söyler. Ardından, parabolik veya üçgen bir yöntem kullanarak kenar konumunu daha doğru bir şekilde tahmin etmek için önyargı telafisi yapabiliriz. Bunu yaparak, kenarın tepe noktasını bulabilir ve orijine en yakın noktayı alarak doğruluğu geliştirebiliriz.

  • 00:50:00 Dersin bu bölümünde, konuşmacı alt piksel kenar tespiti için tepe bulmanın düzeltme kalibrasyonu yöntemini tartışır. Temel olarak, yöntem, yöntem için bir düzeltme arama tablosu oluşturmak üzere kenarı deneysel olarak hareket ettirmeyi ve tepe bulma yönteminin gerçek tepe değerine karşı doğruluğunu ölçmeyi içerir. Konuşmacı ayrıca kenar şekillerinin nasıl farklı olabileceğinden bahseder ve tek parametreli bir uyum kullanarak şekle nasıl yaklaşılacağını gösterir. Bu farklılıklara rağmen, alt piksel kenarı algılama doğruluğu için yöntemde yalnızca küçük bir düzeltme gereklidir.

  • 00:55:00 Dersin bu bölümünde, profesör bulanık kenarlar kavramını ve alt piksel kurtarma ve örtüşme sorunlarından kaçınma için neden önemli olduklarını tartışıyor. Profesör, bulanık kenarların bir nedeninin odak dışı kalma olduğunu açıklıyor. Profesör, bir kamera merceği örneğini kullanarak, odaklanan bir nesnenin bir nokta olarak yakalanacağını, oysa biraz odak dışında kalan aynı nesnenin tekdüze parlaklığa sahip bir daire olarak yakalanacağını gösteriyor. Bunu telafi etmek için, profesör birim adım fonksiyonunu ve nokta yayma fonksiyonunu tanıtır ve bunların x ve y'nin bir fonksiyonu olarak düzgün parlaklık çemberini tanımlamak için nasıl kullanılabileceğini açıklar.

  • 01:00:00 Bu bölümde, konuşmacı odak dışı olmanın etkisini ve kenar ile daireyi üst üste getirerek tepkinin geometrik olarak nasıl hesaplanacağını açıklıyor. Daire sektörünün alanı ve üçgenin alanı, iki şekil arasındaki farkı bulmak için kullanılır. Alanı hesaplamak için teta kullanılır ve sıfır ile bir arasındaki yanıtı göstermek için ayrıntılar açıklanır.

  • 01:05:00 Bu bölümde, konuşmacı bir algoritma kullanarak kenar konumunu doğru bir şekilde belirlemedeki hatayı hesaplamak için bir diyagram çizmeyi tartışıyor. Bu hatanın küçük ama sıfırdan farklı olabileceğinden ve yüksek doğruluk için hesaba katılması gerektiğinden bahsediyorlar. Konuşmacı daha sonra, iki boyutta gelen boşluk nedeniyle beceriksizliğe yol açabilen gradyan yönlerini nicelemeden kaçınmanın yollarından bahseder. Bunun biraz farklı hata katkılarına neden olabileceğini tartışıyorlar ve bundan kaçınmanın birkaç yolunu öneriyorlar. Bu bölüm, patent ihlali ve bundan kaçınmanın yolları üzerine bir tartışma ile sona erer ve burada odak noktası, buluşu daha iyi yerine farklı kılmaktır.

  • 01:10:00 Videonun bu bölümünde öğretim görevlisi, belirli patentlerde bulunan gradyan yönlerini nicelemeden kaçınmak için tercih edilen bir yöntemi tartışıyor. Bu yöntemi kullanmak yerine, gradyan yönlerinin kuantizasyonundan kaçınmak için enterpolasyon yapmayı önerir. Enterpolasyon yaparak, değerlere sorunsuz bir şekilde yaklaşılabilir ve gradyan yönü tam olarak belirlenebilir. Öğretim görevlisi, bu yöntemin doğrulukta bir gelişme olduğuna, bir arama tablosu oluşturma veya yanlılık grafiğinde niceleme yapma ve düzeltmeler yapma ihtiyacını ortadan kaldırdığına inanıyor. Bu yaklaşımın dezavantajı, bir enterpolasyonun kullanılıyor olmasıdır, bu nedenle tam olarak ölçülen değeri bilmekle karşılaştırıldığında bir doğruluk eksikliği vardır, ancak bu birçok durumda göz ardı edilebilir.

  • 01:15:00 Dersin bu bölümünde, konuşmacı adım boyutunu değiştirmek yerine sabitlemeyi içeren alternatif bir gradyan hesaplama yöntemini tartışıyor. Bu yöntem, piksel aralığını belirlemek için bir daire kullanır ve daha az niceleme ile daha sürekli bir gradyan yönü sağlar. Ancak bu yaklaşım, çift doğrusal veya çift kübik enterpolasyon gerektirir ve daha fazla pikseli hesaba katma ihtiyacı nedeniyle fazladan iş gerektirebilir. Ek olarak, konuşmacı görüntülerde keskin kenarları ve bulanık kenarları bulmak için çok ölçekli analizin kullanışlılığından bahsediyor. Son olarak konuşmacı, koordinat sisteminin döndürülmesini içeren kartezyenden kutupsal koordinat dönüşümüne yönelik tercih edilen uygulamaya kısaca değinir.

  • 01:20:00 Bu bölümde, konuşmacı yinelemeli bir yaklaşım kullanarak gradyanın y bileşenini sıfıra indirmek için bir görüntüyü döndürme yöntemini tartışıyor. Bunu yapmak için, dönme açısı, y bileşeninin büyüklüğü sıfıra düşene kadar yinelemeli olarak manipüle edilir. Konuşmacı, bir dizi test açısı kullanma ve her yinelemede y bileşeninin büyüklüğünü azaltma stratejisi önerir. Açılar, 2'nin ters kuvvetleri olacak şekilde seçilir, bu da çarpma sayısının dörtten ikiye düşürülmesine olanak tanır. Yinelemeli yaklaşım, dönme açısı yeterince küçük olana kadar tekrarlanır.

  • 01:25:00 Bu bölümde konuşmacı, teta i'nin teğetinin bir bölü iki i'ye eşit olduğu bir özelliğe sahip özel açılardan dönmeyi içeren kordik kavramını açıklıyor. Yinelemeli süreç, bu açıyı değiştirmeyi ve negatif olup olmadığını takip etmeyi içerir. Yapılacak ilk şey, sadece x ve y'nin işaretlerine ve y'nin x'ten büyük olup olmadığına bakarak önemsiz olan ilk oktanta ulaşmaktır. Bir sonraki ders, çoklu ölçek ve örneklemeyi kapsayacak ve konuşmacı, tipik ev ödevi probleminden daha fazla iş olduğu için izleyicilere teste erken başlamalarını hatırlatıyor.
Lecture 12: Blob Analysis, Binary Image Processing, Green's Theorem, Derivative and Integral
Lecture 12: Blob Analysis, Binary Image Processing, Green's Theorem, Derivative and Integral
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Ders 13: Nesne Algılama, Tanıma ve Poz Belirleme, PatQuick (ABD Patenti 7016539)



Ders 13: Nesne Algılama, Tanıma ve Poz Belirleme, PatQuick (ABD Patenti 7016539)

Ders, PatQuick patentine (ABD 7.016.539) vurgu yaparak nesne algılama, tanıma ve poz belirlemeye odaklanır. Patent, uzaydaki nesnelerin pozunu tespit etmeyi ve belirlemeyi amaçlıyor ve farklı pozlarda ve dönüşlerde bir çalışma zamanı görüntüsüyle karşılaştırılan model adı verilen soyut bir temsil kullanarak önceki yöntemlere göre bir gelişme sunuyor. Patent ayrıca doğruluğu artırmak için genelleştirilmiş serbestlik derecelerinin bir listesini içerir ve eşiklemeyi son aşamalara erteleyerek sınır noktaları elde etmek için düşük geçişli filtreleme ve kenar algılama kullanır. Ek olarak, ders, kenar algılama ve bu modelleri temsil etmek için istenen aralık ve kontrasta sahip problar kullanarak modeller oluşturma sürecini tartışır ve varyasyonlara izin veren öteleme, döndürme, ölçekleme ve en boy oranı gibi serbestlik derecelerini dikkate almanın önemini açıklar. nesne boyutları ve perspektifler.

Video, tepe noktası tespiti ve bitişik nesneleri tespit etmek için bir çözüm de dahil olmak üzere, nesne tespitinde verimli ve ölçeklenebilir öteleme araması için kullanılan altıgen arama modellerini tartışıyor. Video ayrıca, çalışma zamanı görüntülerinde önceden belirlenmiş modellerin varlığını ve bunların çok boyutlu konumlarını belirlemeye yönelik bir patent olan PatQuick'i tartışıyor. Yöntem, bir nesnenin pozunu eşleştirmek için araştırmaları ve önceden hesaplanmış bir gradyanı kullanır ve puanlama işlevinin entegrasyonu sonuçtaki hataları kaldırır. Video, nokta çarpımları kullanarak açı farklarını belirlemek için alternatif bir yöntemi araştırıyor ve çok ölçekli işlemlerin inceliklerini ve farklı ayrıntı düzeyi için prob seçiminin altını çiziyor. Yöntemin doğruluğu, arama uzayının kuantizasyonu ile sınırlıdır.

  • 00:00:00 Bu bölümde, nesnelerin uzayda algılanması, tanınması, pozlarının belirlenmesi ve nesnelerin incelenmesini amaçlayan 7016539 numaralı patent tanıtılmaktadır. Çözmek için çalıştığı sorun, nesneleri makine kullanarak, ancak nesneler hakkında doğru kenar bilgisi olmadan manipüle etme ihtiyacıdır. Önceki teknik dört farklı bileşene sahipti ve bunlardan biri, daha kolay işleme ve daha az bellek gerektirerek ikili görüntüler oluşturmak için nesneleri arka plandan ayırmayı içeren ikili görüntü işlemeden oluşuyordu. İkili görüntülerin alan, çevre ve merkezini bulma ve hatta euler sayılarını paralel olarak hesaplama gibi bazı düşük seviyeli ikili görüntü işleme işlemleri için yerel hesaplamalar yapılabilir ve bu paralel donanım ile elde edilebilir.

  • 00:05:00 Bu bölümde öğretim görevlisi, nesne algılama, tanıma ve poz belirleme için çeşitli yöntemleri tartışır. Bazı parametrelere dayalı olarak bir görüntüde ön planı arka plandan ayırmayı içeren eşikleme yöntemi tanıtıldı. Ancak, ön plan ve arka plan arasında net bir ayrım olmayabileceğinden bu yöntem sınırlıdır. İkili şablon yöntemleri, nesneyi tanımlamak ve eşikleme yoluyla bir şablonu hesaplamak için bir ana görüntü veya altın şablon kullanmayı içerir. Normalleştirilmiş korelasyon, iki görüntü arasında uygun bir eşleşme bulmak için eşleşme için olası tüm pozisyonları denemeyi içerir. Bu, bilgisayar vizyonunda erken bir araştırma projesi olan Cognac'ın şöhret iddiasıydı.

  • 00:10:00 Bu bölümde, konuşmacı, nesne algılama ve tanımayla ilgili bir yöntem olan ve kaydırılan görüntü ile diğer görüntü arasındaki farkın yaklaşık 100 olduğu hizalamayı bulmak için bir görüntüyü hareket ettirmeyi içeren korelasyon kullanarak hizalama sürecini tartışır. olabildiğince küçük. Bununla birlikte, yöntem her olası konum için her pikselin analiz edilmesini gerektirdiğinden, şu anda hesaplama maliyetleri nedeniyle yalnızca çeviri dikkate alınmaktadır. Buna ek olarak, konuşmacı korelasyonu, bir kaymanın hesaplanmasını içeren gradyan tabanlı yöntemlerle ilişkilendirir ve bunun zamandaki değişimi en aza indirerek korelasyonu en üst düzeye çıkarmak için nasıl kullanılabileceğini tartışır.

  • 00:15:00 Bu bölümde ders, özellikle üretim sürecindeki bir sonraki adım için bir entegre devreyi hizalama bağlamında bir nesneyi tanımaya ve onun duruşunu belirlemeye odaklanır. Konuşmacı, hizalamayı belirlemek için çeşitli yöntemleri tartışır ve kareleri alınmış farkların ve korelasyonun toplamının yaygın olarak kullanıldığını, ancak bazı dezavantajları olduğunu not eder. Özellikle korelasyon, görüntüler arasındaki kontrast farklı olsa ve eşleşmeyi neyin oluşturduğuna dair net bir eşik olmasa bile yüksek bir eşleşme verebilir. Bu sorunlara rağmen, hesaplama verimliliği nedeniyle korelasyon popüler olmaya devam ediyor. Ayrıca konuşmacı, bu yöntemlerin optik farelerde kullanılmış olan gradyan tabanlı yöntemlerin dahil edilmesiyle geliştirilebileceğini belirtiyor.

  • 00:20:00 Bu bölümde, ders normalleştirilmiş korelasyonu ve bunun görüntü tanımadaki rolünü tartışıyor. Normalleştirilmiş korelasyon, görüntü parlaklığında herhangi bir ofseti ortadan kaldırmak ve işlemi optik kurulumdaki değişikliklere karşı daha az duyarlı hale getirmek için kullanılır. Normalleştirme yöntemi, iki görüntünün korelasyonunu hesaplar ve kontrasttaki kaymaları ortadan kaldırmak için normalleştirir; burada yöntem, kullanıcıların korelasyonun başarısını ölçebilmesi için zirveyi hesaplar. Sonuç olarak, yüksek bir korelasyon puanı iyi bir eşleşmeyi, düşük bir korelasyon puanı ise kötü bir eşleşmeyi gösterir. Yöntem maliyetli olabilse de, ilk günlerinde Cognex için bir şöhret iddiasıydı.

  • 00:25:00 Video, bu bölümde, özellikle bir görüntüde önceden belirlenmiş modellerin mevcudiyetini belirlemek ve çok boyutlu bir alan içindeki konumlarını belirlemek için nesne algılama ve tanıma ile ilgili bir patenti tartışıyor. Önceki yöntemlere göre bir gelişme olan patent, model adı verilen ve farklı pozlarda, dönüşlerde vb. çalışma zamanı görüntüsüyle karşılaştırılan modelin soyut bir temsilinin kullanılmasını içerir. daha fazla bilgi mevcut olana kadar karar vermeyi geciktirmek için eşiği kabul edin. Patent ayrıca, bir nesnenin kısmi veya eksik parçalarının doğruluğunu artırmak için yalnızca öteleme ve döndürme yerine genelleştirilmiş serbestlik derecelerinin bir listesini sağlar.

  • 00:30:00 Bu bölümde PatQuick olarak bilinen ve olası eşleşmeleri elde etmeye odaklanan nesne algılama, tanıma ve poz belirleme patenti ele alınmaktadır. Bu bölüm, patentin farklı çözünürlüklerde sınır noktaları elde etmek için düşük geçişli filtreleme ve kenar algılamayı nasıl kullandığını incelemektedir. Süreç daha sonra zincirdeki noktaları düzenlemek için tutarlı yönlere sahip olan komşu sınır noktalarını birleştirerek devam eder. Patent, zayıf da olsa kenarları birbirine zincirlemesi ve eşiklemeyi sonuna kadar ertelemesi ile diğer yöntemlerden farklıdır.

  • 00:35:00 Bu bölümde konuşmacı, kenar algılamayı kullanarak nesne tanıma için modellerin oluşturulmasını ve bu modelleri temsil etmek için istenen aralık ve kontrasta sahip problar oluşturma sürecini tartışıyor. Modeller kenarlara oturtulur ve bu problar, model ile analiz edilen görüntü arasında bir eşleşme olup olmadığını tespit etmek için kullanılır. Problar, yüksek kontrastlı alanları belirlemek için kanıt noktaları olarak kullanılır ve bu yöntem, analiz edilmesi gereken piksel sayısını azaltmaya yardımcı olur. Kravatın kırılması, probların komşularının sırasını belirleme bağlamında da tartışılmaktadır.

  • 00:40:00 Bu bölümde konuşmacı, çalışma zamanı görüntüsünde gözlemlenen gradyanların modelinkilerle nasıl karşılaştırılacağına dair farklı örnekleri tartışıyor. Aydınlatma veya malzemede değişiklik olması durumunda bile gradyanın yönünün korunma olasılığının çok daha yüksek olduğunu açıklıyor. Konuşmacı ayrıca her sondanın önemini belirlemeye yardımcı olan ağırlık kavramını da tanıtıyor. Manüel ağırlık ataması, nesne simetrilerini hesaba katmada faydalı olsa da, insan müdahalesi gerektirir ve yaygın olarak kullanılmaz. Son olarak konuşmacı, modeldeki problar, bunların konumları, yönleri ve ağırlıkları dahil olmak üzere farklı nesneleri ve ayrıca hesaplama verimliliğini artırmak için kullanılan derlenmiş araştırma nesnesini tanımlar.

  • 00:45:00 Bu bölümde konuşmacı, derlenen araştırma nesnesinin görüntüye nasıl eşleneceğini ve modelin nasıl kullanılacağını açıklar. Derlenmiş yoklama, görüntü koordinatlarına özel bir dizi araştırmadır ve onunla bir araştırma arasındaki temel fark, derlenmiş araştırmadaki kaymanın, gerçek değişkenlerin aksine piksel cinsinden bir tamsayı olmasıdır. Konuşmacı ayrıca, bulunması gereken birçok serbestlik dereceli dönüşüm olan harita kavramını tartışır ve çeviri dışındaki tüm dönüşümleri içerir. Gradyanı puanlamak için, degradelerin iki yönü arasındaki polariteyi, kontrast polaritesini ve 90 derecelik farkı dikkate alan bir derecelendirme fonksiyonu kullanılır.

  • 00:50:00 Bu bölümde, konuşmacı, degradenin yönünü ve büyüklüğünü dikkate alan bir işlevi kullanarak bir çalışma zamanı görüntüsündeki karşılık gelen noktayla bir sondanın nasıl eşleştiğinin nasıl derecelendirileceğini açıklamaktadır. Bununla birlikte, ters çevirmelerin yön tabanlı metriği gürültüye karşı daha az sağlam hale getirebileceğini, daha geniş bir eğim kullanmanın ise rastgele hizalamaları kabul etme şansını artırabileceğini belirtiyor. Serbestlik dereceleriyle başa çıkmak için konuşmacı, döndürme, ölçekleme ve kayma ayarlamaları için kullanılan parametre ve işlev örnekleri sağlar. Genel olarak, farklı durumlar farklı yaklaşımlar gerektirebileceğinden, nesne algılama süreci çeşitli değerlendirmeler gerektirir.

  • 00:55:00 Bu bölümde, nesne algılama, tanıma ve poz belirlemede genelleştirilmiş serbestlik derecelerini öğreniyoruz. Öteleme, döndürme, ölçekleme ve en boy oranı gibi bu serbestlik dereceleri, nesne boyutlarında ve perspektiflerinde varyasyonlara izin verir. Tam olarak iki boyutlu olmayan alanlarda çalışırken bu tür dereceleri hesaba katmak önemlidir, bu da görüntünün dikdörtgen yerine eşkenar dörtgen gibi görünmesini sağlar. Bununla birlikte, ölçeklendirmeyi düşünürken hesaplama maliyetleri konusunda dikkatli olmak önemlidir ve logaritmik bir ölçekte çalışmak daha makul bir yaklaşımdır. Ek olarak, araştırma minimum çevreleyen dikdörtgen, bazı işlemlerde hesaplamaları azaltabilir. Pozların çok boyutlu alanı, belirli değerler arasındaki yakınlığı belirlememiz gerektiğini belirtir ve bu, o alanda iki pozun birbirine ne kadar yakın olduğunu belirleyerek yapılır.

  • 01:00:00 Videonun bu bölümünde konuşmacı, nesne algılamada verimli ve ölçeklenebilir dönüşümlü arama için kullanılan arama modellerini açıklıyor. Bu modeller, çözünürlüğe karşı yapılan iş açısından dörtte pi avantajı sağlamak için altıgenler etrafında düzenlenmiştir. Konuşmacı ayrıca tepe algılamanın altıgen bir ızgara üzerinde nasıl çalıştığını tartışıyor ve bitişik nesneleri algılamaktan kaçınmak için bir çözüm sunuyor. Ayrıca video, patent yasasında yaygın olarak kullanılan nesne, görüntü, parlaklık, taneciklilik ve sınır gibi terimleri ve bunların grafikler ve röntgen görüntüleri gibi görünür ışık görüntülerinin ötesindeki uygulamalarını tanımlar. Bu terimlerin genelleştirilmesi, patentin kapsamını ve potansiyel uygulamalarını genişletmeyi amaçlamaktadır.

  • 01:05:00 Bu bölümde video, bir çalışma zamanı görüntüsünde önceden belirlenmiş bir modelin en az bir örneğinin varlığını veya yokluğunu belirlemeye ve mevcut her örneğin çok boyutlu konumunu belirlemeye yönelik bir yöntem olan PatQuick üzerindeki bir patenti tartışıyor. . Patent, inceleme ve tanıma olasılığını içerir, burada süreç her nesne için yürütülür ve çoğu iyi bir eşleşme olmaz, ancak biri tanınma için olacaktır. Video ayrıca, belirli bir ayrıntı düzeyinde parlaklıktaki en büyük değişikliğin yönünü ve büyüklüğünü veren bir vektör olan bir gradyanın ve bulunabilecek bir modelin bir dizi veri kodlama özelliği olan bir modelin kullanımından bahseder. gerçek bir görüntüden veya bir CAD çiziminden oluşturulur.

  • 01:10:00 Bu bölümde, konuşmacı PatQuick'in yönteminin bir nesnenin bazı kısımları belirsiz veya eksik olsa bile nasıl çalıştığını açıklayarak inceleme amaçları için kullanışlı hale getirir. Yöntem, nesnenin pozunu eşleştirmek için sondalar kullanır ve teorik olarak gradyan her eşleşmede hesaplanabilse de, verimlilik için önceden hesaplamak avantajlıdır. Puanlama işlevinin entegrasyonu, ne kadar rasgele eşleşmenin puanı dengelediğini hesaplamak için kullanılır ve hesaplamayı zorlaştırsa da sonuçtan hatayı çıkarmak ve gürültüyü azaltmak gerekir. Yöntemin öncelikle yöntem iddiaları vardır ve yasal durum değişerek yalnızca yöntem iddialarıyla sonuçlanmıştır.

  • 01:15:00 Bu bölümde konuşmacı, teğet işlevi kullanmak yerine nokta çarpımı kullanarak birim vektörler arasındaki açı farklarını belirlemek için alternatif bir yöntemi tartışıyor. Ancak bu yöntem, büyük bir mutlak değer üretir ve orijinal yöntem kadar iyi değildir. Konuşmacı ayrıca nicemleme yönteminin dezavantajını ve daha doğru sonuçlar için daha ince nicemleme kullanmadan önce potansiyel eşleşmeleri bulmak için tüm poz uzayını arama ihtiyacını tartışır. Bölüm, farklı puanlama işlevlerinin tartışılması gereğine değinilerek sona ermektedir.

  • 01:20:00 Bu bölümde konuşmacı, sonucun kesin veya hızlı olması gerektiğinde bir eşleşme bulmakla ilgili farklı hesaplamaları tartışıyor. Farklı ayrıntı düzeyi için farklı araştırmaları ve modelleri kullanan çok ölçekli operasyonları yürütmenin inceliklerini araştırırlar. Problar, piksel ızgarasıyla sınırlı değildir, ancak parlaklık kontrastını kullanmaktan daha güvenilir sonuçlar sağlayan kenar noktalarından türetilmiştir. Ek olarak, bu yöntemin doğruluğu, ilerideki derslerde ele alınacak başka bir patentte aşılabilecek olan arama uzayının kuantizasyonu ile sınırlıdır.
Lecture 13: Object Detection, Recognition and Pose Determination, PatQuick (US 7,016,539)
Lecture 13: Object Detection, Recognition and Pose Determination, PatQuick (US 7,016,539)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Ders 14: PatQuick'te Muayene, Hough Dönüşümü, Homografi, Pozisyon Belirleme, Çok Ölçekli



Ders 14: PatQuick'te Muayene, Hough Dönüşümü, Homografi, Pozisyon Belirleme, Çok Ölçekli

Bu derste PatQuick algoritması, gerçek zamanlı görüntülerde bir nesnenin pozunu belirleyen çok boyutlu bir uzayda bir puanlama işlevi üretmek için probların kullanımına odaklanılarak tartışılmaktadır. Eğimin yönü ve büyüklüğü açısından maçın kalitesini derecelendirmek için kullanılan eşleştirme işlevi de incelenir ve doğruluk ve hız arasındaki ödünleşimler için tartışılan farklı puanlama işlevleriyle birlikte incelenir. Ders ayrıca, özellikle bir görüntünün en boy oranını değiştiren dönüşümler gerçekleştirirken, hesaplamanın ayrıntı düzeyini ayarlamak ve yönleri doğru bulma zorluğunu ele almak da dahil olmak üzere, model eşleştirme sürecini daha verimli hale getirmek için kullanılan farklı yöntemleri de ele alıyor. Ders ayrıca homografi konusuna ve fotoğraflardaki çizgileri tespit etmek için Hough dönüşümüne de değiniyor.

Ders, Hough Dönüşümü, Genişletilmiş Gauss Yarım Dönüşümü, konum belirleme, çok ölçekli alt örnekleme ve SIFT dahil olmak üzere bilgisayarla görme ile ilgili bir dizi konuyu kapsar. Genişletilmiş Gauss Yarım Dönüşümü, Hough Dönüşümünün daha karmaşık bir versiyonuyken, Hough Dönüşümü çizgi ve kenar tespiti için kullanılır. Ders ayrıca, bir baz istasyonunun konumu gibi daireleri algılamak için Hough Dönüşümünün nasıl kullanılacağını da açıklar. Buna ek olarak, konuşmacı kaliteden ödün vermeden iş yükünü azaltmak için görüntülerin alt örneklemesini tartışıyor ve bir sahnenin farklı görüntülerinde karşılık gelen noktaları bulmaya yarayan ve birden çok görüntüden 3B bilgi üretmede yaygın olarak kullanılan bir yöntem olan SIFT'i tanıtıyor. Son olarak, konuşmacı müzik teorisini kısaca tartışır ve teklif göndermeyi hatırlatan ve gecikmemekle ilgili bir alıntıyla bitirir.

  • 00:00:00 Bu bölümde, konuşmacı PatQuick algoritmasını ve çok boyutlu bir uzayda puanlama işlevi üretmek için probların kullanımını tartışıyor. Algoritma, görüntüdeki az sayıda noktaya bakar ve çok sayıda serbestlik derecesini işleyebilir. Tartışılan patentler birbiriyle ilişkilidir ve makine görüşüne yönelik fizik temelli bir yaklaşımın parçasıdır. Açıklanan algoritmalar çoğunlukla entegre devreler ve baskılı devre kartları gibi iki boyutlu yüzeyleri içeren durumlarla sınırlıdır.

  • 00:05:00 Bu bölümde, konuşmacı PatQuick tekniğinde sisteme bir görüntünün gösterildiği ve otomatik olarak bir model hesapladığı bir eğitim adımını tartışıyor. Bu çok önemli bir adımdır çünkü her bir görsel görev için kodu el işçiliğiyle oluşturmak yerine kaynak ve zamandan tasarruf sağlar. Modeller daha sonra gerçek zamanlı görüntülere eşlenir ve poz, öteleme, döndürme, ölçekleme, eğriltme ve en boy oranı aracılığıyla belirlenir. Nesne için toplanan kanıtlar kümülatiftir ve nihai sonuç, yerel işlemlerin toplamıdır. Bununla birlikte, bu yöntemin sınırlaması, doğruluğu etkileyebilecek poz uzayının nicelleştirilmesidir.

  • 00:10:00 Bu bölümde konuşmacı, farklı boyut ve şekillerdeki desenlerle uğraşmaktan doğabilecek potansiyel altı boyutlu uzayı tartışıyor. Öteleme iki serbestlik derecesine sahipken ve döndürme bir serbestlik derecesine sahipken, ölçekleme, eğriltme ve en-boy oranının her biri birer serbestlik derecesine sahiptir ve bu da toplamı 6'ya çıkarır. 100 gibi düzeyler toplam 10 ila 12 boşlukla sonuçlanır. Konuşmacı ayrıca, eğimin yönü ve büyüklüğü açısından eşleşme kalitesini derecelendirmek için kullanılan eşleştirme işlevini açıklamaya devam ederek, işlevin arka plan gürültüsüyle eşleştirme olasılığı da dahil olmak üzere bazı dezavantajlarını vurguluyor.

  • 00:15:00 Bu bölümde öğretim görevlisi, doğruluk ve hız arasındaki dengeler için PatQuick algoritmasında kullanılan çeşitli puanlama fonksiyonlarını tartışıyor. Farklı puanlama işlevleri, normalleştirilmiş değerler, anlamlı puanlar veya sadece daha iyi bir eşleşme ile daha büyük olan değer gibi farklı özelliklere sahiptir. Öğretim görevlisi, puanı hesaplamak için negatif ağırlıkları attıklarını ve gradyan yönünü kullandıklarını açıklıyor. Odak, derlenmiş araştırmalar ve değişken çeviri üzerinedir. Ders ayrıca, çarpma ihtiyacını ortadan kaldıran ve yalnızca pozitif ağırlıklara sahip araştırmaları işleyen s1b adı verilen puanlama işlevinin ikinci bir versiyonunu vurgular.

  • 00:20:00 Bu bölümde konuşmacı, PatQuick'te tercih edilen düzenleme için kullanılan farklı fonksiyonları tartışıyor. Bir işlev, gradyan yönünü hesaba katar ve sonucu iyileştirmek için rasgele eşleştirmeye dayalı olarak bir terim çıkarır. Başka bir işlev, gradyan büyüklüğünü doğrudan kullanır ve normalize edilmez, yani mutlak değeri önemli olmayacaktır. Bu işlevler, aday çözümde ve PatQuick'teki ince tarama adımlarında kullanılır. Konuşmacı, tercih edilen düzenlemenin farklı işlevlere sahip olmasına karşın, uygulama için başka alternatiflerin de verildiğini belirtmektedir.

  • 00:25:00 Dersin bu bölümünde, konuşmacı örüntü eşleştirme sürecini daha verimli hale getirmeyle ilgili bazı ayrıntıları tartışıyor. Önemli bir husus, tatmin edici bir sonuç elde edilene kadar çözünürlüğü azaltarak ayarlanabilen hesaplamanın ayrıntı düzeyidir. Konuşmacı ayrıca normalleştirme konusuna da değinerek, bazı görevler için hesaplamalı bir konu olduğu için normalleştirmenin gerekli olmadığını açıklıyor. Ek olarak, konuşmacı, özellikle bir görüntünün en boy oranını değiştiren dönüşümler gerçekleştirirken, süreç büyük ölçüde gradyan yönüne dayandığından, yönleri doğru bulma zorluğunu ele alır.

  • 00:30:00 Dersin bu bölümünde, konuşmacı x ve y'yi dik açıları korumayan şekillerde dönüştürürken gradyan yönü konusuyla nasıl başa çıkılacağını tartışıyor. Çözüm, izofotu gradyan yönünden hesaplamak, onu dönüştürmek ve izofota dik açılarda bir şey inşa etmektir. Konuşmacı ayrıca, belirli bir alanın makul bir eşleşme olup olmadığını belirlemek için modeldeki araştırmaları kullanmayı ve çalışma zamanı görüntüsündeki kaç kenarın modeldeki bir şeyle eşleştiğine dayalı olarak bir yüzde hesaplamayı içeren ek inceleme konusuna da değinir.

  • 00:35:00 Bu bölümde öğretim görevlisi, perspektif projeksiyon ve bir kamera koordinat sistemi kullanarak 3 boyutlu bir dünyada düz bir yüzeyin projeksiyonunu tartışır. Ortonormal bir matris aracılığıyla kamera ve dünya koordinat sistemleri arasındaki öteleme ve döndürme ilişkilerini detaylandırıyor. Öğretim görevlisi daha sonra dünya nesne koordinatlarından görüntü koordinatlarına dönüşümü araştırır ve bölme söz konusu olduğunda perspektif projeksiyonun doğrusal olmayan ve dağınık doğasını not eder. Bununla birlikte, düzlemsel yüzeylere odaklanıyor ve sistemin nesneye nasıl kurulabileceğini detaylandırarak daha basit dönüşüme izin veriyor.

  • 00:40:00 Bu bölümde konuşmacı, z'nin sıfır olduğu bir koordinat sistemi kullanarak 3B yüzeyi 2B yüzeye dönüştürmekten bahsediyor. Bu durumda üçüncü sütunun nasıl göz ardı edilebileceğini ve tek bir matris elde etmek için ötelemede dönüşlere uygun şekilde katlanabileceğini gösteriyorlar. Daha sonra, R matrisinin aksine ortonormal olmayan T matrisini tanıtırlar. Son olarak, 3B'de öteleme ve döndürme için serbestlik derecelerini ve döndürme hakkında düşünmenin farklı yollarını tartışırlar.

  • 00:45:00 Videonun bu bölümünde, konuşmacı, özellikle düzlemsel bir yüzeye perspektif izdüşümü durumunda, matrislerdeki döndürme, öteleme ve kısıtlamaları tartışıyor. Dönüşüm matrisinin dokuz bağımsız elemanı vardır, ancak ortonormallik ve ortogonallik gibi kısıtlamalar nedeniyle yalnızca altı serbestlik derecesi vardır. Kalibrasyon verileri doğrusal en küçük kareler kullanılarak sığdırılabilse de, yayınlanan çalışmalarda genellikle göz ardı edilen kısıtlamaların da uygulanması gerekir. Bu kavramlar, 3D dönüşümler üzerine daha sonraki tartışmalar için önemli olacaktır.

  • 00:50:00 Videonun bu bölümünde öğretim görevlisi, ölçek faktörü belirsizliğini ve komik bir tür matris olan homografiyi tartışıyor. Homografi, fotogrametride kullanılır ve dikkat bir düzlemle sınırlandırıldığında uygulanır. Öğretim görevlisi ayrıca, kamera görüntülerinden bir yol üzerindeki noktaları haritalarken kullanılan Hough dönüşümü ve genelleştirilmesi hakkında da konuşur. Son olarak, öğretim görevlisi NASA bulut odasını ve insanların temel parçacıkları bir bulut odasına ateşleyerek ve o uzaydaki iyonize noktaların fotoğraflarını çekerek nasıl incelediklerini anlatıyor.

  • 00:55:00 Bu bölümde öğretim görevlisi, özellikle Wilson kabarcık odası resimlerinin fotoğraflarındaki çizgileri veya yayları tespit etmek amacıyla görüntü analizi sürecini otomatikleştirmenin tarihçesini tartışıyor. Hough dönüşümü, eşit aralıklı olmayan veya boyut olarak tekdüze olmayan çizgileri tespit etme zorluğunun üstesinden gelmek için bir çözüm olarak geliştirildi, bu nedenle çizgiler, çizgiler için görüntü uzayından parametre uzayına eşlendi. Öğretim görevlisi, her bir olası parametre kombinasyonu için kanıtları saymak üzere bir akümülatör dizisi kavramını açıklar ve görüntüdeki çizgilere karşılık gelen tepe noktalarını arar. Parametre uzayından görüntü uzayına eşleme, kanıt sadece bir balon olsa bile doğrunun iyi bir tahminini sağlar.

  • 01:00:00 Bu bölümde öğretim görevlisi, bir görüntüdeki çizgiler, daireler veya elipsler gibi basit nesnelerin varlığını algılamak için kullanılan bir teknik olan Hough Dönüşümü kavramını açıklar. Hough Dönüşümü, görüntü uzayını, dönüştürülen uzaydaki her noktanın orijinal uzayda bir çizgiyi temsil ettiği bir parametre uzayına eşleyerek çalışır. Dönüşüm, orijinal uzaydaki tüm çizgiler parametre uzayındaki benzersiz kesişme noktalarına eşlenecek şekilde simetriktir. Öğretim görevlisi, bir görüntüdeki baloncukların olası doğrular hakkında nasıl kanıt sağlayabileceğini açıklamak için bir örnek alır ve parametre uzayındaki dönüşümlerini bularak, dönüştürülen uzayda çizgilere karşılık gelen tepe noktalarını bulmak için kanıt toplayabilir.

  • 01:05:00 Bu bölümde öğretim üyesi görüntülerde çizgi ve kenar tespiti için kullanılan Hough Dönüşümünü anlatır. Hough Dönüşümü, dönüşümün olası parametreleri için bir boşluk yaratır ve her nokta belirli bir çizgiye karşılık gelir; bu, çizgi düzensiz ve eşit olmayan aralıklarla dağılmış olsa bile kanıtların toplanmasına yardımcı olabilir. Bununla birlikte, daha iyi yöntemler mevcut olduğundan, Hough Dönüşümü artık kenar algılamada kullanılmayabilir. Ders ayrıca Hough Dönüşümünün daha sofistike bir versiyonu olan Genişletilmiş Gauss Yarı Dönüşümünden de kısaca bahseder, takaslar ve halledilmesi gereken küçük zor şeyler vardır. Ek olarak, ders dairelerden ve Hough dönüşümünün sinyaldeki zamanlama ilerlemesini belirleyerek cep telefonu sinyallerini tespit etmede nasıl kullanılabileceğinden bahsediyor.

  • 01:10:00 Bu bölümde konuşmacı, GPS koordinatlarından uzaklığın belirlenmesi gibi daireleri içeren problemleri çözmek için Hough dönüşümünün uzantısının nasıl kullanılacağını tartışır. Zamanlama ilerlemelerinin ölçümlerini alarak ve verilen yarıçapa dayalı olarak olası konumların dairelerini oluşturarak, verileri güncellemek ve dairenin konumunu tanımlayan kanıtları kademeli olarak toplamak için bir akümülatör dizisi kullanmak mümkün hale gelir. Bu yöntem, değişen yarıçaplara sahip koniler dahil olmak üzere daha geniş bir parametre uzayına genelleştirilebilir ve uzaydaki her nokta, düzlemde belirli bir konumdaki farklı bir daireye karşılık gelir. Nihai sonuç, baz istasyonunun gerçek konumunun nerede olduğunu gösteren birçok daire kesişimi içermelidir.

  • 01:15:00 Bu bölümde ders, bir puan yüzeyi oluşturmak için orijinal parametre uzayını ve kanıt birikimini içeren genelleştirilmiş yarı dönüşüm fikrini tartışıyor; bu, yalnızca belirli bir ölçekte veya belirli gürültü seviyelerinde görülebilen kenarlar veya dokular gibi özellikleri tespit ederken kullanışlıdır. Daha düşük çözünürlüklerde çalışarak veya boyutları küçülterek, hesaplama maliyetlerini azaltabilir ve özellikleri doğru bir şekilde algılama yeteneğimizi geliştirebiliriz. Ancak bu yöntem, daha yüksek boyutlu problemler üzerinde ve yüksek düzeyde gürültü ile çalışırken pahalı bir görev haline gelebilir.

  • 01:20:00 Bu bölümde konuşmacı, görüntü kalitesinden ödün vermeden hücre sayısını azaltmak ve iş yükünü azaltmak için görüntüleri alt örneklemenin farklı yöntemlerini tartışıyor. Farklı "r" değerlerini ve alt örnekleme düzeyini nasıl etkilediklerini keşfederler; "r", bir bölü karekök ikiye eşittir ve hücre sayısını iki azaltıp aralığı artırdığı için yaygın olarak kullanılan bir değerdir. ikinin karekökü. Konuşmacı ayrıca, bir sahnenin farklı görüntülerinde karşılık gelen noktaları bulmaya yarayan ve birden çok görüntüden 3B bilgi üretmede yaygın olarak kullanılan bir yöntem olan SIFT'i tanıtıyor. SIFT, görüntüdeki her nokta için benzersiz tanımlayıcılar oluşturmak için oktav başına birden çok adımla çok daha az agresif bir alt örnekleme yöntemi kullanır.

  • 01:25:00 Bu bölümde, konuşmacı bir oktavın sekiz notaya bölündüğü müzik skalasından kısaca bahseder ve eşit aralıklı olmasalar da her zaman iki çarpanı kullanmamak için iyi nedenler olduğundan bahseder. Konuşmacı ayrıca izleyicilere tekliflerini sunmalarını hatırlatıyor ve gecikmemekle ilgili bir fal kurabiyesinden bir alıntı paylaşıyor.
Lecture 14: Inspection in PatQuick, Hough Transform, Homography, Position Determination, Multi-Scale
Lecture 14: Inspection in PatQuick, Hough Transform, Homography, Position Determination, Multi-Scale
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Ders 15: Hizalama, PatMax, Uzaklık Alanı, Filtreleme ve Alt Örnekleme (ABD patenti 7065262)



Ders 15: Hizalama, PatMax, Uzaklık Alanı, Filtreleme ve Alt Örnekleme (ABD patenti 7065262)

Video, örüntü tanıma ve nesne algılama ile ilgili çeşitli teknikleri ve patentleri tartışıyor. Böyle bir teknik, çekici bir kuvvete dayalı sistem kullanarak çalışma zamanı görüntüsünün pozunu yinelemeli olarak iyileştiren PatMax'tır. Başka bir teknik, çalışma zamanı görüntü hizalamasını iyileştirmek için bir piksel ızgarasında bir vektör alanı oluşturmayı içerir. Ders ayrıca, vektör alanındaki kuvvet vektörlerine bakarak kenar tespiti için uzaklık alanlarının kullanımını ve tohumlanmış kenarları genişletmeyi de kapsar. Konuşmacı ayrıca çok ölçekli örüntü eşleştirmenin kullanımını ve çizgileri görüntü koordinatlarına uydurmak için gereken matematiksel adımları tartışıyor. Son olarak, çoklu ölçekleri verimli bir şekilde hesaplamak için bir patent sunulmuştur.

Ders 15'te öğretim görevlisi, görüntülerin verimli evrişimi, filtrelenmesi ve alt örneklemesi için çeşitli teknikleri ve kısayolları ele alır. Bunlar spline parçalı polinomları kullanarak filtre çekirdeklerine yaklaşmayı, evrişim olarak türevleri kullanmayı, üçüncü farkı tekrar tekrar alarak görüntüleri sıkıştırmayı ve x ve y yönü evrişimlerini birleştirmeyi içerir. Konuşmacı ayrıca görüntülerde parazit ve örtüşmeyi önlemek için görüntü örneklemeden önce düşük geçişli filtrelemenin öneminden bahseder.

  • 00:00:00 Bu bölümde video, iki boyutlu görüntülerde nesneleri bulmak için PatMax adı verilen başka bir modeli tartışıyor. Önceki kalıp olan PatQuick'ten farklıdır, kişinin zaten şeylerin nerede olduğuna dair kabaca bir fikri olduğunu varsayar ve bunun yerine yinelemeli bir en küçük kareler yaklaşımıyla bu konumu adım adım iyileştirmeyi amaçlar. PatMax'i kullanma motivasyonu, manyetik dipoller arasındaki kuvvetlerden esinlenerek enerjiyi maksimize etmekti. Bununla birlikte, yaklaşımın arkasındaki sezgi tamamen yanlıştı ve çok daha iyi bir benzetme, şeyleri bir yaya bağlamak olurdu. Patent ayrıca kısmen uyumla ilgilidir ve diğer patentlere ve eski yapay zeka laboratuvarındaki yayınlara atıfta bulunur.

  • 00:05:00 Bu bölümde video, kenar dipolleri üreten ve iki boyutlu bir vektör alanı oluşturan kenar algılamayı kullanan bir örüntü tanıma sisteminin eğitim sürecini açıklamaktadır. Sistem daha sonra, bir başlangıç pozunun halihazırda elde edildiğini varsayarak çalışma zamanı görüntüsü için yinelemeli olarak iyi bir poz bulmak üzere bir çekim süreci kullanır. İstemci haritası, kare bir ızgara üzerinde olmayan piksel konumlarını bir kare piksel dizisine eşlemek için kullanılır ve bir nesnenin iyi durumda olup olmadığını belirlemek için kullanılan RMS hatası ve inceleme değerlendirmeleri gibi ölçümler vardır. Son olarak video, alan dipol listesinin çalışma zamanı görüntüsüyle hizalama için kullanılan araştırmaları nasıl ürettiğini açıklar.

  • 00:10:00 Bu bölümde öğretim görevlisi, piksel ızgarasında oluşturulan bir alanı kullanarak hizalamanın iyileştirilmesinden bahsediyor. Poz, önceki patentin tam tersidir, özellik tespiti model yerine çalışma zamanı görüntüsünde yapılır. Alanın amacı, önceki patentte olduğu gibi tüm görüntüyü dönüştürmekten daha ucuz hale getirerek çalışma zamanı görüntüsünden ayrık sonuçları sahaya eşlemektir. Alan, çalışma zamanı görüntüsündeki nesnelerin eğitim görüntüsündeki nesnelerle eşleştiği hizaya doğru çeken yeni bir süreç aracılığıyla oluşturulur. Ders, alanın nasıl genelleştirildiğini araştırır ve alanın hesaplanmasında yer alan farklı adımları vurgular.

  • 00:15:00 Bu bölümde video, uzaklık haritası adı verilen yapay görmede yaygın olarak kullanılan bir teknik olan kenar algılama için bir mesafe alanını başlatma ve doldurma sürecini tartışıyor. Başlatma, alan dipollerine kenardan uzaklığa ve yönüne karşılık gelen bir değer vermeyi içerir. Kenara yakın kalan kareleri doldurma işlemi, yakın karelerin değerinin hesaplanan geometriye göre belirlendiği ve ayarlandığı yinelemeli bir işlemdir. Mesafe alanı, esas olarak, kenardan ne kadar uzakta olduğunu söyleyen her bir kenar boyunca uzanan bir oluktur. Nihai amaç, sistemin daha düşük bir enerji durumuna geçmesi için her bir kenarın birbirine bağlanmasıdır.

  • 00:20:00 Dersin bu bölümünde, konuşmacı komşu piksellere bakarak ve bir vektör alanı kullanarak kenara kuvvet ve yönü hesaplayarak tohumlanmış kenarları genişletme sürecini tartışıyor. Bazen kuvvetler arasındaki açıların çok büyüyerek bir köşeyi gösterdiğini ve bu gibi durumlarda vektörlerin artık orijinal kenar piksellerini göstermeyeceğini açıklıyorlar. Kontrast yönü ve vektör yönleri gibi ek bilgiler, kenarları genişletme eşleştirme işleminde yardımcı olabilir. Amaç, mekanik bir yay sistemi ile modellemeye benzer şekilde, sistemdeki enerjiyi en aza indirmektir. Konuşmacı, bir kenarla, kenardaki belirli bir noktayı ne kadar iyi eşleştirdiğimizi kesin olarak söylemenin genellikle zor olduğunu, bunun da izlenmesi için daha gelişmiş bir model gerektireceğini belirtiyor.

  • 00:25:00 Bu bölümde, konuşmacı çalışma zamanı görüntülerini kullanarak özellik tespiti için algoritmayı temsil eden mekanik analogu tartışıyor. Sistem, görüntü üzerinde algılanan birçok özellikten bir dizi kuvvet kullanarak kendini ayarlar ve mekanik yaylar dışa doğru gerilir ve bir ölçek dönüşümü kullanılarak ayarlanır. Ardından sistem, çalışma zamanı görüntüsünün modelle ne kadar iyi eşleştiğini değerlendirmek için dağınıklığı ve kapsamı hesaplar. Sistemin nihai hedefi, tüm çalışma zamanı dipollerini sistematik bir şekilde hareket ettirerek enerjiyi azaltmaktır ve bir dizi akümülatör kullanan doğal bir hesaplama yöntemiyle büyük bir en küçük kareler sistemini içerir.

  • 00:30:00 Bu bölümde öğretim görevlisi, yalnızca çeviri ve öteleme ve döndürme durumları dahil olmak üzere kalıp eşleştirmenin çeşitli yönlerini tartışır. Öğretim görevlisi, örüntü eşleştirmede kullanılan tensörün, hizalamada serbestlik derecelerine izin veren çok boyutlu bir dizi olduğunu açıklar. Öğretim görevlisi ayrıca, bir başlangıç pozu elde etmek için düşük çözünürlükte çalışmayı ve ardından bunu yüksek çözünürlüklü desen eşleştirmeyi gerçekleştirmek için kullanmayı içeren çok ölçekli model eşleştirme hakkında da konuşur. Öğretim görevlisi, örüntü eşleştirme yönteminin, televizyon kameralarından elektron mikroskoplarına kadar pratik amaçlarla kullanılan bir dizi cihaza uygulanabileceğini belirtiyor. Son olarak öğretim görevlisi, patentte ileri sürülen iddiaları tartışır ve birinci iddianın çok geniş olduğunu ve muhtemelen önceki teknik tarafından sorgulanabileceğini, ancak bağımlı istemlerin daha spesifik ayrıntılar sağladığını belirtir.

  • 00:35:00 Dersin bu bölümünde konuşmacı, düşük çözünürlüklü hata değerleri ve ilk tahminler dahil olmak üzere birden çok bileşene bağlı olan bir hizalama işlemi için bir patenti tartışıyor. PatMax adı verilen süreç, bir ilk tahmin gerektiren ve bir yakalama aralığına sahip olan tartışılan patentin aksine, ilk tahmine ihtiyaç duymadan tüm poz alanını düşük bir çözünürlükte arar. Bu işlem için poz alanı, hesaplama nedenleriyle PatMax'in tam tersidir. Hizalama işlemi, piksel düzeyinde eşikleme ve nicelemeden kaçınmak için çalışır ve bunun yerine alt piksel doğruluğuna odaklanır. Konuşmacı ayrıca mekanik yayları içeren fiziksel bir analoga da değiniyor.

  • 00:40:00 Bu bölümde, konuşmacı nesne inceleme sürecini ve eğitimli ve çalışma zamanı görüntüleri arasındaki dönüşümü eşleştirmeyi ve belirlemeyi nasıl içerdiğini tartışıyor. İnceleme, eğitilen görüntüye kıyasla çalışma zamanı görüntüsündeki eksik ve ekstra özelliklere ve arka plan dokusu nedeniyle görüntüdeki dağınıklığa dayalıdır. Görüntüde kenarlar ve köşeler olduğunda nasıl değiştiğine odaklanılarak uzaklık alanının oluşturulması da açıklanmaktadır. Ayrık bir dünyada çalışmanın zorlukları ve öklid mesafesine hızlı ve verimli bir şekilde yaklaşmanın yolları da dahil olmak üzere mesafe dönüşümünü hesaplama süreci tartışılır.

  • 00:45:00 Dersin bu bölümünde öteleme veya döndürme hizalaması sağlamak için yerel kuvvetleri toplama kavramı tartışılır. Ağırlıklar önceden tanımlanabilir veya diğer varyasyonların yanı sıra gradyan büyüklüğüne veya alan dipolüne bağlı olabilir. Bir merkezin etrafındaki tork, dönüşü sağlamak için kullanılır ve bir düzlemdeki iki vektörün çapraz çarpımının z bileşenini almak, tork için bir skaler sağlamak için kullanılabilir. Ders daha sonra bir çizgiye olan mesafeyi açıklar ve x ve y asal sayılarını hesaplamak için bir çizgiyle hizalanan bir koordinat sistemine döndürmeyi açıklar.

  • 00:50:00 Bu bölümde, konuşmacı, iki parametreli bir aile olan düzlemdeki doğru ailesini parametreleştirmede rho ve theta iki parametresinin kullanımını tartışıyor. Bu parametrelendirme, amacın kenar noktalarına yüksek doğrulukla uyan bir çizgi bulmak olduğu çizgi uydurmada kullanışlıdır. Konuşmacı, mesafenin karesini en aza indirmek için hesabın nasıl kullanılacağını açıklar ve doğru üzerindeki noktaların ortalama ağırlık merkezleri olan x bar ve y bar'ın rho ve teta ile nasıl ilişkilendirileceğini gösterir. Ek olarak ders, koordinatları merkeze taşımaya ve çizginin parametrelerini belirlemek için teta ile rho arasında güçlü ilişkiler bulmaya değiniyor.

  • 00:55:00 Bu bölümde öğretim görevlisi, Hesse normal form denklemini kullanarak bir çizgiyi bir dizi görüntü koordinatına uydurmak için en küçük kareler çözümünü bulmanın matematiksel adımlarını açıklıyor. Tetaya göre türev alıp sıfıra ayarlayarak, açının iki katının sinüs ve kosinüsünü içeren bir çözüm elde edilir, bu çözüm trigonometrik özdeşlikler kullanılarak basitleştirilebilir. Bu yöntem, koordinat sistemi seçiminden bağımsız olduğundan ve kısa kenarlı parçaları daha uzun kenarlı parçalara birleştirmek için kullanılabildiğinden, y eşittir mx artı c'ye uydurma yerine tercih edilir. Öğretim görevlisi daha sonra, pahalı evrişimden kaçınarak çoklu ölçekleri verimli bir şekilde hesaplamak için bir patent sunar.

  • 01:00:00 Bu bölümde öğretim görevlisi, çok ölçekli amaçlar için filtreleri hesaplamanın etkili yollarından bahsediyor. İşin püf noktası, spline parçalı polinom ile bir çekirdeğe yaklaşmak ve n artı birinci farkı almaktır, bu da sıfır ile evrişimi kolaylaştırır ve küçük destekli seyrek bir çekirdekle sonuçlanır. Ders ayrıca n artı birinci farkın tersi olan n artı birinci toplamı ve evrişimlerin ve türevlerin özelliklerini de kapsar. Genel olarak, ders, büyük çekirdeklere sahip büyük görüntülerin evrişimini daha kolay ve daha verimli hale getirmek için kısayollar ve püf noktaları hakkında bilgiler sağlar.

  • 01:05:00 Bu bölümde öğretim görevlisi evrişimin özelliklerini ve faydalarını, özellikle de fonksiyonlar yerine dağılıma izin veriliyorsa türevlerin nasıl evrişim olarak ele alınabileceğini tartışıyor. Bu, sinyal işlemede çok güçlü olabilen değişmelilik ve ilişkilendirilebilirlik gibi evrişim özelliklerinin kullanımına izin verir. Öğretim görevlisi ayrıca, hesaplama türevlerini ve sıfır olmayan değerlerin olduğu yerleri bulmayı içeren, seyrek ve evrişimi ucuz hale getirmek için evrişim kullanmanın bir örneğini açıklar. Yalnızca iki değerin birleştirilmesi gerekir ki bu önemli bir avantajdır.

  • 01:10:00 Bu bölümde, öğretim üyesi görüntüyü sıkıştırmak için üçüncü farkını alma tekniğini açıklar. Üçüncü farkı tekrar tekrar alarak, tam orijinal görüntünün kullanılmasına kıyasla hesaplamayı azaltan küçük ve seyrek bir değerler dizisi üretilir. Bu, gereken hesaplama miktarını değiştirmeden filtrenin bant genişliğini ve ölçeğini kontrol etmek için kullanılabilir. Öğretim görevlisi bu tekniği tek boyutlu bir fonksiyon kullanarak gösterir ve ardından bir süreksizlik nedeniyle uçların daha karmaşık olduğu bir parabol örneği gösterir.

  • 01:15:00 Dersin bu bölümünde, örtüşme yapaylıklarından kaçınırken alt örneklemeli görüntülerdeki hesaplamaların etkinliğini artırmak için farklı filtreleme teknikleri tartışılıyor. Hesaplama süresini ve sıfır olmayan değerlerin sayısını azaltmaya odaklanarak, Gauss ve senkronizasyon işlevleri gibi yaklaşık filtreler için eğri çizginin kullanımı araştırılır. Ek olarak, hem x hem de y yönlerinde evrişim işlemlerini birleştirme tekniği sunulur; bu, daha az ara bellek gerektirir ve daha verimli bir 1 boyutlu evrişim kademesine izin verir. Kenar algılama ve çok ölçekli görüntü işleme için bu konuların önemi vurgulanmıştır.

  • 01:20:00 Bu bölümde konuşmacı, bir görüntünün iki kopyasının birbirine çok yakın görünmesine neden olan, polarizasyona bağlı olarak iki kırılma indisine sahip, çift kırılımlı bir kalsit kristalini tartışıyor. Bu, kameralarda daha yüksek frekanslı içeriği bastırmak ve örneklemeyi iyileştirmek için kullanılır. Bununla birlikte, bu filtrenin kaldırılması, filme alınan nesnelerin renginde ve şeklinde değişikliklerin yanı sıra, görüntülerde parazite ve örtüşmeye neden olabilir. Konuşmacı, görüntü örneklemeden önceki düşük geçişli filtrelemedeki iyileştirmelerin bu sorunları azalttığını, ancak görüntülemede örtüşmenin etkilerini dikkate almanın hala önemli olduğunu belirtiyor.
Lecture 15: Alignment, PatMax, Distance Field, Filtering and Sub-Sampling (US 7,065,262)
Lecture 15: Alignment, PatMax, Distance Field, Filtering and Sub-Sampling (US 7,065,262)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Ders 16: Hızlı Evrişim, Düşük Geçişli Filtre Yaklaşımları, İntegral Görüntüler (ABD Patenti 6457032)



Ders 16: Hızlı Evrişim, Düşük Geçişli Filtre Yaklaşımları, İntegral Görüntüler (ABD Patenti 6457032)

Ders, bant sınırlama, örtüşme, düşük geçişli filtre yaklaşımları, bulanıklaştırma, integral görüntü, Fourier analizi ve evrişim dahil olmak üzere sinyal işleme ile ilgili çeşitli konuları kapsar. Konuşmacı, örtüşme yapılarını önlemek için örneklemeden önce sinyalleri düşük geçişli filtrelemenin önemini vurgular. Ders ayrıca, bir blok içindeki piksellerin toplamını verimli bir şekilde hesaplayan integral görüntü fikrini ve düşük geçişli filtrelere yaklaşırken hesaplamayı azaltmak için çeşitli teknikleri tanıtıyor. Son olarak ders, sinc işlevine yaklaşmak için kullanılan çift kübik interpolasyonu ve hesaplama maliyetlerini tartışır.

Bu derste konuşmacı evrişim, düşük geçişli filtre yaklaşımları ve integral görüntülerle ilgili çeşitli konuları tartışıyor. Değerleri soldan sağa toplayarak ve ortalamayı elde etmek için çıkararak hesaplama süresinden tasarruf sağlayan bir yöntem de dahil olmak üzere farklı evrişim uygulamalarını açıklarlar. Alçak geçiren filtre yaklaşımları için doğrusal enterpolasyonun sınırlamaları ve kübik enterpolasyon gibi daha gelişmiş yöntemlere kıyasla daha düşük olması da tartışılmaktadır. Bir korugan kavramı ve sınırlayıcı frekans aralıklarındaki değeri tanıtılır ve konuşmacı ideal alçak geçiren filtreden ve odaksızlaştırmanın Bessel işlevini nasıl etkilediğinden bahseder. Ders ayrıca DSLR kamera lensleri için düşük geçişli filtre yaklaşımlarının kullanımına ve fotogrametri kavramına da değiniyor.

  • 00:00:00 Bu bölümde, konuşmacı örnekleme dalga formlarını ve bunları bant sınırlamanın önemini tartışıyor. Dalga biçiminin sonsuz desteğe sahip olduğu ve yalnızca ayrık örnekler aldığımız göz önüne alındığında, bir dalga biçimini örneklerken, onun hakkında bir şeyler yakalayabilmemiz şaşırtıcıdır. Bununla birlikte, frekans içeriği sınırlıysa, Nyquist teoremi, yeterince yüksek bir frekansta örnekleme yaparak onu tamamen yeniden oluşturabileceğimizi belirtir. Kriter, sinyalin en yüksek frekans bileşeninin fs bölü ikiden küçük olması için yeterince hızlı örneklememizdir. Son olarak, bant sınırlama önemlidir, çünkü örtüşme yapaylıkları olmadan bir dalga formunun özünü yakalamamıza izin verir.

  • 00:05:00 Bu bölümde sinyal işlemede aliasing kavramı anlatılmaktadır. Örtüşme, belirli bir eşiğin üzerindeki frekans içeriği örneklendiğinde ve daha düşük frekans içeriğinden ayırt edilemediğinde gerçekleşir. Bu, örneklemeden sonra düzeltilemez, bu nedenle daha yüksek frekans içeriği bastırılarak önceden yapılmalıdır. Bunu yapmak için, örneklemeden önce sinyali düşük geçişli filtrelemek önemlidir. Bununla birlikte, gerçek düşük geçişli filtreleme elde etmek zordur, bu nedenle yaklaşık değerler alınmalıdır.

  • 00:10:00 Dersin bu bölümünde, konuşmacı ön örnekleme filtreleme gibi yöntemlerle bulanıklaştırma kavramını tartışır ve integral görüntü fikrini sunar. Bir blok içindeki piksellerin toplamının hesaplandığı blok ortalamasını gerçekleştirmek için bir yük vagonu filtresinin kullanılabileceğini, ancak bu yöntemin hesaplama açısından pahalı olabileceğini açıklıyor. Bunu ele almak için, toplamı daha verimli bir şekilde hesaplamak için hem 1B hem de 2B durumlarda bir integral görüntü kullanılabilir. İntegral görüntü, yalnızca görüntülerle sınırlı değildir, çünkü integral gradyan gibi diğer matris türleri için de çalışabilir.

  • 00:15:00 Bu bölümde öğretim görevlisi, integral görüntüsünü kullanarak bir dikdörtgenin toplamının nasıl hesaplanacağını açıklıyor. Öğretim görevlisi, dört bellek erişimi ve üç aritmetik işlemle, boyutundan bağımsız olarak herhangi bir blok için toplamı elde edebileceğimizi gösteriyor. Bu teknik tanıma ve ortalama almanın engellenmesi için kullanılabilir. Öğretim görevlisi ayrıca Fourier Analizinden ve hareketli bir ortalama kullanarak bir bloğun ortalamasının nasıl alınacağından bahseder.

  • 00:20:00 Dersin bu bölümünde, konuşmacı bir alçak geçiren filtre için bir yaklaşım olarak sinc işlevini kullanmanın dezavantajlarını tartışıyor. sinc işlevi, yüksek frekansları yeterince agresif bir şekilde zayıflatmaz ve ilk sıfıra yeterince hızlı ulaşmaz, bu da onu alçak geçiren filtre yaklaşımları için kötü bir seçim haline getirir. Bu tartışma, özellikle örneklemeden önce bir filtreleme işlemi gerçekleştiren kameralarla ilgilidir ve sinc işlevine olası bir alternatif olarak blok ortalama alma önerilir. Blok ortalamanın hesaplanması ucuzdur ve bir düşük geçiş filtresine daha iyi bir yaklaşım elde etme umuduyla iki kez gerçekleştirilebilir.

  • 00:25:00 Bu bölümde öğretim görevlisi, dönüşüm alanındaki filtrelerin özelliklerini ve bunların görüntülerdeki adım süreksizlikleriyle nasıl ilişkili olduğunu tartışır. Öğretim görevlisi, bir adım fonksiyonunun dönüşümünün bir aşırı frekans olarak düştüğünü, bunun da adım süreksizlikleri olan görüntülerin hızlı bir şekilde düşmeyen yüksek frekanslı içerik üreteceği anlamına geldiğini açıklıyor. Öğretim görevlisi, verilerin periyodik olduğunu varsaydığı için bunun ayrık Fourier dönüşümü ile ilgili bir sorun olduğunu, bu nedenle veriler etrafını sararken adım kenarı süreksizliklerini ortaya koyduğunu belirtiyor. Bununla başa çıkmak için öğretim görevlisi, uçların eşleşmesini sağlamak için görüntünün bir dalga formuyla çarpılmasını içeren apodize etmeyi önerir. Yaygın bir apodizing filtresi, ters çevrilmiş bir kosinüs dalga biçimidir.

  • 00:30:00 Bu bölümde video, görüntülere uygulanan dft ile başa çıkmak için farklı yaklaşımları ele alıyor; bunlardan biri, görüntünün dışının kendisini periyodik olarak tekrarladığını veya ayna görüntüsü olduğunu varsaymak, ancak bu mükemmel bir çözüm değil. bir türev süreksizliği potansiyeli nedeniyle. Tartışılan diğer bir yaklaşım, yaklaşık bir filtre ile düşük geçişli filtrelemedir. Video daha sonra, birim dürtü ve dağılımların eleme özelliği gibi yaklaşık düşük geçişli filtreleme için gerekli olan belirli özelliklere değiniyor.

  • 00:35:00 Dersin bu bölümünde, konuşmacı birim darbeyi ve bunun evrişimle ilişkisini tartışıyor. Birim impulsu matematiksel olarak konvolüsyonun limiti olarak tanımlamak doğru olmasa da, konvolüsyonunu hesaplayarak ve epsilon sıfıra meylettiği için limiti alarak ünite impulsu ile konvolüsyonun etkisini belirlemek için kullanılabilir. Konuşmacı, evrişimin türevlere bağlanabileceğini ve doğrusal kaydırma değişmez operatörleri ile türev operatörlerinin yakından ilişkili olduğunu not eder. Türevlerin esasen iki evrişimden biri ters çevrilerek evrişim olarak ele alınabileceğini açıklıyorlar.

  • 00:40:00 Bu bölümde, öğretim görevlisi alçak geçiren filtre yaklaşımlarını ve bunların kameralarda kullanılan piksel ortalama alma yöntemini nasıl geliştirebileceklerini tartışıyor. Analog alanda örneklemeden önce ek alçak geçiren filtreleme yapılması gerektiğini açıklıyor ve özel bir filtre oluşturmak için çift kırılmalı malzemelerin kullanılmasını öneriyor. Bu filtre, orijinal görüntünün hafifçe kaydırılmış iki versiyonuyla sonuçlanan darbelerle evrişim olarak modelleyen iki kaydırılmış görüntüyü içerir. Bir Fourier dönüşümü ile analiz edildiğinde, filtre frekansla düşmez ancak pi bölü epsilon'da düşerek uygun epsilon değerinin seçilmesine olanak tanır.

  • 00:45:00 Bu bölümde, öğretim görevlisi düşük geçişli filtreler kavramını tartışır ve piksel aralığından daha kalın bir plaka kullanarak yüksek frekansları kesmek için bir teknik sunar. Bu plaka, yüksek frekansları keser ancak diğer frekansları kesmeden bırakır. Öğretim görevlisi, blok ortalama filtresinin yanında bu son derece basit kenar yumuşatma filtresinin kullanılmasının, görüntülerdeki yüksek frekanslı içeriğin neden olduğu hareli etkileri azaltabileceğini açıklıyor. Öğretim görevlisi daha sonra, desteğin boyutunu en aza indirirken iyi bir düşük geçişli filtreleme için hesaplamayı azaltmayı amaçlayan patent ve integral görüntü fikrini sunar. Öğretim görevlisi, evrişimi kullanarak entegrasyonun nasıl temsil edileceğini gösterir ve birim darbenin Fourier dönüşümünü sağlar.

  • 00:50:00 Bu bölümde video, evrişim kavramına ve bunların Fourier dönüşüm alanındaki farklılaşma ve entegrasyonla ilişkisine odaklanıyor. İkinci bir türevin, birinci düzey türevlerin veya darbelerin evrilmesiyle elde edilebileceği açıklanmaktadır. Bu kavram, sabit fonksiyonlarla veya polinom yaklaşımlarıyla çalışırken ortaya çıkan, seyrekse hesaplamayı azaltmak için bir filtrenin bölümlere ayrılabileceği filtreleme işlemine uygulanır. Seyrek bir filtre ile konvolüsyon sonuçlarını entegre ederek veya toplayarak, istenen cevap daha az hesaplama ile verimli bir şekilde elde edilebilir.

  • 00:55:00 Bu bölümde öğretim görevlisi, alçak geçiren bir filtre için ideal olan ancak sonsuza kadar devam eden ve tam olarak temsil edilmesini imkansız hale getiren sinc fonksiyonunun yaklaşıklığını tartışır. Ders, piksellerin döndürüldüğü ve enterpolasyon yapılması gereken 2D görüntüler için çift kübik interpolasyonu tanıtıyor. Yöntem, eğrinin bir kübik ile tanımlandığı dört parçanın kullanılmasını içerir. Dördüncü türev, filtreleme için kullanılır ve sonuç, en yakın komşu veya doğrusal enterpolasyon kullanmaktan çok daha iyidir. Senkronizasyon işlevine yaklaşmanın hesaplama maliyetlerinin olduğu ve bu nedenle kullanımı pratik olmadığı açıklanmaktadır.

  • 01:00:00 Bu bölümde, bir bloğu kaydırarak ve bloğun altında ne varsa toplayarak evrişimin naif uygulamasını göstermek için bir blok ortalaması alma örneği kullanılır. Başka bir uygulamanın, değerleri soldan sağa toplayarak ve ardından ortalamayı elde etmek için çıkararak daha büyük segmentleri bloke ederken hesaplama süresinden önemli ölçüde tasarruf ettiği gösterilmiştir. Düz çizgiler kullanarak ayrık bir ızgara üzerindeki noktaları birleştiren bir fonksiyon yaratarak evrişimle ilgili olduğu düşünülebilecek doğrusal enterpolasyon da tartışılmaktadır.

  • 01:05:00 Bu bölümde konuşmacı, düşük geçişli filtre yaklaşımları için doğrusal enterpolasyon yöntemini ve özellikle gürültü ve görüntü ölçümlerindeki değişiklikler açısından sınırlamalarını tartışıyor. Yöntemin, senkronizasyon işlevini taklit eden doğrusal bir işlev olan iki yük vagonunun evrişimini içerdiğini açıklıyor. Ayrıca, bu yöntemin, düşük geçişli filtre yaklaşımları için kübik enterpolasyon yöntemi gibi daha gelişmiş yöntemlerden daha düşük olduğunu da belirtiyor. Ayrıca, en yakın komşu yaklaşım yönteminin doğrusal yöntemden bile daha az hassas olan parçalı sabit bir fonksiyon olduğunu açıklıyor.

  • 01:10:00 Dersin bu bölümünde, konuşmacı konvolüsyon bağlamında alçak geçiren filtre yaklaşımları ve integral görüntüleri kavramını tartışır. En yakın komşu enterpolasyonunun bir kapalı vagonla evrişime nasıl karşılık geldiğini ve doğal görüntüler için dönel simetrik bir koordinat sistemi kullanmanın faydalarını açıklıyorlar. Daha sonra bir korugan kavramını ve sınırlayıcı frekans aralıklarındaki değerini tanıtırlar. Bir hap kutusunun ters dönüşümünün de, optikte yaygın olarak kullanılan Bessel işlevine göre değişen, dönme simetrik olduğu gösterilmiştir.

  • 01:15:00 Bu bölümde öğretim görevlisi, yayılma fonksiyonunun bir impulsa tepkisi olan ideal alçak geçiren filtreyi tartışıyor. Eşitleme işlevinden farklı olan bu işlevin ilk sıfırı, Aries çözünürlük kriterlerine göre çözümleme için kullanılır. Odak dışı olduğunda öğretim görevlisi yayılma fonksiyonunun hap kutusuna dönüştüğünü ve bunun uzamsal frekans alanında Bessel fonksiyonu haline geldiğini gösterir. Daha sonra, odaklanmamanın Bessel işlevini değiştirerek odağı etkilediği sonucuna varır.

  • 01:20:00 Dersin bu bölümünde, konuşmacı düşük geçişli filtre yaklaşımlarının kullanımını ve bunun sonucunda yüksek frekans içeriğinin azalmasını tartışır, bu da sıfırların varlığı nedeniyle bazı frekansların tamamen öldürülmesine yol açabilir. Konuşmacı ayrıca, bir DSLR kamera merceğinin adım boyutunun frekans alanına bakarak nasıl belirleneceğinden ve sıralı iki perspektif projeksiyonun etkisinin tek bir perspektif projeksiyonla aynı olmamasından bahsediyor. Son olarak, bir görüntünün değiştirilip değiştirilmediğini belirlemenin bir yolu olarak, odak dışı görüntülerin hafifçe alınması ve bunların evrilmesi kavramı tanıtılmaktadır.

  • 01:25:00 Bu bölümde, öğretim görevlisi evrişim kavramını ve bunun frekans alanında çarpma ile nasıl ilişkili olduğunu tartışır. Bir korugan işlevinin kullanılmasının bir görüntünün kıvrılmasına nasıl izin verdiğini açıklarlar, ancak odak dışı resimlerin çoğaltılmasının doğru sonuçlar vermeyeceği konusunda uyarıda bulunurlar. Ders daha sonra, kameranın konumunu kesin olarak belirlemek için görüntüler arasındaki kenarlar gibi özellikleri eşleştirerek nesneler ve konumları hakkında 3B bilgi oluşturmak için görüntüleri kullanan fotogrametri konusuna geçer.
Lecture 16: Fast Convolution, Low Pass Filter Approximations, Integral Images (US 6,457,032)
Lecture 16: Fast Convolution, Low Pass Filter Approximations, Integral Images (US 6,457,032)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Ders 17: Fotogrametri, Oryantasyon, Atalet Eksenleri, Simetri, Oryantasyon



Ders 17: Fotogrametri, Oryantasyon, Atalet Eksenleri, Simetri, Oryantasyon

Bu ders, derinlik ipuçları, kamera kalibrasyonu ve iki koordinat sistemi arasındaki dönüşümün kurulması dahil olmak üzere fotogrametri ile ilgili çeşitli konuları kapsar. Konuşmacı, karşılık gelen ölçümleri kullanarak iki sistem arasındaki koordinat dönüşümünü bulma problemine nasıl yaklaşılacağını açıklar ve dönüşümün tam tersinin kontrol edilmesinin önemini vurgular. Ders ayrıca 2B ve 3B uzayda atalet eksenlerini bulmayı ve bir eksene yansıtılan iki nokta arasındaki mesafeyi belirlemeyi tartışır. Genel olarak, bu bölüm fotogrametri ve uygulamalarına kapsamlı bir genel bakış sağlar.

Fotogrametri, sol ve sağ koordinat sistemlerinde bir nokta bulutu üzerinde bir koordinat sistemi kurmayı ve ikisini ilişkilendirmeyi gerektirir. Öğretim görevlisi atalet matrisinin veya atalet eksenlerinin nasıl belirleneceğini ve temel vektörlerin nasıl oluşturulacağını açıklar. Ayrıca simetrik nesnelerin ve nokta çarpımlarının, uzunlukların ve açıların korunması gibi dönme özelliklerinin getirdiği zorlukları tartışırlar. Ek olarak, ders ötelemeyi ortadan kaldırarak ve hata terimini en aza indirerek döndürme bulma probleminin nasıl basitleştirileceğini de kapsar. Son olarak, öğretim görevlisi vektör hesabını kullanarak benzer şekillere sahip iki nesnenin nasıl hizalanacağını açıklar ve döndürme için diğer temsilleri keşfetmeyi önerir.

  • 00:00:00 Bu bölümde konuşmacı, üç boyutlu yüzeyleri ölçmek ve yeniden oluşturmak için görüntülerin kullanılmasını içeren fotogrametriyi tanıtıyor. Alanın kökleri harita yapımına dayanmaktadır ve fotoğrafın icadından sonra popüler olmuştur. Konuşmacı, iki farklı koordinat sistemi arasındaki ilişkiyi bulmanın yanı sıra tek bir koordinat sistemi ile hareket edebilen veya değişebilen nesneler arasındaki ilişkiyi bulma da dahil olmak üzere fotogrametriden dört klasik problemi tartışıyor. Konuşmacı, makine görüşünün genellikle iki boyutlu görüntülerden üçüncü boyutun kurtarılmasını içeren ikinci problemle daha fazla ilgili olmasına rağmen, kapalı biçimli çözümü nedeniyle önce 3D problemin üstesinden gelmenin avantajlı olabileceğini belirtiyor.

  • 00:05:00 Bu bölümde öğretim görevlisi fotogrametri için iki tür uygulamayı açıklar: 2D'den 3D'ye ve 3D'den 2D'ye. İlki, görüntülerden üç boyutlu bilgilerin kurtarılmasını ve onları hizalamak için uzaydaki iki kamera arasındaki ilişkinin belirlenmesini içerir. İkincisi, kameraları kullanarak hassas ölçümler yapmak ve bir düzlemden düzenli görüntü aralıkları yakalayarak topografik haritalar oluşturmak için gerekli olan kamera kalibrasyonunu içerir. Öğretim görevlisi ayrıca derinliği iki gözle algılama yeteneği olan binoküler stereo da dahil olmak üzere çeşitli derinlik ipuçlarını tartışır.

  • 00:10:00 Bu bölümde öğretim görevlisi, benzer üçgenler kullanarak derinlik işaretleri oluşturmak için iki kameranın nasıl kullanılabileceğini açıklıyor. Bir nesneyi her iki kamerada görüntüleyerek ve elde edilen görüntüleri karşılaştırarak, konumlar arasındaki fark nesnenin derinliğini hesaplamak için kullanılabilir. Ders ayrıca, mesafe eşitsizlikle ters orantılı olduğundan, görüntüdeki eşitsizliklerin derinliği hesaplamak için kullanılabileceğini de not eder. Son olarak bölüm, hataya duyarlılık konusuna ve eşitsizliğin ölçülmesindeki küçük tutarsızlıkların ne kadar büyük hatalara yol açabileceğine değinmektedir.

  • 00:15:00 Videonun bu bölümünde, öğretim görevlisi fotogrametriyi ve iki kamera kullanarak 3B konumların ölçümünü tartışıyor. Taban çizgisini veya odak uzaklığını artırmanın ölçüm doğruluğunu artırabileceğini, ancak bu nicelikler üzerinde, kameraların birbirinden çok uzak olmamasını sağlamak gibi kısıtlamalar olduğunu açıklıyorlar. Ayrıca, belirli bir geometride mükemmel şekilde hizalanmamışlarsa kameraları kalibre etmenin zorluğundan da bahsediyorlar. Öğretim görevlisi daha sonra mutlak yönelimler konusuna ve sabit bir tutumu sürdüremeyebilen lidarlar veya hava kameraları gibi cihazların yöneliminin nasıl telafi edileceğine geçer. Son olarak, eşleştirme sorununu bir kenara bırakarak, tartışmanın görüntülerde ilginç noktaların varlığını varsaydığını belirtiyorlar.

  • 00:20:00 Bu bölümde öğretim görevlisi, ışınları 3 boyutlu olarak yansıtmak ve aralarındaki kesişme noktasını bulmak için iki koordinat sisteminin dönüşünün ve ötelenmesinin nasıl bulunacağını açıklar. Hem sol hem de sağ koordinat sisteminde ölçülen noktaların örneğini kullanır ve bunun etiketleri ne olursa olsun herhangi iki koordinat sistemine uygulanabileceğini belirtir. Öğretim görevlisi, dönüşümü tam olarak belirtmek için altı, döndürme için üç ve öteleme için üç sayı olması gerektiğini vurgular ve her biri için üç serbestlik derecesi olduğunu açıklar. Dönüşün ortonormal bir matris olarak temsil edilmesi gerekmediğini vurgulayarak dönüşüm formülünü yazar.

  • 00:25:00 Ders, nesnelerin dönüşünün ve ötelenmesinin nasıl hesaplanacağını anlamak için gerekli olan dönmenin özelliklerini ve ortonormal matrisi tartışır. Ders ayrıca ortonormallik kısıtlamasının uygulanmasının yansımaları nasıl ortadan kaldırdığını ve bir döndürme matrisinin tersinin nasıl kolayca elde edilebileceğini anlatıyor. Sol ve sağ koordinat sistemlerinden noktaların nasıl üst üste getirilip sıralanabileceğinin daha iyi görselleştirilmesi için fiziksel bir model de sunulmuştur.

  • 00:30:00 Bu bölümde konuşmacı, karşılık gelen ölçümleri kullanarak iki sistem arasındaki koordinat dönüşümünü bulma problemine nasıl yaklaşılacağını tartışır. Bu probleme en küçük kareler yöntemiyle yaklaşılabilir, burada amaç sol koordinat sistemindeki dönüştürülmüş vektör ile sağ koordinat sistemi arasındaki mesafeyi en aza indirmektir. Bu, sistemin enerjiyi en aza indirmek için kendini ayarlamaya çalıştığı bir enerji minimizasyonu problemi olarak düşünülebilir. Konuşmacı, sağ sistemden sola dönüşümün sol sistemden sağa dönüşümün tam tersi olup olmadığını kontrol etmenin önemini vurgular. Öteleme ve döndürme problemlerini ayırmak, problemi bir seferde yalnızca üç serbestlik derecesine kadar basitleştirir.

  • 00:35:00 Bu bölümde, konuşmacı bir nesne üzerindeki noktaların ölçümlerini kullanarak bir koordinat sisteminin nasıl oluşturulacağını açıklar. İlk adım, orijin olarak bir nokta seçmek ve bir eksen oluşturmak için onu ikinci bir noktaya bağlamaktır. İlk iki nokta arasındaki ayrım, x eksenini oluşturmak için normalleştirilir ve xy düzlemini tanımlamak için üçüncü bir nokta kullanılır. Y ekseni, vektörün x ekseni yönündeki birinci noktadan üçüncü noktaya olan bileşeni çıkarılarak ve ortaya çıkan vektörün orijinaline dik hale getirilmesiyle oluşturulur. Z ekseni, her iki vektöre de dik olduğu için x ve y'nin çapraz çarpımı olarak tanımlanır. Bu işlem, bir nesne için bir koordinat sisteminin oluşturulmasına ve her iki koordinat sistemindeki noktaların ölçülmesine olanak tanır.

  • 00:40:00 Bu bölümde, konuşmacı bir koordinat sisteminin nasıl kurulacağını ve döndürmenin nasıl çözüleceğini açıklar. Bunu yapmak için, sol ve sağ için bir koordinat sistemi tanımlamak üzere bir üçlü birim vektör kullanırlar. Ardından, her iki bulut noktasını da alırlar, bir eksen oluştururlar ve birim vektörleri bir araya getiren bir dönüşüm bulmak için birbirleriyle eşlerler. Daha sonra ayrı denklemleri birbirine yapıştırmak ve döndürmeyi çözmek için 3x3'lük bir matris kullanırlar. Çeviriyi kaldırarak bulunabilecek yalnızca üç serbestlik derecesi kaldığından bahsediyorlar.

  • 00:45:00 Bu bölümde, konuşmacı fotogrametride koordinat sistemleri arasındaki noktaların haritalanmasıyla ilgili kısıtlamaları tartışıyor. Sadece üç bilinmeyenli bir çözüm için iki sistem arasındaki üç yazışma yeterli gibi görünse de, vektör eşitlikleri her kısıtın üç puan değerinde olduğu anlamına gelir. Böylece, dokuz kısıtlamamız var. Bununla birlikte, döndürmenin yalnızca üç serbestlik derecesi vardır ve bu da fazla bilgiye yol açar. Konuşmacı daha sonra, kesin olmayan dönüşüm için seçici olarak nokta seçmeyi içeren geçici bir çözümü tartışır. Başka bir çözüm, tüm yazışmalardan gelen bilgileri eşit olarak ağırlıklandıran en uygun dönüşüm matrisini bulmak için tekil değer ayrıştırmasının (SVD) kullanılmasını içerir.

  • 00:50:00 Bu bölümde öğretim görevlisi, 2B ve 3B uzayda atalet eksenlerini bulma kavramını tartışır. Minimum atalet eksenlerinin, mesafe karesi çarpı kütlenin integrali hesaplanarak bulunabileceğini, oysa dik eksenin maksimum atalete sahip olduğunu ve 3B'de, bir eyer noktası olan üçüncü bir eksen olduğunu açıklıyor. Bu eksenler belirlenirse söz konusu nesne için bir koordinat sistemi kurulabileceğini belirtiyor. Eksenden orijine olan mesafeyi bulma formülü, ötelemeyi bulma problemini dönüşü bulma probleminden ayırmak için merkezin orijin olarak seçilmesiyle birlikte tartışılır.

  • 00:55:00 Bu bölümde, konuşmacı bir omega eksenine yansıtılan r ve r üssü iki nokta arasındaki mesafenin nasıl belirleneceğini açıklıyor. Atalet formülü bu mesafeden türetilir ve eksen yön değiştirdikçe değiştiği gösterilmiştir. Konuşmacı daha sonra nokta çarpımını, çarpmanın ilişkilendirilebilirliğini ve birim matrisi kullanarak formülü basitleştirir. Ortaya çıkan formül, eylemsizliğin r'nin kendisiyle çarpımının birim matrisle çarpımı ve nesnenin hacmi üzerinden integrali ile çarpımına eşit olduğunu gösterir.

  • 01:00:00 Bu bölümde öğretim görevlisi, sol ve sağ koordinat sisteminde bir nokta bulutu üzerinde bir koordinat sisteminin nasıl oluşturulacağını ve ardından ikisini ilişkilendirdiğini açıklar. Bu, atalet matrisinin veya üçe üç matris için basit bir özdeğer özvektör problemi olan atalet eksenlerinin hesaplanmasıyla yapılır. Birbirine dik olan üç eksen bulunur - maksimum, minimum ve eyer ekseni. Bu eksenler temel vektörleri oluşturmak için kullanılır ve aynı yöntem sağ koordinat sistemi için yapılır. Bunu yapmak için kullanılan yöntem, tüm noktalara eşit davrandığı ve sorunu en aza indirdiği için en küçük kareler problemidir.

  • 01:05:00 Dersin bu bölümünde, konuşmacı simetrik nesnelerle uğraşırken fotogrametride ad hoc yöntemlerin sınırlamalarını tartışıyor. Konuşmacı, küre, tetrahedron ve oktahedron gibi bazı nesnelerin tüm yönlerde aynı eylemsizliğe sahip olduğunu ve bunun da uzamaya dayanan ad hoc bir yöntem kullanarak yönlerini belirlemeyi zorlaştırdığını açıklıyor. Ek olarak, konuşmacı, yönelimi belirlemek için karşılıkları kullanmanın, her noktanın hizasını bilmeyi gerektirdiğinden, daha doğru ama zorlayıcı bir yaklaşım olduğunu belirtiyor. Konuşmacı ayrıca nokta çarpımlarının, uzunlukların ve açıların korunması da dahil olmak üzere döndürmenin özelliklerini açıklar.

  • 01:10:00 Bu bölümde profesör, vektörlerin oluşturduğu paralelyüzün hacmi olan vektörlerin üçlü çarpımını tartışıyor. Bu vektörler döndürülürse, dönüş bir yansıma değilse hacimleri korunur. Bir yansıma, üçlü çarpımın işaretini ve dolayısıyla hacmi değiştirir ve sağ el kuralı yerine sol el kuralıyla sonuçlanır. Bu ilke, iki sistem arasındaki hatayı en aza indirmek için ofset ve dönüşün seçilmesi gereken iki koordinat sistemi arasındaki dönüşümü bulmak için bir en küçük kareler problemi kurarken önemlidir.

  • 01:15:00 Bu bölümde öğretim görevlisi, ötelemeyi bulma probleminin dönüşü bulmadan nasıl basitleştirileceğini açıklıyor. Bunu, koordinatları merkeze taşıyarak ve çeviriden kurtulmak için orijinal koordinatlardan çıkararak yaparlar, bu da döndürme probleminin çözülmesini çok daha kolaylaştırır. Öğretim görevlisi daha sonra yeni koordinatları hata formülüne yerleştirir ve terimleri gruplandırarak sonunda çalışmak için daha basit bir probleme ulaşır. Ders, çeviri için hangi denkleştirmenin seçileceği sorusuyla sona erer.

  • 01:20:00 Bu bölümde ders, çeviri bulma problemini döndürme bulma probleminden ayırmaya odaklanır. Öteleme formülü, ağırlık merkezinin sağ koordinat sisteminde olduğu yer ile sol koordinat sistemi merkezinin onu döndürdükten sonra nerede olduğu arasındaki farktır. Bir sonraki amaç, doğru dönüşü bulmayı içeren kalan hata terimini en aza indirmektir. Ders, dönüşe bağlı kalan terimi maksimize ederek doğru dönüşü bulmayı amaçlar; bu da sivri uçlu, suşi benzeri bir görünümle merkeze bağlı bir nokta bulutu hayal ederken sezgisel bir anlam ifade eder.

  • 01:25:00 Bu bölümde öğretim görevlisi, benzer şekle sahip iki nesnenin vektör hesabını kullanarak nasıl hizalanacağını açıklar. Nesnelerin karşılık gelen dikenlerini alarak ve açıyı belirlemek için aralarındaki iç çarpımı kullanarak nesneler hizalanabilir. Bununla birlikte, bu, ek kısıtlamalarla karmaşık matrislerle uğraşmak zorunda kalmadan, matematik kullanarak döndürme probleminin nasıl çözüleceği problemini ortaya çıkarır. Öğretim görevlisi, hizalama problemini kolaylaştıran diğer döndürme temsillerine bakmayı önerir.
Lecture 17: Photogrammetry, Orientation, Axes of Inertia, Symmetry, Orientation
Lecture 17: Photogrammetry, Orientation, Axes of Inertia, Symmetry, Orientation
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Ders 18: Dönme ve Nasıl Temsil Edileceği, Birim Kuaterniyonlar, Dönme Uzayı



Ders 18: Dönme ve Nasıl Temsil Edileceği, Birim Kuaterniyonlar, Dönme Uzayı

Bu ders, rotasyonları temsil etmenin zorluklarını tartışıyor ve Hamilton'un kuaterniyonlarının kullanışlılığını tanıtıyor. Birim kuaterniyonlar, üç uzaydaki dönüşleri doğrudan eşledikleri için özellikle yararlıdır ve bu uzayda bir dönme alanı ve optimizasyonun tartışılmasına izin verir. Kuaterniyonlar, karmaşık sayılara benzer özelliklere sahiptir ve nokta çarpımlarını, üçlü çarpımları, uzunlukları, açıları ve el tercihlerini korudukları için dönüşleri temsil etmek için özellikle yararlıdır. Ders ayrıca, dönüşü temsil etmenin farklı yöntemlerini, vektörleri döndürmenin ve dönüşler oluşturmanın önemini ve matrisler, Euler açıları ve gimbal kilidi gibi geleneksel yöntemlerin sınırlamalarını tartışır. Son olarak, ders, rotasyonları optimize etme ve modellere uydurma ve rotasyon uzaylarını analiz etmek ve görselleştirmek için yeni yöntemler geliştirme dahil olmak üzere alanda devam eden araştırmaları sunar.

Bu derste, profesör iki koordinat sistemi arasındaki koordinat dönüşümünü veya iki koordinat sisteminde ölçülen karşılık gelen noktalarla iki nesne arasındaki en uygun döndürme ve ötelemeyi bulma problemini tartışıyor. Ders, uzay aracı kameralarını katalog yönleriyle hizalamak ve göreceli yönelim problemini çözmek için kuaterniyonların kullanımını araştırıyor. Dördeylerin dönüşleri temsil etmedeki etkinliği ve dört boyutlu uzayda dönüşlerin temsiline yaklaşmak için farklı yöntemler tartışılmaktadır. Buna ek olarak, ders, düzenli bir uzay örneklemesi elde etmek için doğru koordinat sistemini seçmenin önemini vurgulayarak, farklı çokyüzlüler için çeşitli döndürme gruplarını araştırıyor.

  • 00:00:00 Bu bölümde konuşmacı, çeviriler gibi değişmeli olmadıkları için döndürmelerle uğraşmanın zorluklarını tartışıyor. Amaç, fotogrametri ve robotikte döndürmelerle başa çıkmak için yararlı ve genel bir yöntem geliştirmektir. Hamilton'un kuaterniyonları, özellikle üç uzayda doğrudan rotasyonlarla eşlenebilen birim kuaterniyonlarla sınırlandırıldığında, rotasyonları temsil etmek için daha genel bir yol sağlar. Bu, bir dönme uzayının tartışılmasına ve bu uzayda optimizasyona izin verir. Uygulamalar, robot biliminden biyomedikal bilime kadar çok geniştir ve konuşmacı, farklı koordinat sistemlerindeki iki nesnenin veya hareket eden bir nesnenin ölçümünü içeren problemler için kapalı formda bir çözüm geliştirmeyi amaçlar.

  • 00:05:00 Bu bölümde rotasyon konusu tanıtılır ve anlatılır. Euler teoremi, sert bir nesnenin herhangi bir dönüşünün, eksen olan değişmeyen bir çizgi olma özelliğine sahip olduğunu belirtir. Paralel eksen teoremi, herhangi bir eksen etrafındaki herhangi bir dönüşün, orijinden geçen bir eksen etrafındaki bir dönüşe artı bir ötelemeye eşdeğer olduğunu belirtir. İşleri basitleştirmek için öteleme ve döndürmeyi ayırmak uygundur. Açısal hız yalnızca bir vektör ve hız gerektirdiğinden, dönüş hızı sonlu dönüşlerden çok daha kolaydır. Son olarak, sonlu dönüşler değişmez ve n = 3 için üç serbestlik derecesi vardır.

  • 00:10:00 Bu bölümde öğretim görevlisi, döndürmeleri belirli düzlemleri korumak olarak düşünmenin en iyisi olduğunu açıklıyor. Örneğin, içindeki şeyler farklı bir yere taşınırken xy düzlemi korunabilir. Öğretim görevlisi ayrıca, çapraz çarpımların üç serbestlik derecesine sahip olduğunu ve çarpılan iki vektöre dik oldukları için vektörler olarak temsil edildiğini not eder. Döndürme için temsiller mevcuttur ve yararlı bir yöntem, eksenin bir birim vektör olduğu ve döndürülen derecelerin sayısının bir açıyla temsil edildiği eksen ve açı notasyonudur. Gibbs vektörü, eksen ve açıyı tek bir vektörde birleştiren başka bir gösterimdir, ancak artık bir birim vektör değildir ve teta eşittir pi'de patlar.

  • 00:15:00 Bu bölümde öğretim görevlisi, Euler açıları, ortonormal matrisler, üstel biçim, stereografi ve karmaşık matrisler dahil olmak üzere döndürmeyi temsil etmenin çeşitli yollarını açıklar. Her yöntemin kendi kısıtlamaları vardır ve Euler açıları için 24 farklı tanım vardır, bu da onu kafa karıştırıcı hale getirir. Bununla birlikte, birim kuaterniyonlar, kompakt olmaları, enterpolasyonlarının kolay olması ve Gimbal kilidinden etkilenmemeleri gibi birçok avantaja sahip oldukları için, dönüşleri temsil etmede en popüler ve kullanışlı yöntemdir. Farklı döndürme temsilleri arasında dönüşüm yapabilmek de önemlidir.

  • 00:20:00 Bu bölümde, konuşmacı bir vektörü döndürme ve döndürülmüş bir koordinat sistemindeki konumunu bulma ve döndürmeleri oluşturma problemini tartışır. Konuşmacı, Rodriguez'in, bir vektör alıp belirli bir eksen etrafında bir açı boyunca döndürerek ilk sorunu ele alan formülünü tanıtır. Konuşmacı, sorunu 2B'ye bölerek, döndürme formülünün düzlemde nasıl basit, ancak 3B'de daha karmaşık olduğunu gösterir. Konuşmacı, eksen ve açı gösteriminin dönüşleri görselleştirmek için yararlı olduğunu, ancak kompozisyon elde etmenin zor olduğunu açıklıyor.

  • 00:25:00 Bu bölümde öğretim görevlisi, açıları ve şekilleri koruyan bir projeksiyon tekniği kullanarak bir küreyi bir düzleme eşlemek de dahil olmak üzere farklı döndürme temsillerini tartışır. Ayrıca eksen ve açı gibi sezgisel bir temsile sahip olmanın yanı sıra vektörleri döndürebilmenin ve dönüşler oluşturabilmenin öneminden de bahsediyor. Bununla birlikte, dönme matrisleri ve eksen açısı gibi bazı temsillerin gereksiz olabileceğini veya çok sezgisel olmayabileceğini belirtiyor. Öğretim görevlisi ayrıca tekilliklerden kaçınmanın ve hesaplama verimliliğini sağlamanın yanı sıra grafiklerde yönlendirmeyi enterpolasyon yapabilmenin önemini vurgulamaktadır.

  • 00:30:00 Bu bölümde öğretim görevlisi, bilgisayar grafiklerinde döndürmeleri temsil etmenin ve enterpolasyon yapmanın zorluklarını ve ayrıca verimli bir şekilde örneklenebilen ve ortalaması alınabilen bir döndürme uzayına olan ihtiyacı tartışıyor. Matrisleri, euler açılarını, gimbal kilidini ve diğer geleneksel yöntemleri kullanmanın sınırlamalarına işaret ediyor ve daha pratik bir çözüm olarak kuaterniyonları tanıtıyor. Dördeylerin fazlalıkları ve tekillikleri nasıl önleyebileceğini ve bunların matematiksel olarak zarif ve hesaplama açısından verimli bir şekilde nasıl birleştirilebileceğini, enterpolasyon yapılabileceğini ve örneklenebileceğini açıklıyor. Ayrıca, rotasyonları modellere göre optimize etmek ve uydurmak ve rotasyon uzaylarını analiz etmek ve görselleştirmek için yeni yöntemler geliştirmek de dahil olmak üzere bu alanda bazı açık problemleri ve devam eden araştırmaları vurgulamaktadır.

  • 00:35:00 Bu bölümde, konuşmacı dördeylerin oluşumunun arkasındaki tarihi ve bunların matematikteki, özellikle de döndürmedeki önemini açıklıyor. Dublin'den bir matematikçi olan William Hamilton'ın sayıların üçlülerini bölmeye izin verecek şekilde temsil etmenin bir yolunu bulmaya çalıştığını, bu yüzden ilham almak için karmaşık sayılara baktığını açıklıyor. Hamilton sonunda, dördeylerin veya bir gerçek kısmı ve üç hayali kısmı olan sayıların sorunu çözebileceğini keşfetti. Konuşmacı daha sonra, uzayda bir vektör veya dörde dört matris dahil olmak üzere, dördeyleri temsil etmenin farklı yollarını açıklamaya devam eder.

  • 00:40:00 Bu bölümde öğretim görevlisi, matrisleri kullanmak ve bir skaler kısım ve üç hayali kısım kullanmak dahil olmak üzere, dördey çarpımını temsil etmenin farklı yollarını tartışır. Öğretim görevlisi çarpmanın değişmeli olmadığını vurgular ve bir matris ile bir vektörün çarpımı olarak nasıl temsil edilebileceğini gösterir. Ders ayrıca, dördey çarpımının değişmeli değil, ilişkisel olduğu gerçeği de dahil olmak üzere bazı temel sonuçların altını çiziyor.

  • 00:45:00 Bu bölümde konuşmacı, dördeylerin, onları dönüşleri temsil etmek için yararlı bir yol haline getiren özelliklerini açıklıyor. Kuaterniyonlar, hayali kısmı olumsuzlamayı içeren bir eşlenik dahil olmak üzere karmaşık sayılara benzer özelliklere sahiptir. İç çarpım bir norm olarak ifade edilebilir ve bir dördeyi eşleniğiyle çarpmak, bölme için kullanılabilecek hayali kısmı olmayan gerçek bir miktarla sonuçlanır. Birim kuaterniyonlar durumunda, tersi sadece eşleniktir. Kuaterniyonlar, skaler kısmı dışarıda bırakarak vektörleri temsil etmek için de kullanılabilir ve bu uzayda birçok ilginç özellik vardır.

  • 00:50:00 Bu bölümde öğretim görevlisi, dördey kullanarak döndürmenin nasıl temsil edileceğini açıklar. Basit dördey çarpımından farklı olarak, bir dördeyi bir vektörle önceden çarpma, eşleniğiyle sonradan çarpma ve vektörün hayali kısmını çıkarma işlemi, bir vektörü 3B olarak döndürmek için uygulanabilen sıfır skaler kısmı olan bir dördeyi verir. Öğretim görevlisi, dörde dört matris kullanarak dörtlü çarpımı temsil ederek, bu işlemin orijinal vektörlerin nokta çarpımlarını nasıl koruduğunu gösterir. Sonuçta, ortaya çıkan üçe üç ortonormal dönme matrisi, kuaterniyonları doğrudan manipüle etmeden vektörleri döndürmek için kullanılabilir.

  • 00:55:00 Bu bölümde öğretim görevlisi, dönüşü tanımlayan özellikleri ve onu bir dördey kullanarak nasıl temsil edeceğini tartışır. Bir dördey, nokta çarpımlarını, üçlü çarpımları, uzunluğu, açıları ve el tercihini koruyan bir dönüşün dört boyutlu bir temsilidir ve bu da onu bir dönüşün uygun bir temsili yapar. Dönmelerin bileşimi, kuaterniyon gösteriminde basittir, oysa hem eksen açısı hem de Euler açılarında zordur. Kuaterniyonun vektör kısmı, dönme eksenine paraleldir, bu da ekseni belirlemeyi kolaylaştırır. Öğretim görevlisi, eksen açısı ve dördey temsilleri arasında nasıl dönüşüm yapılacağını açıklar ve bir kürenin karşı tarafının, hesaplama ortalamaları için fotogrametride temel bilgi olan aynı dönüşleri temsil ettiğini belirler.

  • 01:00:00 Dersin bu bölümünde, konuşmacı iki koordinat sistemi arasındaki koordinat dönüşümünü veya iki koordinat sisteminde ölçülen karşılık gelen noktalarla iki nesne arasındaki en uygun döndürme ve ötelemeyi bulma problemini tartışır. Yaylı bir fiziksel analog kullanan sistem, dönüşü ve ötelemeyi bulmak için hataların karelerinin toplamını en aza indirmek istiyor. Çeviriyi bulmanın ilk adımı, sezgisel olan ve yazışma gerektirmeyen sağ sistemin ağırlık merkezine döndürüldükten sonra sol sistemdeki ağırlık merkezini almaktır. Tercüme formülü daha sonra hata terimini en aza indirmek için ifadeyi basitleştirmek için kullanılır. Orta terim değiştirilebilen tek terimdir ve onu maksimize ederek, sistem karşılık gelen noktaların iç çarpımını maksimize edebilir.

  • 01:05:00 Bu bölümde öğretim görevlisi, uzay aracı kameralarının dörtlü notasyonu kullanarak katalog yönergeleriyle nasıl hizalanacağını tartışıyor. Katalog yönleriyle kameradaki yıldızların yönünü haritalamak için kuaterniyonları kullanıyorlar, burada amaç bu iki kuaterniyonun nokta çarpımını en üst düzeye çıkarmak. Ancak bu, dördey için büyük değerlerle sonuçlanabileceğinden, uygulanması gereken ekstra bir kısıtlama vardır. Öğretim görevlisi, iki kuaterniyon yönü arasındaki farkı en aza indirmek için kullanılan, kuaterniyona göre ayrım yapmak için iki yöntemi açıklar.

  • 01:10:00 Dersin bu bölümünde profesör, verilerden oluşturulan 4'e 4'lük gerçek simetrik bir matrisin özvektörünü ve özdeğerini tartışıyor. Sinüs çevirme nedeniyle en küçük özdeğerin istendiği geçmişten farklı olarak, en büyük özdeğere karşılık gelen özvektörü seçmemiz gerekiyor. Matris simetriktir, yani dokuz bağımsız niceliği vardır ve determinantı sıfır olan bir kübik terime sahiptir. 16 bağımsız niceliğe sahip olmasına rağmen, on tanesi bağımsızdır, bu matrisi özel kılar. Bu, onu çözmeyi kolaylaştıran kübik bir denkleme indirgemesine izin verir. Profesör ayrıca, beşinci dereceden denklemlerin aksine, kübik denklemlerin ve kuartik denklemlerin kapalı biçimde çözülebileceğini belirtiyor.

  • 01:15:00 Bu bölümde öğretim görevlisi, dönüşleri temsil etmenin bir yolu olarak dördeylerin istenen özelliklerini tartışır. Bu özellikler arasında vektörleri döndürme ve kolayca döndürme oluşturma yeteneği, sezgisel, artıksız bir temsil, hesaplama verimliliği ve yönelimleri enterpolasyon yapma ve bir dizi döndürmenin ortalamasını alma yeteneği yer alır. Öğretim görevlisi daha sonra göreli yönelimi, dünyanın iki noktasından yön verilerini kullanarak iki koordinat sisteminin taban çizgisini ve göreli yönünü bulma problemi olarak tanıtır. Kuaterniyonlar, bir robot manipülatörün kinematiğini açıklamak için de kullanışlıdır ve özellikle bilekte koordinat sistemlerinin sıralanmasıyla ilgili sorunlardan kaçınmaya yardımcı olabilir.

  • 01:20:00 Bu bölümde, konuşmacı, dörtlülerin ortonormal matrislere kıyasla dönüşleri temsil etmedeki etkinliğini tartışarak, dörtlü çarpmaların kompozisyon için daha hızlı, ancak dönen vektörler için daha yavaş olduğunu gösteriyor. Dördeylerin yeniden normalleştirilmesinin matrislerden daha kolay olduğunu belirtiyor. Konuşmacı daha sonra çokyüzlüleri dönme küresine yansıtarak dönme uzayını dört boyutta nasıl örnekleyeceğini tartışır, bu da uzayın düzenli ve tek biçimli bir örneklemesini sağlar.

  • 01:25:00 Bu bölümde ders, döndürme grupları için ifadeleri basitleştirmek üzere koordinat sistemlerini kullanmak gibi dört boyutlu uzayda döndürmeleri temsil etmeye yönelik farklı yöntemleri tartışır. Ders ayrıca, kullanıcıların aramaları veya ortalamaları için farklı yönelimleri deneyebilmeleri için, uzayın düzenli bir uzay örneklemesini sağlamak için bu grupları kullanarak farklı çokyüzlüler için çeşitli döndürme gruplarını araştırır. Bununla birlikte, bu yöntemlerin daha iyi örnekleme elde etmek için hileler gerektirebileceği ve doğru koordinat sistemini seçmenin çok önemli olduğu belirtilmektedir.
Lecture 18: Rotation and How to Represent It, Unit Quaternions, the Space of Rotations
Lecture 18: Rotation and How to Represent It, Unit Quaternions, the Space of Rotations
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Ders 19: Kapalı Formda Mutlak Oryantasyon, Aykırı Değerler ve Sağlamlık, RANSAC



Ders 19: Kapalı Formda Mutlak Oryantasyon, Aykırı Değerler ve Sağlamlık, RANSAC

Ders, fotogrametride dönmeleri temsil etmek için birim kuaterniyonların kullanılması, kuaterniyon ve ortonormal matris temsilleri arasında dönüştürme, dönme simetrisi ile ilgilenme ve karşılık gelmeksizin öteleme, ölçeklendirme ve döndürmeyi koordine etme dahil olmak üzere mutlak oryantasyonun çeşitli yönlerini kapsar. Ders ayrıca, hat uydurma ve ölçüm süreçlerinde aykırı değerler ve sağlamlık sorununu tartışır ve aykırı değerler mevcut olduğunda ölçümlerin güvenilirliğini artırmanın bir yolu olarak RANSAC (Random Sample Consensus) yöntemini sunar. Ders, eş düzlemli bir senaryoda iki düzlem kullanarak kapalı formda mutlak yönelim problemini çözmeye ilişkin bir tartışmayla sona erer, buna aykırı değerler ve optimizasyonla ilgili zorluklar da dahildir.

Mutlak oryantasyon hakkındaki bu videoda, öğretim görevlisi gerçek verilerde aykırı değerler konusunu tartışıyor ve aykırı değerlerle başa çıkmak için rastgele alt küme uyumlarını içeren bir fikir birliği yöntemi olan RANSAC'ın kullanılmasını öneriyor. Öğretim görevlisi ayrıca, bir küpün içine bir küre çizmek ve rastgele noktalar yansıtmak, kürenin yüzeyini mozaiklemek ve düzenli çokyüzlüler üzerinde noktalar oluşturmak dahil olmak üzere, bir küre üzerinde noktaların tek biçimli bir dağılımını elde etmek için yöntemleri tartışır. Buna ek olarak, öğretim görevlisi, bir kitaplıktaki birden çok nesnenin verimli bir şekilde tanınması için döndürme uzayını örnekleme, bir nesneyi kendisiyle hizalamak için gereken döndürme sayısını bulma ve örnekler veya dörtlü çarpma yoluyla döndürme bulma sorununa yaklaşma yollarını kapsar.

  • 00:00:00 Dersin bu bölümünde, konuşmacı fotogrametride dönmeleri temsil etmek için birim kuaterniyonların kullanımını tartışıyor. Birim kuaterniyonlar, diğer gösterimlerde daha zor olan en uygun yanıtı elde etmek için nesnel bir yol sağlayarak, en az kötü soruna kapalı formda bir çözüm sağlar. Özellikle önemli olan iki işlem, her ikisi de tartışılan formül kullanılarak gösterilebilen, dönüşlerin bileşimi ve bir vektörün dönüşüdür. Konuşmacı ayrıca Rodriguez'in formülünü kullanarak bu notasyonu eksenler ve açı notasyonu ile ilişkilendirir. Genel olarak, birim kuaterniyonların kullanılması, fotogrametride dönüşleri temsil etmenin daha verimli bir yolunu sağlar.

  • 00:05:00 Videonun bu bölümünde, konuşmacı dörtlü ve ortonormal matris temsilleri arasında dönüştürmeyi tartışıyor. Dördeyleri matrislere dönüştürme formülü, hem çarpık simetrik hem de simetrik parçalara sahip dörte dört bir matris içerir. Konuşmacı, sıfır skaler kısmı olan bir vektör olan özel bir dördeyi temsil ettikleri için ilk satır ve sütunun alakasız olduğunu açıklıyor. Ortonormal bir matrisi tekrar bir dördeye dönüştürmek için, konuşmacı üçe üç alt matrisin izinin kullanılmasını önerir. Bu yöntem, matrisler arasındaki açının kosinüsünü çözmemizi sağlayan iki kosinüs terimi şeklinde bir denklemle sonuçlanır.

  • 00:10:00 Bu bölümde öğretim görevlisi, R matrisinin köşegen elemanlarından döndürme matrisini hesaplamanın farklı yollarını tartışır. Bir yaklaşım, döndürme matrisinin izini merkeze alırken, teta eşittir sıfıra yakın problemlerden muzdariptir. Bunun yerine, tümü teta bölü ikinin sinüsüne bağlı olan köşegen dışı öğeleri kullanmak daha iyidir. Ders daha sonra çeşitli toplamları ve farkları hesaplayan ve karekök alan tam bir ters çevirme formülü vererek devam eder. Bu yaklaşımla ilgili sorun sinüs belirsizliğidir, ancak ders, sayısal doğruluk için en büyüğü seçmeyi ve bunun için çözmeyi önerir.

  • 00:15:00 Bu bölümde konuşmacı, hem doğrudan hem de dolaylı olarak dördey ve döndürme matrisi arasında dönüşüm sürecini ve koordinat dönüşümlerinde ölçeğin nasıl açıklanacağını tartışıyor. Bir en küçük kareler problemi kullanarak ve dört toplamın toplamını en aza indirerek döndürme ve ölçeklendirme faktörlerini çözme sürecini açıklarlar. Konuşmacı, ardışık kamera konumlarından elde edilen arazi parçalarını bir araya getirirken ölçeği hesaba katmanın önemini vurgular ve bu durumlarda optimumun nasıl bulunacağını açıklar.

  • 00:20:00 Bu bölümde, konuşmacı, dönmeyi hesaplamak için kullanılan yöntemin, dönme matrisinin tersini elde etmek için ters çevrilebilmesi gereken dönmede simetri konusunu tartışıyor. Konuşmacı aynı zamanda önceki yöntemlere göre tercih edilen başka bir hata terimini araştırır, çünkü bu terim yazışma gerektirmez ve merkezi merkezden merkeze eşleyebilir. Bu yöntem, ölçek faktörüne göre hata teriminin türevini sıfıra eşitleyerek ölçek faktörünü bulmayı ve ölçek faktörünü olması gerekenden biraz daha küçük yaparak hile yapmayı önleyen ölçek faktörünü çözmeyi içerir.

  • 00:25:00 Bu bölümde öğretim görevlisi, çeviri, ölçekleme ve döndürme işlemlerinin karşılıksız bir şekilde nasıl ele alınacağını açıklar. Bir ağırlık merkezi yöntemi kullanılarak ölçek faktörü, iki nokta bulutunun boyutlarının oranı olarak hesaplanabilir. Döndürme kısmıyla öğretim görevlisi, bir matrisin (N) negatif determinantını q, dördey'e göre maksimize etmeye yönelik kalkülüs problemine kısaca değinir. Çözüm, Lagrange çarpanları kullanılarak bulunabilir, ancak q'nun sonsuza kadar büyümesini önlemek için uzunluğuna bölen Rall katsayısı adı verilen daha basit bir yöntem de kullanılabilir. Ortaya çıkan işlev, herhangi bir dizi boyunca sabittir ve onu mümkün olduğu kadar aşırı yapan ışının yönünü verir.

  • 00:30:00 Bu bölümde konuşmacı, denklemin türevini alıp sıfıra ayarlayarak sigmayı maksimize eden matrisin nasıl bulunacağını açıklıyor. Konuşmacı, farklılaşma için bir oran formülü kullanarak q'nun nasıl bir özvektör olduğunu gösterir ve en büyük özdeğere karşılık gelen özvektörü seçerek matrisin maksimize edilebileceğini açıklar. Bu yöntemin tek kısıtlaması, özvektörün karşılık gelen veriden elde edilen kısıtlamayı sağlaması gerektiğidir. Bununla birlikte, ortonormal matrislerden farklı olarak, bu kısıtlamanın üstesinden gelmek çok daha kolaydır.

  • 00:35:00 Bu bölümde, öğretim görevlisi fotogrametrik problemler için gerekli olan yazışma sayısını tartışır. Altı şey bulmayı hedefliyorlar: öteleme döndürme ve ölçekleme, bu da karşılık gelen başına üç kısıtlama anlamına gelir ve bu nedenle yalnızca iki eşlenmeye ihtiyaç vardır. Ancak, yalnızca iki yazışma ile yalnızca beş kısıtlama vardır; dolayısıyla, bunu başarmak için üç yazışma gerekir. Ek olarak öğretim üyesi, dönüşümü üç noktadan elde edilen dokuz kısıtlamaya uyacak şekilde genelleştirme olasılığından bahseder; ancak, bu kısıtlamaların oldukça gereksiz olduğuna dikkat çekiyorlar.

  • 00:40:00 Bu bölümde video, 2B'deki gibi altı değil, 12 öğe içeren ve üç karşılık ile belirlemeyi zorlaştıran genel doğrusal dönüşüm kavramını 3B'de tartışıyor. Ek olarak video, doğrusal dönüşümün başarısız olmasının iki yolu olduğunu açıklıyor. İlk olarak, yeterli eşleşme yoksa ve ikinci olarak, N matrisinin birden fazla sıfır özdeğeri varsa. Video ayrıca matrisin özdeğerlerini bulmak için karakteristik denklemin nasıl çözüleceğini açıklıyor.

  • 00:45:00 Videonun bu bölümünde öğretim görevlisi, dörde dörde N matrisinin hesaplanmasında kullanılan üçe üç matris olan diatik çarpımı kullanarak M matrisinin nasıl hesaplanacağını açıklıyor. N'yi elde etmenin verimli bir yolu. M'nin determinantı sıfır ise, o zaman problemin çözülmesinin özellikle kolay hale geldiği, çünkü C1'in sıfır olduğu ve denklemin herhangi bir özel ders kitabına ihtiyaç duymadan çözülmesine izin verdiği not edilir. Bu özel durum, noktaların dağılımı ile ilgilidir ve noktalar aynı düzlemde olduğunda ortaya çıkabilir. Öğretim görevlisi, noktaların tümü bir düzlemdeyse, sorunun çözülmesini kolaylaştırarak bunun nasıl eşit derecede iyi uygulanacağını gösterir.

  • 00:50:00 Videonun bu bölümünde, konuşmacı eş düzlemli bir senaryoda iki düzlem kullanarak kapalı formda mutlak yönelim probleminin nasıl çözüleceğini açıklıyor. Tam 3B döndürme, önce bir düzlemi diğer düzlemin üzerinde olacak şekilde döndürme ve ardından düzlem içi döndürme olmak üzere iki basit döndürmeye ayrılabilir. Konuşmacı, kuaterniyon oluşturmak için gereken eksen ve açının nasıl bulunacağını ve koordinat sistemlerinden birindeki tüm noktaları diğer koordinat sistemine hizalamak için nasıl döndürüleceğini açıklar. Ek olarak, konuşmacı optimizasyon probleminde aykırı değerlerle uğraşmanın zorluklarını ve hatanın mutlak değeri gibi hatanın karesinden başka bir şeyin kullanılmasının nasıl daha fazla çalışmanın hesaplanmasına ve sonuçların genelleştirilmesinde zorluklara yol açabileceğini tartışır.

  • 00:55:00 Bu bölümde öğretim görevlisi, hat uydurma ve diğer ölçüm süreçlerinde aykırı değerler ve sağlamlık sorununu tartışır. Rastgele bir nokta örneği almayı ve en uygun olanı bulmak için en küçük kareleri kullanmayı, ardından bir bandın içine düşen noktaların sayısını kontrol etmeyi ve eşiği gürültüye göre ayarlamayı içeren RANSAC (Random Sample Consensus) yöntemini tanıttı. iç değerlerin aykırı değerlere oranı. İyi bir uyum elde edilene kadar işlem tekrarlanır. Öğretim görevlisi, RANSAC kullanımının, aykırı değerlerin mevcut olduğu durumlarda ölçümlerin güvenilirliğini artırabileceğini belirtmektedir.

  • 01:00:00 Videonun bu bölümünde öğretim görevlisi, gerçek verilerin varlığında aykırı değerler konusunu ve RANSAC olarak da bilinen fikir birliği yöntemini kullanarak bununla nasıl başa çıkılacağını tartışıyor. Yöntem, rasgele alt kümeler almayı, uyum sağlamayı ve kapalı formda bir çözüme sahip olmayabilecek nesnelerin yöneliminin bir ölçüsünü veren en çok isabete sahip hücreleri aramayı içerir. Öğretim görevlisi, bu yaklaşımın birçok uygulamada yararlı olduğunu ve sadece mutlak yönelimle sınırlı olmadığını vurgular. Ek olarak, öğretim görevlisi, dışbükey yakınındaki karmaşık nesnelerin temsillerinin, nesneleri algılamak ve yönlerini bulmak için de yararlı olabileceğinden bahseder.

  • 01:05:00 Bu bölümde öğretim görevlisi, tekdüzeliği elde etmek için bir küre üzerindeki noktalardan örnekleme yapmanın zorluklarını tartışır. Kutup bölgelerinin diğerlerinden daha fazla konsantrasyona sahip olması nedeniyle, tek tip bir dağılım üreteci kullanılarak teta ve phi örneklenerek noktaların tek tip dağılımı elde edilemez. Önerilen çözüm, kübe bir küre çizmek ve küpten küreye rasgele noktalar yansıtmaktır. Bununla birlikte, bu yine de kürenin küpe teğet olduğu noktaların daha yüksek yoğunluğuna yol açar. Bunu çözmek için öğretim görevlisi, düzenli katılar kullanarak kürenin yüzeyinin kaplanmasını veya toplanmalarını daraltmak için köşelere yakın noktalara ağırlık verilmesini önerir.

  • 01:10:00 Videonun bu bölümünde öğretim görevlisi, bir kürenin yüzeyinde noktaların tek tip dağılımını elde etmenin yollarını tartışıyor. Bunun bir yolu, bir küpte düzgün noktalar oluşturmak ve orijine çok yakın veya küreden çok uzaktaki noktaları atarken bunları kürenin yüzeyine yansıtmaktır. Başka bir yöntem, küreyi düzenli çokyüzlüler kullanarak bölmek ve bu şekiller üzerinde tek tip noktalar oluşturmaktır. Bununla birlikte, bu yöntem, pratik olarak tekdüze bir dağılım oluşturan ilk yöntemin aksine, daha ince bölmeler elde etmek için alt bölümlere ayırmayı gerektirir.

  • 01:15:00 Bu bölümde öğretim görevlisi, bir kitaplıktaki birden çok nesneyi tanıma sürecinin bir parçası olan çeşitli nesneler için dönme uzayını örneklemenin tekdüze yollarının nasıl bulunacağını tartışır. Öğretim elemanı, verimli olmak için, dönme uzayının bazı kısımlarını diğer kısımlardan daha yoğun olarak örneklemek istemediklerini ve uzayın tekdüze bir örnekleme yolunu bulmayı amaçladıklarını açıklar. Dönme simetrisine sahip altı yüzlü ve dönüşlerini tartışarak başlarlar. Öğretim görevlisi, amacın farklı modeller arasında nokta karşılıklarını bulmayı kolaylaştıran döndürme yöntemleri bulmak olduğunu açıklıyor.

  • 01:20:00 Bu bölümde, konuşmacı bir nesneyi kendisiyle hizalamak için gereken dönüş sayısının nasıl bulunacağını tartışıyor ve ardından iki yöntem kullanarak bir dönüş grubu oluşturuyor: geometrik olarak ve dördey çarpma yoluyla. Ekseni (1, 1, 1) ve açısı 2π/3 olan ilginç yeni bir döndürme bulunur ve bir küpün köşesini kendisiyle hizaladığı gösterilir.

  • 01:25:00 Bu bölümde konuşmacı, dönüşleri bulma problemine yaklaşmak için iki yol sunuyor. İlk yol, örneklere bakmak ve toplam 24 dönüş elde etmek için onları toplamaktır. İkinci yol, yeni bir şey elde edip etmediğinizi görmek için dördey çarpımını uygulamak ve ikili çarpımları alarak bir tablo oluşturmaktır. Konuşmacı daha sonra, bir sonraki tartışmanın, binoküler görüşlerle daha ilgili olan göreli yönlendirmeyi içereceğinden bahseder.
Lecture 19: Absolute Orientation in Closed Form, Outliers and Robustness, RANSAC
Lecture 19: Absolute Orientation in Closed Form, Outliers and Robustness, RANSAC
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

MIT 6.801 Yapay Görme, Sonbahar 2020. Ders 20: Dönme Uzayı, Düzenli Mozaikler, Kritik Yüzeyler, Binoküler Stereo



Ders 20: Dönme Uzayı, Düzenli Mozaikler, Kritik Yüzeyler, Binoküler Stereo

Dersin bu bölümü, düzenli mozaikler, kritik yüzeyler, binoküler stereo ve üç boyutlu uzayda bir dönüşümün parametrelerini bulma gibi konuları kapsar. Öğretim görevlisi, bir küreyi mozaiklemenin en iyi yolunun, birkaç beşgenle yaklaşık altıgen şekiller oluşturmak için üçgen mozaikleme ikilisini kullanmak olduğunu açıklıyor. Ayrıca makine görüşü için zor olan ancak düz çubuklardan mobilya oluşturmak için kullanılabilen kritik yüzeyleri tartışıyorlar. Dürbün stereo tartışmasında, öğretim görevlisi iki kamera arasındaki ilişkiyi, epipolar çizgiler kavramını ve dünyadaki bir noktayı belirlemek için iki kameranın kesişme noktasının nasıl bulunacağını açıklar. Ayrıca, dünyadaki hata ile görüntüdeki hata arasındaki dönüşüm faktörünü hesaba katarak kesişimlerini belirlemek ve görüntü hatasını en aza indirmek için iki ışın arasındaki hatanın nasıl hesaplanacağını da açıklarlar. Son olarak, taban çizgisini temsil etmek için bir dördey kullanarak uzaydaki sert bir nesnenin konumunu ve yönünü kurtarmak için taban çizgisini ve D'yi nasıl bulacaklarını tartışırlar.

Ders, dönme alanı, düzenli mozaikler, kritik yüzeyler ve dürbün stereo dahil olmak üzere çeşitli konuları kapsar. Rotasyonlar için, eğitmen sayısal yaklaşımların kullanımını, tekillikler problemini ve birim kuaterniyonları kullanmanın faydalarını tartışır. Düzenli mozaiklemelerle, belirli yüzeylerin binoküler stereo ile nasıl sorunlara neden olabileceğini gösteriyorlar ve sorunları azaltmak için hata ölçüleri ve ağırlıkları kullanmayı öneriyorlar. Konuşmacı ayrıca ikinci dereceden yüzeylere de değiniyor ve "korkusuz yansıtma"yı içeren yeni bir ev ödevi problemi sunuyor.

  • 00:00:00 Videonun bu bölümünde konuşmacı, küre üzerinde eşit alan izdüşümlerine sahip olan platonik ve arşimet katılarına dayalı olarak bir kürenin yüzeyinin kaplanmasını tartışıyor. Yüzeyin mozaiklenmesi, yaygın olarak kullanılan üçgenler, kareler ve beşgenler ile faset olarak normal çokgenler kullanılarak yapılabilir. Çokgenlerin alanları eşit değildir ve sonuç olarak mozaik yüzey birçok bölüme sahiptir. Bu mozaikleme yöntemi, dönüşlerden söz edilirken önemlidir ve konuşmacı bu katı cisimlerin dönüş gruplarını açıklar. Video ayrıca, düzenli bir yapı oluşturmak için bir ikosahedronun çok sayıda üçgen alana mozaikleştirilmesine dayanan jeodezik bir kubbenin kullanımından da bahsediyor.

  • 00:05:00 Bu bölümde öğretim görevlisi, bir yüzeyi eşit boyutlu şekillere bölmenin yolları olan çeşitli düzenli mozaikleri tartıştı. Düzlemlerde kare mozaikler yaygın olarak kullanılırken, küreler için ideal değildir ve üçgen mozaikler de sorunludur. Öğretim görevlisi daha iyi bir seçeneğin altını çizdi: yaklaşık olarak altıgen ve birkaç beşgen şekil içeren üçgen mozaikleme ikilisi. Ek olarak, öğretim üyesi bir yaprağın hiperboloitleri olan kritik yüzeyleri açıkladı. Bu yüzeyler yapay görme problemleri için zordur, ancak belirgin bir şekilde yönetilme özelliğine sahiptirler ve düz çubuklardan mobilya yapmak için kullanılabilirler. Son olarak öğretim görevlisi, denklemlerinde iki negatif işaret bulunan iki yaprağın hiperboloitlerini tartıştı.

  • 00:10:00 Bu bölümde öğretim görevlisi, iki levha veya üç negatif işaretle oluşturulabilecek farklı yüzey türlerini tartışır. Ayrıca hiperboloid, koni, paraboloid ve düzlemsel yüzeyler gibi var olan çeşitli özel durumları da açıklıyor. Devam ederek, öğretim görevlisi iki kamera kullanarak 3B'yi 2B'den hesaplama problemini ve iki kameranın geometrisini anlamak için göreli yönlendirmenin nasıl gerekli olduğunu açıklıyor. Ders, otonom araçlarda dürbün stereosunun nasıl uygulanabileceğinden bahsederek sona erer ve taban çizgisi katı değilse kalibrasyonun tekrar yapılması gerekebilir, ancak aynı süreç öncesi ve sonrası görüntülerle hareketten yapı için de çalışır.

  • 00:15:00 Bu bölümde öğretim görevlisi, dünyada bir nokta belirlemek için iki kameranın kesişim noktasını bulma kavramını, koordinat sisteminin nasıl seçildiğini ve bu kavramla ilişkilendirilen geometriyi açıklar. Öğretim görevlisi taban çizgisinin sağ koordinat sisteminde ölçüldüğünü ve asal sayının sol koordinat sisteminden nasıl dönüştürüldüğünü gösterdiğini vurgular. Nokta taban çizgisine bağlandığında, bir düzlem tanımlar ve her iki kamera sistemindeki düzlemin görüntüsü, noktanın bu çizgi boyunca herhangi bir yerde görüntülendiği düz bir çizgiye yansır. Ders ayrıca epipolar çizgiler kavramını ve bunların mesafe ölçümüne yol açan eşitsizlikleri bulmaya nasıl yardımcı olduğunu tanıtıyor.

  • 00:20:00 Bu bölümde öğretim görevlisi, taban çizgisini ve bir kameranın diğerine göre dönüşünü içeren bir binoküler stereo kurulumunda iki kamera arasındaki ilişkiyi tartışıyor. Rotasyonun üç serbestlik derecesi vardır, ancak ölçek faktörü belirsizliği nedeniyle problem, mutlak yönelimde olduğu gibi altı yerine beş serbestlik derecesine indirgenir. Taban çizgisi, o bileşen için yalnızca iki serbestlik derecesi veren bir birim vektör olarak ele alınır. Öğretim görevlisi, taban çizgisinin mutlak uzunluğunu belirlemek için görüntülenen nesnelerin boyutu bilgisi gibi ek bilgilerin gerekli olacağını açıklar.

  • 00:25:00 Bu bölümde öğretim görevlisi, ölçümleri belirlemek için gerekli olan yazışma sayısının nasıl belirleneceğini tartışır. Görüntü noktalarından bir tel oluşturmanın ve bunları sınırlamak için bir yakadan geçirmenin mekanik benzetmesini açıklıyor. Öğretim görevlisi, yalnızca iki yazışma kullanılırsa, hala serbestlik derecelerinin olduğunu, yani kamera dönüşünü değiştirmenin mümkün olduğunu açıklar. İkinci bir yazışma eklemek, serbestlik derecesini azaltır, ancak yine de yetersizdir. Yanıt beştir, bu da yazışma başına bir kısıtlama verir ve kamera yönelimindeki dikey eşitsizlikleri sıfırlamalarına olanak tanır. Alan derinliği yatay eşitsizliklerle ters orantılıdır. Enstrüman, dikey eşitsizlikleri ayarlayarak kurulabilir, bu, optik ekipmanın onlarca yıldır nasıl kurulduğudur.

  • 00:30:00 Dersin bu bölümünde, konuşmacı, acılı ve karmaşık bir süreç olabilen yakınsamak için bir dizi hareket ve ayarlama kullanarak üç boyutlu uzayda bir dönüşümün parametrelerini bulma sürecini tartışıyor. Ancak uygulamada, görüntü konumunun ölçümünde doğruluğu sağlamak ve hatayı en aza indirmek için beşten fazla noktaya sahip olmak önemlidir. Bu lineer olmayan problem, bir kez çözüldüğünde ikiye yedi (128) çözüm sağlayabilen yedi ikinci dereceden denklemle sonuçlanır. Bu çoğu kişi için bir merak konusu olsa da, teorik uygulamalarla ilgilenen insanlar bunu çözmeyi eğlenceli buluyor. Son olarak ders, karşılık gelen taban çizgisi ve döndürme parametrelerini bulurken üç vektörün eş düzlemli doğasını tartışır.

  • 00:35:00 Bu bölümde, üç vektörü kenar olarak kullanarak paralel bir pipet oluşturma ve üçlü çarpım yoluyla hacmini belirleme kavramı açıklanmaktadır. Üç vektör eş düzlemli olduğunda, nesne düzdür ve üç boyutlu hacmi yoktur, bu da beklenen değerini sıfır veya eş düzlemlilik koşulunu yapar. Taban çizgisini ve dönüşü en az hatayla tahmin etmek için her bir karşılık gelme için üçlü çarpımın karelerinin toplamını en aza indirmeye yönelik potansiyel bir yöntem tartışılmaktadır. Ancak bu, gürültü kazancı yüksek olduğundan ve yanlış cevaplar verebileceğinden güvenilir bir yöntem değildir. Ölçüm hatalarını en aza indirmek ve orantılılık faktörünü belirlemek için, ölçümler ve taban çizgisi veya dönüş mükemmel olmadığında odak iki ışın arasındaki minimum ayrımı en aza indirmeye kaydırılır.

  • 00:40:00 Bu bölümde öğretim görevlisi iki ışın arasındaki hatanın nasıl hesaplanacağını ve kesişimlerinin nasıl belirleneceğini tartışır. İki ışın arasındaki mesafeye minimum yaklaşımın bu ışınların her ikisine de dik olması gerektiğini açıklıyor, bu da çapraz çarpıma paralel olduğu anlamına geliyor. Vektörler eklenerek ve sıfıra eşitlenerek, denklem nokta çarpımı kullanılarak üç farklı kısıtlama sağlayan bir skaler denkleme dönüştürülebilir. Öğretim görevlisi daha sonra belirli terimleri çıkararak denklemi nasıl basitleştireceğini ve gama, beta ve alfayı nasıl hesaplayacağını tartışmaya devam eder;

  • 00:45:00 Bu bölümde konuşmacı, dönme uzayındaki üç boyutlu konumun hesaplanmasında üç niceliğin - alfa, beta ve gama - önemini tartışıyor. Gama basitçe mesafe hatası olsa da, alfa ve beta negatif olabilir, bu da kesişen çizgi parçalarının izleyicinin arkasında olup olmadığını gösterir ki bu genellikle fiziksel olarak makul değildir. Konuşmacı, ilgili beşinci dereceden denklem nedeniyle kapalı formda bir çözümün şu anda mümkün olmadığından, ancak görüntü hatasını en aza indirmenin hala mümkün olduğundan bahsediyor. Negatif alfa veya beta içeren çözümleri atarak ve beşli bir çözücü kullanarak görüntüdeki hata en aza indirilebilir.

  • 00:50:00 Bu bölümde konuşmacı, dünyadaki hata ile görüntüdeki hata arasındaki dönüştürme faktörünü hesaba katarak binoküler stereodaki kareler toplamı hatasını en aza indirme problemini tartışıyor. Bu, çözüme bağlıdır ve yinelemeli olarak çözülür. Sol koordinat sisteminden sağa döndürülen üçlü çarpım, kuaterniyonları tanıtmak için kullanılır. Konuşmacı, üçlü çarpımı sağ koordinat sisteminden sola döndürmek için sıfır skaler kısımlı kuaterniyonların nasıl kullanıldığını açıklıyor. Vektörleri temsil eden kuaterniyonlar arasındaki çarpma formülü, yalnızca iç çarpımı ve çapraz çarpımı basitleştirir. Lemma, çarpanlardan birini diğer tarafa taşımanın bir yolu için kanıtsız olarak ifade edilir.

  • 00:55:00 Bu bölümde, konuşmacı, nesnenin farklı bakış açılarından çekilmiş iki görüntüsü verildiğinde, taban çizgisinin nasıl bulunacağını ve uzayda sert bir nesnenin konumunun ve yönünün nasıl düzeltileceğini açıklar. Konuşmacı taban çizgisi ve döndürmenin ürünü olan yeni bir nicelik tanımlar ve taban çizgisini temsil etmek için bir dördeyi kullanır, taban çizgisini ve D'yi bulma problemini basitleştirir. 8 bilinmeyen varken, yalnızca beş serbestlik derecesi vardır, bu nedenle konuşmacı çeşitli kısıtlamalar kullanır. Ayrıca sol ve sağ koordinatların değiş tokuşuna izin veren ilginç simetrilerden de bahsediyorlar. 3B uzaydaki hata ile görüntü konumundaki hata arasındaki ilişki olan ağırlığın hesaplanması zordur ancak ayarlanabilir.

  • 01:00:00 Bu bölümde, konuşmacı iyi bir ilk tahmine dayalı olarak ağırlıkları hesaplamayı ve ardından bu ağırlıkları yeniden hesaplamayı ve sorunu yeniden çözmeyi içeren bir optimizasyon problemini tartışıyor. Ayrıca, sol ve sağ diziler arasındaki simetriye ve bunun sayısal hesaplamada nasıl yararlı olabileceğine ve üçlü çarpımda döndürme ve öteleme arasındaki simetriye değinirler. Nihayetinde bu simetri, eğer birinin yaklaşık bir çözümü varsa, bu simetriyi kullanarak başka yaklaşık çözümler üretebileceği anlamına gelir. Ayrıca, çözüm arama sürecinde, hepsi aynı sonuçları veren birden çok sürüm bulunabilir ve bu da arama sürecini hızlandırmaya yardımcı olabilir.

  • 01:05:00 Bu bölümde eğitmen, basit bir en küçük kareler kapalı form çözümü ile bilinmeyen değerlerden birinin varsayımını gerektiren sayısal bir yaklaşım kullanarak dönme uzayının hesaplanmasını tartışır. Başka bir yaklaşım, denklemler mümkün olduğunca sıfıra yakın olana kadar parametreleri ayarlayan Marquardt yöntemi gibi doğrusal olmayan bir optimizasyon paketi kullanmaktır. Ancak bu yaklaşımların bu sorun için kapalı formda bir çözümü olduğu düşünülmemektedir. Ayrıca eğitmen, ortonormal matris yöntemi nedeniyle, dokuz sayı ve yalnızca üç serbestlik derecesi olduğundan, döndürmelerle ilgili bir sorun olduğunu açıklar, bu da teta eşittir pi'de Gibbs vektörü ile bir tekilliğe yol açar.

  • 01:10:00 Bu bölümde, konuşmacı, üç serbestlik dereceli dört sayıya sahip olduklarını öne sürerek, birim dördeylerin rotasyonları temsil etmek için kullanımını tartışıyor. Daha az gereksiz hale getirmek için ek kısıtlamalar eklenmesini tavsiye ediyor ve bu paketin bu kısıtlamaların eklenmesine izin verdiğini belirtiyor. Ayrıca, iki dönüşü birleştirme formülüne ve biraz daha karmaşık olan bir vektörün dönüşümüne değiniyor. Ek olarak, konuşmacı, kuaterniyonlar hakkında bilmeniz gereken her şeyi özetleyen dört sayfalık bir tanıtım yazısı olduğunu vurguluyor. Son olarak, hata ölçülerinin kullanımını ve büyük hataları önlemek için daha büyük z-değerlerini dikkate alırken ağırlığın nasıl gerekli olduğunu tartışır.

  • 01:15:00 Bu bölümde, konuşmacı belirli türdeki yüzeylerin bir nesnenin yönünü belirlemede dürbün stereo yönteminde sorunlara neden olabileceğini açıklıyor. Bu "kritik yüzeyler" bir asırdan uzun bir süre önce keşfedildi ve belirsizliğe ve hataya karşı yüksek duyarlılığa neden olabilir. Konuşmacı, yüzey özelliklerinin farklı görüntüleri arasındaki açıların uçak yüzey boyunca hareket ettikçe değişmediği ve farklı konumların ayırt edilmesini imkansız hale getirdiği U şeklinde bir vadi örneği verir. Konuşmacı, bir sayfanın hiperboloitinin, bir sayfa için doğru sayıda eksi işaretine sahip olduğundan ve diğer yüzeylere çok benzeyebildiğinden, binoküler stereo ile sorunlara neden olabilen bir kuadrik yüzeyin yaygın bir örneği olduğunu belirtiyor.

  • 01:20:00 Bu bölümde, konuşmacı ikinci dereceden yüzeylerden, özellikle de bu yüzeyin bir versiyonunu oluşturan kesişen iki düzlemden bahsediyor. Her düzlemin doğrusal bir denklemi vardır ve birlikte çarpıldığında iki düzlemin birleşimi elde edilir. Uçaklardan biri izdüşüm merkezinden geçer, yani bir çizgi şeklinde çıkıntı yapar. Bu daha da tuhaf, çünkü bu, insan yapımı yapılarda yaygın olan bir düzlemsel yüzey sorunu olduğu anlamına geliyor. Konuşmacı bir dahaki sefere "korkusuz yansıtma" hakkında konuşmak zorunda olduğundan bahsediyor ve yeni bir ev ödevi problemi ortaya atılıyor.
Lecture 20: Space of Rotations, Regular Tessellations, Critical Surfaces, Binocular Stereo
Lecture 20: Space of Rotations, Regular Tessellations, Critical Surfaces, Binocular Stereo
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Ders 21: Bağıl Oryantasyon, Binoküler Stereo, Yapı, Kuadrikler, Kalibrasyon, Yeniden Projeksiyon



Ders 21: Bağıl Oryantasyon, Binoküler Stereo, Yapı, Kuadrikler, Kalibrasyon, Yeniden Projeksiyon

Bu ders, bağıl oryantasyon, kuadrik yüzeyler, kamera kalibrasyonu ve görüntü noktaları ile bilinen 3B nesneler arasındaki yazışmalar dahil olmak üzere fotogrametri ile ilgili konuları kapsar. Öğretim üyesi distorsiyon problemlerini çözmek ve f ve tz gibi parametreleri elde etmek için çeşitli yöntemleri açıklar. Ayrıca, tam dönme matrisini bulurken ortogonal birim vektörlerin önemini vurgularlar ve daha kararlı bir formül kullanarak k'yi bulmak için çözümler sunarlar. Öğretim görevlisi, yapay görmede kritik olan homojen denklemleri anlamanın önemini vurgular.

Bu ders, kalibrasyon için düzlemsel bir hedef kullanma, dış yönelimi kalibre etmenin belirsizliği, dönüş parametrelerini temsil etmede fazlalık ve gürültü kazanç oranı aracılığıyla verilen parametrelerin istatistiksel özelliklerini belirleme dahil olmak üzere bilgisayarla görme ve kalibrasyonla ilgili çeşitli konuları kapsar. Ders, ikinci dereceden bir denklemi çözmek için formülü açıklar ve yinelemeyi içeren bir yaklaşım yöntemini sunar. Düzlemsel hedef durumu, kalibrasyon ve yapay görme uygulamaları için yaygın olarak kullanılan bir yöntem olarak tartışılmaktadır. Ders ayrıca şeklin temsiline ve tanımaya ve 3B uzayda tutum belirlemeye değinir.

  • 00:00:00 Bu bölümde, konuşmacı fotogrametrideki dört problemden ikincisi olan göreli oryantasyonu ve bunun binoküler stereo, hareket görüşü ve hareketten yapı ile ilişkisini tartışıyor. Konuşmacı bir çözüm geliştirir ancak göreli yönelimin belirlenemediği yüzeyler, özellikle kuadrik yüzeyler olduğunu not eder. Ardından ders, elipsoidler, bir veya iki tabakanın hiperboloitleri ve hayali şekillere sahip yüzeyler gibi belirli kuadrik yüzey türlerini daha derinlemesine inceler. Konuşmacı, bir yüzeyin sabit bir terime sahip olmamasının, sağ el sisteminin orijininin veya hareketli görüşte ikinci andaki kamera konumunun yüzeyde olduğu anlamına geldiğini açıklar. Ek olarak, r için eksi b eklenirse, burada b iki kamera arasındaki mesafedir, bu da bir çözümle sonuçlanır, bu da yüzeyin her iki gözden geçtiği anlamına gelir.

  • 00:05:00 Dersin bu bölümünde, konuşmacı bir stereo çiftte sol ve sağ kamera konumları arasında simetrik olan ikinci dereceden yüzey denkleminin özelliklerini ve sonuçlarını tartışıyor. Denklemin sabit terimi yoktur, yani ölçekleme yoktur ve taban çizgisinin tamamı yüzeydedir. Bu, yüzeyin regle bir yüzey olduğunu ve iki çizgiye sahip olduğunu düşündürür, bu da onu üretim için ilginç kılar. Denklem, düzlemlerden birinin her iki koordinat sisteminin orijinden epipolar bir düzlem olarak geçtiği düzlemsel yüzeyler de dahil olmak üzere çeşitli özel durumları kapsar. Bu düzlemin görüntüsü, özellikle ilginç olmayan düz bir çizgidir, ancak diğer düzlem keyfidir ve herhangi bir şey olabilir.

  • 00:10:00 Bu bölümde, öğretim görevlisi, iki problem matematiksel olarak aynı olduğundan, topografik haritaları yeniden oluştururken veya hareketten yapıyı kurtarırken belirsizlik konusunu tartışır. Bu sorunun dar görüş alanlarında ortaya çıkma olasılığı daha yüksek olsa da, yüksek gürültü kazancı durumunda yine de artabilir. Bu sorunla mücadele etmek için geniş bir görüş alanı önerilir, bu nedenle hava fotoğrafçılığı için geniş bir görüş alanı elde etmek için birbirine monte edilmiş bir dizi kamera olan örümcek kafaları yaratılmıştır. Öğretim görevlisi daha sonra esas olarak kamera kalibrasyonu olan iç yönlendirmeye geçer. Kaçış noktalarını kullanan önceki kalibrasyon yöntemi işe yarasa da, radyal distorsiyonu hesaba katmak çok doğru ve zorlayıcı değildi. Öğretim görevlisi, radyal distorsiyonu hesaba katmak için daha genel bir yönteme ihtiyaç olduğunu öne sürüyor.

  • 00:15:00 Bu bölümde öğretim görevlisi, görüntünün olması gerektiği yerde değil de bir çizgi boyunca başka bir yerde görünebileceği kutupsal koordinatlarda bir hataya neden olan radyal distorsiyon da dahil olmak üzere lens tasarlamanın getirdiği ödünleşimleri tartışıyor. Bu bozulmaya genellikle bir polinom kullanılarak yaklaşılır ve ikinci dereceden terim genellikle iyi sonuçlar almak için yeterlidir. Ders, geçmişte bir merceğin bozulmasını ölçmek için kullanılan çekül hattı yöntemini anlatarak devam ediyor.

  • 00:20:00 Bu bölümde konuşmacı, namlu distorsiyonu ve iğne yastığı distorsiyonu dahil olmak üzere görüntülerde meydana gelebilecek farklı distorsiyon türlerini ve bunların k1'in işaretiyle nasıl ilişkili olduğunu tartışır. Konuşmacı ayrıca bozulmuş ve bozulmamış koordinatlar arasında dönüşüm yapmak için bir polinom yaklaşımı kullanma olasılığından ve bunun kullanılan son optimizasyonu ve koordinat sistemini nasıl etkilediğinden bahseder. Konuşmacı, modern görüntüleme sistemlerinde teğet distorsiyonun olmadığını, çünkü bunlar tipik olarak dönme simetriktir ve yalnızca radyal distorsiyon yaşarlar.

  • 00:25:00 Bu bölümde öğretim görevlisi, bozulmanın merkezden uzaklaştırılması ve eğik bir görüntü düzlemi gibi kamera kalibrasyonundaki olası komplikasyonları tartışır. Hava fotoğrafçılığı gibi yüksek kaliteli işler için bu faktörlerin dikkate alınması gerekir. Öğretim görevlisi, kamera üretiminin mekanik yapısından dolayı büyütme ve görüntü bozulmasını etkileyebilecek küçük hatalar olasılığının olduğunu açıklıyor. Bu, bozulma için daha karmaşık bir modele sahip olunarak telafi edilebilir ve Tsai'nin kalibrasyon yöntemi, düzlemsel veya üç boyutlu olabilen bir kalibrasyon nesnesinin kullanılmasını içerir. Öğretim görevlisi ayrıca geçmişte bunun daha çok üretim sırasında kameranın ince ayarını yapmakla ilgili olduğunu, ancak modern zamanlarda bozulmayla başa çıkmak için bir yazılım çözümü ve model uzantılarının kullanıldığını açıklıyor.

  • 00:30:00 Bu bölümde konuşmacı, bir 3B nesne üzerindeki görüntü noktaları ile bilinen noktalar arasındaki yazışmaları belirleme sürecini tartışıyor. Ancak, ufuk noktası yönteminden farklı olarak, kalibrasyon nesnesi ile kamera arasındaki ilişkiyi bir mezura kullanarak belirlememiz pek olası değildir. Bu nedenle, kamera parametrelerini bulmaya ek olarak, kalibrasyon nesnesinin uzayda nerede olduğunu ve nasıl döndüğünü bulma sorununu çözmek için dış yönlendirmeyi eklememiz gerekir. Dış yönlendirme daha fazla bilinmeyen eklerken, daha doğru sonuçlar üretir. İç oryantasyon, perspektif projeksiyon denklemini ve ana noktayı ve ana mesafeyi içerir. Bunun için strateji, zor parametreleri ortadan kaldırmak ve radyal distorsiyona bağımlılığı azaltmak için ölçümleri değiştirmek için bir yöntem bulmak ve ardından sayısal yöntemlere başvurmadan önce bazı parametreler için yakın biçimli bir çözüm bulmaktır.

  • 00:35:00 Videonun bu bölümünde konuşmacı, binoküler stereoda göreli yönelimi hesaplarken yinelemeli çözüm için iyi bir ilk tahminin nasıl elde edileceğini açıklıyor. Yerleşik ilkelerin akılda tutulması gerekirken, ilk tahmin cevap olmadığı için bu aşamada bu ilkelerin bazı ihlallerine izin verilir. Konuşmacı, xi ve yi koordinatları için satır ve sütun numaralarını kullanmanın ve f'yi piksel boyutunda ifade etmenin ilk tahminin belirlenmesi işlemi için uygun olduğunu açıklar. Kalibrasyon nesnesinin doğru bir şekilde bilinen dönüşü ve ötelenmesi de dahil olmak üzere dış yönelim de tartışılmaktadır. Kalibrasyon nesnesindeki bir konumu kamera nesnesindeki bir konuma dönüştürmek için tipik olarak kullanılan denklemler ters çevrilir ve bilinmeyen döndürme ve öteleme parametrelerini denemek ve kurtarmak için kullanılır.

  • 00:40:00 Videonun bu bölümünde, konuşmacı radyal distorsiyonla başa çıkmanın ve f ve tz'yi elde etmenin zorluklarını tartışıyor. Önerilen çözüm, radyal distorsiyonun açıyı değil sadece uzunluğu değiştirdiği kutupsal koordinatlarda çalışmak ve daha az bilinmeyenli bir denklem kullanmaktır. Denklem, kalibrasyon nesnesinin koordinat bileşenlerini ve bilinen görüntü koordinatlarını ve r, tx ve ty'nin bilinmeyen bileşenlerini içerir. Çözüm için gerekli olan asal noktanın konumuna yaklaşmak için doğrusal bir denklem oluşturulabilir.

  • 00:45:00 Bu bölümde, konuşmacı bir görüntü sensörünün temel noktasını belirleme sürecini ve makine görüsünde homojen denklemlerin kullanımını tartışıyor. Ana noktayı belirlemek için, konuşmacı bir merkez noktası varsaymayı ve merkeze çok yakın olan yazışmaları atmayı önerir çünkü küçük hatalar yönlerini önemli ölçüde etkileyebilir. Merkez noktası varsayıldıktan sonra, konuşmacı her karşılık gelen sekiz bilinmeyeni bulmak için sekiz denklemin gerekli olduğunu ve bu denklemlerin homojen olduğunu ve sıfırla sonuçlandığını açıklar. Geleneksel eğitimde homojen denklemler genellikle göz ardı edilirken, yapay görmede çok önemlidirler ve onlarla nasıl çalışılacağını bilmek çok önemlidir.

  • 00:50:00 Bu bölümde konuşmacı, homojen denklemleri bilinmeyenlerden birini sabitleyerek ve bunu bir seçim değerine ayarlayarak bilinmeyen sayısını yediye indirerek çözme yöntemini tartışıyor. Bu, en az yedi yazışmanın gerekli olduğu ve hatayı tahmin etmek için daha fazlasının olması istendiği anlamına gelir. Aşırı belirlenmiş lineer denklem sistemi daha sonra Pseudo-inverse gibi teknikler kullanılarak çözülebilir. Son olarak, hesaplanan vektörleri birim vektörler haline getirmek için bir ölçek faktörü hesaplanır ve bu, tanımlanan yazışmalar için bir akıl sağlığı kontrolü görevi görür. Yöntem, daha fazla analiz gerektiren F, Tz, radyal bozulma ve Tz dışındaki tüm bilinmeyenler için bir ilk tahmin sağlar.

  • 00:55:00 Bu bölümde ders f ve tz'yi bağıl yönelim, binoküler stereo, yapı, kuadrikler, kalibrasyon ve yeniden yansıtma ile ilgili olarak bulma sürecini açıklar. Ders, tam dönme matrisini bulurken ortogonal birim vektörlerin önemini vurgulamaktadır. Ortogonal olmayan iki vektör mevcut olduğunda, ortogonal olan bir vektör çiftiyle sonuçlanacak küçük bir ayarlama gerekir. Ders daha sonra ikinci dereceden denklemin k'yi bulmakta nasıl sorunlu olabileceğini açıklamaya devam eder, bu nedenle daha kararlı olan başka bir formül kullanılır.

  • 01:00:00 Bu bölümde öğretim görevlisi, ikinci dereceden bir denklemi çözme formülünü ve neredeyse eşit boyutlu niceliklerin çıkarılmasından dolayı hesaplamada meydana gelebilecek potansiyel kesinlik kaybını tartışır. Öğretim görevlisi, basit bir çözüm sağlayabilen yinelemeyi içeren bir yaklaşım yöntemi sunar. Tartışma ayrıca, yüksek doğruluğu ve kullanım kolaylığı nedeniyle kalibrasyon ve yapay görme uygulamalarında yaygın olarak kullanılan düzlemsel hedef durumunu da içerir. Öğretim görevlisi, bileşenlerin iki farklı eksen boyunca dönüşünü ölçmek için hedefe doğru şekilde belirlenmiş özellik köşelerine sahip bir modelin monte edildiğini ve yüksek doğrulukta tekerlek hizalamasına izin verdiğini açıklar.

  • 01:05:00 Bu bölümde öğretim görevlisi, bilinen x, y ve z değerleri ile bir koordinat sisteminin oluşturulmasına izin veren kalibrasyon için düzlemsel bir hedef kullanmayı tartışır. Bu yaklaşımın denkleminde daha az bilinmeyen vardır ve yedi yerine yalnızca beş karşılık gelmesi gerekir, bu da onu daha verimli bir yöntem yapar. Ancak, y ötelemesi sıfırsa, bu yöntem yanlış olabilir ve daha doğru çözümler için tx'in bire eşit olarak ayarlanması önerilir. Ders ayrıca, düzlemsel durum için döndürme matrisinin ilk ikiye iki parçasını kurtarmaya da değiniyor.

  • 01:10:00 Bu bölümde öğretim görevlisi, eski günlerde x ve y yönündeki adımların en-boy oranı arasındaki ilişkiyi bulmanın zorluğunu anlatıyor. Yatay ve dikey aralığı farklı şeyler kontrol ettiğinden, x'i y'ye göre ölçeklendirecek başka bir parametreye ihtiyaç vardı. Ders, ortalığı karıştıran cebir kullanımından bahseder, bu nedenle, en-boy oranını tam olarak bulmak için üreticilerin teknik özellik sayfaları kullanılabilir. Öğretim görevlisi ayrıca, perspektif izdüşüm denklemi ve bilinmeyenleri, f ve tz'yi bilerek, her ikisini de hesaplamak için tek bir karşılık gelmenin mümkün olduğunu açıklıyor. Ancak, bir kalibrasyon hedefi düzlemi kullanmaya çalışırken derinlik değişimiyle ilgili bir sorun vardır.

  • 01:15:00 Bu bölümde, öğretim görevlisi bilgisayarla görüde dış yönlendirmeyi kalibre etmenin belirsizliğini tartışıyor. Ölçek faktörü belirsizliği nedeniyle odak uzaklığı ve ötelemeyi ayrı ayrı belirlemek imkansızdır ve bu nedenle derinlikte varyasyonlara ihtiyaç vardır. Öğretim görevlisi, kalibrasyon hedefi 45 derecelik bir açıyla monte edilmemişse dış yönün belirsiz olduğunu açıklar. Son olarak, ana nokta ve radyal distorsiyon tartışılır ve tahmin edilen ve gerçek görüntü koordinatları arasındaki hatayı en aza indirmek için doğrusal olmayan bir optimizasyon gerekir. Bu amaç için MATLAB içinde yerleşik olan LM Diff paketi önerilir.

  • 01:20:00 Dersin bu bölümünde sunum yapan kişi, dönme parametrelerini temsil etmede fazlalık sorununu tartışır ve Euler açıları, Gibbs vektörü ve birim kuaterniyonlar gibi çözümler önerir. Bununla birlikte, birim dördeyler, üç serbestlik derecesi için dört sayı ile gereksizdir. Sunum yapan kişi, kısıtlamayı uygulamak için başka bir denklem ve kuaterniyonun boyutu ile bir arasındaki farkla orantılı bir hata terimi eklemeyi önerir. Ders ayrıca gürültü kazancı sorununa ve analitik bir yöntemin yokluğunda bu sorunu çözmek için Monte Carlo yöntemlerinin kullanımına da değinir.

  • 01:25:00 Bu bölümde konuşmacı, girdilerle birçok kez kurcalayarak gürültü kazanç oranı yoluyla belirli bir yanıtın istatistiksel özelliklerinin nasıl belirleneceğini açıklar. Parametre uzayındaki cevap dağılımını analiz etmeyi ve radyal distorsiyonun yüksek dereceli katsayıları gibi belirli faktörlerin, gürültü ölçümlerine duyarlılık nedeniyle yetersiz belirlendiğini bulmayı sağlar. Tartışılacak bir sonraki konu, 2B tanıma ve kalıplarda tutum belirleme konusunda şimdiye kadar oluşturulmuş bilgileri kullanarak, şeklin ve tanımanın ve 3B uzayda tutum belirlemenin temsilidir.
Lecture 21: Relative Orientation, Binocular Stereo, Structure, Quadrics, Calibration, Reprojection
Lecture 21: Relative Orientation, Binocular Stereo, Structure, Quadrics, Calibration, Reprojection
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...