Apprendimento automatico e Reti Neurali - pagina 13

 

Lezione 12: Blob Analysis, Binary Image Processing, Teorema di Green, Derivata e Integrale



Lezione 12: Blob Analysis, Binary Image Processing, Teorema di Green, Derivata e Integrale

In questa conferenza, il professore copre una vasta gamma di argomenti tra cui proprietà intellettuale, brevetti, marchi e tecniche di elaborazione delle immagini per il rilevamento dei bordi. La conferenza sottolinea l'importanza della precisione nella visione artificiale 2D e le sfide nel rilevare bordi sfocati o sfocati. Il professore copre i metodi per trovare derivate parziali miste, laplaciani e rilevamento dei bordi utilizzando l'interpolazione sub-pixel, insieme a tecniche per la compensazione del bias e la calibrazione correttiva nella ricerca del picco. Nel complesso, la conferenza fornisce una panoramica completa di questi argomenti e delle loro applicazioni pratiche.

In questa conferenza sull'elaborazione delle immagini, il relatore discute vari metodi per evitare la quantizzazione delle direzioni del gradiente e migliorare la precisione nella determinazione della posizione del bordo. L'interpolazione è suggerita come metodo preferito rispetto alle tabelle di ricerca e alla quantizzazione per una determinazione più precisa della direzione del gradiente. Inoltre, la fissazione della dimensione del passo con un cerchio e l'utilizzo dell'analisi multiscala sono discussi come metodi alternativi di calcolo del gradiente. Il relatore spiega anche un approccio iterativo alla rotazione di un'immagine per ridurre a zero la componente y del gradiente e introduce il concetto di corda per ruotare attraverso angoli speciali. Si ricorda agli studenti di iniziare presto il quiz poiché è più faticoso del tipico problema dei compiti a casa.

  • 00:00:00 In questa sezione, il professore discute il prossimo quiz che è più lungo e conta il doppio di un compito a casa. Il quiz copre il contenuto del corso fino a questo punto, con maggiore enfasi sui materiali recenti. Il professore fornisce quindi una breve discussione sulla proprietà intellettuale e sui brevetti, accennando ai diversi tipi di brevetti come i brevetti di utilità e di design. Viene discusso anche il contratto sociale tra i detentori di brevetti e il governo, in cui i detentori di brevetti ricevono un monopolio limitato per un certo numero di anni in cambio della spiegazione esatta di come fare qualcosa. La discussione si conclude toccando il concetto giuridico di best mode nel contenzioso brevettuale.

  • 00:05:00 proteggi il tuo marchio o logo puoi farlo con un marchio. Esistono eccezioni per l'utilizzo di piccole porzioni di materiale protetto da copyright, ad esempio per scopi didattici, e per il software di reverse engineering senza violare le leggi sul copyright. Le leggi sul copyright erano utilizzate per proteggere la vita dell'autore più un certo numero di anni, ma da allora sono state aggiornate alla vita dell'autore più 75 anni o più. Le leggi sui marchi proteggono marchi e loghi, che sono più restrittivi dei diritti d'autore.

  • 00:10:00 In questa sezione, il relatore discute le regole relative alla registrazione del nome e del logo di un'azienda, sottolineando che deve essere unico nel campo e non può essere una parola comune. Il marchio può anche includere forme, segni e colori, che possono servire a proteggere l'azienda. L'oratore tocca anche il concetto di segreti commerciali, in cui l'azienda mantiene segreti i dettagli del proprio prodotto, sebbene non abbia protezione legale. L'oratore introduce quindi un brevetto di basso livello relativo alla ricerca dei bordi e menziona che una volta trovati i bordi, è possibile eseguire attività di elaborazione delle immagini più complesse per il riconoscimento degli oggetti e la determinazione della posizione e dell'atteggiamento. Il relatore osserva che nel mondo della visione artificiale 2D, la precisione è incredibilmente importante e deve funzionare quasi perfettamente.

  • 00:15:00 In questa sezione, il docente passa in rassegna le basi dell'analisi blob e dell'elaborazione di immagini binarie discutendo vari metodi utilizzati per stimare le derivate. La prima idea discussa è stata quella di osservare il gradiente di luminosità per identificare un punto di flesso come bordo, e quindi osservare la derivata, che sta cercando un picco. Sono stati esaminati vari metodi di stima delle derivate, come diverse approssimazioni per e sub x, e il termine di errore di ordine più basso è stato trovato utilizzando l'espansione in serie di Taylor. Infine, la lezione approfondisce l'analisi del segnale elettrico muscolare e quanto può diventare complesso il processo quando si cercano derivate prime ad alta precisione a causa del rumore e della distorsione del segnale.

  • 00:20:00 In questa sezione, il docente discute i compromessi coinvolti nella scelta della lunghezza dell'operatore di bordo per rilevare i bordi. Spiega che l'uso di un operatore troppo lungo può portare a caratteristiche diverse che interagiscono tra loro, rendendo difficile il rilevamento dei bordi. Questo compromesso è applicabile quando si rilevano i bordi in un'immagine di un cubo, dove i bordi si avvicinano abbastanza l'uno all'altro. Il docente spiega quindi come le derivate di secondo ordine possono essere calcolate utilizzando la convoluzione delle derivate prime applicata due volte e mostra come questo metodo può essere utilizzato per verificare l'accuratezza dei risultati. Infine, spiega l'importanza di verificare i diversi modi di progettare molecole computazionali utilizzate per derivare derivati.

  • 00:25:00 In questa sezione della lezione, il professore spiega il processo di ricerca di derivate parziali miste utilizzando uno stencil 2D. Lo stencil comporta il capovolgimento di una delle funzioni e la sovrapposizione sull'altra per identificare le aree di sovrapposizione, ottenendo uno stencil 2x2. Il professore osserva che è importante fare attenzione alle inversioni di segno quando si utilizzano stampini computazionali che non vengono capovolti. Sottolineano inoltre che la derivata parziale mista può essere pensata come una derivata seconda in un sistema di coordinate ruotato. Nel complesso, la sezione fornisce una spiegazione chiara e dettagliata della ricerca di derivate parziali miste in 2D.

  • 00:30:00 In questa sezione, l'argomento del Laplaciano viene reintrodotto come operatore di derivata seconda, dove vengono aggiunti due operatori in direzioni ortogonali per ottenere un'approssimazione del Laplaciano per un operatore differenziale a simmetria centrale. Viene quindi introdotta una somma ponderata di questi due operatori per creare una versione più uniforme del laplaciano per un operatore differenziale a simmetria centrale, e questo nuovo operatore è ancora più efficiente dal punto di vista computazionale quando applicato a un'immagine. Inoltre, vengono discusse le tecniche per determinare i valori di questi coefficienti ponderati, come il termine di errore di ordine più basso o le somme uguali a zero.

  • 00:35:00 In questa sezione, il relatore discute il problema dell'utilizzo di pixel rettangolari anziché esagonali. Spiega le situazioni in cui le persone sono preoccupate per l'efficienza, come nell'imaging del buco nero al centro della nostra galassia usando le frequenze radio. L'oratore distingue anche tra operatori lineari e non lineari e discute l'uso di stampini da parte di Robert nel calcolo delle derivate nel sistema di coordinate ruotato. Inoltre, spiega la soppressione non massima, il concetto di applicare operatori di bordo ovunque per ottenere una risposta debole ovunque, ma una risposta forte sui bordi.

  • 00:40:00 In questa sezione, il relatore discute il concetto di rilevamento dei bordi e sottolinea gli svantaggi dell'applicazione di una soglia per il rilevamento dei bordi. Invece, il relatore propone di rimuovere tutto tranne il valore massimo nella direzione del gradiente per identificare il punto di bordo. Il relatore parla anche della non massima soppressione e dei problemi di asimmetria nello spareggio. Infine, il relatore spiega come adattare una parabola al profilo di risposta del bordo per determinare la posizione del bordo sub-pixel. Il relatore riconosce che la scelta della forma della curva è arbitraria, ma spiega come l'adattamento di un polinomio di secondo ordine potrebbe funzionare come una buona ipotesi nella maggior parte dei casi.

  • 00:45:00 In questa sezione, apprendiamo il rilevamento dei bordi utilizzando l'interpolazione sub-pixel. La direzione del gradiente ci dice l'orientamento del bordo, che poi quantizziamo per aiutare a proiettare il potenziale punto del bordo sulla posizione effettiva del bordo. Possiamo quindi eseguire la compensazione del bias per stimare con maggiore precisione la posizione del bordo utilizzando un metodo parabolico o triangolare. In questo modo, possiamo trovare il picco del bordo e migliorare la precisione prendendo il punto più vicino all'origine.

  • 00:50:00 In questa sezione della conferenza, il relatore discute un metodo per la calibrazione correttiva del rilevamento del picco per il rilevamento del bordo subpixel. In sostanza, il metodo comporta lo spostamento sperimentale del bordo e la misurazione dell'accuratezza del metodo di ricerca del picco rispetto al valore di picco effettivo, al fine di creare una tabella di ricerca correttiva per il metodo. L'oratore parla anche di come le forme dei bordi possono differire e dimostra come approssimare la forma utilizzando un adattamento a un parametro. Nonostante queste differenze, è necessaria solo una piccola correzione al metodo per la precisione del rilevamento dei bordi subpixel.

  • 00:55:00 In questa sezione della lezione, il professore discute il concetto di bordi sfocati e perché sono importanti per il recupero sub-pixel ed evitare problemi di aliasing. Il professore spiega che uno dei motivi per i bordi sfocati è la sfocatura. Usando l'esempio di un obiettivo fotografico, il professore mostra che un oggetto a fuoco verrà catturato come un punto, mentre lo stesso oggetto leggermente sfocato verrà catturato come un cerchio con luminosità uniforme. Per compensare ciò, il professore introduce la funzione del passo unitario e la funzione di diffusione del punto, e spiega come queste possono essere utilizzate per descrivere il cerchio di luminosità uniforme in funzione di x e y.

  • 01:00:00 In questa sezione, l'oratore spiega l'effetto di essere fuori fuoco e come calcolare la risposta geometricamente sovrapponendo il bordo e il cerchio. L'area del settore del cerchio e l'area del triangolo vengono utilizzate per trovare la differenza tra le due forme. Theta viene utilizzato per calcolare l'area e vengono spiegati i dettagli per dimostrare la risposta tra zero e uno.

  • 01:05:00 In questa sezione, l'oratore discute la creazione di un diagramma per calcolare l'errore nel determinare con precisione la posizione del bordo utilizzando un algoritmo. Dicono che questo errore potrebbe essere piccolo ma diverso da zero ed è essenziale tenerne conto per un'elevata precisione. L'oratore parla quindi dei modi per evitare la quantizzazione delle direzioni del gradiente, che può introdurre imbarazzo a causa della spaziatura disponibile in due dimensioni. Discutono che ciò potrebbe causare contributi di errore leggermente diversi e suggeriscono un paio di modi per evitarlo. La sezione si conclude con una discussione sulla violazione dei brevetti e sui modi per evitarla, in cui l'obiettivo è rendere l'invenzione diversa piuttosto che migliore.

  • 01:10:00 In questa sezione del video, il docente discute un metodo preferito per evitare di quantizzare le direzioni del gradiente presenti in alcuni brevetti. Invece di usare quel metodo, suggerisce di interpolare per evitare la quantizzazione delle direzioni del gradiente. Mediante l'interpolazione, i valori possono essere approssimati uniformemente e la direzione del gradiente può essere determinata con precisione. Il docente ritiene che questo metodo sia un miglioramento della precisione, eliminando la necessità di creare una tabella di ricerca o quantizzare e apportare correzioni al grafico di polarizzazione. Lo svantaggio di questo approccio è che viene utilizzata un'interpolazione, quindi c'è una mancanza di accuratezza rispetto alla conoscenza dell'esatto valore misurato, ma in molti casi può essere trascurabile.

  • 01:15:00 In questa sezione della conferenza, il relatore discute un metodo alternativo per il calcolo del gradiente che comporta la fissazione della dimensione del passo invece di modificarla. Questo metodo utilizza un cerchio per determinare la spaziatura dei pixel e fornisce una direzione del gradiente più continua con una minore quantizzazione. Tuttavia, questo approccio richiede l'interpolazione, bilineare o bicubica, e può richiedere un lavoro extra a causa della necessità di tenere conto di più pixel. Inoltre, il relatore parla dell'utilità dell'analisi multiscala per trovare bordi nitidi e sfocati nelle immagini. Infine, il relatore accenna brevemente all'implementazione preferita per la trasformazione da coordinate cartesiane a polari, che comporta la rotazione del sistema di coordinate.

  • 01:20:00 In questa sezione, il relatore discute un metodo per ruotare un'immagine per ridurre a zero la componente y del gradiente utilizzando un approccio iterativo. Per fare ciò, l'angolo di rotazione viene manipolato in modo iterativo finché l'ampiezza della componente y non viene ridotta a zero. L'oratore suggerisce una strategia per utilizzare una sequenza di angoli di prova e ridurre l'ampiezza della componente y ad ogni iterazione. Gli angoli sono scelti in modo che siano potenze inverse di 2, il che consente di ridurre il numero di moltiplicazioni da quattro a due. L'approccio iterativo viene ripetuto finché l'angolo di rotazione non è sufficientemente piccolo.

  • 01:25:00 In questa sezione, l'oratore spiega il concetto di corda che comporta la rotazione attraverso angoli speciali che hanno una proprietà in cui la tangente di theta i è uno su due rispetto a i. Il processo iterativo implica il cambiamento di quell'angolo e il tenere traccia del fatto che sia diventato negativo o meno. La prima cosa da fare è portarlo al primo ottante che è banale guardando solo i segni di x e y e se y è maggiore di x. La prossima lezione riguarderà la multiscala e il campionamento e l'oratore ricorda agli spettatori di iniziare presto il quiz poiché è più faticoso del tipico problema dei compiti a casa.
Lecture 12: Blob Analysis, Binary Image Processing, Green's Theorem, Derivative and Integral
Lecture 12: Blob Analysis, Binary Image Processing, Green's Theorem, Derivative and Integral
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 13: Rilevamento di oggetti, riconoscimento e determinazione della posizione, PatQuick (brevetto USA 7016539)



Lezione 13: Rilevamento di oggetti, riconoscimento e determinazione della posizione, PatQuick (brevetto USA 7016539)

La conferenza si concentra sul rilevamento, il riconoscimento e la determinazione della posa degli oggetti, con particolare attenzione al brevetto PatQuick (US 7,016,539). Il brevetto mira a rilevare e determinare la posa degli oggetti nello spazio e offre un miglioramento rispetto ai metodi precedenti, utilizzando una rappresentazione astratta chiamata modello che viene confrontata con un'immagine di runtime in diverse pose e rotazioni. Il brevetto incorpora anche un elenco di gradi di libertà generalizzati per aumentare la precisione e utilizza il filtraggio passa-basso e il rilevamento dei bordi per ottenere punti di confine, posticipando la soglia fino alle fasi finali. Inoltre, la conferenza discute il processo di creazione di modelli utilizzando il rilevamento dei bordi e le sonde con la spaziatura e il contrasto desiderati per rappresentare questi modelli, spiegando l'importanza di considerare i gradi di libertà come traslazione, rotazione, ridimensionamento e proporzioni, che consentono variazioni in dimensioni e prospettive degli oggetti.

Il video illustra i modelli di ricerca esagonali utilizzati per una ricerca traslazionale efficiente e scalabile nel rilevamento di oggetti, incluso il rilevamento dei picchi e una soluzione per il rilevamento di oggetti adiacenti. Il video discute anche di PatQuick, un brevetto per determinare la presenza di modelli predeterminati nelle immagini di runtime e la loro posizione multidimensionale. Il metodo utilizza sonde e un gradiente precalcolato per abbinare la posa di un oggetto e l'integrazione della funzione di punteggio rimuove gli errori dal risultato. Il video esplora un metodo alternativo per determinare le differenze angolari utilizzando prodotti scalari e sottolinea la complessità delle operazioni multiscala e la selezione della sonda per diverse granularità. L'accuratezza del metodo è limitata dalla quantizzazione dello spazio di ricerca.

  • 00:00:00 In questa sezione, veniamo introdotti al brevetto 7016539 che mira a rilevare, riconoscere e determinare la posa di oggetti nello spazio, nonché a ispezionare gli oggetti. Il problema che risolve è la necessità di manipolare oggetti utilizzando macchinari ma senza informazioni precise sui bordi degli oggetti. La tecnica precedente aveva quattro componenti diversi, e uno di essi consisteva nell'elaborazione di immagini binarie, che comportava la distinzione di oggetti dallo sfondo per creare immagini binarie, consentendo un'elaborazione più semplice e richiedendo meno memoria. I calcoli locali possono essere eseguiti per determinate operazioni di elaborazione di immagini binarie di basso livello come trovare l'area, il perimetro e il centroide delle immagini binarie e persino calcolare i numeri di Eulero in modi paralleli, che possono essere ottenuti con hardware parallelo.

  • 00:05:00 In questa sezione, il docente discute vari metodi per il rilevamento di oggetti, il riconoscimento e la determinazione della posa. Viene introdotto il metodo della sogliatura che prevede la distinzione del primo piano dallo sfondo in un'immagine in base a qualche parametro. Tuttavia, questo metodo è limitato in quanto potrebbe non esserci una chiara distinzione tra primo piano e sfondo. I metodi di modello binario implicano l'utilizzo di un'immagine master o di un modello dorato per definire l'oggetto e calcolare un modello tramite soglia. La correlazione normalizzata comporta il tentativo di tutte le possibili posizioni per la corrispondenza per trovare una corrispondenza adatta tra due immagini. Questa era la pretesa di fama per Cognac, un primo progetto di ricerca sulla visione artificiale.

  • 00:10:00 In questa sezione, il relatore discute il processo di allineamento utilizzando la correlazione, un metodo correlato al rilevamento e al riconoscimento di oggetti, che comporta lo spostamento di un'immagine per trovare l'allineamento in cui la differenza tra l'immagine spostata e l'altra immagine è il più piccolo possibile. Tuttavia, al momento, viene presa in considerazione solo la traduzione a causa delle spese di calcolo, poiché il metodo richiede l'analisi di ogni pixel per ogni possibile posizione. Inoltre, il relatore mette in relazione la correlazione con i metodi basati sul gradiente, che implicano il calcolo di un offset, e discute come questo può essere utilizzato per massimizzare la correlazione riducendo al minimo il cambiamento nel tempo.

  • 00:15:00 In questa sezione, la lezione si concentra sul riconoscimento di un oggetto e sulla determinazione della sua posa, in particolare nel contesto dell'allineamento di un circuito integrato per la fase successiva del processo di fabbricazione. Il relatore discute vari metodi per determinare l'allineamento e osserva che la somma dei quadrati delle differenze e della correlazione sono comunemente usate, ma presentano alcuni inconvenienti. La correlazione, in particolare, può dare una corrispondenza elevata anche se il contrasto tra le immagini è diverso e non esiste una soglia chiara per ciò che costituisce una corrispondenza. Nonostante questi problemi, la correlazione rimane popolare grazie alla sua efficienza computazionale. Inoltre, il relatore osserva che questi metodi possono essere migliorati attraverso l'incorporazione di metodi basati sul gradiente, che sono stati utilizzati nei mouse ottici.

  • 00:20:00 In questa sezione, la conferenza discute la correlazione normalizzata e il suo ruolo nel riconoscimento delle immagini. La correlazione normalizzata viene utilizzata per eliminare qualsiasi offset nella luminosità dell'immagine e rendere il processo meno sensibile ai cambiamenti nella configurazione ottica. Il metodo di normalizzazione calcola la correlazione di due immagini e la normalizza per rimuovere gli spostamenti nel contrasto, per cui il metodo calcola il picco in modo che gli utenti possano misurare il successo della correlazione. Di conseguenza, un alto punteggio di correlazione indica una buona corrispondenza, mentre un basso punteggio di correlazione indica una scarsa corrispondenza. Sebbene il metodo possa essere costoso, all'inizio Cognex rappresentava una pretesa di fama per Cognex.

  • 00:25:00 In questa sezione, il video discute un brevetto relativo al rilevamento e al riconoscimento di oggetti, in particolare per determinare la presenza di modelli predeterminati in un'immagine e determinarne la posizione all'interno di uno spazio multidimensionale. Il brevetto, che rappresenta un miglioramento rispetto ai metodi precedenti, include l'utilizzo di una rappresentazione astratta del pattern chiamata modello, che viene confrontata con un'immagine di runtime in diverse pose, rotazioni, ecc. Il confronto produce un punteggio di corrispondenza, che viene confrontato con un accettare la soglia per ritardare il processo decisionale fino a quando non saranno disponibili ulteriori informazioni. Il brevetto fornisce anche un elenco di gradi di libertà generalizzati invece della semplice traslazione e rotazione per aumentarne la precisione per parti parziali o mancanti di un oggetto.

  • 00:30:00 In questa sezione viene discusso il brevetto per il rilevamento, il riconoscimento e la determinazione della posa di oggetti noto come PatQuick, che si concentra sull'ottenimento di potenziali corrispondenze. La sezione approfondisce il modo in cui il brevetto utilizza il filtraggio passa-basso e il rilevamento dei bordi per ottenere punti di confine a diverse risoluzioni. Il processo continua quindi collegando punti di confine vicini che hanno direzioni coerenti per organizzare i punti della catena. Il brevetto differisce da altri metodi, in quanto incatena i bordi, anche se sono deboli, e rinvia la soglia fino alla fine.

  • 00:35:00 In questa sezione, il relatore discute la creazione di modelli per il riconoscimento di oggetti utilizzando il rilevamento dei bordi e il processo di creazione di sonde con spaziatura e contrasto desiderati per rappresentare questi modelli. I modelli vengono adattati ai bordi e queste sonde vengono utilizzate per rilevare se esiste una corrispondenza tra il modello e l'immagine analizzata. Le sonde vengono utilizzate come punti di prova per identificare aree ad alto contrasto e questo metodo aiuta a ridurre il numero di pixel che devono essere analizzati. La rottura del pareggio viene discussa anche nel contesto della determinazione dell'ordine dei vicini delle sonde.

  • 00:40:00 In questa sezione, il relatore discute diversi esempi su come confrontare i gradienti osservati nell'immagine di runtime con quelli del modello. Spiega che è molto più probabile che la direzione del gradiente venga mantenuta anche in caso di cambiamenti nell'illuminazione o nel materiale. Il relatore introduce anche il concetto di peso, che aiuta a determinare l'importanza di ogni sonda. Sebbene l'assegnazione manuale del peso possa essere utile per tenere conto delle simmetrie degli oggetti, richiede l'intervento umano e non è comunemente utilizzata. Infine, il relatore definisce i diversi oggetti nel modello, comprese le sonde, le loro posizioni, direzioni e pesi, nonché l'oggetto sonda compilato utilizzato per aumentare l'efficienza computazionale.

  • 00:45:00 In questa sezione, il relatore spiega come mappare l'oggetto sonda compilato sull'immagine e come utilizzare il modello. La sonda compilata è un insieme di sonde specializzate per le coordinate dell'immagine e la differenza principale tra essa e una sonda è che un offset nella sonda compilata è un numero intero in pixel anziché variabili reali. Il relatore discute anche il concetto di mappa che è la trasformazione con molti gradi di libertà che deve essere trovata, e include tutte le trasformazioni tranne la traduzione. Per valutare il gradiente, viene utilizzata una funzione di classificazione, che considera la polarità, la polarità del contrasto e la differenza di 90 gradi tra le due direzioni dei gradienti.

  • 00:50:00 In questa sezione, il relatore spiega come valutare quanto bene una sonda corrisponde a un punto corrispondente in un'immagine di runtime utilizzando una funzione che considera la direzione e l'ampiezza del gradiente. Tuttavia, osserva che le inversioni di contrasto possono rendere la metrica basata sulla direzione meno robusta rispetto al rumore, mentre l'utilizzo di uno slop più ampio può aumentare le possibilità di accettare allineamenti casuali. Per gestire i gradi di libertà, il relatore fornisce esempi di parametri e funzioni utilizzati per le regolazioni di rotazione, scala e taglio. Nel complesso, il processo di rilevamento degli oggetti richiede varie considerazioni poiché situazioni diverse possono richiedere approcci diversi.

  • 00:55:00 In questa sezione, apprendiamo i gradi di libertà generalizzati nel rilevamento, riconoscimento e determinazione della posa degli oggetti. Questi gradi di libertà, come la traslazione, la rotazione, il ridimensionamento e le proporzioni, consentono variazioni nelle dimensioni e nelle prospettive degli oggetti. È importante tenere conto di tali gradi quando si lavora in spazi che non sono esattamente bidimensionali, il che fa apparire l'immagine come un rombo invece che come un rettangolo. Tuttavia, è essenziale prestare attenzione ai costi computazionali quando si considera il ridimensionamento e un approccio più ragionevole è lavorare su una scala logaritmica. Inoltre, il rettangolo che racchiude il minimo della sonda può ridurre i calcoli in alcune operazioni. Lo spazio multidimensionale delle pose impone che dobbiamo determinare la vicinanza tra determinati valori, e questo viene fatto identificando quanto sono vicine tra loro due pose in quello spazio.

  • 01:00:00 In questa sezione del video, l'oratore spiega i modelli di ricerca utilizzati per una ricerca traslazionale efficiente e scalabile nel rilevamento di oggetti. Questi modelli sono organizzati attorno a esagoni per fornire un vantaggio di quattro su pi in termini di lavoro svolto rispetto alla risoluzione. Il relatore discute anche di come funziona il rilevamento dei picchi su una griglia esagonale e offre una soluzione per evitare di rilevare oggetti adiacenti. Inoltre, il video definisce i termini comunemente usati nella legge sui brevetti, come oggetto, immagine, luminosità, granularità e confine, e le loro applicazioni al di là delle immagini a luce visibile, come la grafica e le immagini a raggi X. La generalizzazione di questi termini mira ad ampliare la portata del brevetto e le sue potenziali applicazioni.

  • 01:05:00 In questa sezione, il video discute un brevetto su PatQuick, un metodo per determinare la presenza o l'assenza di almeno un'istanza di un modello predeterminato in un'immagine di runtime e per determinare la posizione multidimensionale di ogni istanza presente . Il brevetto incorpora la possibilità di ispezione e riconoscimento, in cui il processo viene eseguito per ogni oggetto e la maggior parte non sarà una buona corrispondenza, ma uno sarà per il riconoscimento. Il video menziona anche l'uso di un gradiente, che è un vettore che fornisce la direzione e l'entità del massimo cambiamento di luminosità a una granularità specificata, e un modello, un insieme di caratteristiche di codifica dei dati di un modello da trovare, che potrebbe essere creato da un'immagine reale o da un disegno CAD.

  • 01:10:00 In questa sezione, il relatore spiega come funziona il metodo di PatQuick anche se parti di un oggetto sono oscurate o mancanti, rendendolo utile ai fini dell'ispezione. Il metodo utilizza sonde per abbinare la posa dell'oggetto e, sebbene in teoria il gradiente possa essere calcolato a ogni corrispondenza, è vantaggioso pre-calcolarlo per l'efficienza. L'integrazione della funzione di punteggio viene utilizzata per calcolare quanto le corrispondenze casuali compensano il punteggio e, nonostante sia una seccatura da calcolare, è necessario rimuovere l'errore dal risultato e ridurre il rumore. Il metodo ha principalmente rivendicazioni di metodo e la situazione legale è cambiata, risultando solo in rivendicazioni di metodo.

  • 01:15:00 In questa sezione, il relatore discute un metodo alternativo per determinare le differenze di angolo tra i vettori unitari usando prodotti scalari invece di usare una funzione tangente. Tuttavia, questo metodo produce un valore assoluto elevato e non è buono come il metodo originale. Il relatore discute anche lo svantaggio del metodo quantizzato e la necessità di cercare l'intero spazio di posa per trovare potenziali corrispondenze prima di utilizzare una quantizzazione più fine per risultati più accurati. La sezione si conclude con una menzione della necessità di discutere diverse funzioni di punteggio.

  • 01:20:00 In questa sezione, l'oratore discute i diversi calcoli coinvolti nella ricerca di una corrispondenza quando il risultato deve essere preciso o veloce. Approfondiscono le complessità dell'esecuzione di operazioni multiscala che utilizzano diverse sonde e modelli per diverse granularità. Le sonde non sono limitate alla griglia dei pixel, ma derivano dai punti del bordo, che fornisce risultati più affidabili rispetto all'utilizzo del contrasto di luminosità. Inoltre, l'accuratezza di questo metodo è limitata dalla quantizzazione dello spazio di ricerca, che può essere superata in un altro brevetto coperto nelle lezioni future.
Lecture 13: Object Detection, Recognition and Pose Determination, PatQuick (US 7,016,539)
Lecture 13: Object Detection, Recognition and Pose Determination, PatQuick (US 7,016,539)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 14: Ispezione in PatQuick, trasformata di Hough, omografia, determinazione della posizione, multiscala



Lezione 14: Ispezione in PatQuick, trasformata di Hough, omografia, determinazione della posizione, multiscala

In questa conferenza viene discusso l'algoritmo PatQuick, con particolare attenzione all'uso di sonde per produrre una funzione di punteggio in uno spazio multidimensionale, che determina la posa di un oggetto in immagini in tempo reale. Viene inoltre esaminata la funzione di corrispondenza utilizzata per valutare la qualità della corrispondenza in termini di direzione e ampiezza del gradiente, con diverse funzioni di punteggio discusse per i compromessi tra accuratezza e velocità. La conferenza approfondisce anche i diversi metodi utilizzati per rendere più efficiente il processo di corrispondenza dei modelli, inclusa la regolazione della granularità del calcolo e la sfida di ottenere le direzioni corrette, specialmente quando si eseguono trasformazioni che modificano le proporzioni di un'immagine. La conferenza tocca anche il tema dell'omografia e della trasformata di Hough per rilevare le linee nelle fotografie.

La conferenza copre una vasta gamma di argomenti relativi alla visione artificiale, tra cui Hough Transform, Extended Gauss Half Transform, determinazione della posizione, sottocampionamento multiscala e SIFT. La trasformata di Hough viene utilizzata per il rilevamento di linee e bordi, mentre la mezza trasformata di Gauss estesa è una versione più sofisticata della trasformata di Hough. La conferenza spiega anche come utilizzare la trasformata di Hough per rilevare i cerchi, come la posizione di una torre cellulare. Inoltre, il relatore discute il sottocampionamento delle immagini per ridurre il carico di lavoro senza sacrificare la qualità e introduce SIFT, un metodo per trovare punti corrispondenti in diverse immagini di una scena, ampiamente utilizzato nella produzione di informazioni 3D da più immagini. Infine, l'oratore discute brevemente la teoria musicale e termina con un promemoria per presentare proposte e una citazione sul non ritardare.

  • 00:00:00 In questa sezione, il relatore discute l'algoritmo PatQuick e l'uso di sonde per produrre una funzione di punteggio in uno spazio multidimensionale. L'algoritmo esamina un piccolo numero di punti nell'immagine e può gestire un gran numero di gradi di libertà. I brevetti discussi sono correlati e fanno parte di un approccio basato sulla fisica alla visione artificiale. Gli algoritmi descritti sono per lo più limitati a situazioni che coinvolgono superfici bidimensionali, come circuiti integrati e circuiti stampati.

  • 00:05:00 In questa sezione, il relatore discute una fase di addestramento nella tecnica PatQuick in cui un'immagine viene mostrata al sistema e calcola automaticamente un modello. Questo è un passaggio cruciale perché consente di risparmiare risorse e tempo piuttosto che creare manualmente il codice per ogni attività visiva. I modelli vengono quindi mappati su immagini in tempo reale e la posa viene determinata tramite traslazione, rotazione, ridimensionamento, inclinazione e proporzioni. Le prove raccolte per l'oggetto sono cumulative e il risultato finale è la somma delle operazioni locali. Tuttavia, il limite di questo metodo è la quantizzazione dello spazio di posa, che può influire sulla precisione.

  • 00:10:00 In questa sezione, il relatore discute il potenziale spazio a sei dimensioni che può derivare dal trattare modelli di diverse dimensioni e forme. Mentre la traduzione ha due gradi di libertà e la rotazione ne ha uno, il ridimensionamento, l'inclinazione e le proporzioni hanno ciascuno un grado di libertà, portando il totale a 6. Tuttavia, trattare tutti e sei i parametri diventa poco pratico poiché quantizzare lo spazio a un numero ragionevole di livelli, come 100, risulta in un totale di 10 su 12 spazi. Il relatore prosegue inoltre spiegando la funzione di matching utilizzata per graduare la qualità del match in termini di direzione e ampiezza del gradiente, evidenziando alcuni svantaggi della funzione, tra cui la possibilità di matching al rumore di fondo.

  • 00:15:00 In questa sezione, il docente discute le varie funzioni di punteggio utilizzate nell'algoritmo PatQuick per il compromesso tra accuratezza e velocità. Diverse funzioni di punteggio hanno caratteristiche diverse come valori normalizzati, punteggi significativi o semplicemente il valore è più grande con una corrispondenza migliore. Il docente spiega che scartano i pesi negativi e usano la direzione del gradiente per calcolare il punteggio. L'attenzione si concentra sulle sonde compilate e sulla traduzione variabile. La conferenza evidenzia anche una seconda versione della funzione di punteggio chiamata s1b, che elimina la necessità della moltiplicazione ed elabora solo sonde con pesi positivi.

  • 00:20:00 In questa sezione, il relatore discute le diverse funzioni utilizzate per la forma di realizzazione preferita in PatQuick. Una funzione tiene conto della direzione del gradiente e sottrae un termine basato sulla corrispondenza casuale per migliorare il risultato. Un'altra funzione utilizza direttamente l'ampiezza del gradiente e non è normalizzata, il che significa che il suo valore assoluto non sarà significativo. Queste funzioni sono utilizzate nella soluzione candidata e nei passaggi di scansione fine in PatQuick. Il relatore osserva che mentre la forma di realizzazione preferita ha funzioni diverse, vengono fornite anche altre alternative per l'implementazione.

  • 00:25:00 In questa sezione della conferenza, il relatore discute alcuni dei dettagli necessari per rendere più efficiente il processo di pattern matching. Una considerazione importante è la granularità del calcolo, che può essere regolata diminuendo la risoluzione fino al raggiungimento di un risultato soddisfacente. Il relatore tocca anche la questione della normalizzazione, spiegando che per alcuni compiti non è necessario normalizzare perché si tratta di un problema computazionale. Inoltre, il relatore affronta la sfida di ottenere le indicazioni giuste poiché il processo si basa fortemente sulla direzione del gradiente, specialmente quando si eseguono trasformazioni che cambiano le proporzioni di un'immagine.

  • 00:30:00 In questa sezione della conferenza, il relatore discute su come affrontare il problema della direzione del gradiente quando si trasformano x e y in modi che non conservano gli angoli retti. La soluzione è calcolare l'isofota dalla direzione del gradiente, trasformarla e costruire qualcosa ad angolo retto rispetto all'isofota. Il relatore tocca anche l'argomento aggiuntivo dell'ispezione, che prevede l'utilizzo di sonde nel modello per determinare se una determinata area è una corrispondenza ragionevole o meno e il calcolo di una percentuale basata su quanti bordi nell'immagine di runtime corrispondono a qualcosa nel modello.

  • 00:35:00 In questa sezione, il docente discute la proiezione di una superficie piana in un mondo 3D utilizzando la proiezione prospettica e un sistema di coordinate della telecamera. Elabora le relazioni di traslazione e rotazione tra la telecamera e i sistemi di coordinate del mondo attraverso una matrice ortonormale. Il docente esplora quindi la trasformazione dalle coordinate dell'oggetto del mondo alle coordinate dell'immagine e rileva la natura non lineare e disordinata della proiezione prospettica quando coinvolge la divisione. Tuttavia, si concentra sul caso particolare delle superfici piane e descrive in dettaglio come il sistema può essere eretto nell'oggetto, consentendo una trasformazione più semplice.

  • 00:40:00 In questa sezione, l'oratore parla dell'utilizzo di un sistema di coordinate in cui z è zero, trasformando la superficie 3D in una superficie 2D. Dimostrano come in questo caso si possa ignorare la terza colonna e piegare convenientemente la traslazione alle rotazioni per ottenere un'unica matrice. Quindi introducono la matrice T, che non è ortonormale rispetto alla matrice R. Infine, discutono i gradi di libertà per la traslazione e la rotazione in 3D e i diversi modi di pensare alla rotazione.

  • 00:45:00 In questa sezione del video, il relatore discute la rotazione, la traslazione ei vincoli nelle matrici, in particolare nel caso della proiezione prospettica su una superficie planare. La matrice per la trasformazione ha nove elementi indipendenti ma solo sei gradi di libertà a causa di vincoli come l'ortonormalità e l'ortogonalità. Sebbene i dati di calibrazione possano essere adattati utilizzando i minimi quadrati lineari, è necessario applicare anche i vincoli, che spesso vengono trascurati nei lavori pubblicati. Questi concetti saranno importanti per discussioni successive sulle trasformazioni 3D.

  • 00:50:00 In questa sezione del video, il docente discute l'ambiguità del fattore di scala e l'omografia, un tipo divertente di matrice. L'omografia viene utilizzata in fotogrammetria e viene applicata quando si confina l'attenzione su un piano. Il docente parla anche della trasformata di Hough e della sua generalizzazione, che viene utilizzata durante la mappatura dei punti su una strada dal filmato della telecamera. Infine, il docente descrive la camera a nebbia della NASA e come le persone hanno studiato le particelle elementari sparandole in una camera a nebbia e fotografando i punti ionizzati in quello spazio.

  • 00:55:00 In questa sezione, il docente discute la storia dell'automazione del processo di analisi delle immagini, in particolare allo scopo di rilevare linee o archi nelle fotografie delle immagini della camera a bolle Wilson. La trasformazione di Hough è stata sviluppata come soluzione per gestire la sfida di rilevare linee che non erano distanziate in modo uniforme o di dimensioni uniformi, quindi le linee sono state mappate dallo spazio dell'immagine allo spazio dei parametri per le linee. Il docente spiega il concetto di un array di accumulatori per contare le prove per ogni possibile combinazione di parametri e cerca i picchi che corrispondono alle linee nell'immagine. La mappatura dallo spazio dei parametri allo spazio dell'immagine consente una buona stima della linea, anche se l'evidenza è solo una bolla.

  • 01:00:00 In questa sezione, il docente spiega il concetto di Hough Transform, che è una tecnica per rilevare la presenza di oggetti semplici come linee, cerchi o ellissi all'interno di un'immagine. La trasformazione di Hough funziona mappando lo spazio dell'immagine in uno spazio dei parametri, dove ogni punto nello spazio trasformato rappresenta una linea nello spazio originale. La trasformazione è simmetrica in modo tale che tutte le linee nello spazio originale siano associate a intersezioni univoche nello spazio dei parametri. Il docente prende un esempio per spiegare come le bolle in un'immagine possono dare evidenza di possibili linee, e trovando la loro trasformazione nello spazio dei parametri, si possono accumulare prove per trovare i picchi che corrispondono alle linee nello spazio trasformato.

  • 01:05:00 In questa sezione, il docente spiega la trasformata di Hough, che viene utilizzata per il rilevamento di linee e bordi nelle immagini. La trasformata di Hough crea uno spazio per i possibili parametri della trasformazione, con ogni punto corrispondente a una particolare linea, che può aiutare a raccogliere le prove anche se la linea è in tono irregolare e distribuita in intervalli irregolari. Tuttavia, la trasformata di Hough potrebbe non essere più utilizzata nel rilevamento dei bordi, poiché esistono metodi migliori. La conferenza menziona anche brevemente l'Extended Gauss Half Transform, che è una versione più sofisticata della Hough Transform, che presenta compromessi e piccole cose complicate che devono essere affrontate. Inoltre, la conferenza parla dei cerchi e di come la trasformata di Hough può essere utilizzata per rilevare i segnali dei telefoni cellulari determinando l'anticipo temporale del segnale.

  • 01:10:00 In questa sezione, il relatore discute come utilizzare l'estensione della trasformata di Hough per risolvere problemi che coinvolgono i cerchi, come determinare la distanza dalle coordinate GPS. Effettuando misurazioni dei tempi di avanzamento e costruendo cerchi di possibili posizioni in base al raggio dato, diventa possibile utilizzare un array di accumulatori per aggiornare i dati e accumulare gradualmente prove che identificano la posizione del cerchio. Questo metodo può essere generalizzato a uno spazio parametrico più ampio, inclusi coni con raggi variabili, e ogni punto nello spazio corrisponde a un cerchio diverso in una particolare posizione nel piano. Il risultato finale dovrebbe contenere molte intersezioni circolari, che indicano dove si trova la vera posizione della torre cellulare.

  • 01:15:00 In questa sezione, la conferenza discute l'idea della semitrasformata generalizzata, che coinvolge lo spazio dei parametri originale e l'accumulo di prove per creare una superficie della partitura; questo è utile quando si rilevano caratteristiche come bordi o trame, che possono essere evidenti solo su una scala particolare o con livelli di rumore specifici. Lavorando a risoluzioni inferiori o riducendo le dimensioni, possiamo ridurre i costi di calcolo e migliorare la capacità di rilevare accuratamente le caratteristiche. Tuttavia, questo metodo può diventare un compito costoso quando si lavora su problemi di dimensione superiore e con alti livelli di rumore.

  • 01:20:00 In questa sezione, il relatore discute diversi metodi di sottocampionamento delle immagini al fine di ridurre il numero di celle e diminuire il carico di lavoro senza sacrificare la qualità dell'immagine. Esplorano diversi valori di "r" e il modo in cui influenzano il livello di sottocampionamento, con "r" uguale a uno sopra la radice quadrata di due che è un valore comunemente usato perché riduce il numero di celle di due e aumenta la spaziatura di radice quadrata di due. Il relatore introduce anche SIFT, un metodo per trovare punti corrispondenti in diverse immagini di una scena che è ampiamente utilizzato nella produzione di informazioni 3D da più immagini. SIFT utilizza un metodo di sottocampionamento molto meno aggressivo, con più passaggi per ottava, per creare descrittori univoci per ogni punto dell'immagine.

  • 01:25:00 In questa sezione, l'oratore discute brevemente la scala musicale in cui un'ottava è divisa in otto note e menziona che sebbene non siano equidistanti, ci sono buone ragioni per non usare sempre un fattore di due. L'oratore ricorda inoltre al pubblico di presentare le proprie proposte e condivide una citazione da un biscotto della fortuna sul non ritardare.
Lecture 14: Inspection in PatQuick, Hough Transform, Homography, Position Determination, Multi-Scale
Lecture 14: Inspection in PatQuick, Hough Transform, Homography, Position Determination, Multi-Scale
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 15: Allineamento, PatMax, Distance Field, Filtering e Sub-Sampling (brevetto USA 7065262)



Lezione 15: Allineamento, PatMax, Distance Field, Filtering e Sub-Sampling (brevetto USA 7065262)

Il video discute diverse tecniche e brevetti relativi al riconoscimento di modelli e al rilevamento di oggetti. Una di queste tecniche è PatMax, che migliora in modo iterativo la posa di un'immagine di runtime utilizzando un attraente sistema basato sulla forza. Un'altra tecnica prevede la generazione di un campo vettoriale su una griglia di pixel per migliorare l'allineamento dell'immagine in fase di esecuzione. La lezione copre anche l'uso dei campi di distanza per il rilevamento dei bordi e l'espansione dei bordi seminati osservando i vettori di forza nel campo vettoriale. Il relatore discute anche l'uso del pattern matching multiscala e le fasi matematiche necessarie per adattare le linee agli insiemi di coordinate dell'immagine. Infine, viene introdotto un brevetto per il calcolo efficiente di scale multiple.

Nella lezione 15, il docente copre varie tecniche e scorciatoie per una convoluzione efficiente, il filtraggio e il sottocampionamento delle immagini. Questi includono l'approssimazione dei kernel del filtro utilizzando polinomi spline a tratti, utilizzando derivati come convoluzioni, comprimendo le immagini prendendo ripetutamente la terza differenza e combinando le convoluzioni in direzione x e y. L'oratore menziona anche l'importanza del filtraggio passa-basso prima del campionamento delle immagini per evitare interferenze e alias nelle immagini.

  • 00:00:00 In questa sezione, il video discute un altro modello per trovare oggetti in immagini bidimensionali, chiamato PatMax. Si differenzia dal modello precedente, PatQuick, in quanto presuppone che si abbia già un'idea approssimativa di dove sono le cose e mira invece a migliorare quella posizione in modo incrementale con un approccio iterativo ai minimi quadrati. La motivazione per l'utilizzo di PatMax era quella di massimizzare l'energia, ispirata dalle forze tra i dipoli magnetici. Tuttavia, l'intuizione alla base dell'approccio era completamente sbagliata e un'analogia molto migliore sarebbe collegare le cose con una molla. Il brevetto riguarda anche in parte l'allineamento e fa riferimento ad altri brevetti e pubblicazioni del vecchio laboratorio di intelligenza artificiale.

  • 00:05:00 In questa sezione, il video spiega il processo di addestramento di un sistema di riconoscimento di pattern che utilizza il rilevamento dei bordi che produce dipoli di bordo e crea un campo vettoriale bidimensionale. Il sistema utilizza quindi un processo di attrazione per trovare in modo iterativo una buona posa per un'immagine di runtime, supponendo che sia già stata ottenuta una posa iniziale. La mappa del client viene utilizzata per mappare le posizioni dei pixel che non si trovano su una griglia quadrata a una matrice di pixel quadrati e ci sono misure come l'errore RMS e le valutazioni di ispezione utilizzate per determinare se un oggetto è in buone condizioni o meno. Infine, il video descrive come l'elenco dei dipoli di campo produce le sonde utilizzate per l'allineamento con l'immagine di runtime.

  • 00:10:00 In questa sezione, il docente parla del miglioramento dell'allineamento utilizzando un campo generato sulla griglia di pixel. La posa è l'opposto del brevetto precedente, con il rilevamento delle caratteristiche eseguito sull'immagine di runtime invece che sul modello. Lo scopo del campo è mappare i risultati discreti dall'immagine di runtime al campo, rendendolo più economico rispetto alla trasformazione dell'intera immagine, come nel caso del brevetto precedente. Il campo viene generato attraverso un nuovo processo che attira verso l'allineamento in cui gli oggetti nell'immagine di runtime corrispondono agli oggetti nell'immagine di addestramento. La conferenza indaga su come il campo è generalizzato e mette in evidenza le diverse fasi coinvolte nel calcolo del campo.

  • 00:15:00 In questa sezione, il video illustra il processo di inizializzazione e riempimento di un campo di distanza per il rilevamento dei bordi, che è una tecnica comune utilizzata nella visione artificiale chiamata mappa della distanza. L'inizializzazione comporta l'assegnazione ai dipoli di campo di un valore corrispondente alla distanza dal bordo insieme alla sua direzione. Il processo di riempimento del resto dei quadrati vicino al bordo è un processo iterativo in cui il valore dei quadrati vicini viene determinato e regolato in base alla geometria calcolata. Il campo di distanza è essenzialmente una scanalatura lungo ciascun bordo che indica quanto è lontano dal bordo. L'obiettivo finale è che ogni bordo sia connesso in modo che il sistema si stabilizzi in uno stato di energia inferiore.

  • 00:20:00 In questa sezione della conferenza, il relatore discute il processo di estensione dei bordi seminati osservando i pixel vicini e calcolando la forza e la direzione verso il bordo utilizzando un campo vettoriale. Spiegano che a volte gli angoli tra le forze diventano troppo grandi, indicando un angolo, e che in tali casi i vettori non punteranno più ai pixel del bordo originale. Ulteriori informazioni, come la direzione del contrasto e le direzioni del vettore, possono aiutare nel processo di corrispondenza dell'estensione dei bordi. L'obiettivo è ridurre al minimo l'energia nel sistema, in modo simile alla modellazione con un sistema meccanico di molle. L'oratore osserva che con un bordo, spesso è difficile dire con certezza quanto bene stiamo abbinando un particolare punto sul bordo, che richiederà un modello più sofisticato da tracciare.

  • 00:25:00 In questa sezione, il relatore discute l'analogo meccanico che rappresenta l'algoritmo per il rilevamento delle caratteristiche utilizzando le immagini di runtime. Il sistema si regola utilizzando una serie di forze dalle numerose caratteristiche rilevate sull'immagine e le molle meccaniche vengono allungate verso l'esterno e regolate utilizzando una trasformazione di scala. Il sistema quindi calcola il disordine e la copertura per valutare in che misura l'immagine di runtime corrisponde al modello. L'obiettivo finale del sistema è ridurre l'energia spostando tutti i dipoli di runtime in modo sistematico e coinvolge un grande sistema dei minimi quadrati con un metodo di calcolo naturale che utilizza un insieme di accumulatori.

  • 00:30:00 In questa sezione, il docente discute vari aspetti del pattern matching, inclusi i casi di sola traduzione e di traduzione e rotazione. Il docente spiega che il tensore utilizzato nel pattern matching è un array multidimensionale che consente gradi di libertà nell'allineamento. Il docente parla anche del pattern matching multiscala, che prevede di lavorare a bassa risoluzione per ottenere una posa di partenza e quindi di utilizzarla per eseguire il pattern matching ad alta risoluzione. Il docente osserva che il metodo del pattern matching può essere applicato a una gamma di dispositivi utilizzati per scopi pratici, dalle telecamere televisive ai microscopi elettronici. Infine, il docente discute le rivendicazioni fatte nel brevetto, osservando che la rivendicazione 1 è molto ampia e suscettibile di essere contestata dalla tecnica anteriore, ma che le rivendicazioni dipendenti forniscono dettagli più specifici.

  • 00:35:00 In questa sezione della conferenza, il relatore discute un brevetto per un processo di allineamento che dipende da più componenti, inclusi valori di errore a bassa risoluzione e ipotesi iniziali. Il processo, chiamato PatMax, cerca l'intero spazio di posa a bassa risoluzione senza bisogno di una prima ipotesi, a differenza del brevetto discusso che richiede una prima ipotesi e ha un raggio di acquisizione. Lo spazio di posa per questo processo è l'opposto di PatMax per ragioni computazionali. Il processo di allineamento funziona per evitare la soglia e la quantizzazione a livello di pixel, concentrandosi invece sulla precisione sub-pixel. L'altoparlante tocca anche un analogo fisico che coinvolge molle meccaniche.

  • 00:40:00 In questa sezione, il relatore discute il processo di ispezione degli oggetti e come implica la corrispondenza e la determinazione della trasformazione tra immagini addestrate e runtime. L'ispezione si basa su funzionalità mancanti ed extra nell'immagine di runtime rispetto all'immagine addestrata e sul disordine nell'immagine dovuto alla trama dello sfondo. Viene anche spiegata la generazione del campo di distanza, con particolare attenzione a come cambia quando nell'immagine sono presenti bordi e angoli. Viene discusso il processo di calcolo della trasformazione della distanza, comprese le sfide di lavorare in un mondo discreto e i modi per approssimare la distanza euclidea in modo rapido ed efficiente.

  • 00:45:00 In questa sezione della lezione viene discusso il concetto di sommare le forze locali per fornire l'allineamento di traslazione o rotazione. I pesi possono essere predefiniti o dipendere dall'ampiezza del gradiente o dal dipolo di campo, tra le altre variazioni. La coppia attorno a un centro viene utilizzata per fornire la rotazione e, prendendo la componente z del prodotto incrociato di due vettori in un piano, può essere utilizzata per fornire uno scalare per la coppia. La lezione descrive quindi la distanza da una linea e spiega la rotazione in un sistema di coordinate allineato con una linea per il calcolo dei numeri primi x e y.

  • 00:50:00 In questa sezione, il relatore discute l'uso di due parametri rho e theta nella parametrizzazione della famiglia di linee nel piano, che è una famiglia a due parametri. Questa parametrizzazione è utile nell'adattamento della linea, in cui l'obiettivo è trovare una linea che si adatti ai punti del bordo con elevata precisione. Il relatore spiega come utilizzare il calcolo per minimizzare la distanza al quadrato e mostra come mettere in relazione x bar e y bar, i centroidi medi dei punti sulla linea, con rho e theta. Inoltre, la conferenza tocca lo spostamento delle coordinate verso il baricentro e la ricerca di forti relazioni tra theta e rho per determinare i parametri della linea.

  • 00:55:00 In questa sezione, il docente spiega i passaggi matematici per trovare la soluzione dei minimi quadrati per adattare una linea a un insieme di coordinate dell'immagine utilizzando l'equazione della forma normale di Hesse. Prendendo la derivata rispetto a theta e ponendola a zero, si ottiene una soluzione che coinvolge seno e coseno di due volte l'angolo, che può essere semplificata utilizzando identità trigonometriche. Questo metodo è preferito rispetto all'adattamento di y uguale a mx più c, poiché è indipendente dalla scelta del sistema di coordinate e può essere utilizzato per combinare frammenti di bordo corto in frammenti di bordo più lunghi. Il docente introduce quindi un brevetto per calcolare in modo efficiente più scale evitando costose convoluzioni.

  • 01:00:00 In questa sezione, il docente parla di modi efficienti per calcolare i filtri per scopi multiscala. Il trucco è approssimare un kernel con un polinomio spline a tratti e prendere la prima differenza n più, che rende facile la convoluzione con zero, risultando in un kernel sparso con un piccolo supporto. La lezione copre anche la somma n più prima, che è l'inverso della differenza n più prima, e le proprietà delle convoluzioni e delle derivazioni. Nel complesso, la lezione fornisce approfondimenti su scorciatoie e trucchi per rendere più semplice ed efficiente la convoluzione di immagini di grandi dimensioni con kernel di grandi dimensioni.

  • 01:05:00 In questa sezione, il docente discute le proprietà ei vantaggi della convoluzione, in particolare come le derivate possono essere trattate come convoluzioni se è consentita la distribuzione anziché le funzioni. Ciò consente l'uso di proprietà di convoluzione come la commutatività e l'associatività, che possono essere molto potenti nell'elaborazione del segnale. Il docente descrive anche un esempio di utilizzo della convoluzione per creare uno schema sparso ed economico con cui convolvere, che implica il calcolo delle derivate e la ricerca dei punti in cui sono presenti valori diversi da zero. Solo due valori devono essere convoluti, il che è un vantaggio significativo.

  • 01:10:00 In questa sezione, il docente spiega la tecnica di prendere la terza differenza di un'immagine per comprimerla. Prendendo ripetutamente la terza differenza, viene prodotto un piccolo e scarso insieme di valori, riducendo il calcolo rispetto all'utilizzo dell'intera immagine originale. Questo può essere utilizzato per controllare la larghezza di banda e la scala del filtro senza alterare la quantità di calcolo richiesta. Il docente dimostra questa tecnica utilizzando una funzione unidimensionale e poi mostra un esempio con una parabola in cui le estremità sono più complicate a causa di una discontinuità.

  • 01:15:00 In questa sezione della conferenza, vengono discusse diverse tecniche di filtraggio per migliorare l'efficienza dei calcoli nel sottocampionamento delle immagini evitando artefatti di aliasing. Viene esplorato l'uso di una spline per approssimare filtri come le funzioni gaussiane e di sincronizzazione, con particolare attenzione alla riduzione del tempo di calcolo e del numero di valori diversi da zero. Inoltre, viene presentata una tecnica per combinare le operazioni di convoluzione in entrambe le direzioni x e y, che richiede meno memoria intermedia e consente una cascata più efficiente di convoluzioni 1D. Viene evidenziata la rilevanza di questi argomenti per il rilevamento dei bordi e l'elaborazione delle immagini multiscala.

  • 01:20:00 In questa sezione, l'oratore discute di un cristallo di calcite che è birifrangente e ha due indici di rifrazione dipendenti dalla polarizzazione, che fa apparire due copie di un'immagine molto vicine tra loro. Viene utilizzato nelle fotocamere per sopprimere i contenuti a frequenza più elevata e migliorare il campionamento. Tuttavia, la rimozione di questo filtro può causare interferenze e aliasing nelle immagini, nonché cambiamenti di colore e forma degli oggetti ripresi. Il relatore osserva che i miglioramenti nel filtraggio passa-basso prima del campionamento dell'immagine hanno ridotto questi problemi, ma è comunque importante considerare gli effetti dell'aliasing nell'imaging.
Lecture 15: Alignment, PatMax, Distance Field, Filtering and Sub-Sampling (US 7,065,262)
Lecture 15: Alignment, PatMax, Distance Field, Filtering and Sub-Sampling (US 7,065,262)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 16: Convoluzione veloce, approssimazioni del filtro passa-basso, immagini integrali (brevetto USA 6457032)



Lezione 16: Convoluzione veloce, approssimazioni del filtro passa-basso, immagini integrali (brevetto USA 6457032)

La conferenza copre vari argomenti relativi all'elaborazione del segnale, tra cui la limitazione della banda, l'aliasing, le approssimazioni del filtro passa-basso, la sfocatura, l'immagine integrale, l'analisi di Fourier e la convoluzione. L'oratore sottolinea l'importanza del filtraggio passa-basso dei segnali prima del campionamento per evitare artefatti di aliasing. La conferenza introduce anche l'idea dell'immagine integrale, che calcola in modo efficiente la somma dei pixel all'interno di un blocco, e varie tecniche per ridurre il calcolo durante l'approssimazione dei filtri passa-basso. Infine, la lezione discute l'interpolazione bicubica, che viene utilizzata per approssimare la funzione sinc, ei suoi costi computazionali.

In questa conferenza, il relatore discute vari argomenti relativi alla convoluzione, approssimazioni di filtri passa-basso e immagini integrali. Spiegano diverse implementazioni della convoluzione, incluso un metodo che consente di risparmiare tempo di calcolo aggiungendo valori da sinistra a destra e sottraendo per ottenere la media. Vengono inoltre discusse le limitazioni dell'interpolazione lineare per le approssimazioni del filtro passa-basso e la sua inferiorità rispetto a metodi più avanzati come l'interpolazione cubica. Viene introdotto il concetto di pillbox e il suo valore nel limitare le gamme di frequenza, e l'oratore parla del filtro passa-basso ideale e di come la sfocatura influisca sulla funzione di Bessel. La conferenza tocca anche l'uso di approssimazioni di filtri passa-basso per obiettivi di fotocamere DSLR e il concetto di fotogrammetria.

  • 00:00:00 In questa sezione, il relatore discute le forme d'onda di campionamento e l'importanza della limitazione della banda. Quando si campiona una forma d'onda, è sorprendente poterne catturare qualcosa, dato che la forma d'onda ha un supporto infinito e otteniamo solo campioni discreti. Tuttavia, se il contenuto in frequenza è limitato, il teorema di Nyquist afferma che possiamo ricostruirlo completamente campionando a una frequenza sufficientemente alta. Il criterio è che campioniamo abbastanza velocemente, in modo che la componente di frequenza più alta del segnale sia inferiore a fs su due. In definitiva, la limitazione della banda è significativa perché ci consente di catturare l'essenza di una forma d'onda senza ottenere artefatti di aliasing.

  • 00:05:00 In questa sezione viene spiegato il concetto di aliasing nell'elaborazione del segnale. L'aliasing si verifica quando il contenuto di frequenza superiore a una certa soglia viene campionato e non è distinguibile dal contenuto di frequenza inferiore. Questo non può essere risolto dopo il campionamento, quindi deve essere fatto in anticipo sopprimendo il contenuto di frequenza più alta. Per fare ciò, è importante filtrare il segnale passa-basso prima del campionamento. Tuttavia, il vero filtraggio passa-basso è difficile da ottenere, quindi è necessario fare delle approssimazioni.

  • 00:10:00 In questa sezione della conferenza, il relatore discute il concetto di sfocatura attraverso metodi come il filtraggio pre-campionamento e introduce l'idea dell'immagine integrale. Spiega che è possibile utilizzare un filtro per vagoni merci per eseguire la media dei blocchi, in cui viene calcolata la somma dei pixel all'interno di un blocco, ma questo metodo può essere computazionalmente costoso. Per risolvere questo problema, è possibile utilizzare un'immagine integrale sia nei casi 1D che 2D per calcolare la somma in modo più efficiente. L'immagine integrale non è limitata alle sole immagini, in quanto può funzionare anche per altri tipi di matrici come il gradiente integrale.

  • 00:15:00 In questa sezione, il docente spiega come calcolare il totale di un rettangolo utilizzando l'immagine integrale. Il docente mostra che con quattro accessi alla memoria e tre operazioni aritmetiche, possiamo ottenere il totale per qualsiasi blocco e indipendentemente dalla sua dimensione. Questa tecnica può essere utilizzata per il riconoscimento e il blocco della media. Il docente parla anche dell'analisi di Fourier e di come calcolare la media di un blocco utilizzando una media mobile.

  • 00:20:00 In questa sezione della lezione, il relatore discute gli svantaggi dell'utilizzo della funzione sinc come approssimazione per un filtro passa-basso. La funzione sinc non attenua le alte frequenze in modo abbastanza aggressivo e non raggiunge il primo zero abbastanza velocemente, rendendola una scelta sbagliata per le approssimazioni del filtro passa-basso. Questa discussione è particolarmente rilevante per le telecamere, che eseguono un'operazione di filtraggio prima del campionamento, e la media dei blocchi viene suggerita come potenziale alternativa alla funzione sinc. La media dei blocchi è economica da calcolare e può essere eseguita due volte nella speranza di ottenere una migliore approssimazione di un filtro passa-basso.

  • 00:25:00 In questa sezione, il docente discute le proprietà dei filtri nel dominio di trasformazione e come si relazionano alle discontinuità del passo nelle immagini. Il docente spiega che la trasformazione di una funzione a gradino cade come una sopra la frequenza, il che significa che le immagini con discontinuità a passi produrranno contenuti ad alta frequenza che non cadono rapidamente. Il docente osserva che questo è un problema con la trasformata discreta di Fourier perché presuppone che i dati siano periodici, quindi introduce discontinuità del bordo del gradino mentre i dati si avvolgono. Per far fronte a questo, il docente suggerisce l'apodizzazione, che implica la moltiplicazione dell'immagine per una forma d'onda per far combaciare le estremità. Un comune filtro apodizzante è una forma d'onda coseno invertita.

  • 00:30:00 In questa sezione, il video copre diversi approcci alla gestione del dft applicato alle immagini, con uno che prevede che l'esterno dell'immagine si ripeta periodicamente o sia un'immagine speculare, anche se questa non è una soluzione perfetta a causa della potenziale discontinuità derivata. Un altro approccio discusso è il filtraggio passa-basso con un filtro approssimato. Il video tocca quindi alcune proprietà necessarie per un filtraggio approssimativo passa-basso, come la proprietà di vagliatura dell'impulso unitario e delle distribuzioni.

  • 00:35:00 In questa sezione della conferenza, il relatore discute l'impulso unitario e la sua relazione con la convoluzione. Sebbene l'impulso unitario non sia matematicamente corretto da definire come limite della convoluzione, può essere utilizzato per determinare l'effetto della convoluzione con l'impulso unitario calcolando la sua convoluzione e prendendo il limite poiché epsilon tende a zero. Il relatore osserva che la convoluzione può essere collegata alle derivate e che gli operatori lineari invarianti allo spostamento e gli operatori di derivata sono strettamente correlati. Spiegano che le derivate possono essenzialmente essere trattate come convoluzioni, con una delle due convoluzioni capovolta.

  • 00:40:00 In questa sezione, il docente discute le approssimazioni del filtro passa-basso e come possono migliorare il metodo di media dei pixel utilizzato nelle fotocamere. Spiega che è necessario eseguire un filtraggio passa-basso aggiuntivo prima del campionamento nel dominio analogico e suggerisce di utilizzare materiali birifrangenti per creare un filtro speciale. Questo filtro coinvolge due immagini spostate che modellano come convoluzione con impulsi, risultando in due versioni leggermente spostate dell'immagine originale. Quando analizzato con una trasformata di Fourier, il filtro non scende con la frequenza ma scende a pi su epsilon, consentendo la selezione del valore epsilon appropriato.

  • 00:45:00 In questa sezione, il docente discute il concetto di filtri passa-basso e introduce una tecnica per tagliare le alte frequenze utilizzando una piastra più spessa della spaziatura dei pixel. Questa piastra taglia le alte frequenze ma lascia intatte le altre frequenze. Il docente spiega che l'utilizzo di questo filtro anti-aliasing estremamente semplice insieme al filtro di media dei blocchi può ridurre gli effetti moiré causati dai contenuti ad alta frequenza nelle immagini. Il docente introduce quindi l'idea del brevetto e dell'immagine integrale, che mira a ridurre il calcolo per un buon filtraggio passa-basso riducendo al minimo le dimensioni del supporto. Il docente dimostra come rappresentare l'integrazione usando la convoluzione e fornisce la trasformata di Fourier dell'impulso unitario.

  • 00:50:00 In questa sezione, il video si concentra sul concetto di convoluzioni e sulla loro relazione con la differenziazione e l'integrazione nel dominio della trasformata di Fourier. Si spiega che una seconda derivata può essere ottenuta convolvendo derivate o impulsi di primo livello. Questo concetto viene applicato al processo di filtraggio, in cui un filtro può essere suddiviso in sezioni per ridurre il calcolo se è sparso, cosa che si verifica quando si lavora con funzioni costanti o approssimazioni polinomiali. Integrando o sommando i risultati della convoluzione con un filtro sparso, la risposta desiderata può essere ottenuta in modo efficiente con meno calcoli.

  • 00:55:00 In questa sezione, il docente discute l'approssimazione della funzione sinc, che è l'ideale per un filtro passa-basso ma va avanti all'infinito, rendendo impossibile rappresentarla completamente. La conferenza introduce l'interpolazione bicubica per le immagini 2D, in cui i pixel vengono ruotati e devono essere interpolati. Il metodo prevede l'utilizzo di quattro parti, in cui la curva è descritta da un cubo. La derivata quarta viene utilizzata per il filtraggio e il risultato è di gran lunga migliore rispetto all'utilizzo del vicino più prossimo o dell'interpolazione lineare. Viene spiegato che ci sono costi computazionali per approssimare la funzione di sincronizzazione, rendendola poco pratica per l'uso.

  • 01:00:00 In questa sezione, viene utilizzato un esempio di media dei blocchi per illustrare l'implementazione ingenua della convoluzione spostando un blocco e sommando ciò che si trova sotto il blocco. È stato dimostrato che un'altra implementazione consente di risparmiare in modo significativo sul tempo di calcolo durante il blocco su segmenti più grandi aggiungendo valori da sinistra a destra e quindi sottraendo per ottenere la media. Viene anche discussa l'interpolazione lineare, che si può pensare abbia a che fare con la convoluzione creando una funzione che collega i punti su una griglia discreta usando linee rette.

  • 01:05:00 In questa sezione, il relatore discute il metodo di interpolazione lineare per le approssimazioni del filtro passa-basso e le sue limitazioni, in particolare in termini di cambiamenti nelle misurazioni del rumore e dell'immagine. Spiega che il metodo prevede la convoluzione di due vagoni merci, che è una funzione lineare che imita la funzione di sincronizzazione. Nota inoltre che questo metodo è inferiore a metodi più avanzati come il metodo di interpolazione cubica per le approssimazioni del filtro passa-basso. Inoltre, spiega che il metodo di approssimazione del vicino più prossimo è una funzione costante a tratti ancora meno precisa del metodo lineare.

  • 01:10:00 In questa sezione della conferenza, il relatore discute il concetto di approssimazioni del filtro passa-basso e immagini integrali nel contesto della convoluzione. Spiegano come l'interpolazione del vicino più vicino corrisponda alla convoluzione con un vagone merci e i vantaggi dell'utilizzo di un sistema di coordinate a simmetria rotazionale per immagini naturali. Quindi introducono il concetto di pillbox e il suo valore nel limitare gli intervalli di frequenza. Anche la trasformata inversa di un fortino è a simmetria rotazionale, variando in base alla funzione di Bessel, che è comunemente usata in ottica.

  • 01:15:00 In questa sezione, il docente discute il filtro passa-basso ideale, che è la risposta della funzione di diffusione a un impulso. Il primo zero di questa funzione, che è diverso da quello della funzione di sincronizzazione, viene utilizzato per la risoluzione basata sui criteri di risoluzione dell'Ariete. Quando è fuori fuoco, il docente mostra che la funzione di diffusione si trasforma in pillbox e questa, nel dominio della frequenza spaziale, diventa la funzione di Bessel. Quindi conclude che la sfocatura influisce sulla messa a fuoco modificando la funzione di Bessel.

  • 01:20:00 In questa sezione della lezione, il relatore discute l'uso di approssimazioni del filtro passa-basso e la conseguente diminuzione del contenuto ad alta frequenza, che può portare all'uccisione di alcune frequenze completamente a causa della presenza di zeri. L'oratore parla anche di come determinare la dimensione del passo dell'obiettivo di una fotocamera DSLR osservando il dominio della frequenza, nonché l'effetto di due proiezioni prospettiche in sequenza che non sono la stessa di una singola proiezione prospettica. Infine, viene introdotto il concetto di prendere immagini leggermente sfocate e avvolgerle come un modo per determinare se un'immagine è stata modificata o meno.

  • 01:25:00 In questa sezione, il docente discute il concetto di convoluzione e come si collega alla moltiplicazione nel dominio della frequenza. Spiegano come l'utilizzo di una funzione pillbox consenta la convoluzione di un'immagine, ma attenzione che la moltiplicazione delle immagini sfocate non produrrà risultati accurati. La conferenza passa quindi all'argomento della fotogrammetria, che utilizza le immagini per creare informazioni 3D sugli oggetti e sulla loro posizione abbinando caratteristiche come i bordi tra le immagini per individuare la posizione della fotocamera.
Lecture 16: Fast Convolution, Low Pass Filter Approximations, Integral Images (US 6,457,032)
Lecture 16: Fast Convolution, Low Pass Filter Approximations, Integral Images (US 6,457,032)
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 17: Fotogrammetria, Orientamento, Assi di Inerzia, Simmetria, Orientamento



Lezione 17: Fotogrammetria, Orientamento, Assi di Inerzia, Simmetria, Orientamento

Questa lezione copre vari argomenti relativi alla fotogrammetria, inclusi segnali di profondità, calibrazione della fotocamera e definizione della trasformazione tra due sistemi di coordinate. Il relatore spiega come affrontare il problema di trovare la trasformazione di coordinate tra due sistemi utilizzando misure corrispondenti e sottolinea l'importanza di verificare l'esatto inverso della trasformazione. La conferenza discute anche la ricerca degli assi di inerzia nello spazio 2D e 3D e la determinazione della distanza tra due punti proiettati su un asse. Nel complesso, la sezione fornisce una panoramica completa della fotogrammetria e delle sue applicazioni.

La fotogrammetria richiede la costruzione di un sistema di coordinate su una nuvola di punti nei sistemi di coordinate sinistro e destro e la relativa relazione. Il docente spiega come determinare la matrice di inerzia o gli assi di inerzia e stabilire i vettori di base. Discutono anche delle sfide poste dagli oggetti simmetrici e delle proprietà di rotazione, come la conservazione di prodotti scalari, lunghezze e angoli. Inoltre, la lezione illustra come semplificare il problema di trovare la rotazione eliminando la traduzione e riducendo al minimo il termine di errore. Infine, il docente spiega come allineare due oggetti con forme simili utilizzando il calcolo vettoriale e suggerisce di esplorare altre rappresentazioni per la rotazione.

  • 00:00:00 In questa sezione il relatore introduce la fotogrammetria, che consiste nell'utilizzare immagini per misurare e ricostruire superfici tridimensionali. Il campo ha le sue radici nella creazione di mappe ed è stato reso popolare dopo l'invenzione della fotografia. Il relatore discute quattro problemi classici della fotogrammetria, inclusa la ricerca della relazione tra due diversi sistemi di coordinate, nonché la ricerca della relazione tra un singolo sistema di coordinate e oggetti che possono muoversi o cambiare. Il relatore osserva che mentre la visione artificiale è spesso più interessata al secondo problema, che comporta il recupero della terza dimensione da immagini bidimensionali, può essere vantaggioso affrontare prima il problema 3D a causa della sua soluzione in forma chiusa.

  • 00:05:00 In questa sezione il docente illustra i due tipi di applicazioni della fotogrammetria: dal 2D al 3D e dal 3D al 2D. Il primo prevede il recupero di informazioni tridimensionali dalle immagini e la determinazione della relazione tra due telecamere nello spazio per allinearle. Quest'ultimo prevede la calibrazione della fotocamera, necessaria per misurazioni precise utilizzando le fotocamere, e la creazione di mappe topografiche attraverso l'acquisizione di intervalli di immagini regolari da un piano. Il docente discute anche diversi segnali di profondità, incluso lo stereo binoculare, che è la capacità di percepire la profondità attraverso due occhi.

  • 00:10:00 In questa sezione, il docente spiega come utilizzare due telecamere per stabilire segnali di profondità utilizzando triangoli simili. Immaginando un oggetto in entrambe le fotocamere e confrontando le immagini risultanti, la differenza tra le posizioni può essere utilizzata per calcolare la profondità dell'oggetto. La conferenza rileva inoltre che le disparità nell'immagine possono essere utilizzate per calcolare la profondità poiché la distanza è inversamente proporzionale alla disparità. Infine, la sezione tocca il tema della sensibilità all'errore e di come grandi errori potrebbero derivare da piccole discrepanze nella misurazione della disparità.

  • 00:15:00 In questa sezione del video, il docente discute la fotogrammetria e la misurazione delle posizioni 3D utilizzando due fotocamere. Spiegano che l'aumento della linea di base o della lunghezza focale può migliorare l'accuratezza della misurazione, ma ci sono vincoli su queste quantità, come garantire che le telecamere non siano troppo distanti. Menzionano anche la sfida di calibrare le telecamere se non sono perfettamente allineate in una geometria specifica. Il docente passa quindi al tema degli orientamenti assoluti e di come compensare l'orientamento di dispositivi come lidar o telecamere aeree, che potrebbero non mantenere un assetto costante. Notano infine che la discussione presuppone la presenza di punti interessanti nelle immagini, prescindendo dal problema del matching.

  • 00:20:00 In questa sezione, il docente spiega come trovare la rotazione e la traslazione di due sistemi di coordinate per proiettare i raggi in 3D e trovare il punto di intersezione tra loro. Usa l'esempio dei punti misurati sia in un sistema di coordinate sinistro che destro, osservando che questo potrebbe applicarsi a due sistemi di coordinate qualsiasi indipendentemente dalle loro etichette. Il docente sottolinea la necessità di sei numeri per specificare completamente la trasformazione, tre per la rotazione e tre per la traslazione, e spiega che ci sono tre gradi di libertà per ciascuno. Scrive la formula di trasformazione, sottolineando che la rotazione non deve essere rappresentata come una matrice ortonormale.

  • 00:25:00 La lezione discute le proprietà della rotazione e la matrice ortonormale, che è essenziale per capire come calcolare la rotazione e la traslazione degli oggetti. La conferenza parla anche di come l'applicazione del vincolo di ortonormalità elimini i riflessi e di come si possa facilmente ottenere l'inverso di una matrice di rotazione. Viene inoltre presentato un modello fisico per una migliore visualizzazione di come i punti dei sistemi di coordinate sinistro e destro possono essere sovrapposti e allineati.

  • 00:30:00 In questa sezione, il relatore discute su come affrontare il problema di trovare la trasformazione di coordinate tra due sistemi utilizzando misure corrispondenti. Questo problema può essere affrontato in un modo ai minimi quadrati, dove l'obiettivo è minimizzare la distanza tra il vettore trasformato nel sistema di coordinate sinistro e il sistema di coordinate destro. Questo può essere pensato come un problema di minimizzazione dell'energia, in cui il sistema cerca di adattarsi per minimizzare l'energia. Il relatore sottolinea l'importanza di verificare che la trasformazione dal sistema di destra a quello di sinistra sia l'esatto inverso della trasformazione dal sistema di sinistra a quello di destra. Separare i problemi di traslazione e rotazione semplifica il problema a soli tre gradi di libertà alla volta.

  • 00:35:00 In questa sezione, il relatore spiega come costruire un sistema di coordinate utilizzando misurazioni di punti su un oggetto. Il primo passo è scegliere un punto come origine e collegarlo a un secondo punto per creare un asse. La separazione tra i primi due punti viene normalizzata per creare l'asse x e un terzo punto viene utilizzato per definire il piano xy. L'asse y viene creato rimuovendo la componente del vettore dal primo al terzo punto che si trova nella direzione dell'asse x e rendendo il vettore risultante perpendicolare all'originale. L'asse z è definito come il prodotto incrociato di x e y, poiché è perpendicolare a entrambi i vettori. Questo processo consente la creazione di un sistema di coordinate e la misurazione di punti in entrambi i sistemi di coordinate per un oggetto.

  • 00:40:00 In questa sezione, l'oratore spiega come costruire un sistema di coordinate e risolvere la rotazione. Per fare ciò, usano una triade di vettori unitari per definire un sistema di coordinate per la sinistra e la destra. Quindi, prendono entrambi i punti della nuvola, costruiscono un asse e mappano i vettori unitari l'uno con l'altro per trovare una trasformazione che li metta insieme. Quindi usano una matrice 3x3 per incollare insieme le equazioni separate e risolvere la rotazione. Dicono che, rimuovendo la traduzione, rimangono solo tre gradi di libertà da trovare.

  • 00:45:00 In questa sezione, il relatore discute i vincoli coinvolti nella mappatura dei punti tra i sistemi di coordinate nella fotogrammetria. Mentre tre corrispondenze tra due sistemi potrebbero sembrare sufficienti per una soluzione con sole tre incognite, le uguaglianze vettoriali indicano che ogni vincolo vale tre punti. Quindi, abbiamo nove vincoli. Tuttavia, la rotazione ha solo tre gradi di libertà, portando a un eccesso di informazioni. L'oratore discute quindi una soluzione ad hoc che prevede la selezione selettiva di punti per la trasformazione, che è imprecisa. Un'altra soluzione prevede l'utilizzo della decomposizione del valore singolare (SVD) per trovare la matrice di trasformazione ottimale che pesa uniformemente le informazioni da tutte le corrispondenze.

  • 00:50:00 In questa sezione, il docente discute il concetto di trovare gli assi di inerzia nello spazio 2D e 3D. Spiega che gli assi di inerzia minima possono essere trovati calcolando l'integrale della distanza al quadrato per la massa, mentre l'asse perpendicolare ha un'inerzia massima, e in 3D c'è un terzo asse che è un punto di sella. Afferma che se questi assi vengono identificati, è possibile stabilire un sistema di coordinate per l'oggetto in questione. Viene anche discussa la formula per trovare la distanza dall'asse all'origine, insieme alla scelta del baricentro come origine per separare il problema di trovare la traslazione dal problema di trovare la rotazione.

  • 00:55:00 In questa sezione, il relatore spiega come determinare la distanza tra due punti, r e r primo, proiettati su un asse omega. La formula per l'inerzia è derivata da questa distanza e viene mostrata per variare quando l'asse cambia direzione. L'oratore quindi semplifica la formula utilizzando i prodotti scalari, l'associatività della moltiplicazione e la matrice identità. La formula risultante mostra che l'inerzia è uguale al prodotto scalare di r con se stesso moltiplicato per la matrice identità e integrato sul volume dell'oggetto.

  • 01:00:00 In questa sezione, il docente spiega come costruire un sistema di coordinate su una nuvola di punti in un sistema di coordinate sinistro e destro, e quindi mettere in relazione i due. Questo viene fatto calcolando la matrice di inerzia, o gli assi di inerzia, che è un semplice problema di autovettori di autovalori per una matrice tre per tre. Si trovano tre assi perpendicolari l'uno all'altro: l'asse massimo, minimo e della sella. Questi assi vengono utilizzati per stabilire i vettori di base e lo stesso metodo viene utilizzato per il sistema di coordinate di destra. Il metodo utilizzato per eseguire questa operazione è un problema dei minimi quadrati in quanto tratta tutti i punti allo stesso modo e minimizza il problema.

  • 01:05:00 In questa sezione della conferenza, il relatore discute i limiti dei metodi ad hoc in fotogrammetria quando si tratta di oggetti simmetrici. Il relatore spiega che alcuni oggetti, come una sfera, un tetraedro e un ottaedro, hanno la stessa inerzia in tutte le direzioni, rendendo difficile determinare il loro orientamento utilizzando un metodo ad hoc che si basa sull'allungamento. Inoltre, il relatore osserva che l'utilizzo delle corrispondenze per determinare l'orientamento è un approccio più accurato ma impegnativo poiché richiede la conoscenza dell'allineamento di ciascun punto. L'oratore spiega anche le proprietà della rotazione, inclusa la conservazione di prodotti scalari, lunghezze e angoli.

  • 01:10:00 In questa sezione, il professore discute il triplo prodotto dei vettori, che è il volume di un parallelepipedo formato da quei vettori. Se questi vettori vengono ruotati, il loro volume verrà preservato se la rotazione non è un riflesso. Una riflessione cambierebbe il segno del triplo prodotto e, quindi, il volume, risultando in una regola della mano sinistra invece che di una regola della mano destra. Questo principio è importante quando si imposta un problema dei minimi quadrati per trovare la trasformazione tra due sistemi di coordinate, dove l'offset e la rotazione devono essere scelti per minimizzare l'errore tra i due sistemi.

  • 01:15:00 In questa sezione, il docente spiega come semplificare il problema di trovare la traduzione dal trovare la rotazione. Lo fanno spostando le coordinate sul baricentro e sottraendole dalle coordinate originali per eliminare la traslazione, rendendo il problema della rotazione molto più facile da risolvere. Il docente quindi inserisce le nuove coordinate nella formula dell'errore e raggruppa i termini, arrivando infine a un problema più semplice con cui lavorare. La conferenza si conclude con una domanda su quale offset scegliere per la traduzione.

  • 01:20:00 In questa sezione, la lezione si concentra sulla separazione del problema di trovare la traduzione dal problema di trovare la rotazione. La formula per la traslazione è la differenza tra dove si trova il centroide nel sistema di coordinate destro e dove si trova il centroide del sistema di coordinate sinistro dopo averlo ruotato. Il prossimo obiettivo è ridurre al minimo il termine di errore rimanente, il che implica trovare la rotazione corretta. Massimizzando il termine rimanente che dipende dalla rotazione, la lezione mira a trovare la rotazione corretta, il che ha senso intuitivo quando si immagina una nuvola di punti collegati al baricentro con un aspetto appuntito, simile al sushi.

  • 01:25:00 In questa sezione, il docente spiega come allineare due oggetti che hanno una forma simile utilizzando il calcolo vettoriale. Prendendo le spine corrispondenti degli oggetti e utilizzando il prodotto scalare tra di loro per determinare l'angolo, gli oggetti possono essere allineati. Tuttavia, questo pone il problema di come risolvere il problema di rotazione utilizzando il calcolo senza dover trattare con matrici complicate da vincoli aggiunti. Il docente suggerisce di esaminare altre rappresentazioni per la rotazione che rendano più semplice il problema dell'allineamento.
Lecture 17: Photogrammetry, Orientation, Axes of Inertia, Symmetry, Orientation
Lecture 17: Photogrammetry, Orientation, Axes of Inertia, Symmetry, Orientation
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 18: La rotazione e come rappresentarla, i quaternioni unitari, lo spazio delle rotazioni



Lezione 18: La rotazione e come rappresentarla, i quaternioni unitari, lo spazio delle rotazioni

Questa conferenza discute le sfide della rappresentazione delle rotazioni e introduce l'utilità dei quaternioni di Hamilton. I quaternioni unitari sono particolarmente utili in quanto mappano direttamente sulle rotazioni in tre spazi, consentendo una discussione di uno spazio di rotazione e ottimizzazione in quello spazio. I quaternioni hanno proprietà simili ai numeri complessi e sono particolarmente utili per rappresentare le rotazioni poiché preservano i prodotti scalari, i prodotti tripli, la lunghezza, gli angoli e la manualità. La conferenza discute anche diversi metodi di rappresentazione della rotazione, l'importanza di poter ruotare i vettori e comporre le rotazioni, e le limitazioni dei metodi convenzionali come matrici, angoli di Eulero e blocco cardanico. Infine, la conferenza presenta la ricerca in corso nel campo, inclusa l'ottimizzazione e l'adattamento delle rotazioni ai modelli e lo sviluppo di nuovi metodi per l'analisi e la visualizzazione degli spazi di rotazione.

In questa lezione, il professore discute il problema di trovare la trasformazione di coordinate tra due sistemi di coordinate o la rotazione e traslazione più adatta tra due oggetti con punti corrispondenti misurati nei due sistemi di coordinate. La conferenza esplora l'uso dei quaternioni per allineare le telecamere dei veicoli spaziali con le direzioni del catalogo e risolvere il problema dell'orientamento relativo. Viene discussa l'efficienza dei quaternioni nel rappresentare le rotazioni, così come diversi metodi per avvicinarsi alla rappresentazione delle rotazioni nello spazio quadridimensionale. Inoltre, la conferenza esplora vari gruppi di rotazione per diversi poliedri, sottolineando l'importanza di selezionare il sistema di coordinate corretto per ottenere un campionamento spaziale regolare.

  • 00:00:00 In questa sezione, l'oratore discute le sfide legate alla gestione delle rotazioni, in quanto non sono commutative come le traduzioni. L'obiettivo è sviluppare un metodo utile e generale per affrontare le rotazioni in fotogrammetria e robotica. I quaternioni di Hamilton forniscono un modo più generale per rappresentare le rotazioni, in particolare se limitati ai quaternioni unitari, che possono essere mappati direttamente sulle rotazioni nello spazio tridimensionale. Ciò consente la discussione di uno spazio di rotazione e ottimizzazione in quello spazio. Le applicazioni sono vaste, dalla robotica alla scienza biomedica, e il relatore mira a sviluppare una soluzione in forma chiusa per problemi che coinvolgono la misurazione di due oggetti in diversi sistemi di coordinate o un oggetto che si muove.

  • 00:05:00 In questa sezione viene introdotto e spiegato il tema della rotazione. Il teorema di Eulero afferma che qualsiasi rotazione di un oggetto rigido ha la proprietà che esiste una linea che non viene modificata, che è l'asse. Il teorema dell'asse parallelo afferma che qualsiasi rotazione attorno a qualsiasi asse è equivalente a una rotazione attorno a un asse attraverso l'origine, più una traslazione. Per semplificare le cose, è conveniente separare traslazione e rotazione. La velocità di rotazione è molto più semplice delle stesse rotazioni finite poiché la velocità angolare richiede solo un vettore e una velocità. Infine, le rotazioni finite non commutano e per n = 3 ci sono tre gradi di libertà.

  • 00:10:00 In questa sezione, il docente spiega che è meglio pensare alle rotazioni come alla preservazione di determinati piani. Ad esempio, il piano xy può essere preservato mentre le cose in esso contenute vengono spostate in una posizione diversa. Il docente osserva inoltre che i prodotti incrociati hanno tre gradi di libertà e sono rappresentati come vettori perché sono perpendicolari ai due vettori che vengono moltiplicati. Esistono rappresentazioni per la rotazione e un metodo utile è la notazione dell'asse e dell'angolo in cui l'asse è un vettore unitario e il numero di gradi ruotati è rappresentato da un angolo. Il vettore di Gibbs è un'altra notazione che combina l'asse e l'angolo in un singolo vettore, anche se non è più un vettore unitario e esplode a theta uguale a pi greco.

  • 00:15:00 In questa sezione, il docente spiega i vari modi per rappresentare la rotazione, inclusi angoli di Eulero, matrici ortonormali, forma esponenziale, stereografia e matrici complesse. Ogni metodo ha i propri vincoli e ci sono 24 diverse definizioni per gli angoli di Eulero, che lo rendono confuso. Tuttavia, i quaternioni unitari sono il metodo più popolare e utile per rappresentare le rotazioni perché hanno molti vantaggi, come essere compatti, facili da interpolare e non influenzati dal blocco del giunto cardanico. È anche essenziale essere in grado di convertire tra diverse rappresentazioni di rotazione.

  • 00:20:00 In questa sezione, il relatore discute il problema di ruotare un vettore e trovare la sua posizione in un sistema di coordinate ruotato, oltre a comporre rotazioni. Il relatore introduce la formula di Rodriguez, che risolve il primo problema prendendo un vettore e ruotandolo di un angolo attorno a un dato asse. Scomponendo il problema in uno 2D, il relatore mostra come la formula di rotazione sia semplice nel piano, ma più complessa nel 3D. Il relatore spiega che la notazione degli assi e degli angoli è utile per visualizzare le rotazioni, ma la composizione è difficile da ottenere.

  • 00:25:00 In questa sezione, il docente discute diverse rappresentazioni della rotazione, inclusa la mappatura di una sfera su un piano utilizzando una tecnica di proiezione, che preserva angoli e forme. Menziona anche l'importanza di poter ruotare i vettori e comporre rotazioni, oltre ad avere una rappresentazione intuitiva come asse e angolo. Tuttavia, osserva che alcune rappresentazioni come le matrici di rotazione e l'angolo dell'asse possono essere ridondanti o poco intuitive. Il docente sottolinea inoltre l'importanza di evitare singolarità e garantire l'efficienza computazionale pur essendo in grado di interpolare l'orientamento nella grafica.

  • 00:30:00 In questa sezione, il docente discute le sfide della rappresentazione e dell'interpolazione delle rotazioni nella computer grafica, nonché la necessità di uno spazio di rotazioni che possa essere campionato e mediato in modo efficiente. Sottolinea i limiti dell'utilizzo di matrici, angoli di eulero, blocco cardanico e altri metodi convenzionali e introduce i quaternioni come soluzione più pratica. Spiega come i quaternioni possono evitare ridondanze e singolarità e come possono essere composti, interpolati e campionati in un modo matematicamente elegante ed efficiente dal punto di vista computazionale. Sottolinea inoltre alcuni dei problemi aperti e della ricerca in corso in questo campo, tra cui l'ottimizzazione e l'adattamento delle rotazioni ai modelli e lo sviluppo di nuovi metodi per l'analisi e la visualizzazione degli spazi di rotazione.

  • 00:35:00 In questa sezione, il relatore spiega la storia dietro la creazione dei quaternioni e il loro significato in matematica, in particolare nella rotazione. Spiega che William Hamilton, un matematico di Dublino, stava cercando di trovare un modo per rappresentare triplette di numeri in un modo che consentisse la divisione, quindi ha cercato ispirazione nei numeri complessi. Hamilton alla fine scoprì che i quaternioni, o numeri con una parte reale e tre parti immaginarie, potevano risolvere il problema. L'oratore prosegue poi spiegando i diversi modi di rappresentare i quaternioni, incluso come vettore nello spazio o come matrice quattro per quattro.

  • 00:40:00 In questa sezione, il docente discute diversi modi per rappresentare la moltiplicazione dei quaternioni, incluso l'uso di matrici e l'uso di una parte scalare e tre parti immaginarie. Il docente sottolinea che la moltiplicazione non è commutativa e mostra come può essere rappresentata come prodotto di una matrice e di un vettore. La conferenza evidenzia anche alcuni risultati fondamentali, tra cui il fatto che la moltiplicazione dei quaternioni non è commutativa ma associativa.

  • 00:45:00 In questa sezione, il relatore spiega le proprietà dei quaternioni che li rendono un modo utile per rappresentare le rotazioni. I quaternioni hanno proprietà simili ai numeri complessi, incluso un coniugato che comporta la negazione della parte immaginaria. Il prodotto scalare può essere espresso come norma e moltiplicando un quaternione per il suo coniugato si ottiene una quantità reale senza parte immaginaria, che può essere utilizzata per la divisione. Nel caso dei quaternioni unitari, l'inverso è solo il coniugato. I quaternioni possono anche essere usati per rappresentare i vettori tralasciando la parte scalare, e ci sono molte proprietà interessanti in questo spazio.

  • 00:50:00 In questa sezione, il docente spiega come rappresentare la rotazione utilizzando i quaternioni. A differenza della semplice moltiplicazione di quaternioni, un'operazione di pre-moltiplicazione di un quaternione per un vettore, post-moltiplicazione per il suo coniugato ed estrazione della parte immaginaria del vettore fornisce un quaternione con una parte scalare zero che può essere applicata per ruotare un vettore in 3D. Rappresentando la moltiplicazione dei quaternioni utilizzando matrici quattro per quattro, il docente mostra poi come questa operazione preservi i prodotti scalari dei vettori originali. In definitiva, la risultante matrice di rotazione ortonormale tre per tre può essere utilizzata per ruotare i vettori senza manipolare direttamente i quaternioni.

  • 00:55:00 In questa sezione, il docente discute le proprietà che definiscono una rotazione e come rappresentarla utilizzando un quaternione. Un quaternione è una rappresentazione quadridimensionale di una rotazione che conserva prodotti scalari, prodotti tripli, lunghezza, angoli e manualità, che lo rendono una rappresentazione appropriata di una rotazione. La composizione delle rotazioni è semplice nella notazione dei quaternioni, mentre è difficile sia nell'angolo dell'asse che negli angoli di Eulero. La parte vettoriale del quaternione è parallela all'asse di rotazione, facilitando la determinazione dell'asse. Il docente spiega come convertire tra le rappresentazioni asse-angolo e quaternione e identifica che il lato opposto di una sfera rappresenta le stesse rotazioni, che è una conoscenza essenziale in fotogrammetria per il calcolo delle medie.

  • 01:00:00 In questa sezione della lezione, il relatore discute il problema di trovare la trasformazione di coordinate tra due sistemi di coordinate o la rotazione e traslazione più adatta tra due oggetti con punti corrispondenti misurati nei due sistemi di coordinate. Usando un analogo fisico con molle, il sistema vuole minimizzare la somma dei quadrati degli errori per trovare la rotazione e la traslazione. Il primo passo per trovare la traduzione è prendere il centroide nel sistema di sinistra dopo la rotazione nel centroide del sistema di destra, che è intuitivo e non richiede corrispondenze. La formula per la traduzione viene quindi utilizzata per semplificare l'espressione per minimizzare il termine di errore. Il termine medio è l'unico che può essere modificato e, massimizzandolo, il sistema può massimizzare il prodotto scalare dei punti corrispondenti.

  • 01:05:00 In questa sezione, il docente discute su come allineare le telecamere dei veicoli spaziali con le direzioni del catalogo utilizzando la notazione dei quaternioni. Usano i quaternioni per mappare la direzione delle stelle nella fotocamera con le direzioni del catalogo, dove l'obiettivo è massimizzare il prodotto scalare di questi due quaternioni. Tuttavia, poiché ciò può comportare valori elevati per il quaternione, è necessario imporre un vincolo aggiuntivo. Il docente spiega due metodi per differenziare rispetto al quaternione, che viene utilizzato per minimizzare la differenza tra le due direzioni del quaternione.

  • 01:10:00 In questa sezione della lezione, il professore discute l'autovettore e l'autovalore di una matrice simmetrica reale quattro per quattro costruita dai dati. A differenza del passato, dove si desiderava l'autovalore più piccolo, a causa del sinusoidale, dobbiamo scegliere l'autovettore che corrisponde all'autovalore più grande. La matrice è simmetrica, nel senso che ha nove quantità indipendenti e il suo determinante ha un termine cubico che è zero. Sebbene abbia 16 quantità indipendenti, dieci di esse sono indipendenti, rendendo questa matrice speciale. Ciò consente di ridurlo a un'equazione cubica, il che rende più facile risolverlo. Il professore osserva inoltre che le equazioni cubiche e le equazioni quartiche possono essere risolte in forma chiusa, a differenza delle equazioni di quinto ordine.

  • 01:15:00 In questa sezione, il docente discute le proprietà desiderabili dei quaternioni come mezzo per rappresentare le rotazioni. Queste proprietà includono la capacità di ruotare i vettori e comporre facilmente le rotazioni, una rappresentazione intuitiva non ridondante, l'efficienza computazionale e la capacità di interpolare gli orientamenti e prendere le medie di un intervallo di rotazioni. Il docente introduce quindi l'orientamento relativo come problema di trovare la linea di base e l'orientamento relativo di due sistemi di coordinate utilizzando i dati di direzione da due punti nel mondo. I quaternioni sono anche utili per descrivere la cinematica di un robot manipolatore e possono aiutare a evitare problemi con l'allineamento dei sistemi di coordinate, in particolare nel polso.

  • 01:20:00 In questa sezione, il relatore discute l'efficienza dei quaternioni nel rappresentare le rotazioni rispetto alle matrici ortonormali, dimostrando che le moltiplicazioni dei quaternioni sono più veloci per la composizione ma più lente per i vettori rotanti. Nota che i quaternioni sono anche più facili da rinormalizzare rispetto alle matrici. Il relatore discute quindi come campionare lo spazio delle rotazioni in quattro dimensioni proiettando i poliedri sulla sfera delle rotazioni, risultando in un campionamento regolare e uniforme dello spazio.

  • 01:25:00 In questa sezione, la conferenza discute diversi metodi per rappresentare le rotazioni nello spazio quadridimensionale, come l'utilizzo di sistemi di coordinate per semplificare le espressioni per i gruppi di rotazione. La conferenza esplora anche vari gruppi di rotazione per diversi poliedri, utilizzando questi gruppi per fornire un campionamento spaziale regolare dello spazio, in modo che gli utenti possano provare diversi orientamenti per le loro ricerche o la media. Tuttavia, si noti che questi metodi possono richiedere trucchi per ottenere un campionamento più preciso e che la scelta del giusto sistema di coordinate è fondamentale.
Lecture 18: Rotation and How to Represent It, Unit Quaternions, the Space of Rotations
Lecture 18: Rotation and How to Represent It, Unit Quaternions, the Space of Rotations
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 19: Orientamento assoluto in forma chiusa, valori anomali e robustezza, RANSAC



Lezione 19: Orientamento assoluto in forma chiusa, valori anomali e robustezza, RANSAC

La conferenza copre vari aspetti dell'orientamento assoluto, incluso l'uso di quaternioni unitari per rappresentare le rotazioni in fotogrammetria, la conversione tra rappresentazioni di quaternioni e matrici ortonormali, la gestione della simmetria di rotazione e il coordinamento di traslazione, ridimensionamento e rotazione in modo privo di corrispondenze. La conferenza discute anche il problema dei valori anomali e della robustezza nei processi di adattamento e misurazione della linea e introduce il metodo RANSAC (Random Sample Consensus) come un modo per migliorare l'affidabilità delle misurazioni quando sono presenti valori anomali. La lezione si conclude con una discussione sulla risoluzione del problema dell'orientamento assoluto in forma chiusa utilizzando due piani in uno scenario complanare, comprese le sfide relative ai valori anomali e all'ottimizzazione.

In questo video sull'orientamento assoluto, il docente discute la questione dei valori anomali nei dati reali e propone l'uso di RANSAC, un metodo di consenso che coinvolge adattamenti di sottoinsiemi casuali per trattare i valori anomali. Il docente discute anche i metodi per ottenere una distribuzione uniforme dei punti su una sfera, inclusa l'iscrizione di una sfera in un cubo e la proiezione di punti casuali, la tassellatura della superficie della sfera e la generazione di punti su poliedri regolari. Inoltre, il docente illustra i modi per campionare lo spazio delle rotazioni per un riconoscimento efficiente di più oggetti in una libreria, trovando il numero di rotazioni necessarie per allineare un oggetto con se stesso e affrontando il problema di trovare rotazioni attraverso esempi o moltiplicazione di quaternioni.

  • 00:00:00 In questa sezione della conferenza, il relatore discute l'uso dei quaternioni unitari per rappresentare le rotazioni in fotogrammetria. I quaternioni unitari consentono una soluzione in forma chiusa al problema meno peggiore, fornendo un modo oggettivo per ottenere la risposta più adatta, che è più difficile con altre notazioni. Le due operazioni particolarmente importanti sono la composizione delle rotazioni e la rotazione di un vettore, entrambe rappresentabili mediante la formula discussa. L'oratore collega anche questa notazione agli assi e alla notazione degli angoli usando la formula di Rodriguez. Nel complesso, l'uso di quaternioni unitari consente un modo più efficiente di rappresentare le rotazioni in fotogrammetria.

  • 00:05:00 In questa sezione del video, il relatore discute la conversione tra rappresentazioni di quaternioni e matrici ortonormali. La formula per convertire i quaternioni in matrici implica una matrice quattro per quattro con parti simmetriche e simmetriche. Il relatore spiega che la prima riga e colonna sono irrilevanti in quanto rappresentano un quaternione speciale che è un vettore con una parte scalare nulla. Per riconvertire una matrice ortonormale in un quaternione, il relatore consiglia di utilizzare la traccia della sottomatrice tre per tre. Questo metodo termina con un'equazione sotto forma di due coseno che ci permette di risolvere il coseno dell'angolo tra le matrici.

  • 00:10:00 In questa sezione, il docente discute diversi modi di calcolare la matrice di rotazione dagli elementi diagonali della matrice R. Sebbene un approccio sia incentrato sulla traccia della matrice di rotazione, soffre di problemi vicino a theta uguale a zero. Invece, è meglio usare gli elementi fuori diagonale, che dipendono tutti dal seno di theta fratto due. La lezione prosegue poi fornendo una formula di inversione completa che calcola varie somme e differenze e prende le radici quadrate. Il problema con questo approccio è l'ambiguità seno, ma la conferenza suggerisce di scegliere il più grande per precisione numerica e risolverlo.

  • 00:15:00 In questa sezione, il relatore discute il processo di conversione tra quaternione e matrice di rotazione, sia direttamente che indirettamente, e come tenere conto della scala nelle trasformazioni di coordinate. Spiegano il processo di risoluzione dei fattori di rotazione e ridimensionamento utilizzando un problema dei minimi quadrati e minimizzando la somma di quattro somme. Il relatore sottolinea l'importanza di tenere conto della scala quando si uniscono pezzi di terreno ottenuti da posizioni successive della telecamera e spiega come trovare l'ottimale in queste situazioni.

  • 00:20:00 In questa sezione, il relatore discute la questione della simmetria in rotazione, dove il metodo utilizzato per calcolare la rotazione dovrebbe poter essere invertito per ottenere l'inverso della matrice rotazionale. L'oratore esplora anche un altro termine di errore preferito rispetto ai metodi precedenti perché non richiede corrispondenze e può mappare il centroide al centroide. Questo metodo prevede di trovare il fattore di scala impostando la derivata del termine di errore rispetto al fattore di scala uguale a zero e risolvendo per il fattore di scala, che evita barare rendendo il fattore di scala un po' più piccolo di quanto dovrebbe essere.

  • 00:25:00 In questa sezione, il docente spiega come gestire la traduzione, il ridimensionamento e la rotazione in modo privo di corrispondenza. Utilizzando un metodo del centroide, il fattore di scala può essere calcolato come il rapporto tra le dimensioni di due nuvole di punti. Con la parte relativa alla rotazione, il docente accenna brevemente al problema di calcolo della massimizzazione di un determinante negativo di una matrice, N, rispetto a q, il quaternione. La soluzione può essere trovata usando i moltiplicatori di Lagrange, ma si può usare anche un metodo più semplice chiamato quoziente di Rall, che divide per la lunghezza di q per evitare che diventi infinitamente grande. La funzione risultante è costante lungo qualsiasi matrice, fornendo la direzione del raggio che la rende il più estrema possibile.

  • 00:30:00 In questa sezione, il relatore spiega come trovare la matrice che massimizza sigma differenziando l'equazione e ponendola a zero. Utilizzando una formula di rapporto per la differenziazione, l'oratore mostra quindi come q sia un autovettore e spiega che la matrice può essere massimizzata scegliendo l'autovettore corrispondente all'autovalore più grande. L'unico vincolo a questo metodo è che l'autovettore deve soddisfare il vincolo ottenuto dai dati di corrispondenza. Tuttavia, a differenza delle matrici ortonormali, questo vincolo è molto più facile da gestire.

  • 00:35:00 In questa sezione, il docente discute il numero di corrispondenze necessarie per problemi fotogrammetrici. Mirano a trovare sei cose: rotazione traslazionale e ridimensionamento, il che significa tre vincoli per corrispondenza e quindi sono necessarie solo due corrispondenze. Tuttavia, con solo due corrispondenze, ci sono solo cinque vincoli; quindi, ci vogliono tre corrispondenze per raggiungere questo obiettivo. Inoltre, il docente accenna alla possibilità di generalizzare la trasformazione per far corrispondere i nove vincoli ottenuti da tre punti; tuttavia, notano che questi vincoli sono altamente ridondanti.

  • 00:40:00 In questa sezione, il video discute il concetto di trasformazione lineare generale in 3D, che coinvolge 12 elementi, non sei come in 2D, rendendo difficile la determinazione con tre corrispondenze. Inoltre, il video spiega che ci sono due modi per fallire la trasformazione lineare. In primo luogo, se non ci sono abbastanza corrispondenze, e in secondo luogo, se la matrice N ha più di un autovalore pari a zero. Il video spiega inoltre come risolvere l'equazione caratteristica per trovare gli autovalori della matrice.

  • 00:45:00 In questa sezione del video, il docente spiega come calcolare la matrice M utilizzando il prodotto diatico, che è una matrice tre per tre utilizzata nel calcolo della matrice quattro per quattro N, che è la più modo efficiente per ottenere N. Si noti che se il determinante di M è zero, allora il problema diventa particolarmente facile da risolvere perché C1 è zero, consentendo di risolvere l'equazione senza bisogno di alcun libro di testo speciale. Questo caso particolare ha a che fare con una distribuzione di punti e può verificarsi quando i punti sono complanari. Il docente mostra come ciò si applichi ugualmente bene se i punti sono tutti su un piano, rendendo il problema facile da risolvere.

  • 00:50:00 In questa sezione del video, il relatore spiega come risolvere il problema dell'orientamento assoluto in forma chiusa utilizzando due piani in uno scenario complanare. La rotazione 3D completa può essere scomposta in due semplici rotazioni, ruotando prima un piano in modo che si trovi sopra l'altro piano e quindi una rotazione nel piano. L'oratore spiega come trovare l'asse e l'angolo necessari per costruire il quaternione e ruotare tutti i punti in uno dei sistemi di coordinate per allinearli all'altro sistema di coordinate. Inoltre, il relatore discute le sfide legate alla gestione dei valori anomali nel problema di ottimizzazione e come l'utilizzo di qualcosa di diverso dal quadrato dell'errore, come il valore assoluto dell'errore, può portare a più lavoro da calcolare e difficoltà nella generalizzazione dei risultati.

  • 00:55:00 In questa sezione, il docente discute il problema dei valori anomali e della robustezza nel line fitting e in altri processi di misurazione. Introduce il metodo RANSAC (Random Sample Consensus), che prevede il prelievo di un campione casuale di punti e l'utilizzo dei minimi quadrati per trovare il miglior adattamento, quindi il controllo del numero di punti che ricadono all'interno di una banda e la regolazione della soglia in base al rumore e al rapporto tra inlier e outlier. Il processo viene ripetuto fino a quando non si ottiene un buon adattamento. Il docente osserva che l'uso di RANSAC può migliorare l'affidabilità delle misurazioni in situazioni in cui sono presenti valori anomali.

  • 01:00:00 In questa sezione del video, il docente discute il problema degli outlier in presenza di dati reali e come affrontarli utilizzando il metodo del consenso, noto anche come RANSAC. Il metodo prevede l'acquisizione di sottoinsiemi casuali, l'esecuzione di adattamenti e la ricerca di celle con il maggior numero di risultati, che forniscono una misura dell'orientamento di oggetti che potrebbero non avere una soluzione in forma chiusa. Il docente sottolinea che questo approccio è utile in molte applicazioni e non solo limitato all'orientamento assoluto. Inoltre, il docente afferma che anche le rappresentazioni di oggetti complicati vicino al convesso possono essere utili per rilevare oggetti e trovarne l'orientamento.

  • 01:05:00 In questa sezione, il docente discute le difficoltà dei punti di campionamento su una sfera per ottenere l'uniformità. Non è possibile ottenere una distribuzione uniforme dei punti campionando theta e phi utilizzando un generatore di distribuzione uniforme a causa delle regioni polari che hanno una concentrazione maggiore rispetto alle altre. La soluzione proposta è inscrivere una sfera nel cubo e proiettare punti casuali dal cubo verso la sfera. Tuttavia, ciò porta ancora a una maggiore densità di punti in cui la sfera è tangente al cubo. Per risolvere questo problema, il docente suggerisce di tassellare la superficie della sfera utilizzando solidi regolari o di aggiungere peso ai punti vicino agli angoli per contrarre la loro aggregazione.

  • 01:10:00 In questa sezione del video, il docente discute i modi per ottenere una distribuzione uniforme dei punti sulla superficie di una sfera. Un modo è generare punti uniformemente in un cubo e proiettarli sulla superficie della sfera scartando i punti troppo vicini all'origine o troppo lontani dalla sfera. Un altro metodo consiste nel dividere la sfera utilizzando poliedri regolari e generando punti uniformemente su queste forme. Tuttavia, questo metodo richiede la suddivisione per ottenere divisioni più fini, a differenza del primo metodo che genera una distribuzione praticamente uniforme.

  • 01:15:00 In questa sezione, il docente discute come trovare modi uniformi per campionare lo spazio delle rotazioni per vari oggetti, che fa parte del processo di riconoscimento per più oggetti in una libreria. Il docente spiega che per essere efficienti, non vogliono campionare parti dello spazio di rotazione più densamente di altre parti e mirano a trovare un modo uniforme di campionare lo spazio. Iniziano discutendo l'esaedro, che ha simmetria rotazionale, e le sue rotazioni. Il docente spiega che l'obiettivo è trovare metodi di rotazione che semplifichino la ricerca di corrispondenze di punti tra diversi modelli.

  • 01:20:00 In questa sezione, l'oratore discute come trovare il numero di rotazioni necessarie per allineare un oggetto con se stesso, e quindi genera un gruppo di rotazioni utilizzando due metodi: geometricamente e attraverso la moltiplicazione dei quaternioni. Viene trovata un'interessante nuova rotazione, il cui asse è (1, 1, 1) e l'angolo è 2π/3, che allinea l'angolo di un cubo con se stesso.

  • 01:25:00 In questa sezione, l'oratore offre due modi per affrontare il problema di trovare le rotazioni. Il primo modo è guardare gli esempi e sommarli per ottenere un totale di 24 rotazioni. Il secondo modo è implementare la moltiplicazione dei quaternioni e costruire una tabella prendendo prodotti a coppie per vedere se si finisce con qualcosa di nuovo. L'oratore afferma poi che la prossima discussione riguarderà l'orientamento relativo, che è più rilevante per le visioni binoculari.
Lecture 19: Absolute Orientation in Closed Form, Outliers and Robustness, RANSAC
Lecture 19: Absolute Orientation in Closed Form, Outliers and Robustness, RANSAC
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

MIT 6.801 Machine Vision, autunno 2020. Lezione 20: spazio di rotazioni, tassellazioni regolari, superfici critiche, stereo binoculare



Lezione 20: Spazio delle Rotazioni, Tessellazioni Regolari, Superfici Critiche, Stereo Binoculare

Questa sezione della conferenza copre argomenti tra cui tassellazioni regolari, superfici critiche, stereo binoculare e ricerca dei parametri di una trasformazione nello spazio tridimensionale. Il docente spiega che il modo migliore per tassellare una sfera è usare il duale di una tassellatura triangolare, creando forme approssimativamente esagonali con pochi pentagoni. Discutono anche di superfici critiche, che sono difficili per la visione artificiale, ma possono essere utilizzate per creare mobili con bastoncini dritti. Nella discussione sullo stereo binoculare, il docente spiega la relazione tra due fotocamere, il concetto di linee epipolari e come trovare l'intersezione di due fotocamere per determinare un punto nel mondo. Spiegano anche come calcolare l'errore tra due raggi per determinare la loro intersezione e minimizzare l'errore dell'immagine tenendo conto del fattore di conversione tra errore nel mondo ed errore nell'immagine. Infine, discutono su come trovare la linea di base e D per recuperare la posizione e l'orientamento di un oggetto rigido nello spazio usando un quaternione per rappresentare la linea di base.

La conferenza copre vari argomenti, tra cui lo spazio delle rotazioni, le tassellazioni regolari, le superfici critiche e lo stereo binoculare. Per le rotazioni, l'istruttore discute l'uso di approcci numerici, il problema delle singolarità e i vantaggi dell'utilizzo dei quaternioni unitari. Con tassellazioni regolari, mostrano come determinate superfici possono causare problemi con lo stereo binoculare e suggeriscono di utilizzare misure di errore e pesi per mitigare i problemi. L'oratore tocca anche le superfici quadriche e introduce un nuovo problema dei compiti che prevede la "riflessione senza paura".

  • 00:00:00 In questa sezione del video, l'oratore discute la tassellatura della superficie di una sfera basata su solidi platonici e archimedei, che hanno proiezioni di area uguale sulla sfera. La tassellatura della superficie può essere eseguita utilizzando poligoni regolari come sfaccettature, con triangoli, quadrati e pentagoni comunemente usati. Le aree dei poligoni non sono uguali e, di conseguenza, la superficie tassellata presenta molte divisioni. Questo metodo di tassellazione è rilevante quando si discute di rotazioni e l'oratore spiega i gruppi di rotazione di questi solidi. Il video menziona anche l'uso di una cupola geodetica, che si basa sulla tassellatura di un icosaedro in molte aree triangolari per creare una struttura regolare.

  • 00:05:00 In questa sezione, il docente ha discusso varie tassellature regolari, che sono modi per dividere una superficie in forme di uguali dimensioni. Sebbene le tassellazioni quadrate siano comunemente utilizzate nei piani, non sono ideali per le sfere e anche le tassellazioni triangolari sono problematiche. Il docente ha evidenziato un'opzione migliore: il duale di una tassellatura triangolare, che presenta forme approssimativamente esagonali e alcune pentagonali. Inoltre, il docente ha spiegato le superfici critiche, che sono iperboloidi di un foglio. Queste superfici sono difficili per i problemi di visione artificiale, ma hanno la caratteristica distintiva di essere rigate e possono essere utilizzate per realizzare mobili con bastoncini dritti. Infine, il docente ha discusso gli iperboloidi di due fogli che hanno due segni negativi nella loro equazione.

  • 00:10:00 In questa sezione, il docente discute i diversi tipi di superfici che possono essere create con due fogli o tre segni negativi. Spiega anche i vari casi speciali esistenti, come l'iperboloide, il cono, il paraboloide e le superfici piane. Andando avanti, il docente spiega il problema del calcolo del 3D dal 2D utilizzando due telecamere e di come sia necessario un orientamento relativo per comprendere la geometria delle due telecamere. La conferenza si conclude menzionando come lo stereo binoculare sia applicabile nei veicoli autonomi e potrebbe essere necessario eseguire nuovamente la calibrazione se la linea di base non è rigida, ma lo stesso processo funziona anche per la struttura dal movimento con immagini prima e dopo.

  • 00:15:00 In questa sezione, il docente spiega il concetto di trovare l'intersezione di due telecamere per determinare un punto nel mondo, come viene scelto il sistema di coordinate e la geometria associata a questo concetto. Il docente sottolinea che la linea di base è misurata nel sistema di coordinate destro e il numero primo indica come viene convertito dal sistema di coordinate sinistro. Quando il punto è connesso alla linea di base, definisce un piano e l'immagine del piano in entrambi i sistemi di telecamere si proietta in una linea retta in cui il punto viene ripreso da qualche parte lungo quella linea. La conferenza introduce anche il concetto di linee epipolari e come aiutano a trovare disparità che portano a una misurazione della distanza.

  • 00:20:00 In questa sezione, il docente discute la relazione tra le due telecamere in una configurazione stereo binoculare, che coinvolge la linea di base e la rotazione di una telecamera rispetto all'altra. La rotazione ha tre gradi di libertà, ma a causa dell'ambiguità del fattore di scala, il problema si riduce a cinque gradi di libertà invece di sei, come con l'orientamento assoluto. La linea di base viene trattata come un vettore unitario, fornendo solo due gradi di libertà per quel componente. Il docente spiega che per determinare la lunghezza assoluta della linea di base sarebbero necessarie ulteriori informazioni, come la conoscenza delle dimensioni degli oggetti ripresi.

  • 00:25:00 In questa sezione, il docente discute come determinare il numero di corrispondenze necessarie per definire le misurazioni. Spiega l'analogia meccanica della creazione di un filo dai punti dell'immagine e del loro passaggio attraverso un collare per vincolarlo. Il docente spiega che se vengono utilizzate solo due corrispondenze, ci sono ancora gradi di libertà, il che significa che è possibile cambiare la rotazione della telecamera. L'aggiunta di una seconda corrispondenza riduce il grado di libertà ma è ancora insufficiente. La risposta è cinque, che fornisce un vincolo per corrispondenza, consentendo loro di azzerare le disparità verticali nell'orientamento della telecamera. La profondità di campo è inversamente proporzionale alle disparità orizzontali. Lo strumento può essere impostato eliminando le disparità verticali, che è il modo in cui le apparecchiature ottiche sono state installate per decenni.

  • 00:30:00 In questa sezione della conferenza, il relatore discute il processo di ricerca dei parametri di una trasformazione nello spazio tridimensionale utilizzando una sequenza di movimenti e aggiustamenti per convergere, che può essere un processo doloroso e complicato. Tuttavia, in pratica, è importante disporre di più di cinque punti per garantire la precisione e ridurre al minimo l'errore nella misurazione della posizione dell'immagine. Questo problema non lineare si traduce in sette equazioni del secondo ordine, che una volta risolte possono dare due delle sette (128) soluzioni. Sebbene questa sia una curiosità per la maggior parte, le persone interessate alle applicazioni teoriche trovano divertente capirlo. Infine, la lezione discute la natura complanare dei tre vettori quando si trovano i parametri della linea di base e di rotazione dalle corrispondenze.

  • 00:35:00 In questa sezione viene spiegato il concetto di costruzione di una pipetta parallela utilizzando tre vettori come spigoli e determinandone il volume attraverso il triplo prodotto. Quando i tre vettori sono complanari, l'oggetto è piatto e non ha volume tridimensionale, rendendo nullo il suo valore atteso o la condizione di complanarità. Viene discusso un potenziale metodo per minimizzare la somma dei quadrati del triplo prodotto per ogni corrispondenza per stimare la linea di base e la rotazione con errori minimi. Tuttavia, questo non è un metodo affidabile in quanto ha un elevato guadagno di rumore e può fornire risposte errate. Per ridurre al minimo gli errori di misurazione e determinare il fattore di proporzionalità, l'attenzione viene spostata verso la riduzione al minimo della separazione minima tra due raggi quando le misurazioni e la linea di base o la rotazione non sono perfette.

  • 00:40:00 In questa sezione, il docente discute come calcolare l'errore tra due raggi e determinare la loro intersezione. Spiega che l'approccio minimo alla distanza tra due raggi deve essere perpendicolare a entrambi i raggi, il che significa che è parallelo al prodotto incrociato. Aggiungendo vettori e impostandoli uguali a zero, l'equazione può essere convertita in un'equazione scalare utilizzando prodotti scalari, fornendo tre diversi vincoli. Il docente passa quindi a discutere su come semplificare l'equazione eliminando alcuni termini e su come calcolare gamma, beta e alfa, che aiuteranno a determinare quanto lontano lungo i raggi è l'intersezione o quasi l'intersezione.

  • 00:45:00 In questa sezione, l'oratore discute l'importanza di tre quantità - alfa, beta e gamma - nel calcolo della posizione tridimensionale nello spazio delle rotazioni. Mentre gamma è semplicemente l'errore di distanza, alfa e beta possono essere negativi, indicando se i segmenti di linea che si intersecano possono trovarsi dietro lo spettatore, il che in genere non è fisicamente ragionevole. L'oratore afferma che una soluzione in forma chiusa non è attualmente possibile a causa dell'equazione del quinto ordine coinvolta, ma è ancora possibile ridurre al minimo l'errore dell'immagine. Scartando le soluzioni con alfa o beta negativo e utilizzando un risolutore quintico, l'errore nell'immagine può essere ridotto al minimo.

  • 00:50:00 In questa sezione, il relatore discute il problema di minimizzare l'errore della somma dei quadrati nello stereo binoculare tenendo conto del fattore di conversione tra errore nel mondo ed errore nell'immagine. Questo dipende dalla soluzione e viene risolto in modo iterativo. Il triplo prodotto, che è stato ruotato dal sistema di coordinate sinistro a destra, viene utilizzato per introdurre i quaternioni. Il relatore spiega come i quaternioni con zero parti scalari vengono utilizzati per ruotare il triplo prodotto dal sistema di coordinate destro a sinistra. La formula per la moltiplicazione tra i quaternioni che rappresentano i vettori si semplifica al solo prodotto scalare e al prodotto incrociato. Il lemma è affermato senza prove per un modo di spostare uno dei moltiplicatori dall'altra parte.

  • 00:55:00 In questa sezione, il relatore spiega come trovare la linea di base e recuperare la posizione e l'orientamento di un oggetto rigido nello spazio, date due immagini dell'oggetto prese da diversi punti di vista. L'oratore definisce una nuova quantità, che è il prodotto della linea di base e della rotazione, e utilizza un quaternione per rappresentare la linea di base, semplificando il problema per trovare la linea di base e D. Mentre ci sono 8 incognite, ci sono solo cinque gradi di libertà, quindi l'oratore utilizza vari vincoli. Parlano anche di simmetrie interessanti che consentono lo scambio di coordinate sinistra e destra. Il peso, che è il rapporto tra l'errore nello spazio 3D e l'errore nella posizione dell'immagine, è difficile da calcolare ma può essere regolato.

  • 01:00:00 In questa sezione, l'oratore discute un problema di ottimizzazione che comporta il calcolo dei pesi sulla base di una buona prima ipotesi, quindi il ricalcolo di tali pesi e la risoluzione del problema. Toccano anche la simmetria tra gli array sinistro e destro e come ciò possa essere utile nel calcolo numerico, insieme alla simmetria tra rotazione e traslazione nel triplo prodotto. In definitiva, questa simmetria significa che se si ha una soluzione approssimata, possono generare altre soluzioni approssimate utilizzando questa simmetria. Inoltre, nel processo di ricerca delle soluzioni, è possibile trovare più versioni che producono tutte gli stessi risultati, il che può aiutare ad accelerare il processo di ricerca.

  • 01:05:00 In questa sezione, il docente discute il calcolo dello spazio delle rotazioni utilizzando un approccio numerico che richiede l'assunzione di uno dei valori incogniti con una semplice soluzione in forma chiusa dei minimi quadrati. Un altro approccio consiste nell'utilizzare un pacchetto di ottimizzazione non lineare, come il metodo Marquardt che regola i parametri fino a quando le equazioni sono il più vicino possibile allo zero. Tuttavia, non si ritiene che questi approcci abbiano una soluzione in forma chiusa per questo problema. Inoltre, l'istruttore spiega che c'è un problema con le rotazioni perché, a causa del metodo della matrice ortonormale, ci sono nove numeri e solo tre gradi di libertà, portando a una singolarità con il vettore di Gibbs a theta uguale a pi greco.

  • 01:10:00 In questa sezione, l'oratore discute l'uso dei quaternioni unitari per rappresentare le rotazioni, citando che hanno quattro numeri con tre gradi di libertà. Raccomanda di aggiungere ulteriori vincoli per renderli meno ridondanti e afferma che questo pacchetto consente l'aggiunta di tali vincoli. Tocca anche la formula per combinare due rotazioni e la trasformazione di un vettore, che è un po' più complicata. Inoltre, l'oratore sottolinea che c'è un blurb di quattro pagine che riassume tutto ciò che devi sapere sui quaternioni. Infine, discute l'uso di misure di errore e come il peso sia necessario quando si considerano valori z più grandi per evitare errori di grandi dimensioni.

  • 01:15:00 In questa sezione, l'oratore spiega che alcuni tipi di superfici possono causare problemi con il metodo stereo binoculare per determinare l'orientamento di un oggetto. Queste "superfici critiche" sono state scoperte oltre un secolo fa e possono causare ambiguità e un'elevata sensibilità all'errore. L'oratore fornisce un esempio di una valle a forma di U in cui gli angoli tra le diverse immagini delle caratteristiche della superficie non cambiano mentre l'aereo si muove lungo la superficie, rendendo impossibile distinguere le diverse posizioni. L'oratore osserva che l'iperboloide di un foglio è un esempio comune di superficie quadrica che può causare problemi con lo stereo binoculare, poiché ha il giusto numero di segni meno per un foglio e può assomigliare molto ad altre superfici.

  • 01:20:00 In questa sezione, l'oratore parla di superfici quadriche, in particolare i due piani intersecanti che costituiscono una versione di questa superficie. Ogni piano ha un'equazione lineare e, moltiplicato insieme, si ottiene la combinazione di due piani. Uno dei piani passa attraverso il centro di proiezione, il che significa che proietta in una linea. Questo è ancora più strano, poiché significa che una superficie planare è un problema comune nelle strutture artificiali. L'oratore accenna a dover parlare di "riflessione senza paura" la prossima volta, ed è stato introdotto un nuovo problema con i compiti.
Lecture 20: Space of Rotations, Regular Tessellations, Critical Surfaces, Binocular Stereo
Lecture 20: Space of Rotations, Regular Tessellations, Critical Surfaces, Binocular Stereo
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Lezione 21: Orientamento relativo, stereo binoculare, struttura, quadriche, calibrazione, riproiezione



Lezione 21: Orientamento relativo, stereo binoculare, struttura, quadriche, calibrazione, riproiezione

Questa conferenza copre argomenti relativi alla fotogrammetria, tra cui l'orientamento relativo, le superfici quadriche, la calibrazione della fotocamera e le corrispondenze tra i punti dell'immagine e gli oggetti 3D noti. Il docente spiega vari metodi per risolvere problemi di distorsione e ottenere parametri come f e tz. Sottolineano inoltre l'importanza dei vettori unitari ortogonali quando si trova la matrice rotazionale completa e forniscono soluzioni per trovare k utilizzando una formula più stabile. Il docente sottolinea l'importanza di comprendere le equazioni omogenee, che sono fondamentali nella visione artificiale.

Questa lezione copre vari argomenti relativi alla visione artificiale e alla calibrazione, incluso l'uso di un bersaglio planare per la calibrazione, l'ambiguità della calibrazione dell'orientamento esterno, la ridondanza nella rappresentazione dei parametri di rotazione e la determinazione delle proprietà statistiche di determinati parametri attraverso il rapporto di guadagno del rumore. La lezione spiega la formula per risolvere un'equazione quadratica e introduce un metodo di approssimazione che coinvolge l'iterazione. Il caso del target planare è discusso come un metodo comunemente usato per la calibrazione e le applicazioni di visione artificiale. La conferenza tocca anche la rappresentazione della forma e il riconoscimento e la determinazione dell'atteggiamento nello spazio 3D.

  • 00:00:00 In questa sezione, il relatore discute l'orientamento relativo, che è il secondo dei quattro problemi della fotogrammetria, e la sua rilevanza per lo stereo binoculare, la visione del movimento e la struttura del movimento. L'oratore sviluppa una soluzione ma nota che ci sono superfici in cui l'orientamento relativo non può essere determinato, in particolare le superfici quadriche. La conferenza approfondisce quindi i tipi specifici di superfici quadriche, come ellissoidi, iperboloidi di uno o due fogli e superfici che hanno forme immaginarie. L'oratore spiega che se una superficie non ha un termine costante, significa che l'origine del sistema della mano destra, o la posizione della telecamera all'istante due nella visione in movimento, è sulla superficie. Inoltre, se si inserisce meno b per r, dove b è la distanza tra le due telecamere, si ottiene anche una soluzione, il che significa che la superficie passa attraverso entrambi gli occhi.

  • 00:05:00 In questa sezione della lezione, il relatore discute le proprietà e le implicazioni dell'equazione della superficie quadrica, che è simmetrica tra le posizioni sinistra e destra della telecamera in una coppia stereo. L'equazione non ha un termine costante, il che significa che non c'è ridimensionamento e l'intera linea di base è sulla superficie. Ciò suggerisce che la superficie è una superficie rigata e presenta due rigature, il che la rende interessante per la produzione. L'equazione copre una varietà di casi speciali, comprese le superfici piane, con uno dei piani che passa attraverso l'origine di entrambi i sistemi di coordinate come piano epipolare. L'immagine di questo piano è una linea retta, che non è particolarmente interessante, ma l'altro piano è arbitrario e può essere qualsiasi cosa.

  • 00:10:00 In questa sezione, il docente discute la questione dell'ambiguità nella ricostruzione di mappe topografiche o nel recupero di strutture dal movimento, poiché i due problemi sono matematicamente uguali. Sebbene sia più probabile che questo problema si verifichi in campi visivi ristretti, può comunque essere amplificato in una situazione di elevato guadagno di rumore. Per combattere questo problema, si consiglia un ampio campo visivo, motivo per cui sono state create per la fotografia aerea le teste di ragno, un set di fotocamere montate insieme per ottenere un ampio campo visivo. Il docente passa quindi all'orientamento interno, che è essenzialmente la calibrazione della fotocamera. Sebbene il precedente metodo di calibrazione che utilizzava i punti di fuga funzionasse, non era molto accurato e impegnativo tenere conto della distorsione radiale. Il docente suggerisce la necessità di un metodo più generale per tenere conto della distorsione radiale.

  • 00:15:00 In questa sezione, il docente discute i compromessi derivanti dalla progettazione di un obiettivo, inclusa la distorsione radiale, che causa un errore nelle coordinate polari in cui l'immagine può apparire altrove lungo una linea anziché dove dovrebbe. Questa distorsione è comunemente approssimata usando un polinomio, con il termine quadratico solitamente sufficiente per ottenere risultati decenti. La conferenza prosegue descrivendo un metodo a filo a piombo utilizzato in passato per misurare la distorsione di una lente.

  • 00:20:00 In questa sezione, il relatore discute i diversi tipi di distorsione che possono verificarsi nelle immagini, tra cui la distorsione a barilotto e la distorsione a punta di spillo, e come sono correlate al segno di k1. Il relatore menziona anche la possibilità di utilizzare un'approssimazione polinomiale per convertire tra coordinate distorte e non distorte e come ciò influisca sull'ottimizzazione finale e sul sistema di coordinate utilizzato. Il relatore nota l'assenza di distorsione tangenziale nei moderni sistemi di imaging, in quanto sono tipicamente a simmetria rotazionale e subiscono solo distorsione radiale.

  • 00:25:00 In questa sezione, il docente discute le potenziali complicazioni nella calibrazione della fotocamera come il decentramento della distorsione e un piano dell'immagine inclinato. Per un lavoro di alta qualità come la fotografia aerea, questi fattori devono essere presi in considerazione. Il docente spiega che esiste la possibilità di piccoli errori dovuti alla natura meccanica della produzione della fotocamera che possono influire sull'ingrandimento e sulla distorsione dell'immagine. Ciò può essere compensato disponendo di un modello più complesso per la distorsione e il metodo di calibrazione di Tsai prevede l'utilizzo di un oggetto di calibrazione che può essere planare o tridimensionale. Il docente spiega anche che in passato si trattava più che altro di mettere a punto la fotocamera durante la produzione, ma nei tempi moderni vengono utilizzate una soluzione software e le estensioni del modello per gestire la distorsione.

  • 00:30:00 In questa sezione, il relatore discute il processo di determinazione delle corrispondenze tra punti dell'immagine e punti noti su un oggetto 3D. Tuttavia, a differenza del metodo del punto di fuga, è improbabile che possiamo determinare la relazione tra l'oggetto di calibrazione e la fotocamera utilizzando un metro a nastro. Pertanto, abbiamo bisogno di aggiungere l'orientamento esterno per risolvere il problema di capire dove si trova l'oggetto di calibrazione nello spazio e come viene ruotato, oltre a trovare i parametri della fotocamera. Sebbene l'orientamento esterno aggiunga più incognite, produce risultati più accurati. L'orientamento interno coinvolge l'equazione della proiezione prospettica e il punto principale e la distanza principale. La strategia per questo è eliminare parametri difficili e trovare un metodo per modificare le misurazioni per ridurre la dipendenza dalla distorsione radiale, quindi trovare una soluzione in forma chiusa per alcuni parametri prima di ricorrere a metodi numerici.

  • 00:35:00 In questa sezione del video, l'oratore spiega come ottenere una buona ipotesi iniziale per la soluzione iterativa quando si calcola l'orientamento relativo nello stereo binoculare. Mentre i principi stabiliti dovrebbero essere tenuti a mente, alcune violazioni di questi principi sono consentite in questa fase poiché l'ipotesi iniziale non è la risposta. L'oratore spiega che usare i numeri di riga e di colonna per le coordinate xi e yi ed esprimere f nella dimensione dei pixel è conveniente per il processo di determinazione dell'ipotesi iniziale. Viene anche discusso l'orientamento esterno, inclusa la rotazione e la traslazione dell'oggetto di calibrazione, che è noto con precisione. Le equazioni tipicamente utilizzate per trasformare una posizione nell'oggetto di calibrazione in una posizione nell'oggetto fotocamera vengono invertite e utilizzate per cercare di recuperare i parametri sconosciuti di rotazione e traslazione.

  • 00:40:00 In questa sezione del video, l'oratore discute le sfide legate alla gestione della distorsione radiale e all'ottenimento di f e tz. La soluzione suggerita è quella di lavorare in coordinate polari, dove la distorsione radiale altera solo la lunghezza, non l'angolo, e utilizzando un'equazione con meno incognite. L'equazione coinvolge i componenti delle coordinate dell'oggetto di calibrazione e le coordinate dell'immagine, che sono note, e le componenti sconosciute di r e tx e ty. È possibile formare un'equazione lineare per approssimare la posizione del punto principale, necessaria per la soluzione.

  • 00:45:00 In questa sezione, il relatore discute il processo di determinazione del punto principale di un sensore di immagine e l'uso di equazioni omogenee nella visione artificiale. Per determinare il punto principale, l'oratore suggerisce di assumere un punto centrale e di scartare le corrispondenze troppo vicine al centro poiché piccoli errori possono influire in modo significativo sulla loro direzione. Una volta assunto il punto centrale, l'oratore spiega che sono necessarie otto equazioni per trovare le otto incognite per ogni corrispondenza, e queste equazioni sono omogenee, risultando in zero. Sebbene le equazioni omogenee siano spesso trascurate nell'istruzione tradizionale, sono fondamentali nella visione artificiale ed è essenziale sapere come lavorarci.

  • 00:50:00 In questa sezione, il relatore discute il metodo per risolvere le equazioni omogenee fissando una delle incognite e impostandola su un valore a scelta, riducendo il numero di incognite a sette. Ciò significa che sono necessarie almeno sette corrispondenze ed è desiderabile averne di più per stimare l'errore. Il sistema sovradeterminato di equazioni lineari può quindi essere risolto utilizzando tecniche come Pseudo-inverse. Infine, viene calcolato un fattore di scala per rendere i vettori calcolati vettori unitari, che funge da controllo di integrità per le corrispondenze identificate. Il metodo fornisce una prima stima per tutte le incognite eccetto F, Tz, distorsione radiale e Tz, che richiede ulteriori analisi.

  • 00:55:00 In questa sezione, la lezione spiega il processo di ricerca di f e tz in relazione a orientamento relativo, stereo binoculare, struttura, quadrica, calibrazione e riproiezione. La conferenza sottolinea l'importanza dei vettori unitari ortogonali quando si trova la matrice rotazionale completa. Quando sono presenti due vettori non ortogonali, è necessario un piccolo aggiustamento che risulterà in una coppia di vettori ortogonali. La lezione prosegue poi spiegando come l'equazione quadratica possa essere problematica per trovare k, quindi viene utilizzata un'altra formula più stabile.

  • 01:00:00 In questa sezione, il docente discute la formula per risolvere un'equazione quadratica e la potenziale perdita di precisione che può verificarsi nel calcolo a causa della sottrazione di quantità quasi uguali. Il docente introduce un metodo di approssimazione che prevede l'iterazione, che può fornire una soluzione semplice. La discussione include anche il caso del target planare, che, grazie alla sua elevata precisione e facilità d'uso, è comunemente impiegato nelle applicazioni di calibrazione e visione artificiale. Il docente spiega che un modello con angoli caratteristici accuratamente determinati è montato sul bersaglio per misurare la rotazione dei componenti lungo due diversi assi, consentendo un allineamento delle ruote ad alta precisione.

  • 01:05:00 In questa sezione, il docente discute l'utilizzo di un bersaglio planare per la calibrazione, che consente la costruzione di un sistema di coordinate con valori noti di x, y e z. L'equazione per questo approccio ha meno incognite e richiede solo cinque corrispondenze invece di sette, rendendolo un metodo più efficiente. Tuttavia, se la traduzione di y è zero, questo metodo può diventare impreciso e si consiglia di impostare tx uguale a uno per soluzioni più accurate. La lezione tocca anche il recupero dei primi due per due pezzi della matrice di rotazione per il caso planare.

  • 01:10:00 In questa sezione, il docente spiega la difficoltà di trovare la relazione tra le proporzioni del passo nelle direzioni x e y ai vecchi tempi. C'era bisogno di un altro parametro che ridimensionasse x rispetto a y, poiché cose diverse controllavano la spaziatura orizzontale e verticale. La conferenza menziona l'uso dell'algebra che crea confusione, quindi le schede tecniche dei produttori possono essere utilizzate per trovare con precisione le proporzioni. Il docente spiega inoltre che con l'equazione della proiezione prospettica e conoscendo le incognite, f e tz, è possibile calcolarle entrambe utilizzando una corrispondenza. Tuttavia, c'è un problema con la variazione di profondità quando si tenta di utilizzare un target di calibrazione planare.

  • 01:15:00 In questa sezione, il docente discute l'ambiguità della calibrazione dell'orientamento esterno nella visione artificiale. È impossibile determinare separatamente la lunghezza focale e la traslazione a causa dell'ambiguità del fattore di scala, quindi sono necessarie variazioni di profondità. Il docente spiega che l'orientamento esterno è ambiguo se il target di calibrazione non è montato con un angolo di 45 gradi. Infine, vengono discussi il punto principale e la distorsione radiale ed è necessaria un'ottimizzazione non lineare per ridurre al minimo l'errore tra le coordinate dell'immagine previste e quelle effettive. Il pacchetto LM Diff, integrato in MATLAB, è consigliato a questo scopo.

  • 01:20:00 In questa sezione della conferenza, il relatore discute il problema della ridondanza nella rappresentazione dei parametri di rotazione e suggerisce soluzioni come gli angoli di Eulero, il vettore di Gibbs ei quaternioni unitari. Tuttavia, i quaternioni unitari sono ridondanti con quattro numeri per tre gradi di libertà. Il relatore propone di aggiungere un'altra equazione e un termine di errore proporzionale alla differenza tra la dimensione del quaternione e uno per far rispettare il vincolo. La conferenza menziona anche il problema del guadagno di rumore e l'uso di metodi Monte Carlo per affrontare questo problema in assenza di un metodo analitico.

  • 01:25:00 In questa sezione, l'oratore spiega come determinare le proprietà statistiche di una data risposta attraverso il rapporto di guadagno del rumore giocherellando con gli input molte volte. Consente di analizzare la distribuzione delle risposte nello spazio dei parametri e di scoprire che alcuni fattori come i coefficienti di ordine superiore della distorsione radiale sono scarsamente determinati a causa della sensibilità alle misurazioni del rumore. Il prossimo argomento da discutere è la rappresentazione della forma e del riconoscimento, e la determinazione dell'atteggiamento nello spazio 3D, utilizzando le conoscenze accumulate finora nel riconoscimento 2D e nella determinazione dell'atteggiamento nei modelli.
Lecture 21: Relative Orientation, Binocular Stereo, Structure, Quadrics, Calibration, Reprojection
Lecture 21: Relative Orientation, Binocular Stereo, Structure, Quadrics, Calibration, Reprojection
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...