Aprendizado de máquina e redes neurais - página 13

 

Aula 12: Análise de Blob, Processamento de Imagem Binária, Teorema de Green, Derivada e Integral



Aula 12: Análise de Blob, Processamento de Imagem Binária, Teorema de Green, Derivada e Integral

Nesta palestra, o professor aborda uma variedade de tópicos, incluindo propriedade intelectual, patentes, marcas registradas e técnicas de processamento de imagem para detecção de bordas. A palestra enfatiza a importância da precisão na visão de máquina 2D e os desafios de detectar bordas difusas ou desfocadas. O professor aborda métodos para encontrar derivadas parciais mistas, laplacianos e detecção de borda usando interpolação de subpixel, juntamente com técnicas para compensação de viés e calibração correcional na localização de pico. No geral, a palestra fornece uma visão abrangente desses tópicos e suas aplicações práticas.

Nesta palestra sobre processamento de imagem, o palestrante discute vários métodos para evitar a quantização das direções de gradiente e melhorar a precisão na determinação da posição da borda. A interpolação é sugerida como um método preferencial sobre tabelas de pesquisa e quantização para uma determinação mais precisa da direção do gradiente. Além disso, a fixação do tamanho do passo com um círculo e o uso da análise multiescala são discutidos como métodos alternativos de cálculo de gradiente. O palestrante também explica uma abordagem iterativa para girar uma imagem para reduzir o componente y do gradiente a zero e apresenta o conceito de côrdico para girar através de ângulos especiais. Os alunos são lembrados de começar cedo no questionário, pois é mais trabalho do que o típico problema de lição de casa.

  • 00:00:00 Nesta seção, o professor discute o próximo teste, que é mais longo e vale o dobro de um problema de lição de casa. O questionário cobre o conteúdo do curso até este ponto, com mais ênfase em materiais recentes. Em seguida, o professor faz uma breve discussão sobre propriedade intelectual e patentes, mencionando os diferentes tipos de patentes, como patentes de utilidade e patentes de design. O contrato social entre detentores de patentes e o governo também é discutido, onde os detentores de patentes recebem um monopólio limitado por um certo número de anos em troca de explicar exatamente como fazer algo. A discussão conclui abordando o conceito legal de melhor modo em litígio de patentes.

  • 00:05:00 proteja sua marca ou logotipo você pode fazer isso com uma marca registrada. Exceções existem para o uso de pequenas porções de material protegido por direitos autorais, como para fins educacionais e para software de engenharia reversa sem violar as leis de direitos autorais. As leis de direitos autorais costumavam proteger a vida do autor mais uma certa quantidade de anos, mas desde então foram atualizadas para a vida do autor mais 75 anos ou mais. As leis de marcas registradas protegem marcas e logotipos, que são mais restritivas do que os direitos autorais.

  • 00:10:00 Nesta seção, o palestrante discute as regras sobre a marca registrada de um nome e logotipo da empresa, enfatizando que deve ser único no campo e não pode ser uma palavra comum. A marca também pode incluir formas, marcações e cores, que podem servir para proteger a empresa. O palestrante também aborda o conceito de segredo comercial, em que a empresa mantém os detalhes de seu produto em segredo, embora não tenha proteção legal. O palestrante então apresenta uma patente de baixo nível relacionada à localização de bordas e menciona que, uma vez que as bordas são encontradas, tarefas de processamento de imagem mais complexas podem ser executadas para reconhecimento de objetos e determinação de posição e atitude. O palestrante observa que, no mundo da visão de máquina 2D, a precisão é incrivelmente importante e deve funcionar quase perfeitamente.

  • 00:15:00 Nesta seção, o palestrante revisa os fundamentos da análise de blob e processamento de imagens binárias, discutindo vários métodos usados para estimar derivadas. A primeira ideia discutida foi observar o gradiente de brilho para identificar um ponto de inflexão como a borda e, em seguida, observar a derivada, que busca um pico. Vários métodos de estimativa de derivadas, como diferentes aproximações para e sub x, foram examinados, e o termo de erro de ordem mais baixa foi encontrado usando a expansão da série de Taylor. Por fim, a palestra aprofunda a análise do sinal elétrico do músculo e a complexidade do processo ao procurar primeiras derivadas de alta precisão devido ao ruído e à distorção do sinal.

  • 00:20:00 Nesta seção, o palestrante discute os trade-offs envolvidos na escolha do comprimento do operador de aresta para detectar arestas. Ele explica que usar um operador muito longo pode levar a diferentes recursos interagindo entre si, dificultando a detecção de bordas. Essa compensação é aplicável ao detectar arestas em uma imagem de um cubo, onde as arestas ficam bem próximas umas das outras. O palestrante explica como as derivadas de segunda ordem podem ser calculadas usando a convolução das primeiras derivadas aplicadas duas vezes e mostra como esse método pode ser usado para verificar a precisão dos resultados. Finalmente, ele explica a importância de verificar as diferentes formas de projetar moléculas computacionais usadas para derivar derivados.

  • 00:25:00 Nesta seção da palestra, o professor explica o processo de encontrar derivadas parciais mistas usando um estêncil 2D. O estêncil envolve inverter uma das funções e sobrepô-la sobre a outra para identificar áreas de sobreposição, resultando em um estêncil 2x2. O professor observa que é importante ficar atento às inversões de sinal ao usar estênceis computacionais que não são invertidos. Eles também apontam que a derivada parcial mista pode ser considerada como uma segunda derivada em um sistema de coordenadas giradas. No geral, a seção fornece uma explicação clara e detalhada de como encontrar derivadas parciais mistas em 2D.

  • 00:30:00 Nesta seção, o tópico do Laplaciano é reintroduzido como um segundo operador de derivada, onde dois operadores são adicionados em direções ortogonais para obter uma aproximação do Laplaciano para um operador diferencial centralmente simétrico. Uma soma ponderada desses dois operadores é então introduzida para criar uma versão mais suave do Laplaciano para um operador diferencial centralmente simétrico, e esse novo operador é ainda mais eficiente computacionalmente quando aplicado a uma imagem. Além disso, são discutidas técnicas para determinar os valores desses coeficientes ponderados, como o termo de erro de ordem mais baixa ou somas iguais a zero.

  • 00:35:00 Nesta seção, o palestrante discute a questão do uso de pixels retangulares em vez de hexagonais. Ele explica situações em que as pessoas estão preocupadas com a eficiência, como na imagem do buraco negro no centro de nossa galáxia usando frequências de rádio. O palestrante também diferencia entre operadores lineares e não lineares e discute o uso de estênceis por Robert no cálculo de derivadas no sistema de coordenadas giradas. Além disso, ele explica a supressão não máxima, o conceito de aplicar operadores de borda em todos os lugares para obter uma resposta fraca em todos os lugares, mas uma resposta forte nas bordas.

  • 00:40:00 Nesta seção, o palestrante discute o conceito de detecção de borda e enfatiza as desvantagens de aplicar um limite para detecção de borda. Em vez disso, o locutor propõe remover tudo, exceto o valor máximo na direção do gradiente para identificar o ponto de borda. O palestrante também fala sobre supressão não máxima e as questões de assimetria no desempate. Por fim, o palestrante explica como ajustar uma parábola ao perfil de resposta da borda para determinar a posição da borda do subpixel. O palestrante reconhece que a escolha da forma da curva é arbitrária, mas explica como o ajuste de um polinômio de segunda ordem pode funcionar como um bom palpite na maioria dos casos.

  • 00:45:00 Nesta seção, aprendemos sobre detecção de borda usando interpolação de subpixel. A direção do gradiente nos informa a orientação da aresta, que então quantizamos para auxiliar na projeção do ponto de aresta potencial na localização real da aresta. Podemos então realizar a compensação de viés para estimar com mais precisão a posição da borda usando um método parabólico ou triangular. Ao fazer isso, podemos encontrar o pico da aresta e melhorar a precisão tomando o ponto mais próximo da origem.

  • 00:50:00 Nesta seção da palestra, o palestrante discute um método para calibração correcional de descoberta de pico para detecção de borda de subpixel. Essencialmente, o método envolve mover a borda experimentalmente e medir a precisão do método de localização de pico em relação ao valor de pico real, a fim de criar uma tabela de pesquisa correcional para o método. O palestrante também fala sobre como as formas das arestas podem diferir e demonstra como aproximar a forma usando um ajuste de um parâmetro. Apesar dessas diferenças, apenas uma pequena correção no método é necessária para a precisão da detecção de borda de subpixel.

  • 00:55:00 Nesta seção da palestra, o professor discute o conceito de bordas difusas e por que elas são importantes para a recuperação de sub-pixel e para evitar problemas de aliasing. O professor explica que um dos motivos das bordas difusas é o desfoque. Usando o exemplo de uma lente de câmera, o professor mostra que um objeto em foco será capturado como um ponto, enquanto o mesmo objeto ligeiramente desfocado será capturado como um círculo com brilho uniforme. Para compensar isso, o professor apresenta a função degrau unitário e a função de dispersão de pontos e explica como elas podem ser usadas para descrever o círculo de brilho uniforme como uma função de x e y.

  • 01:00:00 Nesta seção, o palestrante explica o efeito de estar fora de foco e como calcular a resposta geometricamente sobrepondo a borda e o círculo. A área do setor do círculo e a área do triângulo são usadas para encontrar a diferença entre as duas formas. Theta é usado para calcular a área e os detalhes são explicados para demonstrar a resposta entre zero e um.

  • 01:05:00 Nesta seção, o palestrante discute a plotagem de um diagrama para calcular o erro na determinação precisa da posição da borda usando um algoritmo. Eles mencionam que esse erro pode ser pequeno, mas diferente de zero, e é essencial levar em consideração a alta precisão. O palestrante então fala sobre maneiras de evitar a quantização de direções de gradiente, o que pode causar constrangimento devido ao espaçamento que vem em dois tamanhos. Eles discutem que isso pode causar contribuições de erro ligeiramente diferentes e sugerem algumas maneiras de evitá-lo. A seção termina com uma discussão sobre violação de patente e maneiras de evitá-la, onde o foco é tornar a invenção diferente em vez de melhor.

  • 01:10:00 Nesta seção do vídeo, o palestrante discute um método preferencial para evitar a quantização de direções de gradiente presentes em certas patentes. Em vez de usar esse método, ele sugere interpolar para evitar a quantização das direções do gradiente. Através da interpolação, os valores podem ser aproximados suavemente e a direção do gradiente pode ser determinada com precisão. O palestrante acredita que esse método é uma melhoria na precisão, eliminando a necessidade de construir uma tabela de consulta ou quantificar e fazer correções no gráfico de bias. A desvantagem dessa abordagem é que uma interpolação está sendo usada, portanto, há falta de precisão em comparação com o conhecimento exato do valor medido, mas isso pode ser insignificante em muitos casos.

  • 01:15:00 Nesta seção da palestra, o palestrante discute um método alternativo para cálculo de gradiente que envolve fixar o tamanho do passo em vez de alterá-lo. Este método usa um círculo para determinar o espaçamento de pixel e fornece uma direção de gradiente mais contínua com menos quantização. No entanto, essa abordagem requer interpolação, seja bilinear ou bicúbica, e pode ser um trabalho extra devido à necessidade de contabilizar mais pixels. Além disso, o palestrante fala sobre a utilidade da análise multiescala para encontrar bordas nítidas e borradas em imagens. Por fim, o palestrante aborda brevemente a implementação preferencial da transformação de coordenadas cartesianas para polares, que envolve a rotação do sistema de coordenadas.

  • 01:20:00 Nesta seção, o palestrante discute um método para girar uma imagem para reduzir o componente y do gradiente a zero usando uma abordagem iterativa. Para fazer isso, o ângulo de rotação é manipulado iterativamente até que a magnitude do componente y seja reduzida a zero. O palestrante sugere uma estratégia de usar uma sequência de ângulos de teste e reduzir a magnitude do componente y a cada iteração. Os ângulos são escolhidos de modo que sejam potências inversas de 2, o que permite reduzir o número de multiplicações de quatro para dois. A abordagem iterativa é repetida até que o ângulo de rotação seja pequeno o suficiente.

  • 01:25:00 Nesta seção, o palestrante explica o conceito de acorde que envolve a rotação através de ângulos especiais que têm uma propriedade onde a tangente de teta i é um sobre dois elevado a i. O processo iterativo envolve mudar esse ângulo e acompanhar se ficou negativo ou não. A primeira coisa a fazer é chegar ao primeiro octante, que é trivial, apenas observando os sinais de x e y e se y é maior que x. A próxima palestra abordará multiescala e amostragem, e o palestrante lembra os espectadores de começarem o teste cedo, pois é mais trabalhoso do que o típico problema de lição de casa.
 

Aula 13: Detecção de objetos, reconhecimento e determinação de pose, PatQuick (Patente dos EUA 7016539)



Aula 13: Detecção de objetos, reconhecimento e determinação de pose, PatQuick (Patente dos EUA 7016539)

A palestra enfoca a detecção de objetos, reconhecimento e determinação de pose, com ênfase na patente PatQuick (US 7.016.539). A patente visa detectar e determinar a pose de objetos no espaço e oferece uma melhoria em relação aos métodos anteriores, usando uma representação abstrata chamada modelo que é comparada a uma imagem em tempo de execução em diferentes poses e rotações. A patente também incorpora uma lista de graus de liberdade generalizados para aumentar a precisão e usa filtragem passa-baixa e detecção de borda para obter pontos de limite, adiando a limiarização até os estágios finais. Além disso, a palestra discute o processo de criação de modelos usando detecção de borda e sondas com espaçamento e contraste desejados para representar esses modelos, explicando a importância de considerar graus de liberdade como translação, rotação, escala e proporção, que permitem variações em dimensões e perspectivas do objeto.

O vídeo discute os padrões de pesquisa hexagonal utilizados para pesquisa translacional eficiente e escalável na detecção de objetos, incluindo detecção de pico e uma solução para detectar objetos adjacentes. O vídeo também discute o PatQuick, uma patente para determinar a presença de padrões predeterminados em imagens de tempo de execução e sua localização multidimensional. O método usa sondas e um gradiente pré-computado para corresponder à pose de um objeto, e a integração da função de pontuação remove erros do resultado. O vídeo explora um método alternativo para determinar as diferenças angulares usando produtos pontuais e enfatiza as complexidades das operações em várias escalas e a seleção de sondas para diferentes granularidades. A precisão do método é limitada pela quantização do espaço de busca.

  • 00:00:00 Nesta seção, somos apresentados à patente 7016539, que visa detectar, reconhecer e determinar a pose de objetos no espaço, bem como inspecionar objetos. O problema que ele trabalha para resolver é a necessidade de manipular objetos usando máquinas, mas sem informações precisas sobre os objetos. A técnica anterior tinha quatro componentes diferentes, e um deles consistia no processamento de imagens binárias, que envolvia distinguir objetos do fundo para criar imagens binárias, permitindo um processamento mais fácil e menos memória necessária. Computações locais podem ser realizadas para certas operações de processamento de imagem binária de baixo nível, como encontrar a área, perímetro e centróide de imagens binárias e até mesmo calcular números de Euler de maneiras paralelas, que podem ser obtidas com hardware paralelo.

  • 00:05:00 Nesta seção, o palestrante discute vários métodos para detecção, reconhecimento e determinação de pose de objetos. O método de limiarização é introduzido, o que envolve distinguir o primeiro plano do plano de fundo em uma imagem com base em algum parâmetro. No entanto, esse método é limitado, pois pode não haver uma distinção clara entre o primeiro plano e o plano de fundo. Os métodos de modelo binário envolvem o uso de uma imagem mestre ou modelo de ouro para definir o objeto e calcular um modelo por meio de limiarização. A correlação normalizada envolve tentar todas as posições possíveis para a correspondência para encontrar uma correspondência adequada entre duas imagens. Essa foi a reivindicação da fama de Cognac, um dos primeiros projetos de pesquisa em visão computacional.

  • 00:10:00 Nesta seção, o palestrante discute o processo de alinhamento usando correlação, um método relacionado à detecção e reconhecimento de objetos, que envolve mover uma imagem para encontrar o alinhamento onde a diferença entre a imagem deslocada e a outra imagem é tão pequeno quanto possível. No entanto, atualmente, apenas a tradução está sendo considerada devido aos custos de computação, pois o método requer a análise de cada pixel para cada posição possível. Além disso, o palestrante relaciona a correlação com métodos baseados em gradiente, que envolvem o cálculo de um deslocamento, e discute como isso pode ser usado para maximizar a correlação minimizando a mudança no tempo.

  • 00:15:00 Nesta seção, a palestra se concentra no reconhecimento de um objeto e na determinação de sua pose, principalmente no contexto do alinhamento de um circuito integrado para a próxima etapa do processo de fabricação. O palestrante discute vários métodos para determinar o alinhamento e observa que a soma das diferenças ao quadrado e a correlação são comumente usadas, mas têm algumas desvantagens. A correlação, em particular, pode fornecer uma alta correspondência, mesmo que o contraste entre as imagens seja diferente e não haja um limite claro para o que constitui uma correspondência. Apesar desses problemas, a correlação continua popular devido à sua eficiência computacional. Além disso, o palestrante observa que esses métodos podem ser aprimorados por meio da incorporação de métodos baseados em gradiente, que têm sido utilizados em mouses ópticos.

  • 00:20:00 Nesta seção, a palestra discute a correlação normalizada e seu papel no reconhecimento de imagens. A correlação normalizada é usada para eliminar qualquer deslocamento no brilho da imagem e tornar o processo menos sensível a mudanças na configuração óptica. O método de normalização calcula a correlação de duas imagens e a normaliza para remover mudanças no contraste, por meio do qual o método calcula o pico para que os usuários possam medir o sucesso da correlação. Consequentemente, uma alta pontuação de correlação indica uma boa correspondência, enquanto uma baixa pontuação de correlação significa uma correspondência ruim. Embora o método possa ser caro, foi uma reivindicação à fama da Cognex em seus primeiros dias.

  • 00:25:00 Nesta seção, o vídeo discute uma patente relacionada à detecção e reconhecimento de objetos, especificamente para determinar a presença de padrões predeterminados em uma imagem e determinar suas localizações em um espaço multidimensional. A patente, que é uma melhoria em relação aos métodos anteriores, inclui o uso de uma representação abstrata do padrão chamada modelo, que é comparada a uma imagem em tempo de execução em diferentes poses, rotações etc. A comparação produz uma pontuação correspondente, que é comparada a uma aceite o limite para atrasar a tomada de decisão até que mais informações estejam disponíveis. A patente também fornece uma lista de graus de liberdade generalizados em vez de apenas translação e rotação para aumentar sua precisão para partes parciais ou ausentes de um objeto.

  • 00:30:00 Nesta seção, é discutida a patente para detecção de objetos, reconhecimento e determinação de pose conhecida como PatQuick, que se concentra na obtenção de correspondências potenciais. A seção mergulha em como a patente usa filtragem passa-baixa e detecção de borda para obter pontos de limite em diferentes resoluções. O processo continua conectando os pontos de fronteira vizinhos que têm direções consistentes para organizar os pontos na cadeia. A patente difere de outros métodos, pois encadeia bordas, mesmo que sejam fracas, e adia a limiarização até o final.

  • 00:35:00 Nesta seção, o palestrante discute a criação de modelos para reconhecimento de objetos usando detecção de borda e o processo de criação de sondas com espaçamento e contraste desejados para representar esses modelos. Os modelos são ajustados às bordas e essas sondas são usadas para detectar se há correspondência entre o modelo e a imagem que está sendo analisada. As sondas são usadas como pontos de evidência para identificar áreas de alto contraste, e esse método ajuda a reduzir o número de pixels que precisam ser analisados. O desempate também é discutido no contexto da determinação da ordem dos vizinhos das sondas.

  • 00:40:00 Nesta seção, o palestrante discute diferentes exemplos de como comparar os gradientes observados na imagem do tempo de execução com os do modelo. Ele explica que a direção do gradiente tem muito mais chances de ser mantida mesmo no caso de mudanças na iluminação ou no material. O palestrante também introduz o conceito de peso, que ajuda a determinar a importância de cada sonda. Embora a atribuição de peso manual possa ser útil na contabilização de simetrias de objetos, ela requer intervenção humana e não é comumente usada. Por fim, o locutor define os diferentes objetos do modelo, incluindo as sondas, suas posições, direções e pesos, bem como o objeto de sonda compilado usado para aumentar a eficiência computacional.

  • 00:45:00 Nesta seção, o palestrante explica como mapear o objeto de sonda compilado na imagem e como usar o modelo. A sonda compilada é um conjunto de sondas especializadas em coordenadas de imagem, e a principal diferença entre ela e uma sonda é que um deslocamento na sonda compilada é um número inteiro em pixels em oposição a variáveis reais. O palestrante também discute o conceito de mapa que é a transformação com muitos graus de liberdade que devem ser encontrados, e inclui todas as transformações exceto a tradução. Para pontuar o gradiente, é utilizada uma função de graduação, que considera a polaridade, a polaridade do contraste e a diferença de 90 graus entre as duas direções dos gradientes.

  • 00:50:00 Nesta seção, o palestrante explica como avaliar o quão bem uma sonda corresponde a um ponto correspondente em uma imagem de tempo de execução usando uma função que considera a direção e a magnitude do gradiente. No entanto, ele observa que as inversões de contraste podem tornar a métrica baseada em direção menos robusta contra o ruído, enquanto o uso de uma inclinação mais ampla pode aumentar as chances de aceitar alinhamentos aleatórios. Para lidar com graus de liberdade, o alto-falante fornece exemplos de parâmetros e funções usadas para ajustes de rotação, escala e cisalhamento. No geral, o processo de detecção de objetos requer várias considerações, pois diferentes situações podem exigir diferentes abordagens.

  • 00:55:00 Nesta seção, aprendemos sobre graus generalizados de liberdade na detecção, reconhecimento e determinação de pose de objetos. Esses graus de liberdade - como translação, rotação, dimensionamento e proporção - permitem variações nas dimensões e perspectivas do objeto. É importante levar em consideração esses graus ao trabalhar em espaços que não são exatamente bidimensionais, o que faz com que a imagem apareça como um losango em vez de um retângulo. No entanto, é essencial ter cuidado com os custos computacionais ao considerar o dimensionamento, e uma abordagem mais razoável é trabalhar em uma escala logarítmica. Além disso, o retângulo envolvente mínimo da sonda pode reduzir os cálculos em algumas operações. O espaço multidimensional de poses determina que precisamos determinar a proximidade entre certos valores, e isso é feito através da identificação de quão próximas duas poses estão nesse espaço.

  • 01:00:00 Nesta seção do vídeo, o palestrante explica os padrões de pesquisa usados para uma pesquisa translacional eficiente e escalável na detecção de objetos. Esses padrões são organizados em torno de hexágonos para fornecer uma vantagem de quatro sobre pi em termos de trabalho realizado versus resolução. O palestrante também discute como a detecção de pico funciona em uma grade hexagonal e oferece uma solução para evitar a detecção de objetos adjacentes. Além disso, o vídeo define os termos comumente usados na lei de patentes, como objeto, imagem, brilho, granularidade e limite, e suas aplicações além das imagens de luz visível, como gráficos e imagens de raio-x. A generalização desses termos visa ampliar o escopo da patente e suas possíveis aplicações.

  • 01:05:00 Nesta seção, o vídeo discute uma patente do PatQuick, um método para determinar a presença ou ausência de pelo menos uma instância de um padrão predeterminado em uma imagem de tempo de execução e para determinar a localização multidimensional de cada instância presente . A patente incorpora a possibilidade de inspeção e reconhecimento, onde o processo é executado para cada objeto e a maioria não será uma boa correspondência, mas um será para reconhecimento. O vídeo também menciona o uso de um gradiente, que é um vetor que dá a direção e a magnitude da maior mudança de brilho em uma granularidade especificada, e um modelo, um conjunto de características de codificação de dados de um padrão a ser encontrado, que pode ser criado a partir de uma imagem real ou de um desenho CAD.

  • 01:10:00 Nesta seção, o palestrante explica como o método do PatQuick funciona mesmo se partes de um objeto estiverem obscurecidas ou ausentes, tornando-o útil para fins de inspeção. O método usa sondas para corresponder à pose do objeto e, embora teoricamente o gradiente possa ser calculado em cada correspondência, é vantajoso pré-calculá-lo para eficiência. A integração da função de pontuação é usada para calcular o quanto as correspondências aleatórias compensam a pontuação e, apesar de ser um incômodo para calcular, é necessário remover o erro do resultado e reduzir o ruído. O método tem principalmente reivindicações de método e a situação legal mudou, resultando apenas em reivindicações de método.

  • 01:15:00 Nesta seção, o palestrante discute um método alternativo para determinar diferenças angulares entre vetores unitários usando produtos escalares em vez de usar uma função tangente. No entanto, esse método produz um grande valor absoluto e não é tão bom quanto o método original. O palestrante também discute a desvantagem do método ser quantizado e a necessidade de pesquisar todo o espaço de pose para encontrar correspondências potenciais antes de usar uma quantização mais refinada para obter resultados mais precisos. A seção termina com uma menção à necessidade de discutir diferentes funções de pontuação.

  • 01:20:00 Nesta seção, o palestrante discute os diferentes cálculos envolvidos na busca de uma correspondência quando o resultado precisa ser preciso ou rápido. Eles se aprofundam nas complexidades da execução de operações em várias escalas que usam diferentes sondas e modelos para diferentes granularidades. As sondas não são restritas à grade de pixels, mas derivadas de pontos de borda, o que fornece resultados mais confiáveis do que usando contraste de brilho. Além disso, a precisão desse método é limitada pela quantização do espaço de busca, que pode ser superada em outra patente abordada nas próximas aulas.
 

Aula 14: Inspeção em PatQuick, Transformada de Hough, Homografia, Determinação de Posição, Multiescala



Aula 14: Inspeção em PatQuick, Transformada de Hough, Homografia, Determinação de Posição, Multiescala

Nesta palestra, o algoritmo PatQuick é discutido, com foco no uso de sondas para produzir uma função de pontuação em um espaço multidimensional, que determina a pose de um objeto em imagens em tempo real. A função de correspondência usada para classificar a qualidade da correspondência em termos de direção e magnitude do gradiente também é examinada, com diferentes funções de pontuação discutidas para compensações entre precisão e velocidade. A palestra também aborda diferentes métodos usados para tornar o processo de correspondência de padrões mais eficiente, incluindo ajustar a granularidade da computação e enfrentar o desafio de acertar as direções, especialmente ao realizar transformações que alteram a proporção de uma imagem. A palestra também aborda o tema da homografia e a transformada de Hough para detectar linhas em fotografias.

A palestra abrange uma variedade de tópicos relacionados à visão computacional, incluindo Hough Transform, Extended Gauss Half Transform, determinação de posição, subamostragem multiescala e SIFT. A Transformada Hough é usada para detecção de linhas e bordas, enquanto a Metade Gauss Estendida é uma versão mais sofisticada da Transformada Hough. A palestra também explica como usar a Transformada Hough para detectar círculos, como a localização de uma torre de celular. Além disso, o palestrante discute a subamostragem de imagens para diminuir a carga de trabalho sem sacrificar a qualidade e apresenta o SIFT, um método para encontrar pontos correspondentes em diferentes imagens de uma cena, amplamente utilizado na produção de informações 3D a partir de várias imagens. Por fim, o palestrante discute brevemente a teoria musical e termina com um lembrete para enviar propostas e uma citação sobre não atrasar.

  • 00:00:00 Nesta seção, o palestrante discute o algoritmo PatQuick e o uso de sondas para produzir uma função de pontuação em um espaço multidimensional. O algoritmo analisa um pequeno número de pontos na imagem e pode lidar com um grande número de graus de liberdade. As patentes discutidas estão relacionadas e fazem parte de uma abordagem baseada em física para visão de máquina. Os algoritmos descritos são em sua maioria restritos a situações envolvendo superfícies bidimensionais, como circuitos integrados e placas de circuito impresso.

  • 00:05:00 Nesta seção, o palestrante discute uma etapa de treinamento na técnica PatQuick em que uma imagem é mostrada ao sistema e automaticamente calcula um modelo. Esta é uma etapa crucial porque economiza recursos e tempo, em vez de criar o código manualmente para cada tarefa visual. Os modelos são mapeados em imagens em tempo real e a pose é determinada por meio de translação, rotação, dimensionamento, inclinação e proporção. As evidências coletadas para o objeto são cumulativas e o resultado final é a soma das operações locais. No entanto, a limitação deste método é a quantização do espaço de pose, que pode afetar a precisão.

  • 00:10:00 Nesta seção, o palestrante discute o espaço hexadimensional potencial que pode surgir ao lidar com padrões de diferentes tamanhos e formas. Enquanto a translação tem dois graus de liberdade e a rotação tem um, dimensionamento, inclinação e proporção têm um grau de liberdade cada, elevando o total para 6. No entanto, lidar com todos os seis parâmetros torna-se impraticável, pois quantizar o espaço para um número razoável de níveis, como 100, resulta em um total de 10 elevado a 12 espaços. O palestrante também explica a função de correspondência usada para classificar a qualidade da correspondência em termos de direção e magnitude do gradiente, destacando algumas desvantagens da função, incluindo a possibilidade de correspondência com o ruído de fundo.

  • 00:15:00 Nesta seção, o palestrante discute várias funções de pontuação usadas no algoritmo PatQuick para compensações entre precisão e velocidade. Funções de pontuação diferentes têm recursos diferentes, como valores normalizados, pontuações significativas ou apenas o valor sendo maior com uma correspondência melhor. O palestrante explica que eles descartam pesos negativos e usam a direção do gradiente para calcular a pontuação. O foco está em testes compilados e tradução variável. A palestra também destaca uma segunda versão da função de pontuação chamada s1b, que elimina a necessidade de multiplicação e processa apenas sondagens com pesos positivos.

  • 00:20:00 Nesta seção, o palestrante discute diferentes funções usadas para a modalidade preferencial no PatQuick. Uma função leva em consideração a direção do gradiente e subtrai um termo com base na correspondência aleatória para melhorar o resultado. Outra função usa a magnitude do gradiente diretamente e não é normalizada, ou seja, seu valor absoluto não será significativo. Essas funções são usadas na solução candidata e nas etapas de escaneamento fino no PatQuick. O palestrante observa que, embora a modalidade preferida tenha funções diferentes, outras alternativas também são dadas para implementação.

  • 00:25:00 Nesta seção da palestra, o palestrante discute alguns dos detalhes envolvidos em tornar o processo de correspondência de padrões mais eficiente. Uma consideração importante é a granularidade da computação, que pode ser ajustada diminuindo a resolução até que um resultado satisfatório seja alcançado. O palestrante também toca na questão da normalização, explicando que para algumas tarefas não é necessário normalizar por se tratar de uma questão computacional. Além disso, o palestrante aborda o desafio de acertar as direções, já que o processo depende muito da direção do gradiente, especialmente ao realizar transformações que alteram a proporção de uma imagem.

  • 00:30:00 Nesta seção da palestra, o palestrante discute como lidar com a questão da direção do gradiente ao transformar x e y de maneiras que não preservam os ângulos retos. A solução é calcular o isófoto a partir da direção do gradiente, transformá-lo e construir algo perpendicular ao isófoto. O palestrante também aborda o tópico adicional de inspeção, que envolve o uso de sondas no modelo para determinar se uma determinada área é uma correspondência razoável ou não e o cálculo de uma porcentagem com base em quantas arestas na imagem de tempo de execução correspondem a algo no modelo.

  • 00:35:00 Nesta seção, o palestrante discute a projeção de uma superfície plana em um mundo 3D usando projeção em perspectiva e um sistema de coordenadas de câmera. Ele elabora as relações de translação e rotação entre a câmera e os sistemas de coordenadas mundiais por meio de uma matriz ortonormal. O palestrante então explora a transformação de coordenadas de objetos do mundo em coordenadas de imagens e observa a natureza não linear e confusa da projeção em perspectiva quando envolve divisão. No entanto, ele se concentra no caso particular das superfícies planas e detalha como o sistema pode ser erguido no objeto, permitindo uma transformação mais simples.

  • 00:40:00 Nesta seção, o palestrante fala sobre o uso de um sistema de coordenadas onde z é zero, transformando a superfície 3D em uma superfície 2D. Eles demonstram como se pode ignorar a terceira coluna neste caso e dobrar convenientemente em translação para rotações para obter uma única matriz. Eles então introduzem a matriz T, que não é ortonormal em oposição à matriz R. Finalmente, eles discutem os graus de liberdade para translação e rotação em 3D e as diferentes maneiras de pensar sobre a rotação.

  • 00:45:00 Nesta seção do vídeo, o palestrante discute rotação, translação e restrições em matrizes, especificamente no caso de projeção em perspectiva em uma superfície plana. A matriz de transformação tem nove elementos independentes, mas apenas seis graus de liberdade devido a restrições como ortonormalidade e ortogonalidade. Embora os dados de calibração possam ser ajustados usando mínimos quadrados lineares, as restrições também devem ser impostas, o que geralmente é negligenciado em trabalhos publicados. Esses conceitos serão importantes para discussões posteriores sobre transformações 3D.

  • 00:50:00 Nesta seção do vídeo, o palestrante discute a ambigüidade e a homografia do fator de escala, um tipo engraçado de matriz. A homografia é usada em fotogrametria e é aplicada ao limitar a atenção a um plano. O palestrante também fala sobre a transformada de Hough e sua generalização, que é usada ao mapear pontos em uma estrada a partir de imagens de câmeras. Finalmente, o palestrante descreve a câmara de nuvens da NASA e como as pessoas estudaram partículas elementares atirando-as para uma câmara de nuvens e tirando fotos dos pontos ionizados naquele espaço.

  • 00:55:00 Nesta seção, o palestrante discute a história da automatização do processo de análise de imagens, especificamente para a finalidade de detecção de linhas ou arcos em fotografias de câmaras de bolhas de Wilson. A transformada Hough foi desenvolvida como uma solução para lidar com o desafio de detectar linhas que não eram espaçadas uniformemente ou de tamanho uniforme, então as linhas foram mapeadas do espaço da imagem para o espaço do parâmetro para linhas. O palestrante explica o conceito de uma matriz de acumuladores para contar as evidências de cada combinação possível de parâmetros e procura por picos que correspondam às linhas na imagem. O mapeamento do espaço de parâmetros para o espaço da imagem permite uma boa estimativa da linha, mesmo que a evidência seja apenas uma bolha.

  • 01:00:00 Nesta seção, o palestrante explica o conceito da Hough Transform, que é uma técnica para detectar a presença de objetos simples como linhas, círculos ou elipses em uma imagem. A Transformada de Hough funciona mapeando o espaço da imagem para um espaço de parâmetros, onde cada ponto no espaço transformado representa uma linha no espaço original. A transformação é simétrica de forma que todas as linhas no mapa de espaço original para interseções únicas no espaço de parâmetro. O palestrante usa um exemplo para explicar como as bolhas em uma imagem podem fornecer evidências sobre possíveis linhas e, ao encontrar sua transformada no espaço de parâmetros, pode-se acumular evidências para encontrar os picos que correspondem às linhas no espaço transformado.

  • 01:05:00 Nesta seção, o palestrante explica a Transformada de Hough, que é utilizada para detecção de linhas e bordas em imagens. A Transformada de Hough cria um espaço para os possíveis parâmetros da transformação, com cada ponto correspondendo a uma linha específica, o que pode ajudar a reunir as evidências mesmo que a linha esteja irregular e distribuída em intervalos irregulares. No entanto, a Transformada de Hough não pode mais ser usada na detecção de bordas, pois existem métodos melhores em vigor. A palestra também menciona brevemente a Meia Transformada de Gauss Estendida, que é uma versão mais sofisticada da Transformada de Hough, que tem compensações e pequenas coisas complicadas que precisam ser tratadas. Além disso, a palestra fala sobre círculos e como a transformada de Hough pode ser usada na detecção de sinais de telefone celular, determinando o avanço de tempo no sinal.

  • 01:10:00 Nesta seção, o palestrante discute como usar a extensão da transformada de Hough para resolver problemas envolvendo círculos, como determinar a distância a partir de coordenadas GPS. Ao fazer medições de avanços de tempo e construir círculos de posições possíveis com base no raio dado, torna-se possível usar uma matriz de acumuladores para atualizar dados e acumular gradualmente evidências que identificam a localização do círculo. Este método pode ser generalizado para um espaço de parâmetros maior, incluindo cones com raios variados, e cada ponto no espaço corresponde a um círculo diferente em uma determinada posição no plano. O resultado final deve conter muitas interseções de círculos, indicando onde está localizada a verdadeira localização da torre de celular.

  • 01:15:00 Nesta seção, a palestra discute a ideia da meia transformada generalizada, que envolve o espaço de parâmetros original e o acúmulo de evidências para criar uma superfície de partitura; isso é útil ao detectar recursos como bordas ou texturas, que podem ser aparentes apenas em uma escala específica ou com níveis de ruído específicos. Ao trabalhar em resoluções mais baixas ou reduzir as dimensões, podemos reduzir os custos de computação e melhorar a capacidade de detectar recursos com precisão. No entanto, esse método pode se tornar uma tarefa cara quando se trabalha em problemas de dimensões superiores e com altos níveis de ruído.

  • 01:20:00 Nesta seção, o palestrante discute diferentes métodos de subamostragem de imagens para reduzir o número de células e diminuir a carga de trabalho sem sacrificar a qualidade da imagem. Eles exploram diferentes valores de “r” e como eles afetam o nível de subamostragem, com “r” igual a um sobre a raiz quadrada de dois sendo um valor comumente usado porque reduz o número de células em dois e aumenta o espaçamento em raiz quadrada de dois. O palestrante também apresenta o SIFT, um método para encontrar pontos correspondentes em diferentes imagens de uma cena que é amplamente utilizado na produção de informações 3D a partir de várias imagens. O SIFT usa um método de subamostragem muito menos agressivo, com várias etapas por oitava, para criar descritores exclusivos para cada ponto da imagem.

  • 01:25:00 Nesta seção, o palestrante discute brevemente a escala musical onde uma oitava é dividida em oito notas, e menciona que, embora não sejam igualmente espaçadas, há boas razões para não usar sempre um fator de dois. O palestrante também lembra o público de enviar suas propostas e compartilha uma citação de um biscoito da sorte sobre não atrasar.
 

Aula 15: Alinhamento, PatMax, Campo de Distância, Filtragem e Subamostragem (patente dos EUA 7065262)



Aula 15: Alinhamento, PatMax, Campo de Distância, Filtragem e Subamostragem (patente dos EUA 7065262)

O vídeo discute várias técnicas e patentes relacionadas ao reconhecimento de padrões e detecção de objetos. Uma dessas técnicas é o PatMax, que melhora iterativamente a pose de uma imagem em tempo de execução usando um sistema atraente baseado em força. Outra técnica envolve a geração de um campo vetorial em uma grade de pixels para melhorar o alinhamento da imagem em tempo de execução. A palestra também aborda o uso de campos de distância para detecção de arestas e expansão de arestas semeadas observando vetores de força no campo vetorial. O palestrante também discute o uso de correspondência de padrões multiescala e as etapas matemáticas envolvidas no ajuste de linhas a conjuntos de coordenadas de imagem. Por fim, é apresentada uma patente para o cálculo eficiente de escalas múltiplas.

Na Aula 15, o palestrante aborda várias técnicas e atalhos para convolução, filtragem e subamostragem eficientes de imagens. Isso inclui a aproximação de kernels de filtro usando polinômios spline por partes, usando derivados como convoluções, compactando imagens tomando repetidamente a terceira diferença e combinando convoluções de direção x e y. O palestrante também menciona a importância da filtragem passa-baixa antes da amostragem da imagem para evitar interferências e aliasing nas imagens.

  • 00:00:00 Nesta seção, o vídeo discute outro padrão para encontrar objetos em imagens bidimensionais, chamado PatMax. Ele difere do padrão anterior, PatQuick, por assumir que já se tem uma ideia aproximada de onde as coisas estão e, em vez disso, visa melhorar essa posição de forma incremental com uma abordagem iterativa de mínimos quadrados. A motivação para usar o PatMax foi maximizar a energia, inspirada nas forças entre os dipolos magnéticos. No entanto, a intuição por trás da abordagem estava totalmente errada e uma analogia muito melhor seria conectar as coisas com uma mola. A patente também é parcialmente sobre alinhamento e faz referência a outras patentes e publicações do antigo laboratório de IA.

  • 00:05:00 Nesta seção, o vídeo explica o processo de treinamento de um sistema de reconhecimento de padrões usando detecção de borda que produz dipolos de borda e cria um campo vetorial bidimensional. O sistema então usa um processo de atração para encontrar iterativamente uma boa pose para uma imagem de tempo de execução, assumindo que uma pose inicial já foi obtida. O mapa do cliente é usado para mapear posições de pixel que não estão em uma grade quadrada para uma matriz quadrada de pixels, e há medidas como erro RMS e avaliações de inspeção usadas para determinar se um objeto está em boa forma ou não. Por fim, o vídeo descreve como a lista de dipolos de campo produz as sondas que são usadas para alinhamento com a imagem de tempo de execução.

  • 00:10:00 Nesta seção, o palestrante fala sobre como melhorar o alinhamento usando um campo gerado na grade de pixels. A pose é o oposto da patente anterior, com a detecção de recursos sendo feita na imagem em tempo de execução em vez do modelo. O objetivo do campo é mapear resultados discretos da imagem em tempo de execução de volta ao campo, tornando-o mais barato do que transformar a imagem inteira, que era o caso da patente anterior. O campo é gerado por meio de um novo processo que desenha um em direção ao alinhamento onde os objetos na imagem de tempo de execução correspondem aos objetos na imagem de treinamento. A palestra investiga como o campo é generalizado e destaca as diferentes etapas envolvidas na computação do campo.

  • 00:15:00 Nesta seção, o vídeo discute o processo de inicialização e preenchimento de um campo de distância para detecção de borda, que é uma técnica comum usada em visão de máquina chamada mapa de distância. A inicialização envolve dar aos dipolos de campo um valor correspondente à distância da borda junto com sua direção. O processo de preenchimento do restante dos quadrados próximos à borda é um processo iterativo em que o valor dos quadrados próximos é determinado e ajustado de acordo com a geometria computada. O campo de distância é essencialmente um sulco ao longo de cada aresta que informa a que distância está da aresta. O objetivo final é que cada aresta seja conectada para que o sistema se estabeleça em um estado de energia mais baixo.

  • 00:20:00 Nesta seção da palestra, o palestrante discute o processo de estender as bordas semeadas observando os pixels vizinhos e calculando a força e a direção da borda usando um campo vetorial. Eles explicam que, às vezes, os ângulos entre as forças se tornam muito grandes, indicando um canto, e que, nesses casos, os vetores não apontarão mais para os pixels originais da borda. Informações adicionais, como direção de contraste e direções de vetores, podem ajudar no processo de correspondência de estender as arestas. O objetivo é minimizar a energia no sistema, semelhante à modelagem com um sistema mecânico de molas. O palestrante observa que, com uma borda, muitas vezes é difícil dizer com certeza o quão bem estamos correspondendo a um ponto específico na borda, o que exigirá um modelo mais sofisticado para rastrear.

  • 00:25:00 Nesta seção, o palestrante discute o analógico mecânico que representa o algoritmo para detecção de recursos usando imagens de tempo de execução. O sistema se ajusta usando um conjunto de forças dos muitos recursos detectados na imagem, e as molas mecânicas são esticadas para fora e ajustadas usando uma transformação de escala. O sistema então calcula a desordem e a cobertura para avaliar o quão bem a imagem do tempo de execução corresponde ao modelo. O objetivo final do sistema é reduzir a energia movendo todos os dipolos de tempo de execução de maneira sistemática e envolve um grande sistema de mínimos quadrados com um método de computação natural usando um conjunto de acumuladores.

  • 00:30:00 Nesta seção, o palestrante discute vários aspectos da correspondência de padrões, incluindo casos somente de tradução e de tradução e rotação. O palestrante explica que o tensor usado na correspondência de padrões é uma matriz multidimensional que permite graus de liberdade no alinhamento. O palestrante também fala sobre correspondência de padrões em várias escalas, que envolve trabalhar em baixa resolução para obter uma pose inicial e, em seguida, usá-la para realizar correspondência de padrões em alta resolução. O palestrante observa que o método de correspondência de padrões pode ser aplicado a uma variedade de dispositivos usados para fins práticos, desde câmeras de TV até microscópios eletrônicos. Finalmente, o palestrante discute as reivindicações feitas na patente, observando que a reivindicação um é muito ampla e provavelmente contestada pelo estado da técnica, mas que as reivindicações dependentes fornecem detalhes mais específicos.

  • 00:35:00 Nesta seção da palestra, o palestrante discute uma patente para um processo de alinhamento que depende de vários componentes, incluindo valores de erro de baixa resolução e estimativas iniciais. O processo, chamado PatMax, pesquisa o espaço de pose completo em baixa resolução sem precisar de um primeiro palpite, ao contrário da patente discutida que requer um primeiro palpite e tem um alcance de captura. O espaço de pose para esse processo é o contrário do PatMax por motivos computacionais. O processo de alinhamento funciona para evitar limiarização e quantização no nível do pixel, concentrando-se na precisão do subpixel. O alto-falante também toca em um analógico físico envolvendo molas mecânicas.

  • 00:40:00 Nesta seção, o palestrante discute o processo de inspeção de objetos e como ele envolve a correspondência e a determinação da transformação entre imagens treinadas e de tempo de execução. A inspeção é baseada em recursos ausentes e extras na imagem de tempo de execução em comparação com a imagem treinada e desordem na imagem devido à textura de fundo. A geração do campo de distância também é explicada, com foco em como ele muda quando há bordas e cantos presentes na imagem. O processo de cálculo da transformada de distância é discutido, incluindo os desafios de trabalhar em um mundo discreto e as formas de aproximar a distância euclidiana de maneira rápida e eficiente.

  • 00:45:00 Nesta seção da palestra, é discutido o conceito de somar forças locais para fornecer alinhamento de translação ou rotação. Os pesos podem ser predefinidos ou depender da magnitude do gradiente ou dipolo do campo, entre outras variações. O torque em torno de um centro é usado para fornecer rotação, e tomar o componente z do produto vetorial de dois vetores em um plano pode ser usado para fornecer um escalar para o torque. A palestra então descreve a distância até uma linha e explica a rotação em um sistema de coordenadas alinhado com uma linha para calcular os primos x e y.

  • 00:50:00 Nesta seção, o palestrante discute o uso de dois parâmetros rho e theta na parametrização da família de linhas no plano, que é uma família de dois parâmetros. Esta parametrização é útil no ajuste de linha, onde o objetivo é encontrar uma linha que se encaixe nos pontos de borda com alta precisão. O palestrante explica como usar o cálculo para minimizar a distância ao quadrado e mostra como relacionar x bar e y bar, os centróides médios dos pontos na linha, com rho e theta. Além disso, a palestra aborda a movimentação de coordenadas para o centróide e a descoberta de relações fortes entre theta e rho para determinar os parâmetros da linha.

  • 00:55:00 Nesta seção, o palestrante explica as etapas matemáticas para encontrar a solução de mínimos quadrados para ajustar uma linha a um conjunto de coordenadas de imagem usando a equação da forma normal de Hesse. Tomando a derivada em relação a theta e definindo-a como zero, obtém-se uma solução envolvendo seno e cosseno de duas vezes o ângulo, que pode ser simplificada usando identidades trigonométricas. Este método é preferível ao ajuste de y igual a mx mais c, pois é independente da escolha do sistema de coordenadas e pode ser usado para combinar fragmentos de borda curta em fragmentos de borda mais longos. O palestrante então apresenta uma patente para computar escalas múltiplas de forma eficiente, evitando convoluções dispendiosas.

  • 01:00:00 Nesta seção, o palestrante fala sobre formas eficientes de computar filtros para fins multiescala. O truque é aproximar um kernel com um polinômio spline por partes e obter a primeira diferença n mais, o que facilita a convolução com zero, resultando em um kernel esparso com pequeno suporte. A palestra também cobre a primeira soma n mais, que é o inverso da primeira diferença n mais, e as propriedades de convoluções e diferenciações. No geral, a palestra fornece insights sobre atalhos e truques para tornar a convolução de imagens grandes com kernels grandes mais fácil e eficiente.

  • 01:05:00 Nesta seção, o palestrante discute as propriedades e benefícios da convolução, especificamente como as derivadas podem ser tratadas como convoluções se a distribuição em vez de funções for permitida. Isso permite o uso de propriedades de convolução, como comutatividade e associatividade, que podem ser muito poderosas no processamento de sinais. O palestrante também descreve um exemplo de uso de convolução para tornar um padrão esparso e barato para convoluir, o que envolve calcular derivadas e encontrar os lugares onde existem valores diferentes de zero. Apenas dois valores precisam ser convoluídos, o que é uma vantagem significativa.

  • 01:10:00 Nesta seção, o palestrante explica a técnica de pegar a terceira diferença de uma imagem para comprimi-la. Tomando repetidamente a terceira diferença, um conjunto pequeno e esparso de valores é produzido, reduzindo o cálculo em comparação com o uso da imagem original completa. Isso pode ser usado para controlar a largura de banda e a escala do filtro sem alterar a quantidade de computação necessária. O palestrante demonstra esta técnica usando uma função unidimensional e depois mostra um exemplo com uma parábola onde as extremidades são mais complicadas devido a uma descontinuidade.

  • 01:15:00 Nesta seção da palestra, diferentes técnicas de filtragem são discutidas para melhorar a eficiência dos cálculos em imagens de subamostragem, evitando artefatos de aliasing. O uso de um spline para aproximar filtros como as funções gaussianas e de sincronização é explorado, com foco na redução do tempo de computação e do número de valores diferentes de zero. Além disso, é apresentada uma técnica de combinação de operações de convolução nas direções x e y, que requer menos memória intermediária e permite uma cascata mais eficiente de convoluções 1D. A relevância desses tópicos para detecção de borda e processamento de imagem multiescala é destacada.

  • 01:20:00 Nesta seção, o palestrante discute um cristal de calcita que é birrefringente e tem dois índices de refração dependendo da polarização, o que faz com que duas cópias de uma imagem apareçam muito próximas umas das outras. Isso é usado em câmeras para suprimir o conteúdo de frequência mais alta e melhorar a amostragem. No entanto, a remoção desse filtro pode causar interferência e aliasing nas imagens, bem como alterações na cor e na forma dos objetos que estão sendo filmados. O palestrante observa que as melhorias na filtragem passa-baixa antes da amostragem da imagem reduziram esses problemas, mas ainda é importante considerar os efeitos do aliasing na geração de imagens.
 

Aula 16: Convolução rápida, aproximações de filtro passa-baixo, imagens integrais (Patente dos EUA 6457032)



Aula 16: Convolução rápida, aproximações de filtro passa-baixo, imagens integrais (Patente dos EUA 6457032)

A palestra abrange vários tópicos relacionados ao processamento de sinal, incluindo limitação de banda, aliasing, aproximações de filtro passa-baixo, desfoque, imagem integral, análise de Fourier e convolução. O alto-falante enfatiza a importância da filtragem passa-baixa dos sinais antes da amostragem para evitar artefatos de aliasing. A palestra também apresenta a ideia da imagem integral, que calcula eficientemente a soma dos pixels dentro de um bloco, e várias técnicas para reduzir a computação ao aproximar filtros passa-baixa. Por fim, a palestra discute a interpolação bicúbica, que é usada para aproximar a função sinc, e seus custos computacionais.

Nesta palestra, o palestrante discute vários tópicos relacionados à convolução, aproximações de filtro passa-baixo e imagens integrais. Eles explicam diferentes implementações de convolução, incluindo um método que economiza tempo de computação adicionando valores da esquerda para a direita e subtraindo para obter a média. As limitações da interpolação linear para aproximações de filtro passa-baixo e sua inferioridade em comparação com métodos mais avançados como a interpolação cúbica também são discutidas. O conceito de uma casamata e seu valor em limitar as faixas de frequência é apresentado, e o palestrante fala sobre o filtro passa-baixo ideal e como a desfocagem afeta a função de Bessel. A palestra também aborda o uso de aproximações de filtro passa-baixo para lentes de câmeras DSLR e o conceito de fotogrametria.

  • 00:00:00 Nesta seção, o palestrante discute formas de onda de amostragem e a importância de limitá-las em banda. Ao amostrar uma forma de onda, é surpreendente que possamos capturar algo sobre ela, visto que a forma de onda tem suporte infinito e só obtemos amostras discretas. No entanto, se o conteúdo da frequência for limitado, o teorema de Nyquist afirma que podemos reconstruí-lo completamente amostrando em uma frequência alta o suficiente. O critério é que amostramos rápido o suficiente, de modo que o componente de frequência mais alta do sinal seja menor que fs sobre dois. Em última análise, a limitação de banda é significativa porque nos permite capturar a essência de uma forma de onda sem obter artefatos de aliasing.

  • 00:05:00 Nesta seção, o conceito de aliasing no processamento de sinal é explicado. O aliasing ocorre quando o conteúdo de frequência acima de um determinado limite é amostrado e indistinguível do conteúdo de frequência mais baixa. Isso não pode ser corrigido após a amostragem, portanto, deve ser feito com antecedência, suprimindo o conteúdo de frequência mais alta. Para fazer isso, é importante filtrar o sinal passa-baixo antes da amostragem. No entanto, a verdadeira filtragem passa-baixa é difícil de obter, portanto aproximações devem ser feitas.

  • 00:10:00 Nesta seção da palestra, o palestrante discute o conceito de desfoque por meio de métodos como filtragem de pré-amostragem e apresenta a ideia da imagem integral. Ele explica que um filtro boxcar pode ser usado para realizar a média de blocos, onde a soma dos pixels dentro de um bloco é calculada, mas esse método pode ser computacionalmente caro. Para resolver isso, uma imagem integral pode ser usada em casos 1D e 2D para calcular a soma com mais eficiência. A imagem integral não se restringe apenas a imagens, pois também pode funcionar para outros tipos de matrizes como gradiente integral.

  • 00:15:00 Nesta seção, o palestrante explica como calcular o total de um retângulo usando a imagem integral. O palestrante mostra que com quatro acessos à memória e três operações aritméticas, podemos obter o total para qualquer bloco e independente de seu tamanho. Esta técnica pode ser usada para reconhecimento e bloqueio de médias. O palestrante também fala sobre a Análise de Fourier e como calcular a média de um bloco usando uma média móvel.

  • 00:20:00 Nesta seção da palestra, o palestrante discute as desvantagens de usar a função sinc como uma aproximação para um filtro passa-baixa. A função sinc não atenua as frequências altas de forma agressiva o suficiente e não atinge o primeiro zero rápido o suficiente, tornando-a uma escolha ruim para aproximações de filtro passa-baixo. Esta discussão é particularmente relevante para câmeras, que executam uma operação de filtragem antes da amostragem, e a média de bloco é sugerida como uma alternativa potencial para a função sinc. A média de blocos é barata de calcular e pode ser executada duas vezes na esperança de obter uma melhor aproximação de um filtro passa-baixa.

  • 00:25:00 Nesta seção, o palestrante discute as propriedades dos filtros no domínio de transformação e como eles se relacionam com as descontinuidades de etapas nas imagens. O palestrante explica que a transformada de uma função degrau cai como uma sobre frequência, o que significa que imagens com descontinuidades degrau produzirão conteúdo de alta frequência que não cai rapidamente. O palestrante observa que esse é um problema com a transformada discreta de Fourier porque ela assume que os dados são periódicos, portanto, introduz descontinuidades de borda degrau à medida que os dados são agrupados. Para lidar com isso, o palestrante sugere a apodização, que consiste em multiplicar a imagem por uma forma de onda para que as pontas coincidam. Um filtro de apodização comum é uma forma de onda de cosseno invertido.

  • 00:30:00 Nesta seção, o vídeo aborda diferentes abordagens para lidar com dft aplicado a imagens, sendo uma delas assumir que a parte externa da imagem se repete periodicamente ou é uma imagem espelhada, embora essa não seja uma solução perfeita devido ao potencial para uma descontinuidade derivada. Outra abordagem discutida é a filtragem passa-baixa com um filtro aproximado. O vídeo aborda certas propriedades necessárias para a filtragem aproximada de passagem baixa, como a propriedade de filtragem do impulso unitário e das distribuições.

  • 00:35:00 Nesta seção da palestra, o palestrante discute o impulso unitário e sua relação com a convolução. Embora o impulso unitário não seja matematicamente correto para definir como o limite da convolução, ele pode ser usado para determinar o efeito da convolução com o impulso unitário calculando sua convolução e tomando o limite quando o epsilon tende a zero. O palestrante observa que a convolução pode ser conectada a derivadas e que os operadores invariantes lineares e os operadores derivativos estão intimamente relacionados. Eles explicam que as derivadas podem ser essencialmente tratadas como convoluções, com uma das duas convoluções sendo invertida.

  • 00:40:00 Nesta seção, o palestrante discute as aproximações do filtro passa-baixo e como elas podem melhorar o método de média de pixels usado em câmeras. Ele explica que a filtragem passa-baixa adicional precisa ser feita antes da amostragem no domínio analógico e sugere o uso de materiais birrefringentes para criar um filtro especial. Esse filtro envolve duas imagens deslocadas que modelam como convolução com impulsos, resultando em duas versões ligeiramente deslocadas da imagem original. Quando analisado com uma transformada de Fourier, o filtro não diminui com a frequência, mas diminui em pi sobre epsilon, permitindo a seleção do valor epsilon apropriado.

  • 00:45:00 Nesta seção, o palestrante discute o conceito de filtros passa-baixa e apresenta uma técnica para cortar altas frequências usando uma placa mais espessa que o espaçamento de pixels. Esta placa corta altas frequências, mas deixa outras frequências sem cortes. O palestrante explica que usar esse filtro anti-aliasing extremamente simples junto com o filtro de média de blocos pode reduzir os efeitos moiré causados por conteúdo de alta frequência nas imagens. O palestrante apresenta a ideia da patente e da imagem integral, que visa reduzir a computação para uma boa filtragem passa-baixa, minimizando o tamanho do suporte. O palestrante demonstra como representar a integração usando convolução e fornece a transformada de Fourier do impulso unitário.

  • 00:50:00 Nesta seção, o vídeo enfoca o conceito de convoluções e sua relação com diferenciação e integração no domínio da transformada de Fourier. É explicado que uma segunda derivada pode ser obtida por convolução de derivadas ou impulsos de primeiro nível. Este conceito é aplicado ao processo de filtragem, onde um filtro pode ser dividido em seções para reduzir a computação se for esparso, o que ocorre quando se trabalha com funções constantes ou aproximações polinomiais. Integrando ou somando os resultados da convolução com um filtro esparso, a resposta desejada pode ser obtida de forma eficiente com menos cálculos.

  • 00:55:00 Nesta seção, o palestrante discute a aproximação da função sinc, que é ideal para um filtro passa-baixa, mas continua indefinidamente, impossibilitando sua representação completa. A palestra apresenta a interpolação bicúbica para imagens 2D, onde os pixels são rotacionados e precisam ser interpolados. O método envolve o uso de quatro partes, onde a curva é descrita por uma cúbica. A quarta derivada é usada para filtragem e o resultado é muito melhor do que usar o vizinho mais próximo ou a interpolação linear. É explicado que existem custos computacionais para aproximar a função de sincronização, tornando-a inviável para uso.

  • 01:00:00 Nesta seção, um exemplo de média de bloco é usado para ilustrar a implementação ingênua de convolução, deslocando um bloco ao longo e somando o que estiver abaixo do bloco. Outra implementação é mostrada para economizar significativamente no tempo de computação ao bloquear segmentos maiores, adicionando valores da esquerda para a direita e, em seguida, subtraindo para obter a média. A interpolação linear também é discutida, o que pode ser pensado como tendo a ver com a convolução, criando uma função que conecta os pontos em uma grade discreta usando linhas retas.

  • 01:05:00 Nesta seção, o palestrante discute o método de interpolação linear para aproximações do filtro passa-baixa e suas limitações, principalmente em termos de mudanças nas medições de ruído e imagem. Ele explica que o método envolve a convolução de dois vagões, que é uma função linear que imita a função de sincronização. Ele também observa que esse método é inferior a métodos mais avançados, como o método de interpolação cúbica para aproximações de filtro passa-baixo. Além disso, ele explica que o método de aproximação do vizinho mais próximo é uma função constante por partes que é ainda menos precisa do que o método linear.

  • 01:10:00 Nesta seção da palestra, o palestrante discute o conceito de aproximações de filtro passa-baixo e imagens integrais no contexto de convolução. Eles explicam como a interpolação do vizinho mais próximo corresponde à convolução com um vagão e os benefícios de usar um sistema de coordenadas rotacionalmente simétricas para imagens naturais. Em seguida, eles introduzem o conceito de casamata e seu valor em limitar as faixas de frequência. A transformada inversa de uma casamata também é rotacionalmente simétrica, variando de acordo com a função de Bessel, que é comumente usada em óptica.

  • 01:15:00 Nesta seção, o palestrante discute o filtro passa-baixo ideal, que é a resposta da função de propagação a um impulso. O primeiro zero desta função, que é diferente da função de sincronização, é usado para resolução com base nos critérios de resolução de Áries. Quando fora de foco, o palestrante mostra que a função de propagação muda para a casamata, e esta, no domínio da frequência espacial, torna-se a função de Bessel. Ele então conclui que a desfocagem afeta o foco alterando a função de Bessel.

  • 01:20:00 Nesta seção da palestra, o palestrante discute o uso de aproximações de filtro passa-baixo e a consequente diminuição do conteúdo de alta frequência, que pode levar à morte de algumas frequências completamente devido à presença de zeros. O palestrante também fala sobre como determinar o tamanho do passo de uma lente de câmera DSLR observando o domínio da frequência, bem como o efeito de duas projeções de perspectiva em sequência não sendo o mesmo que uma única projeção de perspectiva. Finalmente, é introduzido o conceito de tirar imagens ligeiramente desfocadas e convolvê-las como forma de determinar se uma imagem foi modificada ou não.

  • 01:25:00 Nesta seção, o palestrante discute o conceito de convolução e como ele se relaciona com a multiplicação no domínio da frequência. Eles explicam como o uso de uma função de caixa de comprimidos permite a convolução de uma imagem, mas alertam que a multiplicação de fotos desfocadas não produzirá resultados precisos. A palestra então transita para o tópico de fotogrametria, que usa imagens para criar informações 3D sobre objetos e sua localização, combinando recursos como bordas entre imagens para identificar a localização da câmera.
 

Aula 17: Fotogrametria, Orientação, Eixos de Inércia, Simetria, Orientação



Aula 17: Fotogrametria, Orientação, Eixos de Inércia, Simetria, Orientação

Esta palestra aborda vários tópicos relacionados à fotogrametria, incluindo dicas de profundidade, calibração de câmeras e estabelecimento da transformação entre dois sistemas de coordenadas. O palestrante explica como abordar o problema de encontrar a transformação de coordenadas entre dois sistemas usando medições correspondentes e destaca a importância de verificar o inverso exato da transformação. A palestra também discute como encontrar os eixos de inércia no espaço 2D e 3D e determinar a distância entre dois pontos projetados em um eixo. No geral, a seção fornece uma visão abrangente da fotogrametria e suas aplicações.

A fotogrametria requer a construção de um sistema de coordenadas em uma nuvem de pontos em sistemas de coordenadas à esquerda e à direita e relacionando os dois. O palestrante explica como determinar a matriz de inércia ou os eixos de inércia e estabelecer os vetores de base. Eles também discutem os desafios impostos por objetos simétricos e as propriedades de rotação, como a preservação de produtos escalares, comprimentos e ângulos. Além disso, a palestra aborda como simplificar o problema de encontrar a rotação, eliminando a translação e minimizando o termo de erro. Por fim, o palestrante explica como alinhar dois objetos com formas semelhantes usando cálculo vetorial e sugere explorar outras representações para rotação.

  • 00:00:00 Nesta seção, o palestrante apresenta a fotogrametria, que envolve o uso de imagens para medir e reconstruir superfícies tridimensionais. O campo tem suas raízes na confecção de mapas e foi popularizado após a invenção da fotografia. O palestrante discute quatro problemas clássicos da fotogrametria, incluindo encontrar a relação entre dois sistemas de coordenadas díspares, bem como encontrar a relação entre um único sistema de coordenadas e objetos que podem se mover ou mudar. O palestrante observa que, embora a visão de máquina geralmente esteja mais preocupada com o segundo problema, que envolve a recuperação da terceira dimensão a partir de imagens bidimensionais, pode ser vantajoso enfrentar primeiro o problema 3D devido à sua solução de forma fechada.

  • 00:05:00 Nesta seção, o palestrante explica os dois tipos de aplicações da fotogrametria: 2D para 3D e 3D para 2D. O primeiro envolve recuperar informações tridimensionais de imagens e determinar a relação entre duas câmeras no espaço para alinhá-las. O último envolve a calibração da câmera, necessária para medições precisas usando câmeras, e a criação de mapas topográficos por meio da captura de intervalos regulares de imagens de um plano. O palestrante também discute várias pistas de profundidade, incluindo estéreo binocular, que é a capacidade de perceber a profundidade através de dois olhos.

  • 00:10:00 Nesta seção, o palestrante explica como duas câmeras podem ser usadas para estabelecer dicas de profundidade usando triângulos semelhantes. Ao obter imagens de um objeto em ambas as câmeras e comparar as imagens resultantes, a diferença entre as posições pode ser usada para calcular a profundidade do objeto. A palestra também observa que as disparidades na imagem podem ser usadas para calcular a profundidade, pois a distância é inversamente proporcional à disparidade. Por fim, a seção aborda o tópico da sensibilidade ao erro e como grandes erros podem resultar de pequenas discrepâncias na medição da disparidade.

  • 00:15:00 Nesta seção do vídeo, o palestrante discute a fotogrametria e a medição de posições 3D usando duas câmeras. Eles explicam que aumentar a linha de base ou a distância focal pode melhorar a precisão da medição, mas há restrições nessas quantidades, como garantir que as câmeras não estejam muito distantes. Eles também mencionam o desafio de calibrar as câmeras caso elas não estejam perfeitamente alinhadas em uma geometria específica. O palestrante passa então ao tema das orientações absolutas e como compensar a orientação de dispositivos como lidars ou câmeras aéreas, que podem não manter uma atitude constante. Por fim, observam que a discussão pressupõe a presença de pontos interessantes nas imagens, deixando de lado o problema de pareamento.

  • 00:20:00 Nesta seção, o palestrante explica como encontrar a rotação e a translação de dois sistemas de coordenadas para projetar raios em 3D e encontrar o ponto de interseção entre eles. Ele usa o exemplo de pontos medidos em um sistema de coordenadas esquerdo e direito, observando que isso pode se aplicar a quaisquer dois sistemas de coordenadas, independentemente de seus rótulos. O palestrante destaca a necessidade de seis números para especificar totalmente a transformação, três para rotação e três para translação, e explica que existem três graus de liberdade para cada um. Ele escreve a fórmula da transformação, enfatizando que a rotação não precisa ser representada como uma matriz ortonormal.

  • 00:25:00 A palestra discute as propriedades de rotação e a matriz ortonormal, que é essencial para entender como calcular a rotação e translação de objetos. A palestra também fala sobre como aplicar a restrição de ortonormalidade elimina reflexões e como o inverso de uma matriz de rotação pode ser facilmente obtido. Um modelo físico também é apresentado para melhor visualização de como os pontos dos sistemas de coordenadas esquerdo e direito podem ser sobrepostos e alinhados.

  • 00:30:00 Nesta seção, o palestrante discute como abordar o problema de encontrar a transformação de coordenadas entre dois sistemas usando medições correspondentes. Este problema pode ser abordado na forma de mínimos quadrados, onde o objetivo é minimizar a distância entre o vetor transformado no sistema de coordenadas da esquerda e no sistema de coordenadas da direita. Isso pode ser pensado como um problema de minimização de energia, em que o sistema tenta se ajustar para minimizar a energia. O palestrante enfatiza a importância de verificar se a transformação do sistema da direita para a esquerda é exatamente o inverso da transformação do sistema da esquerda para a direita. Separar os problemas de translação e rotação simplifica o problema para apenas três graus de liberdade por vez.

  • 00:35:00 Nesta seção, o palestrante explica como construir um sistema de coordenadas usando medições de pontos em um objeto. O primeiro passo é escolher um ponto como origem e conectá-lo a um segundo ponto para criar um eixo. A separação entre os dois primeiros pontos é normalizada para criar o eixo x e um terceiro ponto é usado para definir o plano xy. O eixo y é criado removendo o componente do vetor do primeiro ponto ao terceiro ponto que está na direção do eixo x e tornando o vetor resultante perpendicular ao original. O eixo z é definido como o produto vetorial de x e y, pois é perpendicular a ambos os vetores. Este processo permite a criação de um sistema de coordenadas e a medição de pontos em ambos os sistemas de coordenadas para um objeto.

  • 00:40:00 Nesta seção, o palestrante explica como construir um sistema de coordenadas e resolver a rotação. Para fazer isso, eles usam uma tríade de vetores unitários para definir um sistema de coordenadas para a esquerda e para a direita. Em seguida, eles pegam os dois pontos da nuvem, constroem um eixo e mapeiam os vetores unitários entre si para encontrar uma transformação que os una. Eles então usam uma matriz 3x3 para unir as equações separadas e resolver a rotação. Eles mencionam que, removendo a tradução, restam apenas três graus de liberdade para encontrar.

  • 00:45:00 Nesta seção, o palestrante discute as restrições envolvidas no mapeamento de pontos entre sistemas de coordenadas em fotogrametria. Embora três correspondências entre dois sistemas possam parecer suficientes para uma solução com apenas três incógnitas, as igualdades vetoriais significam que cada restrição vale três pontos. Assim, temos nove restrições. No entanto, a rotação tem apenas três graus de liberdade, levando a um excesso de informação. O palestrante então discute uma solução ad hoc envolvendo a seleção seletiva de pontos para transformação, o que é impreciso. Outra solução envolve o uso de decomposição de valor singular (SVD) para encontrar a matriz de transformação ideal que pondera uniformemente as informações de todas as correspondências.

  • 00:50:00 Nesta seção, o palestrante discute o conceito de encontrar os eixos de inércia no espaço 2D e 3D. Ele explica que os eixos de inércia mínima podem ser encontrados calculando a integral da distância ao quadrado vezes a massa, enquanto o eixo perpendicular tem uma inércia máxima e, em 3D, há um terceiro eixo que é um ponto de sela. Ele afirma que se esses eixos forem identificados, um sistema de coordenadas pode ser estabelecido para o objeto em questão. A fórmula para encontrar a distância do eixo até a origem também é discutida, juntamente com a escolha do centróide como origem para separar o problema de encontrar a translação do problema de encontrar a rotação.

  • 00:55:00 Nesta seção, o palestrante explica como determinar a distância entre dois pontos, r e r linha, projetados em um eixo ômega. A fórmula para a inércia é derivada dessa distância e varia conforme o eixo muda de direção. O orador então simplifica a fórmula usando produtos escalares, associatividade de multiplicação e a matriz de identidade. A fórmula resultante mostra que a inércia é igual ao produto escalar de r com ele mesmo multiplicado pela matriz identidade e integrado sobre o volume do objeto.

  • 01:00:00 Nesta seção, o palestrante explica como construir um sistema de coordenadas em uma nuvem de pontos em um sistema de coordenadas à esquerda e à direita e, em seguida, relacionar os dois. Isso é feito computando a matriz de inércia, ou os eixos de inércia, que é um problema simples de autovalor de autovetor para uma matriz três por três. Encontram-se três eixos perpendiculares entre si - o eixo máximo, mínimo e de sela. Esses eixos são usados para estabelecer os vetores de base, e o mesmo método é feito para o sistema de coordenadas à direita. O método usado para fazer isso é um problema de mínimos quadrados, pois trata todos os pontos igualmente e minimiza o problema.

  • 01:05:00 Nesta seção da palestra, o palestrante discute as limitações dos métodos ad hoc em fotogrametria ao lidar com objetos simétricos. O palestrante explica que alguns objetos, como uma esfera, tetraedro e octaedro, têm a mesma inércia em todas as direções, dificultando a determinação de sua orientação usando um método ad hoc que depende do alongamento. Além disso, o palestrante observa que o uso de correspondências para determinar a orientação é uma abordagem mais precisa, mas desafiadora, pois requer o conhecimento do alinhamento de cada ponto. O palestrante também explica as propriedades de rotação, incluindo a preservação de produtos escalares, comprimentos e ângulos.

  • 01:10:00 Nesta seção, o professor discute o produto triplo de vetores, que é o volume de um paralelepípedo formado por esses vetores. Se esses vetores forem girados, seu volume será preservado se a rotação não for uma reflexão. Uma reflexão mudaria o sinal do produto triplo e, portanto, o volume, resultando em uma regra da mão esquerda em vez de uma regra da mão direita. Este princípio é importante ao configurar um problema de mínimos quadrados para encontrar a transformação entre dois sistemas de coordenadas, onde o deslocamento e a rotação precisam ser escolhidos para minimizar o erro entre os dois sistemas.

  • 01:15:00 Nesta seção, o palestrante explica como simplificar o problema de encontrar a translação de encontrar a rotação. Eles fazem isso movendo as coordenadas para o centróide e subtraindo-as das coordenadas originais para se livrar da translação, tornando o problema de rotação muito mais fácil de resolver. O professor então conecta as novas coordenadas à fórmula de erro e agrupa os termos, chegando finalmente a um problema mais simples para trabalhar. A palestra termina com uma pergunta sobre qual offset escolher para a tradução.

  • 01:20:00 Nesta seção, a palestra se concentra em separar o problema de encontrar a translação do problema de encontrar a rotação. A fórmula para a translação é a diferença entre onde o centróide está no sistema de coordenadas à direita e onde o centróide do sistema de coordenadas à esquerda está após girá-lo. O próximo objetivo é minimizar o termo de erro restante, o que envolve encontrar a rotação correta. Ao maximizar o termo restante que depende da rotação, a palestra visa encontrar a rotação correta, o que faz sentido intuitivamente ao imaginar uma nuvem de pontos conectados ao centróide com uma aparência pontiaguda de sushi.

  • 01:25:00 Nesta seção, o palestrante explica como alinhar dois objetos de forma semelhante usando o cálculo vetorial. Tomando os espinhos correspondentes dos objetos e usando o produto escalar entre eles para determinar o ângulo, os objetos podem ser alinhados. No entanto, isso coloca o problema de como resolver o problema de rotação usando cálculo sem ter que lidar com matrizes complicadas por restrições adicionais. O palestrante sugere olhar para outras representações de rotação que facilitem o problema de alinhamento.
 

Aula 18: Rotação e como representá-la, unidade quaternions, o espaço das rotações



Aula 18: Rotação e como representá-la, unidade quaternions, o espaço das rotações

Esta palestra discute os desafios de representar rotações e apresenta a utilidade dos quatérnios de Hamilton. Os quaternions unitários são particularmente úteis, pois mapeiam diretamente as rotações em três espaços, permitindo uma discussão de um espaço de rotação e otimização nesse espaço. Os quatérnios têm propriedades semelhantes aos números complexos e são particularmente úteis para representar rotações, pois preservam produtos escalares, produtos triplos, comprimento, ângulos e lateralidade. A palestra também discute diferentes métodos de representação de rotação, a importância de poder rotacionar vetores e compor rotações e as limitações de métodos convencionais, como matrizes, ângulos de Euler e gimbal lock. Por fim, a palestra apresenta pesquisas em andamento no campo, incluindo otimização e ajuste de rotações a modelos e desenvolvimento de novos métodos para analisar e visualizar espaços de rotação.

Nesta palestra, o professor discute o problema de encontrar a transformação de coordenadas entre dois sistemas de coordenadas ou a melhor rotação e translação entre dois objetos com pontos correspondentes medidos nos dois sistemas de coordenadas. A palestra explora o uso de quaternions para alinhar câmeras de espaçonaves com direções de catálogo e resolver o problema de orientação relativa. A eficiência dos quaternions na representação de rotações é discutida, bem como diferentes métodos para abordar a representação de rotações no espaço quadridimensional. Além disso, a palestra explora vários grupos de rotação para diferentes poliedros, enfatizando a importância de selecionar o sistema de coordenadas correto para obter uma amostragem de espaço regular.

  • 00:00:00 Nesta seção, o palestrante discute os desafios de lidar com rotações, já que elas não são comutativas como as traduções. O objetivo é desenvolver um método útil e geral para lidar com rotações em fotogrametria e robótica. Os quatérnios de Hamilton fornecem uma maneira mais geral de representar rotações, particularmente quando restritos a quatérnios unitários, que podem ser mapeados diretamente em rotações em três espaços. Isso permite a discussão de um espaço de rotação e otimização desse espaço. As aplicações são vastas, desde a robótica às ciências biomédicas, e o orador pretende desenvolver uma solução de forma fechada para problemas que envolvam a medição de dois objetos em diferentes sistemas de coordenadas ou um objeto que se moveu.

  • 00:05:00 Nesta seção, o tópico de rotação é apresentado e explicado. O teorema de Euler afirma que qualquer rotação de um objeto rígido tem a propriedade de haver uma linha que não é alterada, que é o eixo. O teorema dos eixos paralelos afirma que qualquer rotação em torno de qualquer eixo é equivalente a uma rotação em torno de um eixo que passa pela origem, mais uma translação. Para simplificar as coisas, é conveniente separar translação e rotação. A velocidade rotacional é muito mais fácil do que as próprias rotações finitas, pois a velocidade angular requer apenas um vetor e uma taxa. Por fim, rotações finitas não comutam e, para n = 3, há três graus de liberdade.

  • 00:10:00 Nesta seção, o palestrante explica que é melhor pensar em rotações preservando certos planos. Por exemplo, o plano xy pode ser preservado enquanto as coisas nele são movidas para um local diferente. O palestrante também observa que os produtos cruzados têm três graus de liberdade e são representados como vetores porque são perpendiculares aos dois vetores que estão sendo multiplicados. Existem representações para rotação, e um método útil é a notação de eixo e ângulo, onde o eixo é um vetor unitário e o número de graus girados é representado por um ângulo. O vetor de Gibbs é outra notação que combina o eixo e o ângulo em um único vetor, embora não seja mais um vetor unitário e aumente em teta igual a pi.

  • 00:15:00 Nesta seção, o palestrante explica as várias formas de representar a rotação, incluindo ângulos de Euler, matrizes ortonormais, forma exponencial, estereografia e matrizes complexas. Cada método tem suas próprias restrições e existem 24 definições diferentes para os ângulos de Euler, tornando-o confuso. No entanto, os quatérnios unitários são o método mais popular e útil para representar as rotações porque têm muitas vantagens, como serem compactos, fáceis de interpolar e não afetados pelo bloqueio do gimbal. Também é essencial ser capaz de converter entre diferentes representações de rotação.

  • 00:20:00 Nesta seção, o palestrante discute o problema de girar um vetor e encontrar sua posição em um sistema de coordenadas giradas, bem como compor rotações. O palestrante apresenta a fórmula de Rodriguez, que aborda o primeiro problema pegando um vetor e girando-o em um ângulo em torno de um determinado eixo. Ao dividir o problema em 2D, o palestrante mostra como a fórmula de rotação é simples no plano, mas mais complexa em 3D. O palestrante explica que a notação de eixos e ângulos é útil para visualizar rotações, mas a composição é difícil de conseguir.

  • 00:25:00 Nesta seção, o palestrante discute diferentes representações de rotação, incluindo o mapeamento de uma esfera em um plano usando uma técnica de projeção, que preserva ângulos e formas. Ele também menciona a importância de poder rotacionar vetores e compor rotações, além de ter uma representação intuitiva como eixo e ângulo. No entanto, ele observa que algumas representações como matrizes rotacionais e eixo-ângulo podem ser redundantes ou pouco intuitivas. O palestrante também destaca a importância de evitar singularidades e garantir a eficiência computacional ao poder interpolar a orientação em gráficos.

  • 00:30:00 Nesta seção, o palestrante discute os desafios de representar e interpolar rotações em computação gráfica, bem como a necessidade de um espaço de rotações que possa ser amostrado e calculado com eficiência. Ele aponta as limitações do uso de matrizes, ângulos de Euler, gimbal lock e outros métodos convencionais e apresenta quaternions como uma solução mais prática. Ele explica como os quatérnios podem evitar redundâncias e singularidades, e como eles podem ser compostos, interpolados e amostrados de forma matematicamente elegante e computacionalmente eficiente. Ele também destaca alguns dos problemas em aberto e pesquisas em andamento neste campo, incluindo otimizar e ajustar rotações a modelos e desenvolver novos métodos para analisar e visualizar espaços de rotação.

  • 00:35:00 Nesta seção, o palestrante explica a história por trás da criação dos quaternions e seu significado na matemática, principalmente na rotação. Ele explica que William Hamilton, um matemático de Dublin, estava tentando encontrar uma maneira de representar trios de números de uma forma que permitisse a divisão, então ele buscou inspiração nos números complexos. Hamilton acabou descobrindo que os quaternions, ou números com uma parte real e três partes imaginárias, poderiam resolver o problema. O palestrante passa a explicar as diferentes formas de representar quaternions, inclusive como um vetor no espaço ou uma matriz quatro por quatro.

  • 00:40:00 Nesta seção, o palestrante discute diferentes formas de representar a multiplicação de quatérnios, inclusive usando matrizes e usando uma parte escalar e três partes imaginárias. O palestrante enfatiza que a multiplicação é não comutativa e mostra como ela pode ser representada como um produto de uma matriz e um vetor. A palestra também destaca alguns resultados básicos, incluindo o fato de que a multiplicação de quatérnios não é comutativa, mas associativa.

  • 00:45:00 Nesta seção, o palestrante explica as propriedades dos quaternions que os tornam uma maneira útil de representar rotações. Os quatérnios têm propriedades semelhantes aos números complexos, incluindo um conjugado que envolve a negação da parte imaginária. O produto escalar pode ser expresso como uma norma, e a multiplicação de um quaternion por seu conjugado resulta em uma quantidade real sem parte imaginária, que pode ser usada para divisão. No caso de quaternions unitários, o inverso é apenas o conjugado. Os quatérnios também podem ser usados para representar vetores deixando de fora a parte escalar, e há muitas propriedades interessantes nesse espaço.

  • 00:50:00 Nesta seção, o palestrante explica como representar a rotação usando quaternions. Ao contrário da simples multiplicação de quatérnios, uma operação de pré-multiplicação de um quatérnio por um vetor, pós-multiplicação por seu conjugado e extração da parte imaginária do vetor fornece um quatérnio com uma parte escalar zero que pode ser aplicada para girar um vetor em 3D. Ao representar a multiplicação de quatérnios usando matrizes quatro por quatro, o palestrante mostra como essa operação preserva os produtos escalares dos vetores originais. Em última análise, a matriz rotacional ortonormal três por três resultante pode ser usada para rotacionar vetores sem manipular quaternions diretamente.

  • 00:55:00 Nesta seção, o palestrante discute as propriedades que definem uma rotação e como representá-la usando um quaternion. Um quaternion é uma representação quadridimensional de uma rotação que preserva produtos escalares, produtos triplos, comprimento, ângulos e lateralidade, o que o torna uma representação apropriada de uma rotação. A composição das rotações é direta na notação de quatérnios, enquanto é difícil tanto em ângulos de eixo quanto em ângulos de Euler. A parte vetorial do quaternion é paralela ao eixo de rotação, facilitando a determinação do eixo. O palestrante explica como converter entre as representações eixo-ângulo e quatérnion e identifica que o lado oposto de uma esfera representa as mesmas rotações, conhecimento essencial em fotogrametria para calcular médias.

  • 01:00:00 Nesta seção da palestra, o palestrante discute o problema de encontrar a transformação de coordenadas entre dois sistemas de coordenadas ou a melhor rotação e translação entre dois objetos com pontos correspondentes medidos nos dois sistemas de coordenadas. Usando um análogo físico com molas, o sistema deseja minimizar a soma dos quadrados dos erros para encontrar a rotação e a translação. O primeiro passo para encontrar a translação é pegar o centroide no sistema esquerdo após a rotação no centroide do sistema direito, que é intuitivo e não requer correspondências. A fórmula para a tradução é então usada para simplificar a expressão para minimizar o termo de erro. O termo médio é o único que pode ser alterado, e maximizando-o, o sistema pode maximizar o produto escalar dos pontos correspondentes.

  • 01:05:00 Nesta seção, o palestrante discute como alinhar as câmeras da espaçonave com as direções do catálogo usando a notação quaternion. Eles usam quaternions para mapear a direção das estrelas na câmera com direções de catálogo, onde o objetivo é maximizar o produto escalar desses dois quaternions. No entanto, como isso pode resultar em grandes valores para o quaternion, há uma restrição extra que precisa ser imposta. O palestrante explica dois métodos para diferenciar em relação ao quaternion, que é usado para minimizar a diferença entre as duas direções do quaternion.

  • 01:10:00 Nesta seção da palestra, o professor discute o autovetor e o autovalor de uma matriz simétrica real de quatro por quatro que é construída a partir dos dados. Ao contrário do passado, onde o menor autovalor era desejado, por causa da inversão do seno, precisamos escolher o autovetor que corresponde ao maior autovalor. A matriz é simétrica, o que significa que tem nove quantidades independentes, e seu determinante tem um termo cúbico que é zero. Embora possua 16 grandezas independentes, dez delas são independentes, tornando esta matriz especial. Isso permite reduzi-lo a uma equação cúbica, o que facilita a resolução. O professor também observa que equações cúbicas e equações quárticas podem ser resolvidas de forma fechada, ao contrário das equações de quinta ordem.

  • 01:15:00 Nesta seção, o palestrante discute as propriedades desejáveis dos quaternions como forma de representar rotações. Essas propriedades incluem a capacidade de girar vetores e compor rotações facilmente, uma representação intuitiva e não redundante, eficiência computacional e a capacidade de interpolar orientações e obter médias de um intervalo de rotações. O palestrante então apresenta a orientação relativa como um problema de encontrar a linha de base e a orientação relativa de dois sistemas de coordenadas usando dados de direção de dois pontos no mundo. Os quatérnios também são úteis para descrever a cinemática de um robô manipulador e podem ajudar a evitar problemas com o alinhamento dos sistemas de coordenadas, principalmente no pulso.

  • 01:20:00 Nesta seção, o palestrante discute a eficiência dos quatérnios em representar rotações em comparação com matrizes ortonormais, demonstrando que as multiplicações de quatérnios são mais rápidas para composição, mas mais lentas para vetores rotativos. Ele observa que os quaternions também são mais fáceis de renormalizar do que as matrizes. O orador então discute como amostrar o espaço de rotações em quatro dimensões projetando poliedros na esfera de rotações, resultando em uma amostragem regular e uniforme do espaço.

  • 01:25:00 Nesta seção, a palestra discute diferentes métodos para representar rotações no espaço quadridimensional, como o uso de sistemas de coordenadas para simplificar expressões para grupos de rotação. A palestra também explora vários grupos de rotação para diferentes poliedros, usando esses grupos para fornecer uma amostragem espacial regular do espaço, para que os usuários possam experimentar diferentes orientações para suas pesquisas ou médias. No entanto, observa-se que esses métodos podem exigir truques para obter uma amostragem mais precisa e que a escolha do sistema de coordenadas correto é crucial.
 

Aula 19: Orientação Absoluta na Forma Fechada, Outliers e Robustez, RANSAC



Aula 19: Orientação Absoluta na Forma Fechada, Outliers e Robustez, RANSAC

A palestra cobre vários aspectos da orientação absoluta, incluindo o uso de quaternions unitários para representar rotações em fotogrametria, conversão entre quaternions e representações de matrizes ortonormais, lidando com simetria de rotação e coordenação de translação, escala e rotação de maneira livre de correspondência. A palestra também discute o problema de outliers e robustez no ajuste de linha e processos de medição e apresenta o método RANSAC (Random Sample Consensus) como forma de melhorar a confiabilidade das medições quando outliers estão presentes. A palestra termina com uma discussão sobre como resolver o problema de orientação absoluta na forma fechada usando dois planos em um cenário coplanar, incluindo desafios relacionados a outliers e otimização.

Neste vídeo sobre orientação absoluta, o palestrante discute a questão dos outliers em dados reais e propõe o uso do RANSAC, um método de consenso envolvendo ajustes aleatórios de subconjuntos para lidar com outliers. O palestrante também discute métodos para obter uma distribuição uniforme de pontos em uma esfera, incluindo inscrever uma esfera em um cubo e projetar pontos aleatórios, pavimentar a superfície da esfera e gerar pontos em poliedros regulares. Além disso, o palestrante aborda maneiras de amostrar o espaço de rotações para reconhecimento eficiente de vários objetos em uma biblioteca, encontrando o número de rotações necessárias para alinhar um objeto consigo mesmo e abordando o problema de encontrar rotações por meio de exemplos ou multiplicação de quatérnios.

  • 00:00:00 Nesta seção da palestra, o palestrante discute o uso de quaternions unitários para representar rotações em fotogrametria. Os quatérnios unitários permitem uma solução de forma fechada para o problema menos pior, fornecendo uma maneira objetiva de obter a melhor resposta, que é mais difícil com outras notações. As duas operações que são particularmente importantes são a composição de rotações e a rotação de um vetor, ambas as quais podem ser representadas usando a fórmula discutida. O locutor também relaciona esta notação com os eixos e a notação de ângulos usando a fórmula de Rodriguez. No geral, o uso de quaternions unitários permite uma maneira mais eficiente de representar rotações em fotogrametria.

  • 00:05:00 Nesta seção do vídeo, o palestrante discute a conversão entre quaterniões e representações de matrizes ortonormais. A fórmula para converter quatérnios em matrizes envolve uma matriz quatro por quatro com partes simétricas e simétricas. O palestrante explica que a primeira linha e coluna são irrelevantes, pois representam um quatérnio especial que é um vetor com parte escalar zero. Para converter uma matriz ortonormal de volta para um quaternion, o palestrante recomenda usar o traço da submatriz três por três. Este método termina com uma equação na forma de dois termos de cosseno que nos permite resolver o cosseno do ângulo entre as matrizes.

  • 00:10:00 Nesta seção, o palestrante discute diferentes formas de calcular a matriz de rotação a partir dos elementos diagonais da matriz R. Enquanto uma abordagem é centrada em torno do traço da matriz de rotação, ela sofre de problemas próximos de theta igual a zero. Em vez disso, é melhor usar os elementos fora da diagonal, que dependem do seno de theta sobre dois. A palestra então fornece uma fórmula de inversão completa que calcula várias somas e diferenças e obtém raízes quadradas. O problema com essa abordagem é a ambigüidade do seno, mas a palestra sugere escolher o maior para precisão numérica e resolvê-lo.

  • 00:15:00 Nesta seção, o palestrante discute o processo de conversão entre quatérnio e matriz de rotação, direta e indiretamente, e como contabilizar a escala nas transformações de coordenadas. Eles explicam o processo de resolução dos fatores de rotação e escala usando um problema de mínimos quadrados e minimizando a soma de quatro somas. O palestrante destaca a importância de levar em conta a escala ao unir trechos de terreno obtidos a partir de posições sucessivas da câmera e explica como encontrar o ideal nessas situações.

  • 00:20:00 Nesta seção, o palestrante aborda a questão da simetria na rotação, onde o método usado para calcular a rotação deve poder ser invertido para obter o inverso da matriz rotacional. O orador também explora outro termo de erro que é preferido em relação aos métodos anteriores porque não requer correspondências e pode mapear centróide para centróide. Esse método envolve encontrar o fator de escala definindo a derivada do termo de erro em relação ao fator de escala igual a zero e resolvendo o fator de escala, o que evita trapaças tornando o fator de escala um pouco menor do que deveria ser.

  • 00:25:00 Nesta seção, o palestrante explica como lidar com translação, escala e rotação de forma livre de correspondência. Usando um método de centróide, o fator de escala pode ser calculado como a razão entre os tamanhos de duas nuvens de pontos. Com a parte de rotação, o professor aborda brevemente o problema de cálculo de maximizar um determinante negativo de uma matriz, N, em relação a q, o quatérnio. A solução pode ser encontrada usando multiplicadores de Lagrange, mas também pode ser usado um método mais simples chamado quociente de Rall, que divide pelo comprimento de q para evitar que ele se torne infinitamente grande. A função resultante é constante ao longo de qualquer array, dando a direção do raio que o torna o mais extremo possível.

  • 00:30:00 Nesta seção, o palestrante explica como encontrar a matriz que maximiza sigma diferenciando a equação e definindo-a como zero. Usando uma fórmula de razão para diferenciação, o palestrante mostra como q é um autovetor e explica que a matriz pode ser maximizada escolhendo o autovetor correspondente ao maior autovalor. A única restrição para este método é que o autovetor deve satisfazer a restrição obtida dos dados de correspondência. No entanto, ao contrário das matrizes ortonormais, essa restrição é muito mais fácil de lidar.

  • 00:35:00 Nesta seção, o palestrante discute o número de correspondências necessárias para problemas fotogramétricos. Eles visam encontrar seis coisas: rotação translacional e dimensionamento, o que significa três restrições por correspondência e, portanto, são necessárias apenas duas correspondências. No entanto, com apenas duas correspondências, há apenas cinco restrições; portanto, são necessárias três correspondências para conseguir isso. Além disso, o palestrante menciona a possibilidade de generalizar a transformação para corresponder às nove restrições obtidas de três pontos; no entanto, eles observam que essas restrições são altamente redundantes.

  • 00:40:00 Nesta seção, o vídeo discute o conceito de transformação linear geral em 3D, que envolve 12 elementos, não seis como em 2D, dificultando a determinação com três correspondências. Além disso, o vídeo explica que há duas maneiras de a transformação linear falhar. Em primeiro lugar, se não houver correspondências suficientes e, em segundo lugar, se a matriz N tiver mais de um autovalor igual a zero. O vídeo explica ainda como resolver a equação característica para encontrar os autovalores da matriz.

  • 00:45:00 Nesta seção do vídeo, o palestrante explica como calcular a matriz M usando o produto diatico, que é uma matriz três por três usada no cálculo da matriz N quatro por quatro, que é a mais forma eficiente de obter N. Note-se que se o determinante de M for zero, então o problema torna-se particularmente fácil de resolver porque C1 é zero, permitindo que a equação seja resolvida sem a necessidade de nenhum livro especial. Este caso especial tem a ver com uma distribuição de pontos e pode ocorrer quando os pontos são coplanares. O palestrante mostra como isso se aplica igualmente bem se os pontos estiverem todos em um plano, facilitando a resolução do problema.

  • 00:50:00 Nesta seção do vídeo, o palestrante explica como resolver o problema de orientação absoluta na forma fechada usando dois planos em um cenário coplanar. A rotação 3D completa pode ser decomposta em duas rotações simples, primeiro girando um plano para que fique sobre o outro plano e, em seguida, uma rotação no plano. O palestrante explica como encontrar o eixo e o ângulo necessários para construir o quaternion e girar todos os pontos em um dos sistemas de coordenadas para alinhá-los com o outro sistema de coordenadas. Além disso, o palestrante discute os desafios de lidar com outliers no problema de otimização e como usar algo diferente do quadrado do erro, como o valor absoluto do erro, pode levar a mais trabalho a ser calculado e dificuldades na generalização dos resultados.

  • 00:55:00 Nesta seção, o palestrante discute o problema de outliers e robustez no ajuste de linha e outros processos de medição. Ele apresenta o método RANSAC (Random Sample Consensus), que envolve pegar uma amostra aleatória de pontos e usar mínimos quadrados para encontrar o melhor ajuste, verificar o número de pontos que estão dentro de uma banda e ajustar o limite com base no ruído e no proporção de inliers para outliers. O processo é repetido até que um bom ajuste seja obtido. O palestrante observa que o uso do RANSAC pode melhorar a confiabilidade das medições em situações onde estão presentes outliers.

  • 01:00:00 Nesta seção do vídeo, o palestrante discute a questão dos outliers na presença de dados reais e como tratá-los usando o método de consenso, também conhecido como RANSAC. O método envolve a obtenção de subconjuntos aleatórios, a realização de ajustes e a procura de células com mais acertos, que fornecem uma medida da orientação de objetos que podem não ter uma solução de forma fechada. O palestrante enfatiza que esta abordagem é útil em muitas aplicações e não apenas limitada à orientação absoluta. Além disso, o palestrante menciona que as representações de objetos complicados próximos ao convexo também podem ser úteis para detectar coisas e encontrar sua orientação.

  • 01:05:00 Nesta seção, o palestrante discute as dificuldades de amostragem de pontos em uma esfera para obter uniformidade. Uma distribuição uniforme de pontos não pode ser alcançada pela amostragem de teta e phi usando um gerador de distribuição uniforme devido às regiões polares terem mais concentração do que as outras. A solução proposta é inscrever uma esfera no cubo e projetar pontos aleatórios do cubo para fora da esfera. No entanto, isso ainda leva a uma maior densidade de pontos onde a esfera é tangente ao cubo. Para resolver isso, o palestrante sugere tesselar a superfície da esfera usando sólidos regulares ou introduzir peso nos pontos próximos aos cantos para contrair sua agregação.

  • 01:10:00 Nesta seção do vídeo, o palestrante discute maneiras de obter uma distribuição uniforme de pontos na superfície de uma esfera. Uma maneira é gerar pontos uniformemente em um cubo e projetá-los na superfície da esfera, descartando pontos muito próximos da origem ou muito distantes da esfera. Outro método é dividir a esfera usando poliedros regulares e gerar pontos uniformemente nessas formas. No entanto, este método requer subdivisão para obter divisões mais finas, ao contrário do primeiro método que gera uma distribuição praticamente uniforme.

  • 01:15:00 Nesta seção, o palestrante discute como encontrar formas uniformes de amostragem do espaço de rotações para vários objetos, o que faz parte do processo de reconhecimento de vários objetos em uma biblioteca. O palestrante explica que, para serem eficientes, eles não querem amostrar partes do espaço de rotação mais densamente do que outras partes e visam encontrar uma maneira uniforme de amostrar o espaço. Eles começam discutindo o hexaedro, que tem simetria rotacional, e suas rotações. O palestrante explica que o objetivo é encontrar métodos de rotação que facilitem a localização de correspondências de pontos em diferentes modelos.

  • 01:20:00 Nesta seção, o palestrante discute como encontrar o número de rotações necessárias para alinhar um objeto consigo mesmo e, em seguida, gerar um grupo de rotações usando dois métodos: geometricamente e por meio da multiplicação de quatérnios. Uma nova rotação interessante, cujo eixo é (1, 1, 1) e o ângulo é 2π/3, é encontrada e mostrada para alinhar o canto de um cubo consigo mesmo.

  • 01:25:00 Nesta seção, o palestrante oferece duas maneiras de abordar o problema de encontrar rotações. A primeira maneira é olhar para os exemplos e adicioná-los para obter um total de 24 rotações. A segunda maneira é implementar a multiplicação de quatérnios e construir uma tabela tomando produtos de pares para ver se você acaba com algo novo. O orador então menciona que a próxima discussão envolverá orientação relativa, que é mais relevante para visões binoculares.
 

MIT 6.801 Machine Vision, outono de 2020. Aula 20: Espaço de rotações, mosaicos regulares, superfícies críticas, estéreo binocular



Aula 20: Espaço de Rotações, Pavimentações Regulares, Superfícies Críticas, Estéreo Binocular

Esta seção da palestra abrange tópicos como tesselações regulares, superfícies críticas, estéreo binocular e como encontrar os parâmetros de uma transformação no espaço tridimensional. O palestrante explica que a melhor maneira de tesselar uma esfera é usando o dual de uma tesselação triangular, criando formas aproximadamente hexagonais com alguns pentágonos. Eles também discutem superfícies críticas, que são difíceis para visão de máquina, mas podem ser usadas para criar móveis a partir de bastões retos. Na discussão do estéreo binocular, o palestrante explica a relação entre duas câmeras, o conceito de linhas epipolares e como encontrar a interseção de duas câmeras para determinar um ponto no mundo. Eles também explicam como calcular o erro entre dois raios para determinar sua interseção e minimizar o erro da imagem, levando em consideração o fator de conversão entre o erro no mundo e o erro na imagem. Finalmente, eles discutem como encontrar a linha de base e D para recuperar a posição e orientação de um objeto rígido no espaço usando um quaternion para representar a linha de base.

A palestra cobre vários tópicos, incluindo o espaço de rotações, mosaicos regulares, superfícies críticas e estéreo binocular. Para rotações, o instrutor discute o uso de abordagens numéricas, o problema das singularidades e os benefícios do uso de quaternions unitários. Com mosaicos regulares, eles mostram como certas superfícies podem causar problemas com o estéreo binocular e sugerem o uso de medidas e pesos de erro para mitigar os problemas. O palestrante também aborda superfícies quádricas e apresenta um novo problema de lição de casa que envolve "reflexão destemida".

  • 00:00:00 Nesta seção do vídeo, o palestrante discute a tesselação da superfície de uma esfera com base em sólidos platônicos e arquimedianos, que têm projeções de área igual na esfera. A tesselação da superfície pode ser feita usando polígonos regulares como facetas, sendo comumente usados triângulos, quadrados e pentágonos. As áreas dos polígonos não são iguais e, como resultado, a superfície tesselada tem muitas divisões. Esse método de mosaico é relevante ao discutir rotações, e o palestrante explica os grupos de rotação desses sólidos. O vídeo também menciona o uso de uma cúpula geodésica, que se baseia na tesselação de um icosaedro em várias áreas triangulares para criar uma estrutura regular.

  • 00:05:00 Nesta seção, o palestrante discutiu vários mosaicos regulares, que são formas de dividir uma superfície em formas de tamanhos iguais. Embora os mosaicos quadrados sejam comumente usados em planos, eles não são ideais para esferas, e os mosaicos triangulares também são problemáticos. O palestrante destacou uma opção melhor: o dual de um mosaico triangular, que apresenta formas aproximadamente hexagonais e algumas pentagonais. Além disso, o palestrante explicou as superfícies críticas, que são hiperbolóides de uma folha. Essas superfícies são difíceis para problemas de visão de máquina, mas têm a característica distinta de serem pautadas e podem ser usadas para fazer móveis com palitos retos. Por fim, o palestrante discutiu hiperbolóides de duas folhas que possuem dois sinais negativos em sua equação.

  • 00:10:00 Nesta seção, o palestrante discute os diferentes tipos de superfícies que podem ser criadas com duas folhas ou três sinais negativos. Ele também explica os vários casos especiais existentes, como superfícies hiperbolóides, cones, parabolóides e planares. Seguindo em frente, o palestrante explica o problema de calcular 3D a partir de 2D usando duas câmeras e como a orientação relativa é necessária para entender a geometria das duas câmeras. A palestra termina mencionando como o estéreo binocular é aplicável em veículos autônomos, e a calibração pode precisar ser realizada novamente se a linha de base não for rígida, mas o mesmo processo também funciona para estrutura de movimento com imagens antes e depois.

  • 00:15:00 Nesta seção, o palestrante explica o conceito de encontrar a interseção de duas câmeras para determinar um ponto no mundo, como o sistema de coordenadas é escolhido e a geometria associada a este conceito. O palestrante destaca que a linha de base é medida no sistema de coordenadas da direita, e o primo indica como ela é convertida do sistema de coordenadas da esquerda. Quando o ponto é conectado à linha de base, ele define um plano, e a imagem do plano em ambos os sistemas de câmera é projetada em uma linha reta onde o ponto é fotografado em algum lugar ao longo dessa linha. A palestra também apresenta o conceito de linhas epipolares e como elas ajudam a encontrar disparidades que levam a uma medição de distância.

  • 00:20:00 Nesta seção, o palestrante discute a relação entre as duas câmeras em uma configuração estéreo binocular, que envolve a linha de base e a rotação de uma câmera em relação à outra. A rotação tem três graus de liberdade, mas devido à ambigüidade do fator de escala, o problema é reduzido a cinco graus de liberdade em vez de seis, como na orientação absoluta. A linha de base é tratada como um vetor unitário, dando apenas dois graus de liberdade para aquele componente. O palestrante explica que informações adicionais, como conhecimento do tamanho dos objetos fotografados, seriam necessárias para determinar o comprimento absoluto da linha de base.

  • 00:25:00 Nesta seção, o palestrante discute como determinar o número de correspondências necessárias para definir as medições. Ele explica a analogia mecânica de criar um fio a partir de pontos de imagem e passá-los por um colar para contê-lo. O palestrante explica que, se apenas duas correspondências forem usadas, ainda haverá graus de liberdade, o que significa que é possível alterar a rotação da câmera. Adicionar uma segunda correspondência reduz o grau de liberdade, mas ainda é insuficiente. A resposta é cinco, o que dá uma restrição por correspondência, permitindo zerar as disparidades verticais na orientação da câmera. A profundidade de campo é inversamente proporcional às disparidades horizontais. O instrumento pode ser configurado ajustando as disparidades verticais, que é como o equipamento óptico foi configurado por décadas.

  • 00:30:00 Nesta seção da palestra, o palestrante discute o processo de encontrar os parâmetros de uma transformação no espaço tridimensional usando uma sequência de movimentos e ajustes para convergir, o que pode ser um processo doloroso e complicado. No entanto, na prática, é importante ter mais de cinco pontos para garantir a precisão e minimizar o erro na medição da posição da imagem. Este problema não linear resulta em sete equações de segunda ordem, que uma vez resolvidas podem dar duas às sete (128) soluções. Embora isso seja uma curiosidade para a maioria, as pessoas interessadas em aplicações teóricas acham divertido descobrir. Finalmente, a palestra discute a natureza coplanar dos três vetores ao encontrar a linha de base e os parâmetros de rotação das correspondências.

  • 00:35:00 Nesta seção, é explicado o conceito de construir uma pipeta paralela usando três vetores como arestas e determinar seu volume através do produto triplo. Quando os três vetores são coplanares, o objeto é plano e não possui volume tridimensional, fazendo com que seu valor esperado seja zero ou a condição de coplanaridade. Um método potencial para minimizar a soma dos quadrados do produto triplo para cada correspondência para estimar a linha de base e a rotação com erros mínimos é discutido. No entanto, este não é um método confiável, pois possui alto ganho de ruído e pode gerar respostas incorretas. Para minimizar os erros de medição e determinar o fator de proporcionalidade, o foco é deslocado para minimizar a separação mínima entre dois raios quando as medições e linha de base ou rotação não são perfeitas.

  • 00:40:00 Nesta seção, o palestrante discute como calcular o erro entre dois raios e determinar sua interseção. Ele explica que a abordagem mínima para a distância entre dois raios deve ser perpendicular a ambos os raios, o que significa que é paralelo ao produto vetorial. Adicionando vetores e definindo-os como iguais a zero, a equação pode ser convertida em uma equação escalar usando produtos escalares, fornecendo três restrições diferentes. O palestrante então discute como simplificar a equação fazendo com que certos termos sejam eliminados e como calcular gama, beta e alfa, o que ajudará a determinar a distância ao longo dos raios da interseção ou quase interseção.

  • 00:45:00 Nesta seção, o palestrante discute a importância de três quantidades - alfa, beta e gama - no cálculo da posição tridimensional no espaço de rotações. Embora gama seja simplesmente o erro de distância, alfa e beta podem ser negativos, indicando se os segmentos de linha que se cruzam podem estar atrás do visualizador, o que normalmente não é fisicamente razoável. O palestrante menciona que uma solução de forma fechada não é possível atualmente devido à equação de quinta ordem envolvida, mas ainda é possível minimizar o erro de imagem. Ao descartar soluções com alfa ou beta negativo e usar um solucionador quíntico, o erro na imagem pode ser minimizado.

  • 00:50:00 Nesta seção, o palestrante discute o problema de minimizar o erro da soma dos quadrados no estéreo binocular, levando em consideração o fator de conversão entre o erro no mundo e o erro na imagem. Isso depende da solução e é resolvido iterativamente. O produto triplo, que foi girado do sistema de coordenadas da esquerda para a direita, é usado para introduzir quaternions. O palestrante explica como os quatérnios com partes escalares nulas são usados para girar o produto triplo do sistema de coordenadas da direita para a esquerda. A fórmula para multiplicação entre quaternions representando vetores simplifica para apenas o produto escalar e o produto vetorial. O lema é apresentado sem prova de uma maneira de mover um dos multiplicadores para o outro lado.

  • 00:55:00 Nesta seção, o palestrante explica como encontrar a linha de base e recuperar a posição e orientação de um objeto rígido no espaço, a partir de duas imagens do objeto tiradas de diferentes pontos de vista. O locutor define uma nova quantidade, que é o produto da linha de base e da rotação, e usa um quaternion para representar a linha de base, simplificando o problema para encontrar a linha de base e D. Embora existam 8 incógnitas, existem apenas cinco graus de liberdade, então o falante emprega várias restrições. Eles também falam sobre simetrias interessantes que permitem o intercâmbio de coordenadas esquerda e direita. O peso, que é a relação entre o erro no espaço 3D e o erro na posição da imagem, é difícil de calcular, mas pode ser ajustado.

  • 01:00:00 Nesta seção, o palestrante discute um problema de otimização que envolve o cálculo de pesos com base em um bom primeiro palpite e, em seguida, recalcular esses pesos e resolver o problema novamente. Eles também abordam a simetria entre as matrizes esquerda e direita e como isso pode ser útil no cálculo numérico, juntamente com a simetria entre a rotação e a translação no produto triplo. Em última análise, essa simetria significa que, se alguém tiver uma solução aproximada, poderá gerar outras soluções aproximadas utilizando essa simetria. Além disso, no processo de busca de soluções, pode-se encontrar várias versões que produzem os mesmos resultados, o que pode ajudar a acelerar o processo de busca.

  • 01:05:00 Nesta seção, o instrutor discute o cálculo do espaço de rotações usando uma abordagem numérica que requer a suposição de um dos valores desconhecidos com uma solução simples de forma fechada de mínimos quadrados. Outra abordagem é usar um pacote de otimização não linear, como o método de Marquardt, que ajusta os parâmetros até que as equações estejam o mais próximo possível de zero. No entanto, essas abordagens não são consideradas como tendo uma solução de forma fechada para esse problema. Além disso, o instrutor explica que há um problema com as rotações porque, devido ao método da matriz ortonormal, são nove números e apenas três graus de liberdade, levando a uma singularidade com o vetor de Gibbs em theta igual a pi.

  • 01:10:00 Nesta seção, o palestrante discute o uso de quaternions unitários para representar rotações, citando que eles têm quatro números com três graus de liberdade. Ele recomenda adicionar restrições adicionais para torná-las menos redundantes e afirma que este pacote permite a adição dessas restrições. Ele também aborda a fórmula para combinar duas rotações e a transformação de um vetor, que é um pouco mais complicada. Além disso, o palestrante destaca que há uma sinopse de quatro páginas que resume tudo o que você precisa saber sobre quaternions. Finalmente, ele discute o uso de medidas de erro e como o peso é necessário ao considerar valores z maiores para evitar grandes erros.

  • 01:15:00 Nesta seção, o palestrante explica que certos tipos de superfícies podem causar problemas com o método estéreo binocular de determinar a orientação de um objeto. Essas "superfícies críticas" foram descobertas há mais de um século e podem causar ambigüidade e alta sensibilidade a erros. O palestrante dá um exemplo de um vale em forma de U onde os ângulos entre diferentes imagens de características da superfície não mudam conforme o avião se move ao longo da superfície, impossibilitando a distinção de diferentes posições. O palestrante observa que o hiperbolóide de uma folha é um exemplo comum de uma superfície quádrica que pode causar problemas com estéreo binocular, pois tem o número certo de sinais de menos para uma folha e pode se assemelhar a outras superfícies.

  • 01:20:00 Nesta seção, o palestrante fala sobre superfícies quádricas, especificamente os dois planos de interseção que compõem uma versão dessa superfície. Cada plano tem uma equação linear e, quando multiplicados, obtém-se a combinação de dois planos. Um dos planos passa pelo centro de projeção, o que significa que se projeta em linha. Isso é ainda mais estranho, pois significa que uma superfície plana é um problema, comum em estruturas feitas pelo homem. O palestrante menciona ter que falar sobre "reflexão destemida" na próxima vez, e um novo problema de dever de casa foi introduzido.
 

Aula 21: Orientação Relativa, Estéreo Binocular, Estrutura, Quadrics, Calibração, Reprojeção



Aula 21: Orientação Relativa, Estéreo Binocular, Estrutura, Quadrics, Calibração, Reprojeção

Esta palestra aborda tópicos relacionados à fotogrametria, incluindo orientação relativa, superfícies quádricas, calibração de câmeras e correspondências entre pontos de imagem e objetos 3D conhecidos. O palestrante explica vários métodos para resolver problemas de distorção e obtenção de parâmetros como f e tz. Eles também enfatizam a importância dos vetores unitários ortogonais ao encontrar a matriz rotacional completa e fornecem soluções para encontrar k usando uma fórmula mais estável. O palestrante enfatiza a importância de entender as equações homogêneas, que são críticas na visão de máquina.

Esta palestra aborda vários tópicos relacionados à visão computacional e calibração, incluindo o uso de um alvo planar para calibração, a ambigüidade de calibrar a orientação externa, a redundância na representação de parâmetros de rotação e a determinação das propriedades estatísticas de determinados parâmetros por meio da taxa de ganho de ruído. A palestra explica a fórmula para resolver uma equação quadrática e apresenta um método de aproximação envolvendo iteração. O caso do alvo planar é discutido como um método comumente usado para aplicações de calibração e visão de máquina. A palestra também aborda a representação de forma e reconhecimento e determinação de atitude no espaço 3D.

  • 00:00:00 Nesta seção, o palestrante discute a orientação relativa, que é o segundo de quatro problemas em fotogrametria, e sua relevância para estéreo binocular, visão de movimento e estrutura do movimento. O orador desenvolve uma solução, mas observa que existem superfícies onde a orientação relativa não pode ser determinada, particularmente superfícies quádricas. A palestra então se aprofunda nos tipos específicos de superfícies quádricas, como elipsóides, hiperbolóides de uma ou duas folhas e superfícies que possuem formas imaginárias. O palestrante explica que se uma superfície não tiver um termo constante, isso significa que a origem do sistema da mão direita, ou a posição da câmera no tempo dois na visão de movimento, está na superfície. Além disso, se alguém inserir menos b para r, onde b é a distância entre as duas câmeras, também resultará em uma solução, o que significa que a superfície passa por ambos os olhos.

  • 00:05:00 Nesta seção da palestra, o palestrante discute as propriedades e implicações da equação da superfície quádrica, que é simétrica entre as posições esquerda e direita da câmera em um par estéreo. A equação não tem termo constante, o que significa que não há escala e toda a linha de base está na superfície. Isso sugere que a superfície é uma superfície pautada e possui duas réguas, tornando-a interessante para fabricação. A equação cobre uma variedade de casos especiais, incluindo superfícies planas, com um dos planos passando pela origem de ambos os sistemas de coordenadas como um plano epipolar. A imagem deste plano é uma linha reta, o que não é particularmente interessante, mas o outro plano é arbitrário e pode ser qualquer coisa.

  • 00:10:00 Nesta seção, o palestrante discute a questão da ambigüidade ao reconstruir mapas topográficos ou recuperar a estrutura do movimento, já que os dois problemas são matematicamente iguais. Embora esse problema seja mais provável de ocorrer em campos de visão estreitos, ele ainda pode ser amplificado em uma situação de alto ganho de ruído. Para combater esse problema, recomenda-se um amplo campo de visão, motivo pelo qual as cabeças de aranha, um conjunto de câmeras montadas juntas para obter um amplo campo de visão, foram criadas para fotografia aérea. O palestrante então passa para a orientação interior, que é essencialmente a calibração da câmera. Embora o método anterior de calibração usando pontos de fuga funcionasse, não era muito preciso e desafiador para contabilizar a distorção radial. O palestrante sugere a necessidade de um método mais geral para contabilizar a distorção radial.

  • 00:15:00 Nesta seção, o palestrante discute as vantagens e desvantagens de projetar uma lente, incluindo distorção radial, que causa um erro nas coordenadas polares onde a imagem pode aparecer em outro lugar ao longo de uma linha em vez de onde deveria. Essa distorção é comumente aproximada usando um polinômio, com o termo quadrático geralmente sendo suficiente para obter resultados decentes. A palestra continua descrevendo um método de linha de prumo usado no passado para medir a distorção de uma lente.

  • 00:20:00 Nesta seção, o palestrante discute os diferentes tipos de distorção que podem ocorrer nas imagens, incluindo distorção de barril e distorção de almofada de pinos, e como eles estão relacionados ao sinal de k1. O palestrante também menciona a possibilidade de usar uma aproximação polinomial para converter entre coordenadas distorcidas e não distorcidas e como isso afeta a otimização final e o sistema de coordenadas usado. O palestrante observa a ausência de distorção tangencial em sistemas de imagem modernos, pois eles são tipicamente rotacionalmente simétricos e apresentam apenas distorção radial.

  • 00:25:00 Nesta seção, o palestrante discute possíveis complicações na calibração da câmera, como o descentramento da distorção e um plano de imagem inclinado. Para trabalhos de alta qualidade, como fotografia aérea, esses fatores precisam ser levados em consideração. O palestrante explica que existe a possibilidade de pequenos erros devido à natureza mecânica da fabricação da câmera, que pode afetar a ampliação e a distorção da imagem. Isso pode ser compensado por ter um modelo mais complexo para distorção, e o método de calibração de Tsai envolve o uso de um objeto de calibração que pode ser planar ou tridimensional. O palestrante também explica que antigamente era mais uma questão de ajuste fino da câmera durante a fabricação, mas hoje em dia, uma solução de software e extensões de modelo são usadas para lidar com a distorção.

  • 00:30:00 Nesta seção, o palestrante discute o processo de determinação de correspondências entre pontos de imagem e pontos conhecidos em um objeto 3D. No entanto, ao contrário do método do ponto de fuga, é improvável que possamos determinar a relação entre o objeto de calibração e a câmera usando uma fita métrica. Portanto, precisamos adicionar orientação externa para resolver o problema de descobrir onde o objeto de calibração está no espaço e como ele é girado, além de encontrar os parâmetros da câmera. Embora a orientação externa adicione mais incógnitas, ela produz resultados mais precisos. A orientação interior envolve a equação de projeção em perspectiva e o ponto principal e a distância principal. A estratégia para isso é eliminar parâmetros difíceis e encontrar um método para modificar as medições para reduzir a dependência da distorção radial e, em seguida, encontrar uma solução de forma aproximada para alguns parâmetros antes de recorrer a métodos numéricos.

  • 00:35:00 Nesta seção do vídeo, o palestrante explica como obter uma boa estimativa inicial para a solução iterativa ao calcular a orientação relativa em estéreo binocular. Embora os princípios estabelecidos devam ser mantidos em mente, algumas violações desses princípios são permitidas neste estágio, pois a suposição inicial não é a resposta. O palestrante explica que usar os números de linha e coluna para as coordenadas xi e yi e expressar f em tamanho de pixel é conveniente para o processo de determinação da estimativa inicial. A orientação externa também é discutida, incluindo a rotação e a translação do objeto de calibração, que é conhecida com precisão. As equações que normalmente são usadas para transformar uma posição no objeto de calibração em uma posição no objeto da câmera são invertidas e usadas para tentar recuperar os parâmetros desconhecidos de rotação e translação.

  • 00:40:00 Nesta seção do vídeo, o palestrante discute os desafios de lidar com a distorção radial e obter f e tz. A solução sugerida é trabalhar em coordenadas polares, onde a distorção radial só altera o comprimento, não o ângulo, e usando uma equação com menos incógnitas. A equação envolve componentes de coordenadas do objeto de calibração e coordenadas de imagem, que são conhecidas, e as componentes desconhecidas de r e tx e ty. Uma equação linear pode ser formada para aproximar a posição do ponto principal, que é necessária para a solução.

  • 00:45:00 Nesta seção, o palestrante discute o processo de determinação do ponto principal de um sensor de imagem e o uso de equações homogêneas em visão de máquina. Para determinar o ponto principal, o locutor sugere assumir um ponto central e descartar as correspondências que estão muito próximas do centro, pois pequenos erros podem afetar significativamente sua direção. Uma vez assumido o ponto central, o palestrante explica que são necessárias oito equações para encontrar as oito incógnitas para cada correspondência, e essas equações são homogêneas, resultando em zero. Embora as equações homogêneas sejam muitas vezes negligenciadas na educação tradicional, elas são críticas na visão de máquina e é essencial saber como trabalhar com elas.

  • 00:50:00 Nesta seção, o palestrante discute o método de resolver as equações homogêneas fixando uma das incógnitas e definindo-a com um valor de escolha, reduzindo o número de incógnitas para sete. Isso significa que pelo menos sete correspondências são necessárias e é desejável ter mais para estimar o erro. O sistema sobredeterminado de equações lineares pode então ser resolvido usando técnicas como Pseudo-inversa. Finalmente, um fator de escala é calculado para tornar os vetores calculados em vetores unitários, que atuam como uma verificação de sanidade para as correspondências identificadas. O método fornece uma primeira estimativa para todas as incógnitas, exceto F, Tz, distorção radial e Tz, que requer uma análise mais aprofundada.

  • 00:55:00 Nesta seção, a palestra explica o processo de encontrar o f e tz em relação à orientação relativa, estéreo binocular, estrutura, quádricas, calibração e reprojeção. A palestra enfatiza a importância dos vetores unitários ortogonais ao encontrar a matriz rotacional completa. Quando dois vetores não ortogonais estão presentes, é necessário um pequeno ajuste que resultará em um par de vetores ortogonais. A palestra continua explicando como a equação quadrática pode ser problemática para encontrar k, então outra fórmula é usada que é mais estável.

  • 01:00:00 Nesta seção, o palestrante discute a fórmula para resolver uma equação quadrática e a possível perda de precisão que pode ocorrer no cálculo devido à subtração de quantidades quase iguais. O palestrante apresenta um método de aproximação envolvendo iteração, que pode fornecer uma solução simples. A discussão também inclui o caso do alvo planar, que, devido à sua alta precisão e facilidade de uso, é comumente empregado em aplicações de calibração e visão de máquina. O palestrante explica que um padrão com cantos de recursos determinados com precisão é montado no alvo para medir a rotação dos componentes ao longo de dois eixos diferentes, permitindo um alinhamento de roda de alta precisão.

  • 01:05:00 Nesta seção, o palestrante discute o uso de um alvo planar para calibração, o que permite a construção de um sistema de coordenadas com valores conhecidos de x, y e z. A equação para esta abordagem tem menos incógnitas e requer apenas cinco correspondências em vez de sete, tornando-se um método mais eficiente. No entanto, se a tradução y for zero, esse método pode se tornar impreciso e definir tx igual a um é recomendado para soluções mais precisas. A palestra também aborda a recuperação das duas partes superiores da matriz de rotação para o caso planar.

  • 01:10:00 Nesta seção, o palestrante explica a dificuldade de encontrar a relação entre a proporção do passo nas direções x e y antigamente. Havia a necessidade de outro parâmetro que dimensionasse x em relação a y, pois coisas diferentes controlavam o espaçamento horizontal e vertical. A palestra menciona o uso de álgebra que faz uma bagunça, portanto, as folhas de especificações dos fabricantes podem ser usadas para encontrar a relação de aspecto com precisão. O palestrante também explica que com a equação de projeção em perspectiva e conhecendo as incógnitas, f e tz, é possível usar uma correspondência para calcular ambas. No entanto, há um problema com a variação de profundidade ao tentar usar um plano de destino de calibração.

  • 01:15:00 Nesta seção, o palestrante discute a ambigüidade de calibrar a orientação externa na visão computacional. É impossível determinar a distância focal e a translação separadamente devido à ambigüidade do fator de escala e, portanto, são necessárias variações de profundidade. O palestrante explica que a orientação externa é ambígua se o alvo de calibração não for montado em um ângulo de 45 graus. Finalmente, o ponto principal e a distorção radial são discutidos, e uma otimização não linear é necessária para minimizar o erro entre as coordenadas da imagem prevista e real. O pacote LM Diff, que está embutido no MATLAB, é recomendado para esta finalidade.

  • 01:20:00 Nesta seção da palestra, o apresentador discute o problema de redundância na representação de parâmetros de rotação e sugere soluções como ângulos de Euler, vetor de Gibbs e quaternions unitários. No entanto, os quaternions unitários são redundantes com quatro números para três graus de liberdade. O apresentador propõe adicionar outra equação e um termo de erro proporcional à diferença entre o tamanho do quaternion e outro para impor a restrição. A palestra também menciona a questão do ganho de ruído e o uso de métodos de Monte Carlo para resolver esse problema na ausência de um método analítico.

  • 01:25:00 Nesta seção, o palestrante explica como determinar as propriedades estatísticas de uma determinada resposta por meio da taxa de ganho de ruído, mexendo nas entradas várias vezes. Ele permite analisar a distribuição da resposta no espaço de parâmetros e descobrir que certos fatores, como os coeficientes de ordem superior da distorção radial, são mal determinados devido à sensibilidade às medições de ruído. O próximo tópico a ser discutido é a representação de forma e reconhecimento, e determinação de atitude no espaço 3D, utilizando o conhecimento construído até agora em reconhecimento 2D e determinação de atitude em padrões.