Aprendizado de máquina e redes neurais - página 12

 

Aula 2: Formação de Imagem, Projeção em Perspectiva, Derivada de Tempo, Campo de Movimento



Aula 2: Formação de Imagem, Projeção em Perspectiva, Derivada de Tempo, Campo de Movimento

Nesta palestra, o conceito de projeção em perspectiva e sua relação com o movimento são amplamente discutidos. O palestrante demonstra como o uso da diferenciação da equação de projeção em perspectiva pode ajudar a medir o movimento dos padrões de brilho na imagem e como isso se relaciona com o movimento no mundo real. A palestra também aborda temas como foco de expansão, imagens contínuas e discretas e a importância de se ter um ponto de referência para textura ao estimar a velocidade de um objeto em uma imagem. Além disso, a palestra aborda as derivadas totais ao longo das curvas e a questão da contagem de equações e restrições ao tentar recuperar o campo vetorial de fluxo óptico.

O palestrante aborda vários tópicos, como gradiente de brilho, movimento de um objeto, caso 2D e isófotas. Um desafio enfrentado na computação da velocidade de um objeto é o problema de abertura causado pela relação proporcional do gradiente de brilho, que é resolvido ponderando as contribuições para diferentes regiões da imagem ou buscando soluções mínimas. A palestra então se aprofunda nos diferentes casos de isófotas e enfatiza a importância de calcular uma resposta significativa em oposição a uma ruidosa ao determinar a velocidade, usando o conceito de ganho de ruído, que mede a sensibilidade da mudança na imagem para a mudança no resultado .

  • 00:00:00 Nesta seção, o palestrante discute projeção e movimento em perspectiva. A projeção em perspectiva envolve uma relação entre pontos no mundo 3D e a imagem 2D, que pode ser representada por meio de sistemas de coordenadas adequados. Eles explicam que a diferenciação da equação de perspectiva pode ajudar a medir o movimento dos padrões de brilho na imagem, que podem ser usados para determinar o movimento no mundo real. O palestrante reduz a complexidade das equações utilizando símbolos mais facilmente digeridos, como velocidades nas direções x e y.

  • 00:05:00 Nesta seção, o palestrante explica como usar vetores de movimento para encontrar o foco de expansão, um ponto da imagem onde não há movimento. Esse ponto é significativo porque nos permite determinar a direção do movimento simplesmente conectando-o à origem e nos diz algo sobre o ambiente ou o movimento. O palestrante mostra como o padrão da imagem aparecerá se o foco de expansão estiver em um determinado ponto e como o diagrama vetorial pode ser desenhado para mostrar o campo de movimento.

  • 00:10:00 Nesta seção da palestra, o conceito de foco de expansão e compressão é introduzido no contexto de formação de imagem e projeção em perspectiva. A equação descreve vetores irradiando para fora do foco de expansão, o que é importante na medição de distância e velocidade. A proporção de w sobre z determina o tamanho dos vetores, e o inverso do foco de expansão é o foco de compressão. Tomando a proporção de z sobre w, o tempo de impacto pode ser estimado, o que é útil para pouso de espaçonaves ou medição de distância. A ideia é então introduzida em forma vetorial, embora não seja imediatamente útil.

  • 00:15:00 Nesta seção, o palestrante discute a equação de projeção em perspectiva e como ela pode ser usada para introduzir coordenadas de imagem. O foco de expansão é introduzido como o ponto onde r ponto é zero, o que corresponde a z. Ao diferenciar cada componente em relação ao tempo, podemos derivar equações para movimento em 3D e movimento em profundidade. O palestrante também usa um resultado do apêndice do livro para transformar as equações em uma declaração geral sobre o fluxo, permitindo a expressão do movimento da imagem em termos de movimento do mundo.

  • 00:20:00 Nesta seção, o palestrante discute o conceito de movimento da imagem e sua relação com o eixo z. O movimento da imagem resultante é considerado perpendicular ao eixo z, o que não é surpreendente, pois a imagem é apenas em duas dimensões com velocidades nas direções x e y. A palestra então explora o conceito de movimento radial e seu efeito no movimento da imagem, com a conclusão de que se o objeto estiver se movendo diretamente para o observador ou se afastando dele, não há movimento da imagem. O palestrante conclui examinando exemplos de campos de fluxo em que os vetores não são todos do mesmo comprimento, demonstrando que, embora desagradável, isso pode ser vantajoso.

  • 00:25:00 Nesta seção, o palestrante discute como a compreensão do processo direto de formação da imagem pode ajudar a resolver o problema inverso de recuperar a profundidade dos campos de movimento. O palestrante observa que a profundidade e a velocidade são os dois principais fatores que afetam a aparência do campo de movimento, e saber um pode ajudar a calcular o outro. No entanto, a recuperação de ambos pode levar a um problema mal colocado com várias ou nenhuma solução. O palestrante também aborda brevemente os padrões de brilho da imagem, que podem ser representados como um padrão 2D de valores de brilho, e a representação de cores usando valores RGB, que serão discutidos posteriormente. Por fim, o palestrante explica que as imagens podem ser representadas como contínuas ou discretas, com imagens digitais sendo quantizadas no espaço e normalmente em uma grade retangular.

  • 00:30:00 Nesta seção da palestra, o professor discute a diferença entre domínios contínuos e discretos no processamento de imagens. Embora na prática as imagens sejam muitas vezes representadas por matrizes de números com dois índices, o uso de funções contínuas pode facilitar a compreensão de certas operações, como a obtenção de integrais. Além disso, o professor fala sobre a aproximação das derivadas x e y do brilho com métodos de diferença e a importância do gradiente de brilho no processamento de imagens. A palestra também aborda os sensores 1D e como eles podem ser usados para geração de imagens, com o movimento servindo como um meio de escanear a imagem. O professor coloca o problema de determinar a velocidade do movimento entre dois quadros de uma imagem e dá um exemplo de mouse óptico mapeando a superfície de uma mesa.

  • 00:35:00 Nesta seção, o palestrante discute as suposições feitas na tecnologia do mouse óptico, em particular a suposição de brilho constante ao olhar para uma superfície. Ele também explica como uma pequena aproximação linear de uma curva pode ser usada para determinar o movimento analisando a mudança no brilho entre os quadros. O palestrante introduz a notação de derivada parcial, bem como os componentes do gradiente de brilho que podem ser usados para detecção de borda. Finalmente, a fórmula delta e = e sub x vezes delta x é derivada e dividida por delta t para calcular o movimento.

  • 00:40:00 Nesta seção da palestra, o palestrante discute como recuperar o movimento de um único pixel em uma imagem 1D. O resultado permite que o alto-falante recupere o movimento, mas essa abordagem não funciona para imagens 2D. O palestrante explica que valores maiores de ET indicam movimentos mais rápidos e que há um problema quando EX é zero, pois a divisão por zero ou valores pequenos resultaria em erros devido a problemas de medição. Além disso, o palestrante explica que valores EX pequenos ou nulos resultam em estimativas ruidosas devido a erros de medição.

  • 00:45:00 Nesta seção da palestra, o palestrante discute a importância de ter um ponto de referência com textura ao estimar a velocidade de um objeto em uma imagem. Esse tipo de medição pode ser ruidoso e pouco confiável, a menos que certas condições de imagem sejam atendidas. No entanto, os resultados podem ser aprimorados drasticamente usando vários pixels e aplicando técnicas como mínimos quadrados para reduzir o erro. Ao combinar vários pixels, o desvio padrão das medições pode ser reduzido pela raiz quadrada de n, o que é significativo para imagens grandes. No entanto, é importante ponderar as medições com base na inclinação da textura para evitar a contaminação de áreas com baixa declividade com informações de áreas de alta declividade. Por fim, a análise é estendida para imagens 2D e várias abordagens são discutidas para obter o próximo resultado.

  • 00:50:00 Nesta seção, o palestrante explica como os quadros de vídeo podem ser conceituados como um volume tridimensional de valores de brilho com x, y e t como eixos. A palestra então descreve derivadas parciais e como elas são derivadas de diferenças de pixels vizinhos na direção x, y ou t. O palestrante explora então o conceito de derivadas totais ao longo de curvas, especificamente relacionadas ao gradiente de brilho de um objeto em movimento. Usando a regra da cadeia, a derivada total pode ser expressa como derivadas parciais, permitindo a previsão de como o brilho do objeto mudará ao longo do tempo. Por fim, a palestra apresenta o conceito de encontrar u e b a partir de sequências de imagens.

  • 00:55:00 Nesta seção, o palestrante discute a questão da contagem de equações e restrições ao tentar recuperar o campo vetorial de fluxo óptico. No caso de um u desconhecido e uma equação de restrição, é possível obter um número finito de soluções. No entanto, com duas incógnitas u e v e uma restrição de equação, parece impossível. A equação de restrição é derivada da suposição de que as imagens não mudam de brilho à medida que se movem. O palestrante mostra que traçar a equação de restrição no espaço de velocidade revela que ela é uma linha, o que é um desenvolvimento significativo na solução do problema. O objetivo é fixar o ponto em um ponto e obter o campo vetorial de fluxo óptico preciso.

  • 01:00:00 Nesta seção do vídeo, o palestrante discute a importância do gradiente de brilho na determinação do movimento de um objeto. O gradiente de brilho é um vetor unitário apontando perpendicularmente à transição entre as áreas de alto e baixo brilho. O palestrante explica que, ao fazer uma medição localizada, não há equações suficientes para determinar o movimento de um objeto. No entanto, é possível determinar o movimento na direção do gradiente de brilho. O palestrante passa a discutir o caso 2D e afirma que várias restrições precisam ser usadas para determinar o movimento de um objeto. Para demonstrar isso, o palestrante resolve uma equação linear simples para recuperar os valores de u e v.

  • 01:05:00 Nesta seção, o palestrante explica como inverter uma matriz 2x2 e usá-la para resolver o conjunto de equações lineares para o movimento da imagem. No entanto, em alguns casos de borda, o determinante da matriz pode ser zero, o que significa que os gradientes de brilho são proporcionais entre si, resultando no problema de abertura. Esse problema sugere que as contribuições para diferentes regiões da imagem precisam ser ponderadas de maneira diferente, em vez de apenas calcular a média do resultado. Para resolver este problema, precisamos buscar os valores de u e v que tornam a equação nula, ou a menor possível.

  • 01:10:00 Nesta seção, o palestrante discute uma restrição que se aplica a um caso ideal onde os valores corretos de uev resultam em um integrando de zero quando integrados em toda a imagem. Isso pode ser a base para uma estratégia para encontrar os valores corretos de u e v. O palestrante observa que essa abordagem pode falhar quando não há luz ou textura na cena, resultando em valores zero para ex e ey. O palestrante então explica como o integrando é transformado em algo sempre positivo ao elevá-lo ao quadrado e minimizá-lo, levando a um problema de cálculo de duas equações com duas incógnitas. No entanto, isso pode falhar se o determinante da matriz dois por dois for zero, o que pode ocorrer se ex for zero em todos os lugares ou se ex for igual a ey.

  • 01:15:00 Nesta seção, o palestrante discute os diferentes casos de isófotas, que são linhas de igual gradiente de brilho. Os isófotos podem estar em um ângulo de 45 graus, linhas paralelas ou linhas curvas. No entanto, o palestrante enfatiza que o caso mais geral é isófotas em algum ângulo porque abrange todos os outros casos. Eles também mencionam que o único problema surge quando os isófotos são linhas paralelas, o que pode ser superado procurando áreas na imagem onde o gradiente de brilho muda muito, como cantos ou áreas com alta curvatura do isófoto. Por fim, o palestrante apresenta o conceito de ganho de ruído e incentiva os alunos a enviarem quaisquer perguntas que tenham sobre a aula ou sobre o próximo dever de casa.

  • 01:20:00 Nesta seção, o palestrante discute a importância de calcular uma resposta significativa, em vez de uma ruidosa, ao determinar a velocidade do movimento. Ele explica o conceito de ganho de ruído, que se refere à sensibilidade da mudança na imagem à mudança no resultado, e como isso impacta no cálculo da velocidade. Ele então descreve uma transformação unidimensional onde a função direta é conhecida e o objetivo é invertê-la de uma forma que seja sensível e não excessivamente sensível ao ruído.
 

Aula 3: Tempo de Contato, Foco de Expansão, Métodos de Visão de Movimento Direto, Ganho de Ruído



Aula 3: Tempo de Contato, Foco de Expansão, Métodos de Visão de Movimento Direto, Ganho de Ruído

Nesta palestra, o conceito de ganho de ruído é enfatizado no que se refere aos processos de visão de máquina, com foco em diferentes direções e variações de precisão. O palestrante discute a importância de medir vetores com precisão e entender o ganho para minimizar erros nos cálculos. A palestra aborda o conceito de tempo de contato, o foco da expansão e os campos de movimento, com uma demonstração de como calcular gradientes radiais para estimar o tempo de contato. O palestrante também demonstra como superar as limitações nos cálculos quadro a quadro usando superpixels multiescala, com uma demonstração ao vivo usando uma câmera da web. No geral, a palestra fornece informações úteis sobre as complexidades dos processos de visão de máquina e como medir várias quantidades com precisão.

A palestra discute vários aspectos da visão de movimento e sua aplicação na determinação do tempo de contato, foco de expansão e métodos de visão de movimento direto. O palestrante demonstra ferramentas para visualizar resultados intermediários, mas também reconhece suas limitações e erros. Além disso, o problema de lidar com movimentos arbitrários no processamento de imagens é abordado, e a importância de pontos vizinhos se movendo em velocidades semelhantes é enfatizada. A palestra também investiga os padrões que afetam o sucesso dos métodos de visão de movimento direto e apresenta novas variáveis para definir o tempo de contato e inimigo de forma mais conveniente. Por fim, é discutido o processo de resolução de três equações lineares e três incógnitas para entender como diferentes variáveis afetam a visão de movimento, juntamente com a paralelização do processo para acelerar a computação.

  • 00:00:00 Nesta seção, o palestrante discute o ganho de ruído, que se refere à relação entre erros de medição e erros de estimativa de grandezas relacionadas ao ambiente. Ele usa um exemplo de sistema GPS interno que usa pontos de acesso Wi-Fi para ilustrar a ideia. A precisão do sistema é limitada pela medição dos tempos de ida e volta do telefone ao ponto de acesso e vice-versa com alta precisão. O palestrante enfatiza que a análise de ganho de ruído de alguns processos de visão de máquina será diferente em diferentes direções e não será um único número. Em vez disso, a precisão pode ser determinada muito bem em uma direção, mas não em outra, dependendo de como você se move.

  • 00:05:00 Nesta seção do vídeo, o palestrante discute o conceito de usar transponders para determinar a posição e os erros correspondentes que isso pode causar. Ele explica que se dois transponders forem usados e posicionados em linha, determinar a precisão em uma determinada direção torna-se difícil devido a pequenas mudanças na distância. No entanto, se os transponders estiverem posicionados a 90 graus de distância, a precisão será aprimorada. Além disso, o palestrante explica o uso de círculos no que se refere à determinação do lugar geométrico das posições possíveis com a mesma quantidade de erro.

  • 00:10:00 Nesta seção, o palestrante explica o conceito de transformação direta que nos leva de uma quantidade no ambiente que precisa ser medida para algo que pode ser observado em um instrumento. Ele explica que a medição pode não ser perfeita e, portanto, o ruído na grandeza de interesse está relacionado ao ruído na medição pela derivada da função de transferência. O palestrante também destaca a importância do ganho de ruído, enfatizando que um valor pequeno de f linha de x não é bom, pois a incerteza resultante na grandeza medida seria grande.

  • 00:15:00 Nesta seção, o palestrante discute como medir vetores e a importância de entender o ganho nessas medições. Eles explicam que medir um vetor requer um pouco mais de complexidade do que medir uma quantidade escalar, mas ainda pode ser feito aplicando transformações lineares. O palestrante enfatiza que um aspecto crucial das medições vetoriais é a compreensão do ganho, que envolve levar em consideração a anisotropia e determinar a magnitude da mudança nos resultados e medições. Determinar o inverso do determinante é essencial na resolução de equações lineares, e é crucial evitar que esse valor seja zero ou muito pequeno para minimizar a amplificação de erros nos cálculos. O palestrante fornece um exemplo de uma matriz dois por dois para explicar como obter uma matriz inversa.

  • 00:20:00 Nesta seção da palestra, o conceito de ganho de ruído é aplicado a um exemplo envolvendo movimento e solução para as variáveis u e v. É explicado que se a quantidade for pequena, o ruído será amplificado significativamente e isso se deve ao fato de que os gradientes de brilho nos dois pixels são semelhantes em orientação, fornecendo pouca diferença de informação. Um diagrama do espaço de velocidade é usado para mostrar como as duas linhas se cruzam e como um pequeno deslocamento em uma linha pode causar uma grande mudança no ponto de interseção, o que não é um caso desejável. No entanto, nem toda a esperança está perdida, pois observa-se que o ganho de ruído pode não ser igualmente alto em todas as direções e é útil saber qual componente pode ser confiável. A palestra continua a revisar a suposição de brilho constante e a equação de restrição antes de passar para o conceito de tempo de contato.

  • 00:25:00 notação mais complexa. Nesta seção, o palestrante discute o problema do mouse óptico e como lidar com ele usando uma abordagem de mínimos quadrados. O objetivo é encontrar a velocidade correta usando medições de ex, ey e et, mas essas medições geralmente são corrompidas pelo ruído, portanto, o mínimo da integral (não zero) será nossa estimativa de u e v. O palestrante repassa algum cálculo para determinar o mínimo e explica a importância de minimizar esta integral. Eles então passam para casos simples em que u e v são previsíveis, como no caso do foco de expansão, e revisam a relação entre as coordenadas do mundo e as coordenadas da imagem na projeção em perspectiva.

  • 00:30:00 Nesta seção, o palestrante discute a relação entre as velocidades, distâncias e o foco de expansão para movimentos com velocidade zero nas direções x e y. A palestra cobre a quantidade de w de az, que é o componente do movimento na direção z, e a distância de uma velocidade medida em metros por segundo ou segundos, também conhecida como tempo de contato, que é útil para descobrir como muito tempo levará antes que alguém colida com um objeto se nada mudar. O palestrante passa então a demonstrar, com um exemplo simples, como funciona o foco de expansão quando alguém está se movendo em direção a uma parede e como seria o campo de movimento nesse cenário.

  • 00:35:00 Nesta seção, o palestrante explica que, embora possamos pensar que encontrar vetores é a abordagem mais fácil para resolver o problema de encontrar o foco de expansão, a realidade é que tudo o que temos são imagens que são padrões de brilho e não há vetores dentro deles. Em vez disso, precisamos usar os dados de imagem de uma imagem em expansão ou redução para resolver esse problema. O palestrante mostra um diagrama dos vetores mostrando compressão em vez de expansão, mas enfatiza que o foco da expansão é um fator essencial neste experimento. O palestrante também introduz a ideia do gradiente radial, que é o produto escalar de dois vetores: o vetor do gradiente de brilho e o vetor para o centro óptico da câmera, e isso pode ser usado para medir o inverso do tempo para contato usando derivadas de brilho em um ponto da imagem. No entanto, esses números estão sujeitos a ruídos, e estimar derivadas torna as coisas piores, então esse método não é muito preciso.

  • 00:40:00 Nesta seção, o palestrante explica como calcular gradientes radiais e usá-los para estimar o tempo de contato de uma imagem. O gradiente radial é calculado tomando o produto escalar do gradiente da imagem com um vetor radial em um sistema de coordenadas polares erguido na imagem. O palestrante então mostra como usar mínimos quadrados para minimizar a diferença entre o gradiente radial calculado e o valor teórico de zero para uma fonte pontual de luz. Isso é aplicado a um caso simples de movimento ao longo do eixo óptico, onde a estimativa do parâmetro c fornece o tempo de contato.

  • 00:45:00 Nesta seção da palestra, o professor explica sua abordagem para estimar o tempo de contato usando métodos de visão de movimento direto. Ele usa o cálculo para minimizar o erro quadrático médio na presença de ruído e deriva a fórmula para c, que é o inverso do tempo de contato. A chave é estimar o gradiente de brilho usando pixels vizinhos nas direções x e y, depois calcular o gradiente radial e, finalmente, calcular as integrais duplas sobre todos os pixels para obter as estimativas de g e g ao quadrado. Com eles, o tempo de contato pode ser estimado facilmente usando a fórmula para c. O método é simples e eficaz, sem necessidade de processamento de alto nível ou técnicas sofisticadas de reconhecimento de objetos, tornando-se um cálculo direto do tempo de contato.

  • 00:50:00 Nesta seção, o palestrante discute a medição da posição de um ônibus usando técnicas de análise de imagem. Medindo o número de pixels na imagem do ônibus e como ele muda ao longo do tempo, pode-se determinar a posição do ônibus com precisão. No entanto, esse processo requer um alto nível de precisão e pode se tornar desafiador ao lidar com cenários mais complexos. Para demonstrar essas técnicas, o palestrante utiliza um programa chamado Montevision, que processa imagens para estimar o tempo de contato e foco de expansão com diversos objetos. O programa calcula três valores para otimizar a precisão da análise baseada em imagens, mas como os resultados são ruidosos, eles exigem melhorias constantes para serem eficazes.

  • 00:55:00 Nesta seção, o palestrante discute um método para calcular o tempo de contato e as limitações de fazê-lo usando cálculos quadro a quadro. Essas limitações incluem mudanças no foco da imagem e a falha do método para ajustar velocidades maiores em objetos mais próximos. O palestrante demonstra como superar essas limitações usando superpixels multiescala ou agrupando pixels para melhorar a velocidade e a precisão do processamento de imagem. Por fim, o palestrante faz uma demonstração ao vivo usando uma câmera web para exibir o tempo de contato com base no movimento da câmera.

  • 01:00:00 Nesta seção, o palestrante demonstra uma ferramenta que pode exibir resultados intermediários, em que a derivada x controla o vermelho e a derivada y controla o verde, dando um efeito tridimensional, semelhante à variação rápida de um gradiente em uma topografia mapa. Além disso, a derivada radial, g, demonstra ir para fora e, quando multiplicada pela derivada do tempo, et, pode determinar o movimento. No entanto, reconhece-se que tal ferramenta possui limitações e erros calculáveis, e nenhum código mágico, tornando-a uma ferramenta fascinante e compreensível.

  • 01:05:00 Nesta seção, o palestrante discute o problema de lidar com movimentos arbitrários no processamento de imagens. Ele observa que o problema surge do fato de que u e v, que se referem ao movimento nas direções x e y, respectivamente, podem ser diferentes ao longo da imagem. Isso pode levar a um milhão de equações em dois milhões de incógnitas, fazendo com que o problema pareça insolúvel. O palestrante sugere que podem ser necessárias suposições adicionais para resolver o problema, mas observa que, na maioria dos casos, os pontos vizinhos na imagem estão se movendo na mesma velocidade ou em velocidades semelhantes, fornecendo informações adicionais. Ele também adverte que a solução pode falhar se houver gradiente radial zero na imagem e explica o que isso significa.

  • 01:10:00 Nesta seção, o palestrante discute os padrões que podem afetar o sucesso do uso de métodos de movimento de visão direta para calcular o tempo de contato. O palestrante explica que alguns padrões, como uma forma de x, possuem gradientes que mudam em diferentes direções e, portanto, fornecem informações valiosas para o cálculo do tempo de contato. No entanto, outro padrão, como um gráfico de pizza, não fornece essas informações, pois os gradientes são consistentes em sua direção. O palestrante também menciona que o algoritmo pode captar exey diferente de zero de pequenas partículas ou fibras que existem mesmo em padrões relativamente consistentes, como um pedaço de papel. Por fim, a palestra apresenta duas novas variáveis, fu de z e fv de z, que ajudarão a definir o tempo de contato e inimigo de maneira mais conveniente nas equações.

  • 01:15:00 Nesta seção, o palestrante discute a fórmula para calcular o foco de expansão, que se baseia nos dois parâmetros a e b, e como f não aparece na fórmula. Embora para muitos propósitos f seja necessário para calcular a distância e a velocidade, o cálculo do tempo de contato não requer f. O orador então formula um problema como um problema de mínimos quadrados com um número finito de parâmetros a, b e c, e prossegue para diferenciar a integral para encontrar a derivada do integrando.

  • 01:20:00 Nesta seção da palestra, o palestrante explica como resolver três equações lineares e três incógnitas para descobrir como diferentes variáveis afetarão a visão de movimento. A solução tem uma forma fechada, o que é benéfico, pois permite tirar conclusões rapidamente, em vez de ter que recalcular com parâmetros diferentes. Existem três acumuladores, que se diferenciam na direção horizontal, vertical e g, que afetam os coeficientes. A matriz de coeficientes é simétrica, o que dá uma ideia da estabilidade da solução.

  • 01:25:00 Nesta seção da palestra, o palestrante discute como paralelizar o processo de percorrer seis acumuladores em uma imagem e adicioná-los à medida que avança. Esse processo não requer interações entre pixels e, portanto, pode acelerar se for executado em uma GPU. Esses acumuladores não dependem de mudanças no tempo, pois estão apenas acumulando padrões de brilho e textura na imagem. Os três acumuladores restantes dependem de mudanças no tempo. Uma vez que todos os acumuladores são contabilizados, três equações em três incógnitas devem ser resolvidas.
 

Aula 4: Fluxo óptico fixo, mouse óptico, suposição de brilho constante, solução de forma fechada



Aula 4: Fluxo óptico fixo, mouse óptico, suposição de brilho constante, solução de forma fechada

Na Aula 4 do curso sobre percepção visual para autonomia, o palestrante aborda temas como fluxo ótico fixo, mouse ótico, suposição de brilho constante, solução de forma fechada e tempo de contato. A suposição de brilho constante leva à equação de restrição de mudança de brilho, que relaciona o movimento na imagem com o gradiente de brilho e a taxa de mudança de brilho. O palestrante também demonstra como modelar situações em que a câmera ou a superfície é inclinada e discute o benefício da média multiescala no tratamento de grandes movimentos. Além disso, a palestra explora o uso do tempo para contato em várias situações autônomas e compara diferentes sistemas de controle para pouso em espaçonaves planetárias. Por fim, a palestra aborda a projeção de uma linha e como ela pode ser definida usando a projeção em perspectiva.

O palestrante discute as aplicações do processamento de imagem, incluindo como os pontos de fuga podem ser usados para recuperar os parâmetros de transformação para calibração da câmera e como objetos de calibração com formas conhecidas podem determinar a posição de um ponto no sistema centrado na câmera. A palestra também aborda as vantagens e desvantagens de usar diferentes formas como objetos de calibração para algoritmos de fluxo óptico, como esferas e cubos, e como encontrar o centro de projeção desconhecido usando um cubo e três vetores. A palestra termina destacando a importância de levar em consideração os parâmetros de distorção radial para a calibração real da câmera robótica.

  • 00:00:00 Nesta seção, o palestrante fala sobre formação de imagem e rastreamento de movimento. Eles discutem as equações de projeção de perspectiva e o foco de expansão, que é o ponto em direção ao qual o movimento está acontecendo. A suposição de brilho constante é introduzida, o que significa que, em muitas circunstâncias, o brilho de uma imagem de um ponto no ambiente não mudará com o tempo. O palestrante explica como essa suposição leva à equação de restrição de mudança de brilho, que relaciona movimento na imagem com gradiente de brilho e taxa de mudança de brilho. A palestra também aborda como resolver a velocidade requer restrições adicionais e como tudo se movendo na mesma velocidade pode ser uma forma extrema de restrição.

  • 00:05:00 Nesta seção da palestra, o palestrante discute a técnica de minimizar o erro para estimar u e v em problemas de fluxo óptico onde há uma constante u e v para toda a imagem, como no caso de um mouse óptico . Este processo é altamente restrito, mas podemos obter uma equação linear nas incógnitas, com uma matriz simétrica de coeficientes dois por dois. O palestrante mostra como calcular as derivadas e as condições nas quais esse método não funcionará. Eles também explicam um tipo específico de imagem em que e_x e e_y estão na mesma proporção em todos os lugares, e essa condição será verdadeira.

  • 00:10:00 Nesta seção, o palestrante fala sobre a isofoto onde exy é constante, que é uma linha reta com linhas paralelas que diferem apenas em c. Esse tipo de imagem traz problemas para sistemas de mouse óptico, pois eles não podem medir o deslizamento em uma direção, impossibilitando a determinação da outra parte. A palestra então introduz o conceito de tempo de contato, que depende de proporções de partes fracionárias em vez de valores absolutos, permitindo que o sistema funcione sem calibração. O palestrante também demonstra como diferenciar a equação, mostrando que o tamanho do objeto é constante, o que faz com que a derivada do produto seja zero.

  • 00:15:00 Nesta seção, o palestrante explica uma relação simples que traduz uma certa variação percentual no tamanho entre os quadros em uma certa variação percentual na distância, que se traduz diretamente no tempo de contato (TTC). O palestrante enfatiza a importância de medir com precisão o tamanho da imagem ao estimar o TTC usando o método do tamanho da imagem, pois a alteração fracional na imagem de quadro a quadro é relativamente pequena para um TTC alto. O palestrante também discute as suposições feitas no tempo de contato em relação a uma superfície plana, observando que a suposição de que z é constante ainda se aplica.

  • 00:20:00 Nesta seção, o palestrante discute como modelar situações em que a câmera ou a superfície está inclinada. No caso de um plano inclinado, a profundidade não será mais constante na imagem. A equação para um plano é uma equação linear em x e y, que pode ser um modelo mais complicado de se olhar. Geralmente, as equações podem se tornar muito complicadas e pode não haver uma solução de forma fechada. No entanto, é melhor focar primeiro nos casos em que há uma solução de forma fechada. Se a superfície não for plana, podemos aproximá-la por polinômios para configurar um problema de mínimos quadrados. Infelizmente, não encontraremos uma solução de forma fechada, então precisamos de uma solução numérica. No entanto, temos que ter cuidado ao introduzir mais variáveis, pois isso permite que a solução se desloque em outra direção, perdendo qualquer vantagem sobre a modelagem de que a superfície é plana.

  • 00:25:00 Nesta seção, o palestrante discute os problemas da implementação multiescala no fluxo óptico. Apesar da implementação bem-sucedida, ele menciona que a precisão dos resultados diminui à medida que o movimento na imagem aumenta. Uma maneira de lidar com esse problema é trabalhar com imagens menores, o que reduz o movimento por quadro. O palestrante também discute o benefício da média multiescala, que envolve trabalhar com conjuntos de imagens cada vez menores para lidar com grandes movimentos. A quantidade de trabalho necessária aumenta com o número de subconjuntos, mas o esforço computacional total é reduzido. O palestrante enfatiza que o processo de otimização multiescala é mais complicado do que a simples média de blocos dois por dois que foi usada na palestra anterior.

  • 00:30:00 Nesta seção da palestra, o palestrante discute como trabalhar em várias escalas pode melhorar muito os resultados dos cálculos de fluxo óptico. Ele explica que a subamostragem deve ser feita após a filtragem passa-baixa para evitar aliasing e, embora seja possível subamostrar por um fator menos agressivo, como a raiz quadrada de 2, ela é frequentemente ignorada em favor do bloco mais simples de dois por dois. método de média. O palestrante também menciona várias aplicações interessantes do fluxo óptico, como usar o tempo de contato para evitar acidentes aéreos e melhorar o pouso de espaçonaves na lua de Júpiter, Europa. Ele explica como um sistema de controle pode usar o tempo para entrar em contato com as medições para alterar a aceleração do motor do foguete e derrubar uma espaçonave de forma mais confiável.

  • 00:35:00 Nesta seção, a palestra aborda um sistema simples para manter um tempo de contato constante durante a descida, que pode ser usado em várias situações autônomas, como carros ou espaçonaves. A ideia básica é ajustar a força aplicada ao motor conforme o tempo de contato medido seja menor ou maior do que o desejado, de forma a mantê-la constante. Este método não depende de nenhuma textura ou calibração específica, mas simplesmente depende da relação entre altura e velocidade. A equação para este sistema pode ser resolvida como uma equação diferencial ordinária, que tem uma solução proporcional a z.

  • 00:40:00 Nesta seção, o palestrante discute um sistema de controle de tempo de contato constante e o compara com uma abordagem mais tradicional para pouso em espaçonaves planetárias. O sistema de controle de tempo de contato constante é vantajoso, pois é mais eficiente energeticamente, pois mantém constantemente o tempo de contato constante e não requer conhecimento detalhado sobre a distância à superfície e a velocidade. O palestrante mostra os cálculos do tempo de contato sob aceleração constante e enfatiza que o tempo de contato é sempre a metade do observado usando uma estratégia de altura constante.

  • 00:45:00 Nesta seção, o palestrante discute o conceito de controle de aceleração constante e como ele se compara às abordagens tradicionais para estimar distâncias e velocidades. Ele então introduz a generalização do fluxo óptico, que é chamado de fluxo fixo, e explica que assume que o movimento de todas as partes da imagem é o mesmo. No entanto, nos casos em que há movimentos independentes ou um pequeno número de incógnitas, o sistema pode ser sobredeterminado. Ele também discute o problema mal colocado de sistemas com restrições e como uma restrição pesada pode ser usada para resolvê-lo.

  • 00:50:00 Nesta seção, o palestrante discute como os pontos vizinhos em uma imagem não se movem independentemente, mas tendem a se mover em velocidades semelhantes, o que cria restrições para o fluxo óptico. No entanto, essa restrição não é uma equação direta e requer ferramentas mais precisas para resolver. Se essas ferramentas não estiverem disponíveis, a imagem pode ser dividida em pedaços menores onde a suposição de velocidade constante naquela área é menos significativa. Mas essa divisão também cria compensações entre a resolução e a uniformidade do brilho nessas áreas. A palestra também aborda a ideia de pontos de fuga e como eles podem ser usados para calibrar câmeras ou determinar a orientação relativa de dois sistemas de coordenadas.

  • 00:55:00 Nesta seção da palestra, o professor discute a projeção de uma reta e como ela pode ser definida de várias maneiras, inclusive algébrica e geometricamente. Ele explica que uma linha em 3D pode ser definida por um ponto e uma direção usando um vetor unitário, e que diferentes pontos na linha têm diferentes valores de s. O professor continua explicando como isso pode ser projetado na imagem usando a projeção em perspectiva, resultando em uma equação confusa com as variáveis x, y e z. No entanto, tornando s muito grande, a equação pode ser simplificada e os efeitos da calibração da câmera e dos sistemas de imagem podem ser estudados.

  • 01:00:00 Nesta seção, o palestrante fala sobre pontos de fuga, que resultam de linhas que convergem para um ponto no plano da imagem. Esses pontos de fuga podem ser usados para aprender algo sobre a geometria da imagem, que pode ser aplicada em cenários da vida real, como alertar policiais, trabalhadores da construção civil e outras pessoas que possam estar em perigo devido a um carro que se aproxima. A câmera pode determinar a rotação de seu sistema de coordenadas centrado na câmera em relação à estrada encontrando um ponto de fuga. As linhas paralelas têm o mesmo ponto de fuga, o que significa que, se houver uma série de linhas paralelas que formam uma forma retangular, são esperados três pontos de fuga.

  • 01:05:00 Nesta seção, o palestrante discute duas aplicações de processamento de imagem: encontrar os pontos de fuga para recuperar os parâmetros de transformação para calibração da câmera e usar objetos de calibração com formas conhecidas para determinar a posição de um ponto no centro da câmera sistema. O palestrante explica que encontrar os pontos de fuga permite recuperar o pan e tilt da câmera em relação à direção da estrada e do horizonte. A palestra também aborda a necessidade de recuperar a posição da lente acima do plano da imagem e a altura da projeção central para uma calibração precisa da câmera. O palestrante sugere o uso de um objeto de calibração com formato conhecido, como uma esfera, para determinar a posição de um ponto no sistema centrado na câmera.

  • 01:10:00 Nesta seção, o palestrante discute as vantagens e desvantagens de usar diferentes formas como objetos de calibração para algoritmos de fluxo óptico. Embora as esferas sejam relativamente fáceis de fazer e obter, elas podem ser ruidosas e não muito precisas ao serem projetadas no plano da imagem. Por outro lado, os cubos têm vantagens significativas devido aos seus ângulos retos e linhas paralelas, que correspondem aos pontos de fuga. O palestrante explica como encontrar os pontos de fuga pode ajudar a determinar as projeções de imagem de três vetores apontando em 3D ao longo das linhas. Esta informação pode ser usada para calibrar algoritmos de fluxo óptico com mais precisão.

  • 01:15:00 Nesta seção, o palestrante fala sobre encontrar o centro de projeção desconhecido, P, usando um objeto de calibração como um cubo e três vetores: A, B e C. Os três vetores estão em ângulos retos com entre si, o que ajuda a criar três equações que resolvem as três incógnitas de P. No entanto, os termos de segunda ordem nas equações quadráticas possibilitam ter múltiplas soluções, que é onde entra o teorema de Zoot. Usando o teorema, o palestrante mostra que o número máximo de soluções é o produto da ordem das equações. Para simplificar as equações, o orador as subtrai em pares, levando a três equações lineares que podem ser usadas para encontrar as incógnitas.

  • 01:20:00 Nesta seção, aprendemos que, embora existam três equações lineares, elas não são linearmente independentes e, portanto, existem apenas duas soluções. As equações lineares definem planos no espaço 3D e, quando intersectadas, resultam em uma linha que contém o terceiro plano, o que não fornece nenhuma informação adicional. Essa técnica é útil para calibrar uma câmera e encontrar a posição do centro de projeção. No entanto, as câmeras reais têm parâmetros de distorção radial que precisam ser levados em consideração para a calibração real da câmera robótica.
 

Aula 5: Demos TCC e FOR MontiVision, Ponto de Fuga, Uso de VPs na Calibração da Câmera



Aula 5: Demos TCC e FOR MontiVision, Ponto de Fuga, Uso de VPs na Calibração da Câmera

A palestra aborda vários tópicos relacionados à calibração de câmeras, incluindo o uso de pontos de fuga na projeção em perspectiva, triangulação para encontrar o centro de projeção e o ponto principal na calibração da imagem e o conceito de matrizes normais para representar a rotação em uma matriz ortonormal. O palestrante também explica a matemática para encontrar a distância focal de uma câmera e como usar pontos de fuga para determinar a orientação de uma câmera em relação a um sistema de coordenadas mundial. Além disso, o uso de TCC e FOR MontiVision Demos é discutido, junto com a importância de entender a geometria por trás das equações na resolução de problemas.

A palestra aborda vários tópicos relacionados à visão computacional, incluindo a influência da iluminação no brilho da superfície, como as superfícies foscas podem ser medidas usando duas posições diferentes da fonte de luz e o uso do albedo para resolver o vetor unitário. A palestra também discute o ponto de fuga na calibração da câmera e um método simples para medir o brilho usando três direções de fonte de luz independentes. Por último, o orador aborda a projeção ortográfica como alternativa à projeção perspetiva e as condições necessárias para a sua utilização na reconstrução de superfícies.

  • 00:00:00 Nesta seção, o palestrante demonstra o uso de TCC e FOR MontiVision Demos em uma webcam apontada para um teclado. Eles discutem a importância dos cálculos de tempo de contato e os fatores que afetam esses cálculos. O palestrante também discute o conceito de pontos de fuga na projeção em perspectiva e como eles podem ser usados na calibração da câmera. Eles explicam a equação para cálculos de tempo de contato e como o sinal de dzdt afeta a imagem de objetos em movimento.

  • 00:05:00 Nesta seção, o palestrante discute o conceito de ponto de fuga na calibração da câmera, que é o ponto no plano da imagem onde uma linha paralela especial passa pelo centro de projeção. As demais linhas paralelas também possuem pontos de fuga e, à medida que se afastam, sua projeção na imagem se aproxima da projeção da linha especial. Este conceito permite a determinação das relações entre os sistemas de coordenadas e a calibração da câmera, o que é útil para o reconhecimento de objetos em aplicações de visão computacional. O palestrante fornece um exemplo de um mundo de objetos retangulares com conjuntos de linhas paralelas que definem um sistema de coordenadas, que pode ser projetado no plano da imagem para calibração.

  • 00:10:00 Nesta seção, o palestrante fala sobre pontos de fuga e seu uso na calibração de câmeras. O palestrante explica que existem três pontos de fuga que podem ser determinados com precisão estendendo linhas paralelas, e esses pontos podem ser usados para encontrar o centro de projeção. O centro de projeção é onde se estabelece a relação entre o sistema de coordenadas no objeto e o sistema de coordenadas no plano da imagem. Ao conectar o centro de projeção aos pontos de fuga no plano da imagem, três vetores podem ser criados e esses vetores podem ser usados para encontrar o ponto onde as direções para os pontos de fuga são ângulos retos entre si. O orador observa que o lugar geométrico de todos os lugares em que você poderia estar, a partir dos quais os pontos de fuga estarão em ângulos retos entre si, é um círculo.

  • 00:15:00 Nesta seção, o palestrante discute a versão 3D do TCC e a calibração da câmera. Ele explica que a restrição na posição do centro de projeção é que ele se encontra em uma esfera e como usar esferas para reduzir as possibilidades do centro de projeção. O palestrante então discute equações lineares e retas, bem como a parametrização de retas através de theta e rho. A parametrização é útil porque evita singularidades e fornece um mundo de dois graus de liberdade para as linhas.

  • 00:20:00 Nesta seção, o palestrante discute a representação de planos em três dimensões usando equações lineares com três incógnitas. Ele explica que, na verdade, existem apenas três graus de liberdade, em vez de quatro, devido a um fator de escala. Essa dualidade faz com que haja um mapeamento entre planos e pontos em 3D, semelhante ao mapeamento entre linhas e pontos em 2D. O palestrante apresenta então o problema de calibração de câmeras, comparando-o com o problema de multilateração em robótica, que envolve a interseção de três esferas.

  • 00:25:00 Nesta seção, o palestrante explica como calcular o ponto de interseção de duas esferas no espaço 3D. A primeira esfera é definida como tendo uma equação com termos de segunda ordem, podendo resultar em até oito soluções possíveis. No entanto, subtraindo esta equação de uma segunda esfera, uma equação linear pode ser obtida. Repetindo este processo para todos os pares de esferas, podem ser criadas três equações lineares, com três incógnitas que podem então ser resolvidas. Embora pareça uma solução perfeita, é importante observar que a matriz criada por esse método geralmente é singular e, portanto, não única em sua solução.

  • 00:30:00 Nesta seção, o palestrante discute a questão da manipulação de equações e da perda de informações importantes no processo. Ele explica que, embora seja perfeitamente normal derivar novas equações, deve-se ter cuidado para não jogar fora as equações originais, pois elas ainda podem conter informações cruciais necessárias para resolver o problema. Ele demonstra isso usando o exemplo de equações lineares e quadráticas, e como algumas equações podem ser descartadas enquanto outras devem ser mantidas para obter o número desejado de soluções. O palestrante também destaca a importância de entender a geometria por trás das equações, pois pode fornecer informações valiosas que podem não ser imediatamente evidentes apenas na álgebra.

  • 00:35:00 Nesta seção da transcrição, o palestrante discute a triangulação e como encontrar o centro de projeção e o ponto principal na calibração da imagem. Eles explicam que o centro de projeção pode ser encontrado usando três pontos conhecidos que produzem três planos, e o centro pode ser encontrado em sua interseção. Para encontrar o ponto principal, eles descem a perpendicular do centro de projeção para o plano da imagem. Eles também discutem os pontos de fuga que podem ser usados para detectar se uma imagem foi modificada ou cortada.

  • 00:40:00 Nesta seção, o palestrante discute o uso de pontos de fuga em fotogrametria e calibração de câmeras. Ele explica como os pontos de fuga podem ser usados para determinar a autenticidade das imagens e explora as várias fraudes relacionadas à exploração. Ele então investiga a matemática de encontrar o terceiro componente de um vetor e resolver uma equação quadrática para determinar a distância focal. Ele passa a explicar um caso especial onde a distância focal pode ser determinada sem a necessidade de resolver uma equação quadrática. O vídeo faz parte de uma série de palestras sobre os aspectos técnicos da visão computacional.

  • 00:45:00 Nesta seção, o palestrante discute a aplicação de pontos de fuga na calibração da câmera especificamente para determinar a orientação de uma câmera em relação a um sistema de coordenadas mundial. O palestrante explica que ao identificar características como o meio-fio e as marcações na imagem, supostamente paralelas, podem produzir um ponto de fuga que pode ser reconhecido na imagem. O palestrante também explica que, no caso ideal em que todos os três pontos de fuga estão disponíveis, as bordas do objeto retangular capturado pela câmera podem ser usadas para definir os eixos x e y e, posteriormente, determinar a rotação entre o sistema de coordenadas da câmera e o sistema de coordenadas do mundo.

  • 00:50:00 Nesta seção, o palestrante explica o processo de encontrar os vetores unitários no sistema de coordenadas do objeto medido no sistema de coordenadas da câmera. Os vetores unitários devem estar em ângulos retos entre si e são então usados para computar as Demonstrações TCC e FOR MontiVision. A matriz de transformação representa a orientação de um sistema de coordenadas em relação ao outro, e o palestrante diz que fará mais disso no futuro.

  • 00:55:00 Nesta seção, o palestrante discute o conceito de uma matriz normal, onde as linhas são perpendiculares entre si e a magnitude de cada linha é um. O objetivo disso é representar a rotação em uma matriz ortonormal. Ao determinar a direção dos eixos de coordenadas no objeto, é relativamente fácil ir e voltar entre dois sistemas de coordenadas, o que é particularmente útil para a calibração da câmera. Finalmente, a palestra aborda o conceito de brilho, onde o brilho observado depende da superfície do material, fonte de luz, ângulos incidentes e emergentes e ângulos de azimute.

  • 01:00:00 Nesta seção do vídeo, o palestrante discute o conceito de iluminação e como ela afeta o brilho aparente das superfícies. Eles explicam que a potência que uma superfície obtém de uma fonte de luz é afetada pelo ângulo em que a superfície é inclinada em relação à direção da fonte de luz, que pode ser calculada usando o cosseno do ângulo. O orador então apresenta a ideia de uma superfície fosca, que reflete a luz em várias direções, mas tem a propriedade especial de parecer igualmente brilhante em qualquer direção. Eles discutem como determinar a orientação de tal superfície medindo seu brilho com duas posições diferentes de fonte de luz.

  • 01:05:00 Nesta seção, o palestrante discute a não linearidade envolvida na resolução de n, que é um vetor unitário. Usando medições de brilho, o cosseno theta i pode ser estimado e o cone de possíveis direções da superfície normal pode ser determinado. Se duas medições separadas forem feitas, dois cones de direções serão criados e somente a interseção desses cones, consistindo em duas direções possíveis, fornecerá uma direção normal. No entanto, a restrição de que deve ser uma normal unitária significa que essas duas direções possíveis devem agora ser cruzadas com uma esfera unitária para fazer uma determinação final. O palestrante explica que, ao usar o albedo, que define a refletividade de uma superfície, um problema de equação linear pode ser criado para determinar o brilho de algo no plano da imagem. O valor do albedo varia de zero a um e indica quanto da energia que entra em um objeto é refletida de volta versus quanto é absorvido e perdido.

  • 01:10:00 Nesta seção, a palestra aborda o uso do ponto de fuga (VP) na calibração de câmeras. A palestra apresenta um trivetor que encapsula as incógnitas e resolve o albedo e o vetor unitário por meio da multiplicação da matriz do vetor com as posições da fonte de luz. No entanto, este método é limitado quando as fontes de luz são coplanares, ou seja, estão no mesmo plano, ou se duas linhas da matriz são iguais, caso em que é impossível inverter a matriz. A palestra também observa as implicações dessas restrições para os astrônomos, pois eles precisam garantir que as fontes de luz não estejam no mesmo plano.

  • 01:15:00 Nesta seção, o palestrante discute um método simples para medir o brilho usando três direções de fonte de luz independentes, que podem ser pré-calculadas e implementadas com eficiência. Sugere-se que explorar os três conjuntos de sensores em uma câmera (RGB) pode ser útil para esse fim. Uma tabela de pesquisa pode ser construída para calibrar superfícies com base na forma conhecida de uma esfera e sua orientação de superfície pode ser calculada para medir o brilho em três imagens. No entanto, as superfícies reais não seguem essa regra simples e uma tabela de consulta pode ser usada para inverter os valores numéricos da orientação da superfície. Por fim, o orador aborda a projeção ortográfica como alternativa à projeção em perspectiva.

  • 01:20:00 Nesta seção, o palestrante explica as condições necessárias para o uso da projeção ortográfica na reconstrução de superfícies a partir de imagens. Ele compartilha que a suposição é baseada no intervalo de profundidade ser muito pequeno em comparação com a própria profundidade, permitindo a ampliação constante necessária para essa projeção. A projeção ortográfica é utilizada para simplificar o processo de reconstrução de superfícies a partir de imagens.
 

Aula 6: Estéreo Fotométrico, Ganho de Ruído, Amplificação de Erros, Revisão de Autovalores e Autovetores



Aula 6: Estéreo Fotométrico, Ganho de Ruído, Amplificação de Erros, Revisão de Autovalores e Autovetores

Ao longo da palestra, o palestrante explica os conceitos de ganho de ruído, autovalores e autovetores na resolução de sistemas de equações lineares em estéreo fotométrico. A palestra discute as condições para matrizes singulares, a relevância dos autovalores na análise de erros e a importância da independência linear para evitar matrizes singulares. A palestra termina com uma discussão sobre a Lei de Lambert e a orientação da superfície, e destaca a necessidade de representar superfícies usando um vetor normal unitário ou pontos em uma esfera unitária. No geral, a palestra fornece informações sobre os princípios matemáticos subjacentes ao estéreo fotométrico e destaca os desafios de recuperar com precisão a topografia da lua a partir de medições terrestres.

Na Aula 6 de um curso de fotografia computacional, o palestrante discute como usar o vetor normal unitário e os gradientes de uma superfície para encontrar a orientação da superfície e plotar o brilho em função da orientação da superfície. Eles explicam como usar a parametrização pq para mapear possíveis orientações de superfície e mostram como um plano de inclinação pode ser usado para plotar o brilho em diferentes ângulos de orientação. O palestrante também discute como reescrever o produto escalar do vetor unitário da fonte de luz e o vetor normal unitário em termos dos gradientes para encontrar as curvas no espaço pq onde essa quantidade é constante. A palestra termina com uma explicação de como os cones criados girando a linha para a fonte de luz podem ser usados para encontrar seções cônicas de diferentes formas.

  • 00:00:00 Nesta seção do vídeo, o palestrante discute o ganho de ruído no caso 1D, onde há uma incógnita e uma medição, e explica que se a curva tiver inclinação baixa, um pequeno erro pode ser amplificado em um grande área. Passando para o caso 2D, a discussão passa para autovetores e autovalores, que são característicos de uma matriz e indicam se o vetor obtido da multiplicação da matriz está apontando na mesma direção do vetor que foi usado para multiplicar a matriz. O palestrante fornece detalhes sobre como encontrar esses vetores e quantos são, afirmando que o tamanho e a escala dos vetores não importam e que pode haver mais de um autovetor.

  • 00:05:00 Nesta seção, o palestrante discute o conceito de matriz singular e sua relevância na resolução de sistemas de equações lineares. Uma matriz singular é aquela em que o determinante é zero. Para uma matriz simétrica real n por n, o determinante é um polinômio de ordem n em lambda, com n raízes. Isso significa que, no caso de um conjunto homogêneo de equações, existem várias soluções, em vez de uma solução única, se o determinante for zero. Isso é importante ao lidar com problemas multidimensionais, como recuperação de mouse óptico, em que o erro em certas direções pode ser diferente de outras direções. Assim, uma imagem mais nuançada é necessária além de apenas identificar um pequeno determinante como problemático.

  • 00:10:00 Nesta seção da palestra, o palestrante discute equações homogêneas e suas propriedades interessantes, incluindo a condição para um conjunto de equações homogêneas ter uma solução não trivial. O determinante da matriz também é discutido, assim como os autovalores e autovetores. Os autovetores serão direções especiais nas quais vale a propriedade dos autovalores e serão ortogonais. Os autovalores determinarão o quanto o erro será amplificado, o que é importante para medir o erro na prática. Embora a localização de autovalores e autovetores para matrizes grandes geralmente seja feita usando software, é útil entender o processo em um nível básico.

  • 00:15:00 Nesta seção, o palestrante discute autovetores e autovalores na resolução de equações homogêneas para um caso 2x2. Para encontrar autovetores, o palestrante mostra que as soluções devem ser perpendiculares às linhas da matriz. O resultado dá quatro autovetores apontando na mesma direção para diferentes valores de lambda, e eles podem ser normalizados para obter autovetores unitários. A técnica pode ser estendida para uma matriz n por n, que fornece n autovetores e autovalores correspondentes para discutir a amplificação do erro.

  • 00:20:00 Nesta seção, o palestrante explica como estender a notação de produto escalar para matrizes e mostra que se os autovalores são todos diferentes, então todos os autovetores são ortogonais. Ele também menciona que se algumas das raízes forem iguais, isso não força os autovetores a serem ortogonais, mas ele pode selecionar dois de todos os autovetores possíveis que são ortogonais entre si. Isso ajuda na construção de uma base para o espaço vetorial. O palestrante também fala sobre como pensar em vetores como vetores coluna ou matrizes finas e mostra como o produto escalar pode ser escrito em ambas as formas.

  • 00:25:00 Nesta seção, o palestrante discute autovetores e como eles podem ser usados para reexpressar qualquer vetor em termos deles. Tomando uma medida vetorial arbitrária e multiplicando a matriz por essa medida para obter variáveis desconhecidas, diferentes componentes podem ser ampliados em diferentes quantidades ao longo das direções especiais dos autovetores. Isso é conhecido como ganho de erro. No entanto, eles também estão lidando com problemas inversos em que a matriz inversa é usada e, portanto, o palestrante apresenta o produto diádico de n vetores para aplicar a ideia.

  • 00:30:00 Nesta seção, o palestrante fala sobre autovetores e autovalores e como eles podem ser usados para reescrever uma matriz de várias maneiras. Eles explicam que esses termos são todos dependentes, mas os próprios autovetores não são, então eles podem ser fatorados. Eles discutem como essa abordagem pode ser usada para verificar as propriedades dos autovalores e por que isso é importante na solução de um problema de visão. Especificamente, eles explicam que a matriz usada para resolver esse problema geralmente multiplica os componentes do sinal por 1 sobre lambda i; portanto, se lambda i for pequeno, pode criar um problema mal colocado que não é estável.

  • 00:35:00 Nesta seção, o palestrante discute autovetores e autovalores no contexto da análise de erros. Ele explica que se um dos autovetores tiver um pequeno autovalor, mesmo um pequeno erro na medição pode resultar em uma grande mudança no resultado. A direção da isófota corresponde ao autovetor com um autovalor pequeno, dificultando a detecção precisa do movimento, enquanto a direção do gradiente é mais indulgente. O palestrante passa a discutir o estéreo fotométrico, uma técnica para recuperar a orientação da superfície tirando várias fotos de um objeto sob diferentes condições de iluminação. Ele explica que o parâmetro albedo é usado para descrever quanta luz a superfície reflete e que pode ajudar a restringir a orientação da superfície.

  • 00:40:00 Nesta seção, o palestrante explica o processo de usar diferentes fontes de luz para obter três medições para que um problema com três incógnitas e três medições possa ser introduzido. Isso permite a eliminação da ambiguidade da orientação da imagem usando métodos de resolução de equações lineares, o que resulta em uma maneira simples e barata de calcular a solução. O palestrante observa que encontrar as duas soluções surge de uma quadrática, que pode ser evitada usando a notação de produto escalar para converter o vetor unitário em um 3-vetor arbitrário. Além disso, o vídeo menciona a importância de linhas linearmente independentes para evitar matrizes singulares.

  • 00:45:00 Nesta seção da palestra, são discutidos estereofotométrico, amplificação de erro e autovalores e autovetores. A redundância de medições quando a soma das fontes de luz é zero é explorada, e é mostrado que se três vetores no espaço tridimensional forem coplanares, então o método falhará. No entanto, se eles não forem coplanares e forem colocados em ângulos retos entre si, os resultados serão mais confiáveis. A palestra também faz referência ao uso de estéreo fotométrico para criar mapas topográficos da lua com base em diferentes iluminações do sol.

  • 00:50:00 Nesta seção da palestra, o professor discute os desafios de tentar obter a topografia da lua a partir de medições terrestres. Embora seja possível fazer medições em diferentes posições na órbita da lua, esse método não funciona porque os vetores são quase coplanares. O professor também fala sobre a suposição lambertiana, que pressupõe que um objeto tenha uma refletância perfeitamente difusa e uniforme, mas observa que não é o caso da superfície da lua. No entanto, essa suposição é útil para comparar duas intensidades de iluminação, o que pode ser obtido iluminando um lado com uma fonte e o outro lado com outra fonte e, em seguida, equilibrando-o para que os dois lados pareçam igualmente brilhantes quando vistos do mesmo ângulo.

  • 00:55:00 Nesta seção da palestra, o professor discute os experimentos conduzidos por Lambert que levaram à descoberta da Lei de Lambert, que explica como as superfícies refletem a luz quando iluminadas de diferentes ângulos. A lei afirma que o brilho é proporcional ao cosseno do ângulo de incidência. A discussão também destaca a necessidade de falar sobre a orientação da superfície e como ela pode ser representada usando um vetor normal unitário ou por pontos em uma esfera unitária. O professor menciona que esse modelo fenomenológico é um comportamento postulado e não uma representação exata de superfícies reais. A seção termina apresentando uma expansão em série de Taylor.
  • 01:00:00 Nesta seção do vídeo, o palestrante discute a relação entre a notação de unidade normal e a notação de gradiente em problemas computacionais. Eles explicam como alternar entre as duas notações e dão exemplos de como isso é útil para resolver problemas em diferentes domínios, como coordenadas cartesianas e coordenadas polares. O palestrante também mostra como encontrar tangentes em uma superfície e explica como usar a direção dessas tangentes para encontrar a relação entre a unidade normal e p e q, que representam os gradientes na superfície.

  • 01:05:00 Nesta seção, o palestrante discute como mapear todas as possíveis orientações de superfície usando o vetor normal unitário da superfície e como essa informação é útil para a visão de máquina. O produto vetorial de dois vetores tangentes situados na superfície dá a direção do vetor normal unitário, que pode então ser normalizado para obter a direção da superfície. Ao projetar as orientações de superfície em um plano 2D usando a parametrização pq, pode-se visualizar todas as orientações de superfície possíveis. Os pontos neste plano correspondem a diferentes valores p e q e, portanto, diferentes orientações de superfície, incluindo o piso e qualquer superfície acima do piso com a mesma orientação. O palestrante observa que, embora a visão de máquina possa recuperar a orientação da superfície, remendar essas orientações para formar uma superfície completa é um problema separado, mas superdeterminado.

  • 01:10:00 Nesta seção do vídeo, o palestrante explica como um plano de inclinação pode ser usado como uma ferramenta para plotar o brilho em função da orientação da superfície na visão de máquina. Cada ponto no plano corresponde a uma orientação de superfície específica, e os valores de brilho podem ser determinados experimentalmente a partir de um pedaço de material em diferentes ângulos de orientação. No entanto, uma única medição de brilho não pode recuperar duas incógnitas e várias medições são necessárias para definir a orientação do elemento de superfície. Este conceito é então relacionado ao estereofotométrico e à superfície lambertiana, onde o brilho é proporcional ao cosseno do ângulo incidente, e os isófotos são procurados no plano do talude.

  • 01:15:00 Aqui ele discute reescrever a direção da fonte de luz de uma maneira diferente para executar completamente a mesma transformação no vetor unitário como em n. Isso introduz um ponto onde os raios de luz incidentes são paralelos à superfície normal, chamado psqs, que está no plano e dá a superfície mais brilhante para o Lamborghini. Ao reescrever os n pontos s de uma forma específica, eles podem determinar as curvas no espaço pq onde essa quantidade é constante. Depois de multiplicar tudo, eles ficam com uma equação de segunda ordem em p e q, que corresponde a uma seção cônica. Exemplos dados são parábola e elipse.

  • 01:20:00 Nesta seção, o palestrante discute um diagrama que pode ser usado para gráficos, onde uma superfície é plotada junto com um diagrama que contém um conjunto de isofoads para vários tipos de superfícies, incluindo parábolas, elipses, círculos, linhas , pontos e hipérboles. O brilho da superfície é lido no diagrama e usado como nível de cinza ou cor na imagem plotada. A unidade normal pode ser obtida a partir da superfície e usada para determinar o ponto nas isocargas. O diagrama muda quando a fonte de luz é movida, por isso é importante determinar o ponto de interseção de dois conjuntos de isofoads para obter uma solução única. Três fontes de luz são usadas em vez de duas, pois ter duas fontes de luz pode resultar em soluções finitas em vez de uma única solução.

  • 01:25:00 Nesta seção, o palestrante explica como a linha para a fonte de luz pode ser girada para criar cones e ângulos diferentes, criando cones aninhados. Esses cones podem ser cortados por um plano, resultando em seções cônicas que nem sempre são elipses, mas também hipérboles e até parábolas. O palestrante também esclarece que o cosseno theta não pode ser negativo na prática e deixa a questão de onde a curva passa de curva fechada para aberta como um quebra-cabeça para futuros problemas de lição de casa. A palestra termina com um lembrete para se inscrever no Piazza para atualizações de deveres de casa e anúncios.
 

Aula 7: Espaço Gradiente, Mapa de Reflectância, Equação de Irradiância de Imagem, Projeção Gnomônica



Aula 7: Espaço Gradiente, Mapa de Reflectância, Equação de Irradiância de Imagem, Projeção Gnomônica

Esta palestra discute espaço de gradiente, mapas de refletância e equações de irradiância de imagem. O palestrante explica como usar um mapa de refletância para determinar a orientação e o brilho da superfície para aplicativos gráficos e como criar um mapeamento numérico da orientação da superfície ao brilho usando três fotos tiradas em diferentes condições de iluminação. Eles também introduzem o conceito de irradiância e sua relação com intensidade e radiância, bem como a importância de usar uma abertura finita ao medir o brilho. Além disso, a palestra aborda as três regras de como a luz se comporta depois de passar por uma lente, o conceito de escorço e como a lente focaliza os raios para determinar quanto da luz de uma mancha na superfície é concentrada na imagem.

Nesta palestra, o palestrante explica a equação para determinar a potência total entregue a uma pequena área em uma imagem, que leva em consideração os ângulos sólidos e o cosseno teta. Eles relacionam essa equação com o f-stop nas câmeras e como o tamanho da abertura controla a quantidade de luz recebida. O palestrante também discute a irradiância da imagem, que é proporcional à radiância dos objetos no mundo real, e como o brilho diminui quando saímos do eixo. Eles passam a discutir a função de distribuição de refletância bidirecional, que determina o quão brilhante uma superfície aparecerá dependendo do incidente e da direção emitida. O palestrante explica que a refletância pode ser medida usando um goniômetro e que modelar realisticamente como um objeto reflete a luz é importante. Eles também explicam o conceito de reciprocidade de Helmholtz para a função de distribuição de refletância bidirecional. A palestra passa a discutir a aplicação de espaço gradiente para modelos de materiais de superfície e lembra os alunos de se manterem atualizados sobre as informações do dever de casa.

  • 00:00:00 Nesta seção, o conceito de espaço gradiente é introduzido para explorar o que determina o brilho em uma imagem. O brilho geralmente depende da iluminação e da geometria, como a orientação da superfície, tornando assim necessário mencionar a orientação do remendo da superfície para determinar o brilho. Também é feita menção às normais unitárias, e p e q, que são apenas atalhos convenientes para as inclinações na imagem. O brilho de uma superfície Lambertiana é discutível, dependendo da orientação da superfície em questão. Muitas superfícies foscas são aproximações de uma superfície lambertiana, e essas aproximações podem parecer úteis. No entanto, a maioria das situações cósmicas e microscópicas não são apropriadas para tais aproximações.

  • 00:05:00 Nesta seção da palestra, o palestrante discute o conceito de mapa de refletância, um diagrama que mostra o quão brilhante uma superfície deve parecer com base em sua orientação. Este diagrama pode ser usado para determinar a orientação da superfície e o brilho para aplicativos gráficos. O palestrante explica como esse conceito pode ser estendido para superfícies não lambertianas e como construir uma tabela de pesquisa para determinar o brilho com base na orientação da superfície. Informações e restrições adicionais podem ser usadas para refinar ainda mais a estimativa da orientação da superfície.

  • 00:10:00 Nesta seção, o palestrante discute como usar um objeto de calibração, como uma esfera, para calibração de imagem. Tomando uma imagem de uma esfera iluminada de todos os lados e ajustando um círculo a ela, pode-se estimar o centro e o raio da imagem. Para esferas, existe uma relação conveniente em que um ponto à superfície e um vetor unitário são paralelos, facilitando a determinação da orientação da superfície. Este método também pode ser usado para a Terra, com algumas modificações na definição de latitude. Calculando p e q usando a fórmula da aula anterior, pode-se determinar n e a orientação da superfície para cada ponto da imagem.

  • 00:15:00 Nesta seção, a palestra discute o processo de construção de um mapeamento numérico da orientação da superfície ao brilho em três fotos tiradas em diferentes condições de iluminação. O objetivo é usar essas informações para calcular a orientação da superfície ao tirar três imagens de um objeto nas mesmas condições de iluminação. O palestrante explica a implementação desse processo, que envolve a criação de um array tridimensional no computador onde cada caixa possui valores p e q. As imagens são então quantizadas em intervalos discretos e usadas para colocar informações na matriz. A palestra também aborda questões como efeitos de quantização e células vazias que podem nunca ser preenchidas.

  • 00:20:00 Nesta seção, o palestrante explica o Gradient Space, que é um espaço 2D sendo mapeado em um espaço 3D sem realmente preencher esse espaço. Em vez disso, uma superfície é formada nesse espaço e podemos abordar pontos nessa superfície usando p e q. Quando passamos de duas imagens para três, introduzimos o fator albedo, que escala linearmente com e1 e2 e3. Os objetos de calibração são pintados de branco e as medições são feitas, gerando definições da superfície para rho igual a um. No entanto, para outras linhas, podemos preencher os cubos e gerar outras superfícies. A tabela de pesquisa onde as entradas são colocadas inclui p qand row, uma tabela de pesquisa 3D para 3D. Se algo der errado, é refletido como algum outro valor diferente de um para o albedo rho, indicando um erro ou um bloqueio inesperado de uma das três fontes de luz. O método ajuda a reconhecer a projeção de sombras ou, para superfícies reflexivas que estão muito próximas ou são colocadas como formas de rosquinhas sobrepostas, segmentando e dividindo a imagem em partes.

  • 00:25:00 Nesta seção da palestra, o palestrante discute maneiras de segmentar sombras projetadas e áreas de alta reflexão usando mapas de espaço de gradiente e refletância. Existe uma maneira metódica de preencher os valores da tabela com os valores de voxel correspondentes. O palestrante também introduz o conceito de irradiância, que é a potência por unidade de área de uma fonte de luz atingindo uma superfície. Este conceito não é muito útil no contexto do processamento de imagens, pois não estamos expondo o sensor diretamente à iluminação. O palestrante explica que existe uma terminologia para a quantidade de potência emitida dividida por área, mas é inútil para o processamento de imagens.

  • 00:30:00 Nesta seção, o palestrante explica o conceito de intensidade e seu significado em termos de medição de quanta radiação está indo em uma determinada direção usando uma fonte pontual. O ângulo sólido é definido para normalizar a medição e suas unidades são medidas em esterradianos, que é semelhante aos radianos em 2D, mas projetados em três espaços. O ângulo sólido permite a medição de um conjunto de direções em qualquer formato, onde as direções possíveis ao redor do alto-falante são iguais a quatro pi steradianos. Além disso, o palestrante aborda a importância de levar em conta os casos em que a área da superfície é inclinada em relação ao centro da esfera devido ao fenômeno de encurtamento do objeto, como quando a lente de uma câmera é inclinada em relação a um assunto fora do centro.

  • 00:35:00 Nesta seção do vídeo, são explicados os conceitos de intensidade e radiância. A intensidade é definida como a potência para um ângulo sólido, enquanto a radiância é a potência por unidade de área por unidade de ângulo sólido. A radiância é a quantidade mais útil quando se trata de medir o que chega a um observador ou câmera de uma superfície. No plano da imagem, o brilho é medido como irradiância, que é o brilho que medimos em termos de radiância da superfície.

  • 00:40:00 Nesta seção, o palestrante discute a relação entre medição de energia e potência e como elas são proporcionais entre si. Ele também fala sobre a importância de usar uma abertura finita ao medir o brilho e os problemas que surgem ao usar o modelo pinhole. O palestrante apresenta a lente delgada ideal e suas três regras, incluindo o raio central não defletido e o raio do centro focal emergindo paralelo ao eixo óptico. Ele explica como as lentes fornecem a mesma projeção que o pinhole enquanto fornecem um número finito de fótons, e a penalidade por usá-los em uma certa distância e distância focal.

  • 00:45:00 Nesta seção, o vídeo explica as três regras de como a luz se comporta após passar por uma lente. A regra número um afirma que qualquer raio do centro focal, depois de passar pela lente, ficará paralelo ao eixo óptico. A regra número dois afirma que uma matriz paralela da direita passará pelo centro focal. Finalmente, a regra número três é uma combinação das duas primeiras regras. O vídeo usa triângulos semelhantes para derivar a fórmula da lente, que permite determinar o foco e o comprimento da lente. Embora as lentes sejam computadores analógicos impressionantes que podem redirecionar os raios de luz, elas não conseguem um redirecionamento perfeito devido às limitações físicas da lente.

  • 00:50:00 Nesta seção, o vídeo discute como as lentes lidam com raios provenientes de várias direções e como existem compensações entre diferentes tipos de defeitos, como distorção radial. O vídeo também explica o conceito de irradiância e radiância de objeto, e como um diagrama de um sistema de imagem simples pode ser usado para determinar quanta energia está saindo de um fragmento de objeto e quanta acaba em um fragmento de imagem através da iluminação. Além disso, o vídeo observa a suposição de que planos e lentes de imagem plana são usados em câmeras.

  • 00:55:00 Nesta seção da palestra, o palestrante discute como relacionar o efeito de encurtamento do vetor unitário na superfície de um objeto à luz incidente no sensor de imagem. Ele escreve uma fórmula para ângulo sólido e leva em conta o efeito de escorço multiplicando por cosseno alfa e dividindo por f secante alfa ao quadrado. Ele então relaciona a irradiância na imagem com a energia total saindo daquele patch e a área delta i. Por fim, ele fala sobre como a lente focaliza os raios e como o ângulo sólido que a lente ocupa quando vista do objeto determina quanto da luz daquele trecho na superfície é concentrada na imagem.
  • 01:00:00 Nesta seção da palestra, o palestrante explica a equação da potência total fornecida a uma pequena área em uma imagem, que leva em consideração o ângulo sólido e o cosseno teta. A potência por unidade de área é então encontrada dividindo a potência total pela área, que é o que realmente é medido. O palestrante também relaciona essa equação com o f-stop nas câmeras, que determina o quão aberta é a abertura e, portanto, controla a quantidade de luz recebida. O tamanho da abertura geralmente é medido em passos de raiz quadrada de 2, e a irradiância da imagem varia inversamente com o quadrado do f-stop.

  • 01:05:00 Nesta seção, o palestrante discute como a irradiância da imagem, que é o brilho da imagem, é proporcional à radiância dos objetos no mundo real. O brilho da radiância da superfície é proporcional ao brilho da irradiância da imagem, facilitando a medição do brilho na imagem. No entanto, o brilho diminui à medida que saímos do eixo, representado pelo cosseno ao quarto alfa, o que deve ser levado em consideração ao usar uma lente grande angular. Embora esse efeito não seja muito perceptível, ele pode ser compensado na cadeia de processamento da imagem. Essa fórmula justifica a ideia de medir o brilho usando níveis de cinza na imagem e mostra que tem algo a ver com o que existe no mundo real.

  • 01:10:00 Nesta seção, o palestrante explica o conceito de função de distribuição de refletância bidirecional, que determina o quão brilhante uma superfície aparecerá dependendo do incidente e da direção emitida. O palestrante revela que a taxa de refletância não é tão simples quanto dizer que o branco reflete toda a luz que entra e o preto não reflete nada. O palestrante também discutiu o uso habitual de ângulos polares e azimutais para especificar a direção da entrada ou saída da luz. A função de distribuição de refletância bidirecional é essencial para determinar a refletância e mede a potência de saída dividida pela potência de entrada.

  • 01:15:00 Nesta seção da palestra, o palestrante discute a refletância, que é definida como quão brilhante um objeto aparece quando visto de uma posição específica dividido por quanta energia está sendo colocada na direção da fonte. O palestrante explica que a refletância pode ser medida usando um goniômetro, que é um dispositivo de medição de ângulos que ajuda a explorar um espaço quadridimensional. O palestrante observa que muitas superfícies exigem apenas a diferença entre dois ângulos para medir com precisão a refletância, tornando o processo mais simples para determinados objetos. A modelagem realista de como um objeto reflete a luz é importante, e a medição da refletância permite essa modelagem realista, em vez de apenas aproximar-se de um modelo conhecido.

  • 01:20:00 Nesta seção, o professor discute materiais que requerem o modelo quadridimensional completo para calcular sua aparência, como itens iridescentes com microestruturas que produzem cores por interferência e pedras semipreciosas como olhos de tigre, que têm microestruturas empacotadas na escala do comprimento de onda da luz. O professor também apresenta o conceito de reciprocidade de Helmholtz para a função de distribuição de refletância bidirecional, que afirma que se você trocar a luz incidente e a luz emitida, deve obter o mesmo valor, facilitando a coleta de dados.

  • 01:25:00 Nesta seção, o palestrante discute uma técnica utilizada por um professor durante um debate. O palestrante inicialmente pensou que o professor estava destacando sua falta de conhecimento ao fazer referência a um livro em alemão, mas depois percebeu que era apenas uma técnica de debate. A palestra então passa a discutir a aplicação do espaço gradiente para modelos de materiais de superfície para determinar a sombra da superfície em objetos como a lua e planetas rochosos em nosso sistema solar. O palestrante também lembra os alunos de se manterem atualizados sobre quaisquer extensões ou informações importantes sobre a lição de casa por meio do Piazza.
 

Aula 8: Sombreamento, Casos Especiais, Superfície Lunar, Microscópio Eletrônico de Varredura, Teorema de Green




Aula 8: Sombreamento, Casos Especiais, Superfície Lunar, Microscópio Eletrônico de Varredura, Teorema de Green

Nesta palestra, o professor aborda diversos temas relacionados à fotometria e sombreamento. Ele explica a relação entre irradiação, intensidade e radiância e como eles são medidos e relacionados. A palestra também apresenta a função de distribuição de refletância bidirecional (BRDF) para explicar como a iluminação afeta a orientação e o material de uma superfície. O palestrante discute ainda as propriedades de uma superfície lambertiana ideal e suas implicações para medir a luz que entra e evitar confusão ao lidar com a reciprocidade de Helmhotz. A palestra também aborda o processo de conversão de gradiente para vetor unitário e como ele se relaciona com a posição da fonte de luz. Por fim, a palestra explica como medir o brilho pode determinar a inclinação ou a direção da inclinação de uma superfície.

A palestra aborda diversos temas relacionados à óptica e visão computacional. O professor discute o uso da forma a partir de técnicas de sombreamento para obter um perfil da superfície de um objeto para determinar sua forma. Ele então passa a discutir as lentes e justifica o uso da projeção ortográfica. O palestrante também fala sobre a remoção da projeção em perspectiva na visão de máquina por meio da construção de lentes telecêntricas e demonstra vários truques para compensar as aberrações devido à variação do índice de refração do vidro com os comprimentos de onda. Finalmente, o palestrante introduz o conceito de projeção ortográfica, que simplifica alguns dos problemas associados à projeção em perspectiva.

  • 00:00:00 Nesta seção, o palestrante revisa os principais conceitos da aula anterior sobre fotometria. Ele define irradiância, intensidade e radiância e explica como eles são medidos e relacionados. Ele então apresenta a relação entre a radiância de uma superfície e a irradiância da parte correspondente de uma imagem, que pode ser usada para falar sobre o brilho tanto no mundo externo quanto dentro de uma câmera. O palestrante explica como essa relação é afetada pela abertura da lente, que limita o ângulo sólido e a área da imagem.

  • 00:05:00 Nesta seção, o foco é determinar a radiância de uma superfície em relação à quantidade de iluminação, geometria e material. A função de distribuição de refletância bidirecional (BRDF) é introduzida para explicar como a iluminação afeta a orientação e o material de uma superfície. O BRDF é uma função da direção incidente e da direção da luz emitida, que pode ser calculada calculando a potência total de saída dividida pela potência total de entrada. Além disso, o BRDF tem que satisfazer uma restrição, em que deve sair o mesmo se as direções para a fonte e para o visualizador forem trocadas. Embora alguns modelos de refletância de superfície violem essa restrição, ela não é crítica para a visão humana ou de máquina, tornando-se um atalho na redução do número de medições necessárias.

  • 00:10:00 Nesta seção da palestra, o professor discute as propriedades de uma superfície lambertiana ideal: ela aparece igualmente brilhante de todas as direções de visualização e, se for uma superfície lambertiana ideal, também reflete toda a luz incidente. O professor explica que isso simplifica a fórmula, pois não vai depender de dois dos quatro parâmetros. Ele então discute como lidar com fontes distribuídas como as luzes em uma sala e integrando sobre um hemisfério de direções incidentes. O professor explica que precisamos integrar sobre todas as direções emitidas e como calcular a área do patch usando o ângulo polar e o azumit. Finalmente, ele menciona que o termo f é constante.

  • 00:15:00 Nesta seção, a palestra discute o conceito de sombreamento e o reflexo da luz em uma superfície. A palestra destaca que a luz que incide sobre uma superfície depende da radiação recebida e do ângulo de incidência. Diz-se que toda a luz é refletida, e a energia depositada na superfície é e cosseno theta i vezes a área da superfície. Portanto, quando a luz refletida é integrada, ela é igual à luz que entra. A palestra calcula o valor constante de f para a superfície de inversão e conclui que f é 1 sobre pi para a superfície lambertiana. Nota-se que a energia refletida não é irradiada igualmente em todas as direções, e é explicado como o encurtamento impacta a potência emitida de uma superfície.

  • 00:20:00 Nesta seção da palestra, o professor discute o conceito de superfície lambertiana, que é uma superfície que irradia luz igualmente em todas as direções. No entanto, ao lidar com uma superfície grande e em ângulo com a fonte de luz, a área do elemento de superfície diminui e, como resultado, a potência por unidade de área torna-se infinita. Para evitar danos à retina, a superfície irradia menos em certas direções, mas a potência por unidade de área permanece constante. Essa condição significa que a superfície realmente irradia mais em certas áreas e menos em outras, resultando em uma proporção de um sobre pi em vez de um sobre 2 pi. A palestra continua explicando como usar esse conhecimento para medir a luz que entra e evitar confusão ao lidar com a reciprocidade de Helmhotz.

  • 00:25:00 Nesta seção, o palestrante apresenta um tipo de superfície que é diferente de uma superfície lambertiana e é bastante importante em muitas aplicações. Este tipo de superfície é um sobre a raiz quadrada do cosseno teta i vezes o cosseno teta e, e satisfaz a reciprocidade de Helmholtz. O brilho desse tipo de superfície é afetado pelo encurtamento e é usado para modelar as superfícies dos planetas lunares e rochosos, bem como alguns asteróides. A palestra explica como determinar os isófotos dessa superfície, que são círculos aninhados no espaço 3D, mas são projetados como elipses no plano da imagem, fornecendo informações sobre mapas de contorno de brilho.

  • 00:30:00 Nesta seção, o palestrante discute a dificuldade em encontrar a maneira de sombrear um determinado material no espaço 3D. Eles explicam que o método anterior usado em laboratório não funcionará para esse material, então uma nova abordagem é necessária. O locutor então demonstra o uso de unidades normais para encontrar os valores constantes de todos os pontos na superfície, que devem ser perpendiculares a um vetor fixo. Ele então mostra que isso implica que todos os vetores unitários na superfície com o mesmo brilho devem estar em um plano, revelando informações úteis sobre o material. Finalmente, o orador usa coordenadas esféricas para tentar obter uma melhor compreensão.

  • 00:35:00 Nesta seção, o palestrante discute como escolher um sistema de coordenadas ao lidar com o sombreamento da superfície lunar, pois ter um bom sistema instalado pode evitar uma confusão algébrica. Eles recomendam usar um sistema de coordenadas onde o sol e a terra estão em z=0, simplificando os cálculos para apenas uma incógnita. A palestra também aborda brevemente a aparência da lua cheia, onde o disco deveria ser uniformemente brilhante, mas devido à sua microestrutura não lambertiana, não parece completamente esférico. O modelo Hakka é bom para prever esse tipo de comportamento. Por fim, a palestra mergulha na fórmula para n pontos s sobre n pontos v, chegando finalmente a uma versão simplificada usando vetores de coordenadas esféricas.

  • 00:40:00 Nesta seção, o palestrante discute a relação entre o brilho e o azimute da superfície lunar. Eles explicam que todos os pontos da superfície com o mesmo brilho têm o mesmo azimute e que as linhas de longitude constante são isófodas. Isso é muito diferente de uma superfície lambertiana. Apesar da lua ter um albedo igual ao do carvão, ela aparece muito brilhante no céu devido à falta de objetos de comparação para medir sua refletância. No entanto, podemos usar o estéreo fotométrico para determinar a orientação da superfície da lua e, potencialmente, até mesmo sua forma, tirando várias fotos da superfície sob diferentes condições de iluminação. O modelo Hopkin é usado para descrever a orientação da superfície em termos de gradiente.

  • 00:45:00 Nesta seção, o palestrante discute o processo de conversão de gradiente para vetor unitário e como ele se relaciona com a posição da fonte de luz. Eles explicam que a raiz quadrada é necessária para garantir a satisfação de Helmholtz e, tomando a razão de certos produtos escalares, obtém-se uma equação linear para os isófotos que podem ser plotados no espaço pq. O palestrante observa que, embora essas linhas não estejam igualmente espaçadas devido à raiz quadrada, elas são paralelas e há uma linha em que o brilho é zero, indicando um desvio de 90 graus em relação à radiação recebida. Em geral, esta seção cobre os conceitos matemáticos subjacentes ao cálculo de isófotas e a relação entre a posição e o brilho das fontes de luz em um determinado espaço.

  • 00:50:00 Nesta seção, o palestrante discute as vantagens do sombreamento linear em estéreo fotométrico, que permite a fácil resolução de vários problemas. Com duas condições de iluminação diferentes, as duas equações lineares se cruzam e o ponto de interseção é a orientação da superfície. O palestrante destaca que não há ambiguidade com o sombreamento lambertiano, problema do método anterior, em que havia até quatro soluções. O palestrante também demonstra que as primeiras derivadas espaciais giram da mesma forma que o sistema de coordenadas, e isso é benéfico para determinar a orientação da superfície em uma direção específica sem conhecer toda a orientação da superfície.

  • 00:55:00 Nesta seção, o palestrante explica como medir o brilho pode determinar a inclinação ou a direção da inclinação de uma superfície, permitindo que os pesquisadores obtenham um perfil de uma superfície medindo o brilho ou refletividade de pontos vertical e horizontalmente. O processo requer uma condição inicial para começar, que é medir o brilho da superfície e encontrar z gradualmente. No entanto, a precisão da medição pode ser afetada pela variação na refletividade e imprecisões na medição do brilho.

  • 01:00:00 Nesta seção, o professor discute como obter um perfil da superfície de um objeto para determinar sua forma usando formas de técnicas de sombreamento. Ele explica como, ao executar um perfil em um objeto, ele pode obter a forma do perfil, desde que saiba o valor inicial. No entanto, ele não pode obter a posição vertical absoluta do perfil se não souber o valor inicial. Ele então aplica essa técnica à lua para obter vários perfis da superfície para explorar a forma do objeto. O professor também fala sobre heurísticas para unir superfícies 3D a partir dos perfis. Mais tarde, ele muda de assunto para falar sobre lentes e justifica o uso da projeção ortográfica.

  • 01:05:00 Nesta seção, o palestrante discute como as lentes compostas, compostas por vários elementos, compensam as aberrações por meio de arranjos cuidadosamente projetados. Ele observa que o índice de refração do vidro varia com os comprimentos de onda, causando aberrações cromáticas, mas lentes compostas de diferentes materiais podem compensar isso. O palestrante explica como lentes grossas podem ser aproximadas usando pontos nodais e planos principais, e como um truque simples de tornar t (espessura entre pontos nodais) negativo pode resultar em uma lente telefoto curta. Essa técnica pode reduzir significativamente o comprimento de uma lente telefoto, mantendo sua longa distância focal e pequeno campo de visão.

  • 01:10:00 Nesta seção, o palestrante demonstra dois truques para remover a projeção em perspectiva na visão de máquina. O primeiro truque envolve mover um dos nós para o infinito, o que reduz o efeito da ampliação variável com a distância. Ao construir uma lente telecêntrica com um centro de projeção muito distante, o cone de direções torna-se mais paralelo e a ampliação permanece constante independentemente da distância. O segundo truque envolve mover o outro nó, que altera a ampliação quando o plano da imagem não está exatamente no lugar certo. Para obter uma imagem nítida, a lente precisa ser focada alterando a distância focal do vidro ou movendo a lente em relação ao plano da imagem.

  • 01:15:00 Nesta seção da palestra, o palestrante discute os problemas com o cosseno da quarta lei e a alteração da ampliação quando o centro de projeção não está em mais infinito. Ele explica como mover o ponto nodal para fora e usar lentes telecêntricas duplas pode eliminar esses problemas, pois faz com que a radiação atinja um determinado sensor perpendicular ao sensor. Além disso, o palestrante discute a necessidade de pequenas tampas de lente para concentrar a luz recebida em uma área menor e evitar o aliasing, que pode ocorrer quando há componentes de alta frequência no sinal. Por fim, o palestrante menciona a relevância da filtragem passa-baixa e a importância de apenas amostrar o sinal com o dobro da largura de banda do sinal para reconstruí-lo perfeitamente.

  • 01:20:00 Nesta seção, o palestrante discute como a filtragem de passagem baixa com média de blocos pode reduzir problemas de aliasing ao usar uma matriz de lenslet para medir a luz de uma grande área. Esse método funciona bem se a luz vier perpendicularmente ao sensor, o que é obtido com o uso de lentes telecêntricas. No entanto, a palestra segue explicando que em certos casos, como quando as mudanças de profundidade em uma cena são menores que a própria profundidade, é mais conveniente usar a projeção ortográfica. Isso permite uma relação linear entre x e y no mundo e x e y na imagem, permitindo a medição de distâncias e tamanhos de objetos independentemente de quão longe eles estejam.

  • 01:25:00 Nesta seção, o palestrante introduz o conceito de projeção ortográfica, que é útil para aplicações práticas com lentes telecêntricas e simplifica alguns dos problemas que serão discutidos. Eles observam que, embora alguns possam pensar que esse método funciona apenas para Lamborghini, na verdade funciona para tudo, mas as equações ficam confusas para outras versões. O palestrante explica que o tipo de reconstrução que abordarão a seguir pode ser feito sob projeção em perspectiva, mas é complicado e não muito perspicaz. Porém, ao mudar para a projeção ortográfica, muitos desses problemas ficam mais claros.
 

Aula 9: Forma a partir do Sombreamento, Caso Geral - De EDP Não Linear de Primeira Ordem a Cinco EDOs



Aula 9: Forma a partir do Sombreamento, Caso Geral - De EDP Não Linear de Primeira Ordem a Cinco EDOs

Esta palestra aborda o tema da forma a partir do sombreamento, um método para interpretar as formas dos objetos usando variações no brilho da imagem. O palestrante explica o processo de microscopia eletrônica de varredura, onde um coletor de elétrons secundário é usado para medir a fração de um feixe de elétrons de entrada que o faz recuar, permitindo a estimativa da inclinação da superfície. A palestra também discute o uso de integrais de contorno, momentos e mínimos quadrados para estimar derivadas de superfície e encontrar a menor superfície com ruído de medição. O palestrante deriva cinco equações diferenciais ordinárias para a forma do problema de sombreamento e também explica o conceito do operador laplaciano, que é usado em operações de processamento de imagem.

Nesta palestra sobre "Shape from Shading", o palestrante discute várias abordagens para resolver equações para a solução de mínimos quadrados para formar a partir do sombreamento. O palestrante explica diferentes técnicas para satisfazer a condição Laplaciana, ajustar valores de pixel e reconstruir superfícies usando medições de imagem e cálculos de inclinação de diferentes pontos. A palestra aborda os tópicos de valores iniciais, transformação de rotação e transformação inversa através de menos teta. O palestrante conclui com uma discussão sobre a generalização dessas equações para mapas de refletância arbitrária e a importância de examinar imagens de microscópio eletrônico de varredura para fornecer exemplos concretos de interpretação de sombreamento.

  • 00:00:00 Nesta seção da palestra, o professor apresenta a forma do sombreamento, que é o método para recuperar as formas dos objetos usando medições de brilho da imagem. Ele explica como esse método difere do estéreo fotométrico, que requer múltiplas exposições. O professor também discute diferentes tipos de materiais de superfície e suas propriedades refletivas, incluindo o hapke, um modelo para a reflexão de planetas rochosos, e um terceiro modelo para microscopia. Ele apresenta uma comparação entre os métodos de microscopia eletrônica e explica por que os microscópios eletrônicos de varredura produzem imagens que os humanos acham fáceis de interpretar devido às suas variações específicas de brilho, que se tornam mais brilhantes à medida que você se aproxima das bordas.

  • 00:05:00 Nesta seção, o palestrante discute a importância do sombreamento nas imagens, que desempenha um papel significativo na interpretação da forma dos objetos. O palestrante apresenta imagens de uma cabeça de mariposa e uma forma ovóide de bola de futebol que apresentam variações de brilho conforme a orientação de sua superfície, permitindo uma fácil interpretação de suas formas. Curiosamente, apesar da superfície não lambertiana do objeto semelhante a uma bola de futebol, os humanos ainda são capazes de interpretar sua forma com precisão. A palestra então investiga o funcionamento dos microscópios eletrônicos de varredura, que usam um feixe de elétrons acelerados para criar imagens da superfície do objeto.

  • 00:10:00 Nesta seção, é descrito o processo de criação de imagens sombreadas usando microscopia eletrônica de varredura. Elétrons de vários quilos de elétron-volt atingem um objeto e alguns ricocheteiam como retroespalhamento, mas a maioria penetra e cria elétrons secundários perdendo energia e colidindo com elétrons de coisas ionizantes. Alguns dos elétrons secundários saem do objeto e são reunidos por um eletrodo para escanear o objeto de forma rasterizada. A corrente medida aqui é então usada para modular um feixe de luz em um display, que pode ser ampliado por deflexão para obter de milhares a dezenas de milhares de ampliação, tornando-o mais poderoso do que a microscopia óptica.

  • 00:15:00 Nesta seção da palestra, o palestrante explica o processo de medição da orientação de uma superfície usando um coletor de elétrons secundário. O coletor mede a fração do feixe de entrada que o faz recuar, com superfícies altamente inclinadas resultando em mais corrente devido ao escape de mais elétrons secundários. Ao plotar um mapa de refletância, brilho versus orientação, a inclinação da superfície pode ser determinada, mas não seu gradiente, deixando duas incógnitas e uma restrição. Este problema é um exemplo do problema da forma do sombreamento, onde o objetivo é estimar a forma da superfície a partir de um padrão de brilho.

  • 00:20:00 Nesta seção da palestra, o palestrante discute o uso de um mapa de refletância para determinar a inclinação ou gradiente de uma superfície. Eles explicam que esse método pode ser usado para várias superfícies e não apenas para determinados tipos. A discussão também abrange diagramas de agulha e como eles podem ser usados para determinar a orientação e a forma da superfície. O palestrante explica que, embora seja um problema simples, está sobredeterminado, pois há mais restrições do que incógnitas. Isso permite uma redução no ruído e um melhor resultado. A palestra termina com uma demonstração de integração de p para determinar a mudança na altura desde a origem.

  • 00:25:00 Nesta seção, o palestrante discute como integrar os dados conhecidos para estimar alturas em qualquer lugar ao longo do eixo x ou do eixo y, que podem ser combinados para preencher toda a área. No entanto, os valores p e q usados estão sujeitos a ruído de medição, o que significa que não há garantia de que medir p e q de maneiras diferentes levará à mesma resposta. Para resolver este problema, uma restrição em p e q deve ser colocada; p e q devem satisfazer essa restrição para qualquer loop, e o loop grande pode ser decomposto em pequenos loops que se cancelam para garantir que a restrição também seja verdadeira para o loop grande.

  • 00:30:00 Nesta seção, o palestrante discute a relação entre uma integral de contorno e uma integral de área no contexto da medição das derivadas de uma superfície com exteriores fotométricos ou outros métodos de visão. A palestra mostra como a inclinação pode ser estimada com base no centro de um trecho, onde a inclinação é praticamente constante, e usa a expansão em série de Taylor para derivar uma equação que relaciona as derivadas da superfície z de x y. Diz-se que é impossível encontrar o z exato de xy que fornece p e q medidos, mas é apresentada uma maneira mais elegante de encontrar uma aproximação de mínimos quadrados.

  • 00:35:00 Nesta seção da palestra, o palestrante discute o benefício de reduzir os cálculos de todos os pixels apenas para o limite de uma região na visão de máquina. O palestrante usa o exemplo de calcular a área e a posição de um blob por meio de integrais e momentos de contorno, que podem ser calculados com eficiência traçando o contorno em vez de contar pixels. A palestra continua aplicando o teorema de Green para combinar a integral de contorno com o cálculo de momentos.

  • 00:40:00 Nesta seção, o palestrante discute como encontrar a menor superfície possível com base em nossas medições. Idealmente, encontraríamos uma superfície onde suas derivadas x e y correspondem a p e q que obtivemos da imagem, respectivamente. No entanto, devido ao ruído de medição, isso não será possível; portanto, tentaremos torná-lo o menor possível, resolvendo um problema de mínimos quadrados. Z é uma função com infinitos graus de liberdade, então não podemos usar o cálculo comum. Em vez disso, podemos diferenciar em relação a cada número finito de incógnitas em uma grade e definir o resultado igual a zero para obter muitas equações.

  • 00:45:00 Nesta seção da palestra, o palestrante discute o processo de encontrar um valor de z para cada ponto da grade para minimizar o erro entre os valores observados e as derivadas estimadas nas direções x e y. Para fazer isso, o palestrante explica que eles precisam diferenciar e igualar o resultado a zero para todos os valores possíveis de i e j, o que resulta em um conjunto de equações lineares que podem ser resolvidas usando mínimos quadrados. No entanto, o locutor alerta para um possível problema se os nomes identificadores i e j não forem substituídos por outros nomes, o que pode resultar na obtenção de uma resposta errada. Apesar de ter um grande número de equações, as equações são esparsas, tornando-as mais fáceis de resolver.

  • 00:50:00 Nesta seção, o palestrante repassa o processo de usar equações diferenciais parciais não lineares de primeira ordem para derivar cinco equações diferenciais ordinárias para o problema da forma do sombreamento. Eles explicam as etapas de diferenciação para os termos dentro de um quadrado, combinando os termos e considerando vários valores de k e l. O professor simplifica a equação final e separa os termos para identificar as derivadas x e y de p e q, respectivamente. O objetivo é finalmente encontrar uma solução para todos os pontos da imagem.

  • 00:55:00 Nesta seção, o palestrante explica o diagrama computacional de moléculas, que é uma forma gráfica de estimar derivadas em visão de máquina. Ele usa isso para mostrar como derivar o operador laplaciano, que é muito usado em operações de processamento de imagens. Ele explica que o laplaciano é rotacionalmente simétrico e existem operadores derivados muito úteis na detecção de arestas que também são rotacionalmente simétricos.

  • 01:00:00 Nesta seção, o palestrante discute uma abordagem discreta para resolver equações para a solução de mínimos quadrados para formar a partir do sombreamento, em vez de usar o cálculo de variação. As equações resultantes, embora tenham muitas variáveis, são esparsas o que torna possível a solução iterativa. O palestrante explica como resolver essas equações usando uma abordagem iterativa que envolve calcular médias locais de pixels vizinhos e adicionar uma correção com base nas informações da imagem. O palestrante observa que, embora soluções iterativas sejam fáceis de propor, é difícil mostrar que elas convergem, mas os livros didáticos sugerem que sim.

  • 01:05:00 Nesta seção, o palestrante discute uma abordagem para satisfazer a condição Laplaciana ajustando os valores de pixel usando uma equação simples com termos esparsos. Essa abordagem está relacionada à resolução da equação do calor e pode ser feita de forma eficiente em paralelo, tornando-a estável mesmo com ruído de medição. A técnica pode ser aplicada a dados estéreo fotométricos para reconstruir uma superfície em um método de mínimos quadrados, fornecendo uma solução razoável que corresponda aos dados experimentais. No entanto, o palestrante reconhece que essa abordagem não é diretamente útil além do estéreo fotométrico e que há problemas mais desafiadores a serem resolvidos, como reconstruções de imagens únicas.

  • 01:10:00 Nesta seção, o palestrante discute um caso simples de mapa de refletância com retas paralelas como isófotas. As linhas paralelas permitem girar para um sistema de coordenadas mais útil e maximizar a informação em uma direção enquanto a minimiza em outra. A palestra fornece a relação entre p, q, p linha e q linha, o ângulo teta dado por um triângulo e a transformada inversa da rotação por menos teta. Por fim, a palestra analisa o caso geral com linhas onduladas e discute o conceito de forma a partir do sombreamento.

  • 01:15:00 Nesta seção, o palestrante fala sobre como reconstruir uma superfície usando medições de imagem e cálculos de inclinação de diferentes pontos. A palestra também aborda a ideia de que a abordagem de adicionar uma constante à altura de z e encontrar mudanças não ajusta o laplaciano de z de forma alguma, o que implica que as diferenças de altura não fornecem muita informação, mas apenas profundidade relativa. No entanto, o professor observa que um valor inicial para z é necessário para obter uma reconstrução.

  • 01:20:00 Nesta seção, o palestrante discute o desafio de ter valores iniciais potencialmente diferentes para cada linha no cálculo de soluções para a forma de uma superfície com Shape from Shading. Embora seja fácil lidar com uma mudança geral na altura, ter valores iniciais diferentes para cada linha requer uma curva inicial diferente que pode ser mapeada de volta ao mundo original não girado. O palestrante sugere o uso de uma curva inicial, que é uma função de eta, para explorar a superfície movendo-se ao longo dessas curvas, calculando-as independentemente e, em seguida, alterando a velocidade na qual explorar a solução.

  • 01:25:00 Nesta seção, o palestrante explica que multiplicando por uma constante, as equações ficam mais simples, e o movimento na direção x e y é proporcional a q s e p s respectivamente, enquanto na direção z, há um fórmula direta. A palestra termina com uma discussão sobre a generalização dessas equações para mapas de refletância arbitrária e a importância de examinar imagens de microscópio eletrônico de varredura para fornecer exemplos concretos de interpretação de sombreamento.
 

Aula 10: Expansão de Faixa Característica, Forma de Sombreamento, Soluções Iterativas



Aula 10: Expansão de Faixa Característica, Forma de Sombreamento, Soluções Iterativas

Nesta palestra, o instrutor aborda o tópico de forma a partir do sombreamento usando medições de brilho no conceito de formação de imagem. Isso envolve a compreensão da equação de irradiância da imagem, que relaciona o brilho à orientação da superfície, iluminação, material da superfície e geometria. Eles explicam o método de atualização das variáveis p e q usando dois sistemas separados de equações que alimentam um ao outro e traçando uma faixa inteira usando o gradiente de brilho. A palestra também discute os desafios de resolução de PDEs não lineares de primeira ordem e diferentes métodos de passagem de um contorno para outro conforme você explora a superfície. Por fim, o instrutor discute a implementação da expansão característica da faixa e por que uma abordagem sequencial pode não ser o melhor método, recomendando a paralelização e controlando o tamanho do passo.

Na Aula 10, o professor discute vários métodos para resolver problemas de forma a partir do sombreamento, incluindo o uso de pontos estacionários na superfície e a construção de uma pequena forma de tampa em torno dela para estimar a forma local. O palestrante também introduz o conceito de limite oclusivo, que pode fornecer condições iniciais para soluções, e discute o progresso recente em soluções de computação para o problema de três corpos usando métodos sofisticados de análise numérica. Além disso, a palestra aborda o tópico dos métodos de visão de máquina industrial e os padrões relacionados que serão discutidos na palestra a seguir.

  • 00:00:00 Nesta seção, o instrutor fornece anúncios sobre o primeiro questionário e envio de propostas para o projeto do semestre. O projeto final envolve a implementação de uma solução para um problema de visão de máquina, e os alunos devem enviar uma pequena proposta até o dia 22. O instrutor então fala sobre a mudança de ritmo na cobertura de visão de máquina industrial, onde eles examinarão patentes em vez de artigos publicados ou livros didáticos. No processo, os alunos aprenderão sobre a linguagem de patentes, essencial para empreendedores envolvidos em startups. Por fim, o instrutor fornece exemplos de projetos de alunos, como a implementação de métodos de subpixel para detecção de borda ou tempo de contato em um telefone Android.

  • 00:05:00 Nesta seção, o palestrante discute os diferentes aspectos da formação da imagem, focando especificamente no conceito de forma a partir do sombreamento usando medições de brilho. Isso requer uma compreensão da equação de irradiância da imagem, que relaciona o brilho à orientação da superfície, iluminação, material da superfície e geometria. O mapa de reflectância é utilizado para simplificar esta equação e serve como uma forma de resumir as propriedades reflectoras detalhadas, embora seja derivado da função de distribuição de reflectância bidireccional (BRDF). A palestra continua explicando como esse conceito foi aplicado às propriedades refletoras da lua e de outros planetas rochosos, resultando em um conjunto de equações que permitem determinar a orientação da superfície em certas direções.

  • 00:10:00 Nesta seção, o palestrante discute a regra para dar um pequeno passo na imagem para corresponder a um pequeno passo na altura usando projeção ortogonal. Ele explica que isso simplifica a matemática e se liga à suposição de uma lente telecêntrica e uma fonte de luz distante, o que torna possíveis as suposições lambertianas. O processo geral envolve resolver três equações diferenciais ordinárias numericamente com o método de Euler avançado e alimentar o brilho através da superfície do tipo Hapka. O palestrante mostra como expressar isso em termos de p e q e então derivar a equação para a imagem da radiância.

  • 00:15:00 Nesta seção, o palestrante discute a relação direta entre a quantidade medida de brilho da superfície e a solução necessária para uma superfície específica. Ele explica que existe uma constante chamada rs, que depende da posição da fonte, que é usada para simplificar a solução. A técnica envolve pegar o brilho, elevá-lo ao quadrado, multiplicá-lo por rs e subtrair um com a derivada na direção z. O palestrante também explica como obter uma condição inicial para as equações diferenciais e como uma curva pode ser definida usando parâmetros. O método é então generalizado para lidar com o caso geral onde a inclinação não pode ser determinada localmente.

  • 00:20:00 Nesta seção, o palestrante discute a construção de uma solução usando uma expansão de faixa característica. Para fazer isso, é preciso calcular a mudança de altura para saber como z vai mudar. Eles presumem que começamos com x, y e z, junto com a orientação da superfície, p e q, e atualizamos as regras para x, y e z, e a mudança na altura de z é dada por uma equação. É necessário atualizar p e q à medida que avançamos, resultando em uma faixa característica com orientação de superfície, que é mais informação do que apenas ter uma curva. O palestrante explica como atualizar p e q usando uma matriz dois por dois e as segundas derivadas parciais da altura, que correspondem à curvatura.

  • 00:25:00 Nesta seção, o palestrante discute como calcular a matriz de curvatura para uma superfície 3D, que é mais complicada do que para uma curva no plano. A matriz de curvatura requer toda uma matriz de derivadas de segunda ordem chamada matriz Hessiana. No entanto, usar derivadas de ordem superior para continuar a solução levaria a mais incógnitas. Portanto, a equação de irradiância da imagem é necessária, principalmente o gradiente de brilho, pois as mudanças na orientação da superfície correspondem à curvatura que afeta o brilho da imagem. Olhando para a matriz comum H nas equações de curvatura e gradiente de brilho, calcular H permitiria uma atualização em x, y, z, p e q, completando o método.

  • 00:30:00 Nesta seção, o palestrante discute o conceito de solução para h usando duas equações lineares. H aparece em ambas as equações, mas como temos duas equações e três incógnitas, não podemos resolver para h. No entanto, usando um delta x e delta y específicos, podemos controlar o tamanho do passo e escolher uma direção específica para calcular delta p e delta q. O palestrante também explica que a direção pode mudar conforme a superfície é explorada. Ao inserir isso na equação, podemos descobrir como alterar p e q para resolver o problema.

  • 00:35:00 Nesta seção, o palestrante discute as cinco equações diferenciais ordinárias necessárias para resolver a variável z na equação de irradiância da imagem e apresenta um método para gerar uma faixa usando o gradiente de brilho para atualizar as variáveis p e q. O palestrante explica a parte interessante da solução envolvendo dois sistemas de equações que se alimentam, e como eles determinam a direção do gradiente e podem ser usados para traçar uma faixa inteira. Por fim, a equação diferencial parcial é reduzida a equações diferenciais simples e comuns usando p e q para tornar a equação menos intimidadora.

  • 00:40:00 Nesta seção, o palestrante discute os desafios dos PDEs não lineares de primeira ordem na solução de brilho no contexto de forma a partir do sombreamento. Isso é diferente dos PDEs tipicamente lineares e de segunda ordem encontrados na física, o que significa que é necessário um método especial para resolver esses tipos de PDEs. O caso geral para qualquer R de P e Q é discutido e então aplicado a duas propriedades de superfície específicas: hapke e o microscópio eletrônico de varredura. As regras de atualização para X e Y são proporcionais a PS e QS, respectivamente.

  • 00:45:00 Nesta seção, o palestrante explica o método para atualizar os eixos x, y e altura usando a expansão característica da faixa e a forma do sombreamento com soluções iterativas. O método envolve a diferenciação em relação a p e q para calcular a atualização para x e y e usar prp mais qrq para atualizar o eixo de altura. A palestra observa que esse método pode ser usado em imagens de microscópio eletrônico de varredura e também aborda o conceito de características básicas, que envolve projetar as faixas características no plano da imagem para explorar o máximo possível da imagem.

  • 00:50:00 Nesta seção, o palestrante discute a implementação da expansão de faixa característica e por que uma abordagem sequencial pode não ser o melhor método. Devido às soluções independentes encontradas ao longo de cada curva, um processo pode ser executado ao longo de cada curva, tornando a computação paralelizável. A velocidade da computação, que precisa ter um tamanho de passo razoável, é discutida, e um caso simples onde o tamanho do passo é controlado pela constante z é examinado. Ao dividir pelo PRP e QRQ na equação para z, a taxa de variação se torna um, resultando em soluções constantes ao longo de cada curva com contornos em valores crescentes de z.

  • 00:55:00 Nesta seção da palestra, o palestrante discute diferentes maneiras de passar de um contorno para outro enquanto você explora a superfície. Eles mencionam a opção de pisar em incrementos de tamanho constante na direção z, ou ter tamanho de passo constante na imagem, o que requer dividir todas as equações por um fator constante. Outra opção é pisar em incrementos de tamanho constante em 3D, onde a soma dos quadrados dos incrementos é 1, e por último, a possibilidade de pisar em isófodos em contornos na imagem de contraste ou brilho. No entanto, alguns desses métodos podem ter problemas, como curvas diferentes executando em taxas variáveis ou dividindo por zero, portanto, é essencial observar essas limitações.

  • 01:00:00 Nesta seção da palestra, o professor discute o produto escalar dos dois gradientes na imagem e no mapa de reflactância, mas não entra em muitos detalhes. Mover-se de contorno a contorno na imagem permite uma união mais fácil de soluções vizinhas, e métodos de análise numérica rudimentares podem fornecer resultados suficientes. O professor então discute o progresso recente em soluções de computação para o problema de três corpos e como métodos sofisticados de análise numérica estão sendo usados para resolver equações que de outra forma seriam difíceis, senão impossíveis, de resolver analiticamente.

  • 01:05:00 Nesta seção, o palestrante discute o desafio de precisar de uma curva inicial para explorar uma superfície, juntamente com sua orientação, usando métodos de visão de máquina óptica. Felizmente, existe uma equação de irradiância da imagem que fornece uma restrição na orientação da curva, e sabemos que a curva está na superfície, o que nos permite calcular as derivadas e resolver uma equação linear. Isso significa que podemos encontrar a orientação e nos livrar da necessidade de uma faixa inicial no objeto se pudermos encontrar pontos especiais no objeto onde conhecemos a forma, orientação, etc.

  • 01:10:00 Nesta seção, o palestrante discute o conceito de limite de oclusão, que é o local onde um objeto se curva, de forma que a parte de um lado fique visível e a outra não. Se construirmos uma superfície normal nesse ponto, ela será paralela a um vetor construído ao longo do limite de oclusão, o que nos dá condições iniciais para iniciar nossas soluções. No entanto, não podemos usar as proporções do limite de oclusão para resolver as equações, pois a inclinação é infinita. O palestrante também introduz o conceito de pontos estacionários, que são extremos únicos, globais, isolados, e resultam dos pontos mais brilhantes na superfície de um objeto quando ele é iluminado. Esses pontos nos fornecem a orientação da superfície naquele ponto, que é uma informação valiosa para resolver problemas de sombreamento de forma.

  • 01:15:00 Nesta seção, o palestrante discute os pontos estacionários no mapa de refletância e na imagem, que correspondem a extremos ou mínimos, dependendo da técnica de imagem utilizada. No entanto, os pontos estacionários não permitem o início direto da solução porque não há mudança nas variáveis dependentes. A solução só pode se afastar do ponto estacionário ao tentar construir uma aproximação da superfície para iniciar a solução. A ideia é construir um pequeno plano usando a orientação do ponto estacionário e depois fazer um raio para iniciar a solução. Ao fazer isso, a solução pode sair do ponto estacionário e começar a iterar em direção a uma solução melhor.

  • 01:20:00 Nesta seção da palestra, o palestrante discute o conceito de pontos estacionários em superfícies curvas em relação à forma do sombreamento. A ideia é encontrar uma solução única para a curvatura de uma superfície que possui um ponto estacionário. O palestrante explica que esses pontos são importantes na percepção humana e podem afetar a singularidade de uma solução. A palestra continua explicando o processo de encontrar a curvatura de uma superfície usando um exemplo, onde se assume que a superfície tem um tipo de mapa de refletância sem e tem um ponto estacionário na origem. O gradiente da imagem é zero na origem, confirmando a presença de um extremo naquele ponto. No entanto, o gradiente não pode ser usado para estimar a forma local porque é zero na origem, exigindo assim uma segunda derivada.

  • 01:25:00 Nesta seção, o palestrante explica como obter as segundas derivadas parciais do brilho pode fornecer informações sobre a forma e como recuperá-la, estimando a forma local a partir de pontos estacionários e construindo uma pequena tampa em torno dela. Além disso, o palestrante apresenta o tópico dos métodos de visão de máquina industrial e os padrões relacionados que serão discutidos na palestra subsequente.
 

Aula 11: Detecção de borda, posição de subpixel, CORDIC, detecção de linha (patente dos EUA 6408109)



Aula 11: Detecção de borda, posição de subpixel, CORDIC, detecção de linha (patente dos EUA 6408109)

Este vídeo do YouTube intitulado "Lecture 11: Edge Detection, Subpixel Position, CORDIC, Line Detection (US 6.408.109)" abrange vários tópicos relacionados à detecção de borda e localização de subpixel em sistemas de visão de máquina. O palestrante explica a importância das patentes no processo de invenção e como elas são usadas nas guerras de patentes. Eles também discutem vários operadores de detecção de borda e suas vantagens e limitações. O vídeo inclui explicações detalhadas das fórmulas matemáticas usadas para converter coordenadas cartesianas em coordenadas polares e determinar a posição da borda. O vídeo conclui discutindo a importância de redigir reivindicações amplas e específicas para patentes e a evolução da lei de patentes ao longo do tempo.

Na Aula 11, o palestrante foca em diferentes moléculas computacionais para detecção de bordas e estimação de derivadas, com ênfase em eficiência. Os operadores Sobel e Roberts Cross são apresentados para calcular a soma dos quadrados dos gradientes, com variações na fórmula e na técnica discutidas. Para obter a precisão de subpixel, vários operadores são usados e técnicas como ajustar uma parábola ou usar um modelo de triângulo são apresentadas para determinar o pico da curva. Além disso, a palestra discute alternativas para quantização e problemas com direção de gradiente em uma grade quadrada. No geral, a palestra enfatiza a importância de considerar muitos detalhes para obter um bom desempenho na detecção de bordas.

  • 00:00:00 Nesta seção, o palestrante apresenta o tópico de visão de máquina industrial e sua importância nos processos de fabricação, incluindo o uso de visão de máquina para alinhamento e inspeção na fabricação de circuitos integrados e legibilidade de rótulos farmacêuticos. O palestrante explica a finalidade das patentes como forma de obter um monopólio limitado no uso de uma invenção em troca de explicar como ela funciona para beneficiar a sociedade a longo prazo. A estrutura e os metadados de uma patente também são discutidos, incluindo o número e o título da patente, a data da patente e o uso de patentes como munição em guerras de patentes entre empresas. A palestra descreve brevemente uma patente de Bill Silver na Cognex, uma empresa líder em visão de máquina, sobre detecção e localização de subpixel.

  • 00:05:00 Nesta seção, o palestrante aborda o processo de detecção de bordas em imagens digitais, onde o foco é dado à transição entre diferentes níveis de brilho. O palestrante observa que encontrar arestas para precisão de subpixel é crucial na correia transportadora e nos mundos dos circuitos integrados, pois reduz significativamente os bits necessários para descrever algo. A palestra explica ainda que esse processo pode ser alcançado com uma câmera de pixel mais alto, mas é caro e, portanto, um software que possa executá-lo com custos mais baixos seria benéfico. O palestrante também explica que é possível atingir um 40º de pixel, o que é uma vantagem significativa, mas traz desafios. A palestra termina com uma discussão sobre o depósito de patentes e como o processo mudou ao longo do tempo, incluindo a linguagem obscura usada nos documentos e a demora na apresentação de um pedido de patente.

  • 00:10:00 Nesta seção do vídeo, o palestrante discute vários documentos técnicos e patentes relacionados à detecção de bordas em visão de máquina, que remonta à década de 1950. O primeiro artigo famoso sobre esse tópico foi escrito por Roberts em 1965, que usou um detector de borda simples, mas enganoso. O palestrante também menciona outros documentos e patentes relacionados à detecção de arestas, discutindo as vantagens e desvantagens de vários operadores de detecção de arestas, incluindo o operador de Sobel, o detector de arestas cruzadas de Roberts e os operadores alternativos de Bill Silva para grades hexagonais. O palestrante enfatiza a importância da detecção de borda em várias aplicações e os esforços contínuos de engenheiros e pesquisadores para melhorar os algoritmos de detecção de borda.

  • 00:15:00 Nesta seção, a palestra explica as vantagens e desvantagens de usar câmeras de grade hexagonal em termos de resolução e simetria rotacional, mas observa que o problema extra de trabalhar com uma grade hexagonal era demais para os engenheiros lidarem. A palestra então discute a conversão de coordenadas cartesianas para polares usando a fórmula para a magnitude do gradiente e sua direção, em vez do próprio gradiente de brilho, apesar do custo de obter raízes quadradas e arcos tangentes. A palestra então explora soluções alternativas, como o uso de tabelas de consulta ou o método CORDIC, que é uma maneira de estimar a magnitude e a direção de um vetor usando etapas iterativas para reduzir a diferença com operações aritméticas mínimas necessárias.

  • 00:20:00 Nesta seção da palestra, o palestrante discute detecção de borda e algoritmos de posição de subpixel. Eles explicam como localizar onde um gradiente é grande e usar a supressão não máxima para encontrar a direção máxima do gradiente. O palestrante também fala sobre quantizar as direções do gradiente e observa que olhar mais longe pode levar a uma gama maior de direções. Para encontrar o pico real do gradiente, uma parábola é ajustada aos dados e diferenciada para encontrar o pico. Por fim, a palestra aborda o comportamento esperado do brilho ao trabalhar com um modelo do mundo baseado em Mondrian.

  • 00:25:00 Nesta seção, o vídeo discute técnicas para obter precisão de subpixel na detecção de borda. Uma abordagem envolve quantizar as direções e encontrar o pico, mas pode haver ambiguidade sobre qual ponto escolher ao longo da borda. Outro método é realizar uma interpolação perpendicular para encontrar o ponto de borda com a maior proximidade do pixel central. No entanto, a posição real da borda pode não se adequar aos modelos assumidos, o que pode introduzir viés. O vídeo sugere uma correção simples para calibrar o viés e melhorar a precisão.

  • 00:30:00 Nesta seção, o palestrante discute maneiras de melhorar a precisão da detecção de bordas em sistemas de visão de máquina. A patente que ele está examinando sugere o uso de diferentes potências de "s" para remover o viés e aumentar a precisão com base no sistema específico que está sendo usado. A direção do gradiente também afeta o viés e requer compensação para uma precisão ainda maior. O diagrama geral do sistema inclui estimar gradientes de brilho, encontrar magnitude e direção, supressão não máxima e detecção de pico para interpolar a posição e compensar o viés usando o ponto mais próximo ao máximo na borda. A invenção fornece um aparelho e método para detecção de subpixel em imagens digitais e é resumida em uma versão curta no final da patente.

  • 00:35:00 Nesta seção, o palestrante discute o processo de patenteamento de uma invenção e como ele se relaciona com o litígio de patentes. Eles explicam como os inventores geralmente criam um aparelho e um método para cobrir todas as bases e como isso pode resultar em reivindicações desnecessárias. O palestrante descreve um caso em que uma empresa canadense, a Matrox, foi acusada de violar uma patente por meio da implementação de software do que estava na patente. Peritos foram trazidos para analisar o código e, no final, a conclusão foi que era todo software e não patenteável. A seção também aborda a importância de tornar uma patente o mais ampla possível e pensar em todas as modificações possíveis, o que pode dificultar a leitura de patentes escritas por advogados.

  • 00:40:00 Nesta seção do vídeo, o palestrante aborda fórmulas e uma explicação detalhada de como converter coordenadas cartesianas em coordenadas polares. Eles também explicam as diferentes fórmulas usadas para encontrar picos em parábolas e formas de onda triangulares. O vídeo então entra em patentes e no processo de reivindicar o que você acha que criou para protegê-lo. O alto-falante lê a primeira reivindicação, que é um aparelho para detectar e localizar subpixel de bordas em uma imagem digital, e divide os diferentes componentes que compõem a reivindicação, incluindo um estimador de gradiente, um detector de pico e um interpolador de subpixel. A importância de ter várias reivindicações também é discutida, pois protege contra futuras reivindicações e infrações.

  • 00:45:00 Nesta seção da palestra, o palestrante discute como redigir e estruturar reivindicações de patentes. Ele explica que a primeira reivindicação em uma patente geralmente é uma reivindicação ampla, seguida por reivindicações mais restritas que são mais específicas para garantir que, mesmo que a reivindicação ampla seja invalidada, as reivindicações mais restritas ainda possam permanecer. O palestrante então examina as reivindicações da patente para estimativa de gradiente, destacando algumas das condições que precisam ser atendidas para que cada reivindicação seja válida. Por fim, ele explica como a lei de patentes evoluiu ao longo do tempo no que diz respeito à duração da validade de uma patente e às regras que envolvem reivindicações de prioridade.

  • 00:50:00 Nesta seção, o vídeo discute a detecção de bordas em visão de máquina. O modelo Mondrian do mundo é apresentado, o que envolve a condensação de imagens em apenas discutir as bordas para descobrir onde algo está em uma esteira rolante ou alinhar diferentes camadas de uma máscara de circuito integrado. A detecção de bordas é definida como um processo para determinar a localização dos limites entre as regiões da imagem que são diferentes e aproximadamente uniformes em brilho. Uma borda é definida como um ponto em uma imagem onde a magnitude do gradiente da imagem atinge um máximo local na direção do gradiente da imagem ou onde a segunda derivada do brilho cruza zero na direção do gradiente da imagem. O vídeo também aborda a detecção de bordas em várias escalas e explica a desvantagem de ter uma resolução infinita para uma imagem.

  • 00:55:00 Nesta seção da palestra, o palestrante discute a detecção de bordas e os problemas de medir uma borda perfeitamente alinhada com um pixel. Para combater isso, o palestrante explica o uso de um detector de aresta laplaciano, que procura cruzamentos de zero e desenha contornos, facilitando a localização da aresta. No entanto, esse método pode levar a um desempenho pior na presença de ruído. O palestrante também aborda o conceito de ponto de inflexão e como ele se relaciona com o máximo da derivada, que pode ser usado para definir a aresta. A palestra também aborda a estimativa de gradiente de brilho e o uso de operadores em ângulos de 45 graus para referenciar o mesmo ponto.

  • 01:00:00 Nesta seção da palestra, o palestrante discute a detecção de bordas e a estimativa de derivadas usando diferentes moléculas computacionais. Dois operadores usados por Roberts são introduzidos, os quais podem ser usados no cálculo da soma dos quadrados dos gradientes no sistema de coordenadas original. O conceito de operadores de Sobel também é mencionado e a estimativa da derivada usando uma técnica de média é discutida. O termo de erro de ordem mais baixa da estimativa é de segunda ordem, tornando-o pouco confiável para linhas curvas. Os termos de ordem superior também são introduzidos para melhorar a precisão.

  • 01:05:00 Nesta seção, o palestrante descreve o uso de um operador para aproximar uma derivada para detecção de borda, permitindo um termo de erro de ordem superior que pode funcionar para uma linha curva, desde que sua terceira derivada não seja muito grande. Fazendo a média de dois valores e encontrando uma estimativa da derivada, até mesmo derivadas que são compensadas por meio pixel podem ser usadas. Comparando dois operadores com o mesmo termo de erro de ordem mais baixa, um com um multiplicador menor é considerado vantajoso. No entanto, aplicar o operador para estimar a derivada xey leva a inconsistências, que podem ser tratadas usando um operador bidimensional. Essa abordagem também é útil para calcular as derivadas da direção y para um cubo inteiro de dados em fluxo óptico fixo.

  • 01:10:00 Nesta seção, o palestrante enfatiza a importância da eficiência dos operadores na detecção de bordas com milhões de pixels. Organizando os cálculos de forma inteligente, o operador pode ser reduzido de seis para quatro operações. O palestrante cita o operador Roberts Cross e Urbain Sobel, que replicaram o operador de uma maneira particular fazendo uma média em um bloco 2x2 para reduzir o ruído, mas também desfocar a imagem.

  • 01:15:00 Nesta seção do vídeo, o palestrante discute como evitar o problema de deslocamento de meio pixel na detecção de borda usando vários operadores. A discussão inclui variações de fórmulas e preferências de implementação. A palestra também explica as próximas etapas, incluindo a conversão de coordenadas cartesianas para polares para o gradiente de brilho, quantização da direção da magnitude do gradiente e varredura para valores máximos. A precisão de subpixel não é alcançável devido ao problema de quantização de pixel. O palestrante explica como manter apenas os máximos ignorando os não-máximos na imagem.

  • 01:20:00 Nesta seção, o vídeo discute a necessidade de condições assimétricas na detecção de borda e um desempate para situações em que g zero é igual a g mais ou igual a g menos. Para encontrar o pico da curva, o vídeo descreve o ajuste de uma parábola na borda com um desempate, e é mostrado que o s calculado dessa maneira é limitado em magnitude à metade. Outro método mostrado é um pequeno modelo de triângulo, que assume que as inclinações das duas linhas são as mesmas e estima as posições vertical e horizontal, resultando na fórmula para s. Ambos os métodos são para obter precisão de subpixel, e o vídeo sugere que o modelo triangular pode parecer estranho, mas é eficaz em certas circunstâncias.

  • 01:25:00 Nesta seção, o palestrante discute a forma de uma borda no caso de desfocagem, especificamente como isso afeta o método de recuperação da posição real da borda. Ele também fala sobre alternativas para a quantização da direção do gradiente e como isso pode ser problemático, particularmente em uma grade quadrada onde existem apenas oito direções. Esse problema mostra que há muitos detalhes a serem considerados se alguém deseja um bom desempenho, como encontrar uma boa maneira de calcular as derivadas.