Apprentissage Automatique et Réseaux Neuronaux - page 12

 

Cours 2 : Formation d'image, projection en perspective, dérivée temporelle, champ de mouvement



Cours 2 : Formation d'image, projection en perspective, dérivée temporelle, champ de mouvement

Dans cette conférence, le concept de projection en perspective et sa relation avec le mouvement sont largement discutés. Le conférencier démontre comment l'utilisation de la différenciation de l'équation de projection en perspective peut aider à mesurer le mouvement des motifs de luminosité dans l'image et comment il se rapporte au mouvement dans le monde réel. La conférence couvre également des sujets tels que le foyer de l'expansion, les images continues et discrètes, et l'importance d'avoir un point de référence pour la texture lors de l'estimation de la vitesse d'un objet dans une image. De plus, le cours aborde les dérivées totales le long des courbes et la question du comptage des équations et des contraintes lors de la tentative de récupération du champ vectoriel de flux optique.

Le conférencier aborde divers sujets tels que le gradient de luminosité, le mouvement d'un objet, le cas 2D et les isophotes. Un défi rencontré dans le calcul de la vitesse d'un objet est le problème d'ouverture causé par la relation proportionnelle du gradient de luminosité, qui est résolu soit en pondérant les contributions à différentes régions d'image, soit en recherchant des solutions minimales. Le cours aborde ensuite les différents cas d'isophotes et souligne l'importance de calculer une réponse significative par opposition à une réponse bruyante lors de la détermination de la vitesse, en utilisant le concept de gain de bruit, qui mesure la sensibilité du changement de l'image au changement de résultat. .

  • 00:00:00 Dans cette section, le conférencier traite de la projection en perspective et du mouvement. La projection en perspective implique une relation entre les points du monde 3D et l'image 2D, qui peut être représentée par des systèmes de coordonnées appropriés. Ils expliquent que la différenciation de l'équation de perspective peut aider à mesurer le mouvement des motifs de luminosité dans l'image, qui peuvent ensuite être utilisés pour déterminer le mouvement dans le monde réel. Le conférencier réduit la complexité des équations en utilisant des symboles plus faciles à digérer tels que les vitesses dans les directions x et y.

  • 00:05:00 Dans cette section, le conférencier explique comment utiliser les vecteurs de mouvement pour trouver le foyer d'expansion, un point de l'image où il n'y a pas de mouvement. Ce point est important car il nous permet de déterminer la direction du mouvement simplement en le reliant à l'origine, et il nous dit quelque chose sur l'environnement ou le mouvement. Le conférencier poursuit en montrant comment le motif de l'image apparaîtra si le foyer d'expansion est à un certain point, et comment le diagramme vectoriel peut être dessiné pour montrer le champ de mouvement.

  • 00:10:00 Dans cette section de la conférence, le concept de focalisation de l'expansion et de la compression est introduit dans le contexte de la formation d'images et de la projection en perspective. L'équation décrit les vecteurs rayonnant vers l'extérieur à partir du foyer d'expansion, ce qui est important pour mesurer la distance et la vitesse. Le rapport de w sur z détermine la taille des vecteurs, et l'inverse du foyer d'expansion est le foyer de compression. En prenant le rapport de z sur w, le temps d'impact peut être estimé, ce qui est utile pour l'atterrissage d'engins spatiaux ou la mesure de distance. L'idée est alors introduite sous forme vectorielle, bien qu'elle ne soit pas immédiatement utile.

  • 00:15:00 Dans cette section, l'orateur discute de l'équation de projection en perspective et de la manière dont elle peut être utilisée pour introduire les coordonnées de l'image. Le foyer d'expansion est introduit comme le point où r dot est égal à zéro, ce qui correspond à z. En différenciant chaque composante par rapport au temps, nous pouvons dériver des équations pour le mouvement en 3D et le mouvement en profondeur. L'orateur utilise également un résultat de l'annexe du livre pour transformer les équations en une déclaration générale sur le flux, permettant l'expression du mouvement de l'image en termes de mouvement du monde.

  • 00:20:00 Dans cette section, le conférencier discute du concept de mouvement d'image et de sa relation avec l'axe z. Le mouvement d'image résultant s'avère être perpendiculaire à l'axe z, ce qui n'est pas surprenant puisque l'image n'est qu'en deux dimensions avec des vitesses dans les directions x et y. La conférence explore ensuite le concept de mouvement radial et son effet sur le mouvement de l'image, avec la conclusion que si l'objet se déplace directement vers ou loin de l'observateur, il n'y a pas de mouvement de l'image. L'enseignant conclut en examinant des exemples de champs d'écoulement dans lesquels les vecteurs ne sont pas tous de la même longueur, démontrant que, bien que désagréable, cela peut être avantageux.

  • 00:25:00 Dans cette section, le conférencier explique comment la compréhension du processus de formation d'image peut aider à résoudre le problème inverse de la récupération de la profondeur à partir des champs de mouvement. Le conférencier note que la profondeur et la vitesse sont les deux facteurs clés affectant l'apparence du champ de mouvement, et connaître l'un peut aider à calculer l'autre. Cependant, la récupération des deux peut conduire à un problème mal posé avec plusieurs solutions ou aucune solution. Le conférencier aborde également brièvement les modèles de luminosité de l'image, qui peuvent être représentés sous la forme d'un modèle 2D de valeurs de luminosité, et la représentation des couleurs à l'aide de valeurs RVB, qui seront discutées plus tard. Enfin, le conférencier explique que les images peuvent être représentées de manière continue ou discrète, les images numériques étant quantifiées dans l'espace et généralement sur une grille rectangulaire.

  • 00:30:00 Dans cette section de la conférence, le professeur discute de la différence entre les domaines continus et discrets dans le traitement d'images. Alors qu'en pratique les images sont souvent représentées par des tableaux de nombres à deux indices, l'utilisation de fonctions continues peut faciliter la compréhension de certaines opérations, comme la prise d'intégrales. De plus, le professeur parle de l'approximation des dérivées x et y de la luminosité avec des méthodes de différence et de l'importance du gradient de luminosité dans le traitement d'image. La conférence aborde également les capteurs 1D et la manière dont ils peuvent être utilisés pour l'imagerie, le mouvement servant de moyen de scanner l'image. Le professeur pose le problème de la détermination de la vitesse de déplacement entre deux trames d'une image et donne l'exemple d'une souris optique cartographiant la surface d'une table.

  • 00:35:00 Dans cette section, le conférencier discute des hypothèses faites dans la technologie des souris optiques, en particulier l'hypothèse de luminosité constante lorsqu'on regarde une surface. Il explique également comment une petite approximation linéaire d'une courbe peut être utilisée pour déterminer le mouvement en analysant le changement de luminosité entre les images. Le conférencier introduit la notation des dérivées partielles ainsi que les composantes du gradient de luminosité qui peuvent être utilisées pour la détection des contours. Enfin, la formule delta e = e sous x fois delta x est dérivée et divisée par delta t pour calculer le mouvement.

  • 00:40:00 Dans cette section de la conférence, l'orateur explique comment récupérer le mouvement d'un seul pixel dans une image 1D. Le résultat permet au locuteur de récupérer le mouvement, mais cette approche ne fonctionne pas pour les images 2D. L'orateur explique que des valeurs ET plus élevées indiquent des mouvements plus rapides et qu'il y a un problème lorsque EX est égal à zéro car une division par zéro ou de petites valeurs entraînerait des erreurs dues à des problèmes de mesure. De plus, l'orateur explique que des valeurs EX faibles ou nulles entraînent des estimations bruyantes en raison d'erreurs de mesure.

  • 00:45:00 Dans cette section de la conférence, l'orateur discute de l'importance d'avoir un point de référence avec une texture lors de l'estimation de la vitesse d'un objet dans une image. Ce type de mesure peut être bruyant et peu fiable à moins que certaines conditions d'image ne soient remplies. Cependant, les résultats peuvent être considérablement améliorés en utilisant plusieurs pixels et en appliquant des techniques telles que les moindres carrés pour réduire l'erreur. En combinant plusieurs pixels, l'écart type des mesures peut être réduit de la racine carrée de n, ce qui est significatif pour les grandes images. Cependant, il est important de pondérer les mesures en fonction de la pente de la texture pour éviter de contaminer les zones à faible pente avec des informations provenant de zones à forte pente. Enfin, l'analyse est étendue aux images 2D, et plusieurs approches sont discutées pour obtenir le résultat suivant.

  • 00:50:00 Dans cette section, le conférencier explique comment les images vidéo peuvent être conceptualisées comme un volume tridimensionnel de valeurs de luminosité avec x, y et t comme axes. Le cours décrit ensuite les dérivées partielles et comment elles sont dérivées des différences de pixels voisins dans la direction x, y ou t. L'enseignant explore ensuite la notion de dérivées totales le long de courbes, spécifiquement liée au gradient de luminosité d'un objet en mouvement. En utilisant la règle de la chaîne, la dérivée totale peut être exprimée sous forme de dérivées partielles, permettant de prédire comment la luminosité de l'objet changera au fil du temps. Enfin, le cours introduit le concept de trouver u et b à partir de séquences d'images.

  • 00: 55: 00 Dans cette section, le conférencier aborde la question du comptage d'équations et des contraintes lors de la tentative de récupération du champ vectoriel de flux optique. Dans le cas d'un u inconnu et d'une équation de contrainte, il est possible d'obtenir un nombre fini de solutions. Cependant, avec deux inconnues u et v et une contrainte d'équation, cela semble sans espoir. L'équation de contrainte est dérivée de l'hypothèse que les images ne changent pas de luminosité lorsqu'elles se déplacent. L'enseignant montre que le tracé de l'équation de contrainte dans l'espace des vitesses révèle qu'il s'agit d'une droite, ce qui est un développement significatif dans la résolution du problème. Le but est d'épingler le point en un point et d'obtenir le champ vectoriel de flux optique précis.

  • 01:00:00 Dans cette section de la vidéo, l'intervenant discute de l'importance du gradient de luminosité dans la détermination du mouvement d'un objet. Le gradient de luminosité est un vecteur unitaire pointant perpendiculairement à la transition entre les zones de luminosité élevée et faible. L'orateur explique que lors d'une mesure localisée, il n'y a pas assez d'équations pour déterminer le mouvement d'un objet. Cependant, il est possible de déterminer le mouvement dans la direction du gradient de luminosité. L'orateur passe ensuite à la discussion du cas 2D et déclare que plusieurs contraintes doivent être utilisées pour déterminer le mouvement d'un objet. Pour le démontrer, le locuteur résout une équation linéaire simple pour récupérer les valeurs de u et v.

  • 01:05:00 Dans cette section, le conférencier explique comment inverser une matrice 2x2 et l'utiliser pour résoudre l'ensemble des équations linéaires pour le mouvement de l'image. Cependant, dans certains cas extrêmes, le déterminant de la matrice peut être nul, ce qui signifie que les gradients de luminosité sont proportionnels les uns aux autres, ce qui entraîne le problème d'ouverture. Ce problème suggère que les contributions aux différentes régions d'image doivent être pondérées différemment, plutôt que de simplement faire la moyenne du résultat. Pour résoudre ce problème, nous devons rechercher les valeurs de u et v qui rendent l'équation nulle, ou aussi petite que possible.

  • 01:10:00 Dans cette section, l'orateur discute d'une contrainte qui s'applique dans un cas idéal où les valeurs correctes de u et v donnent un intégrande de zéro lorsqu'elles sont intégrées sur toute l'image. Cela peut être la base d'une stratégie pour trouver les valeurs correctes de u et v. L'orateur note que cette approche peut échouer lorsqu'il n'y a pas de lumière ou de texture dans la scène, ce qui entraîne des valeurs nulles pour ex et ey. L'orateur explique ensuite comment l'intégrande est transformée en quelque chose de toujours positif en le mettant au carré et en le minimisant, ce qui conduit à un problème de calcul de deux équations à deux inconnues. Cependant, cela peut échouer si le déterminant de la matrice deux par deux est zéro, ce qui peut se produire si ex est nul partout ou si ex est égal à ey.

  • 01:15:00 Dans cette section, l'orateur aborde les différents cas d'isophotes, qui sont des lignes de gradient de luminosité égal. Les isophotes peuvent être à un angle de 45 degrés, des lignes parallèles ou des lignes courbes. Cependant, l'orateur souligne que le cas le plus général est celui des isophotes sous un certain angle car il englobe tous les autres cas. Ils mentionnent également que le seul problème se pose lorsque les isophotes sont des lignes parallèles, ce qui peut être surmonté en recherchant les zones de l'image où le gradient de luminosité change beaucoup, comme les coins ou les zones à forte courbure isophote. Enfin, l'orateur introduit le concept de gain de bruit et encourage les étudiants à envoyer toutes les questions qu'ils ont sur le cours ou le devoir à venir.

  • 01:20:00 Dans cette section, le conférencier discute de l'importance de calculer une réponse significative, plutôt qu'une réponse bruyante, lors de la détermination de la vitesse du mouvement. Il explique le concept de gain de bruit, qui fait référence à la sensibilité du changement de l'image au changement du résultat, et son impact sur le calcul de la vitesse. Il poursuit ensuite en décrivant une transformation unidimensionnelle où la fonction directe est connue et le but est de l'inverser d'une manière sensible et pas trop sensible au bruit.
 

Cours 3 : Temps de contact, focalisation de l'expansion, méthodes de vision par mouvement direct, gain de bruit



Cours 3 : Temps de contact, focalisation de l'expansion, méthodes de vision par mouvement direct, gain de bruit

Dans cette conférence, l'accent est mis sur le concept de gain de bruit en ce qui concerne les processus de vision industrielle, en mettant l'accent sur différentes directions et variations de précision. Le conférencier discute de l'importance de mesurer avec précision les vecteurs et de comprendre le gain pour minimiser les erreurs de calcul. L'exposé couvre le concept de temps de contact, le foyer d'expansion et les champs de mouvement, avec une démonstration de la façon de calculer les gradients radiaux pour estimer le temps de contact. Le conférencier montre également comment surmonter les limites des calculs image par image à l'aide de superpixels multi-échelles, avec une démonstration en direct à l'aide d'une caméra Web. Dans l'ensemble, la conférence fournit des informations utiles sur la complexité des processus de vision industrielle et sur la manière de mesurer avec précision diverses quantités.

La conférence traite de divers aspects de la vision du mouvement et de leur application pour déterminer le temps de contact, le foyer d'expansion et les méthodes de vision du mouvement direct. L'orateur fait la démonstration d'outils de visualisation de résultats intermédiaires, mais reconnaît également leurs limites et leurs erreurs. De plus, le problème du traitement des mouvements arbitraires dans le traitement d'image est abordé, et l'importance des points voisins se déplaçant à des vitesses similaires est soulignée. La conférence se penche également sur les schémas affectant le succès des méthodes de vision en mouvement direct et introduit de nouvelles variables pour définir plus facilement le temps de contact et d'ennemi. Enfin, le processus de résolution de trois équations linéaires et de trois inconnues pour comprendre comment différentes variables affectent la vision du mouvement est discuté, ainsi que la parallélisation du processus pour accélérer le calcul.

  • 00:00:00 Dans cette section, le conférencier aborde le gain de bruit, qui fait référence à la relation entre les erreurs de mesure et les erreurs d'estimation des grandeurs liées à l'environnement. Il utilise un exemple de système GPS intérieur qui utilise des points d'accès Wi-Fi pour illustrer l'idée. La précision du système est limitée par la mesure des temps aller-retour du téléphone au point d'accès et retour avec une grande précision. Le conférencier souligne que l'analyse du gain de bruit de certains processus de vision artificielle sera différente dans différentes directions et ne sera pas un nombre unique. Au contraire, la précision peut être assez bien déterminée dans une direction, mais pas dans une autre, selon la façon dont vous vous déplacez.

  • 00:05:00 Dans cette section de la vidéo, le conférencier discute du concept d'utilisation de transpondeurs pour déterminer la position et des erreurs correspondantes que cela peut entraîner. Il explique que si deux transpondeurs sont utilisés et positionnés sur une ligne, déterminer la précision dans une certaine direction devient difficile en raison de petits changements de distance. Cependant, si les transpondeurs sont positionnés à 90 degrés l'un de l'autre, la précision est améliorée. En outre, le conférencier explique l'utilisation des cercles en ce qui concerne la détermination du lieu des positions possibles avec la même quantité d'erreur.

  • 00:10:00 Dans cette section, le conférencier explique le concept de transformation vers l'avant qui nous fait passer d'une quantité dans l'environnement qui doit être mesurée à quelque chose qui peut être observé dans un instrument. Il explique que la mesure peut ne pas être parfaite et que, par conséquent, le bruit dans la quantité d'intérêt est lié au bruit dans la mesure par la dérivée de la fonction de transfert. Le conférencier souligne également l'importance du gain de bruit, soulignant qu'une petite valeur de f prime de x n'est pas bonne car l'incertitude résultante sur la quantité mesurée serait grande.

  • 00:15:00 Dans cette section, l'orateur explique comment mesurer les vecteurs et l'importance de comprendre le gain dans ces mesures. Ils expliquent que la mesure d'un vecteur nécessite un peu plus de complexité que la mesure d'une quantité scalaire, mais cela peut toujours être fait en appliquant des transformations linéaires. Le conférencier souligne qu'un aspect crucial des mesures vectorielles est la compréhension du gain, ce qui implique de prendre en compte l'anisotropie et de déterminer l'ampleur du changement dans les résultats et les mesures. La détermination de l'inverse du déterminant est essentielle dans la résolution d'équations linéaires, et il est crucial d'éviter que cette valeur soit nulle ou trop petite pour minimiser l'amplification des erreurs dans les calculs. L'orateur donne un exemple de matrice deux par deux pour expliquer comment obtenir une matrice inverse.

  • 00:20:00 Dans cette section de la conférence, le concept de gain de bruit est appliqué à un exemple impliquant le mouvement et la résolution des variables u et v. Il est expliqué que si la quantité est petite, le bruit sera amplifié de manière significative, et cela est dû au fait que les gradients de luminosité au niveau des deux pixels sont d'orientation similaire, fournissant peu de différence d'informations. Un diagramme de l'espace des vitesses est utilisé pour montrer comment les deux lignes se croisent et comment un petit décalage dans une ligne peut provoquer un grand changement du point d'intersection, ce qui n'est pas un cas souhaitable. Cependant, tout espoir n'est pas perdu, car il est à noter que le gain de bruit peut ne pas être également élevé dans toutes les directions et il est utile de savoir à quel composant faire confiance. L'exposé continue ensuite à passer en revue l'hypothèse de luminosité constante et l'équation de contrainte avant de passer au concept de temps de contact.

  • 00:25:00 notation plus complexe. Dans cette section, le conférencier discute du problème de la souris optique et comment le traiter en utilisant une approche des moindres carrés. Le but est de trouver la vitesse correcte en utilisant les mesures de ex, ey et et, mais ces mesures sont généralement corrompues par le bruit, donc le minimum de l'intégrale (pas zéro) sera notre estimation de u et v. Le conférencier passe en revue quelques calculs pour déterminer le minimum et explique l'importance de minimiser cette intégrale. Ils passent ensuite à des cas simples où u et v sont prévisibles, comme dans le cas du foyer d'expansion, et examinent la relation entre les coordonnées du monde et les coordonnées de l'image en projection en perspective.

  • 00:30:00 Dans cette section, l'orateur discute de la relation entre les vitesses, les distances et le foyer d'expansion pour les mouvements à vitesse nulle dans les directions x et y. L'exposé couvre la quantité de w de az, qui est la composante du mouvement dans la direction z, et la distance d'une vitesse mesurée en mètres par seconde ou secondes, également connue sous le nom de temps de contact, ce qui est utile pour trouver comment longtemps qu'il faudra avant que l'on ne percute un objet si rien ne change. L'orateur poursuit ensuite en démontrant, avec un exemple simple, comment le foyer d'expansion fonctionne lorsque quelqu'un se dirige vers un mur et à quoi ressemblerait le champ de mouvement dans ce scénario.

  • 00:35:00 Dans cette section, l'orateur explique que même si nous pourrions penser que la recherche de vecteurs est l'approche la plus simple pour résoudre le problème de la recherche du foyer d'expansion, la réalité est que tout ce que nous avons, ce sont des images qui sont des modèles de luminosité, et il n'y a pas de vecteurs en leur sein. Au lieu de cela, nous devons utiliser les données d'image d'une image agrandie ou réduite pour résoudre ce problème. L'orateur montre un diagramme des vecteurs montrant la compression plutôt que l'expansion mais souligne que le foyer d'expansion est un facteur essentiel dans cette expérience. L'orateur introduit également l'idée du gradient radial, qui est le produit scalaire de deux vecteurs : le vecteur du gradient de luminosité et le vecteur du centre optique de la caméra, et cela peut être utilisé pour mesurer l'inverse du temps pour contact à l'aide de dérivées de luminosité en un point de l'image. Cependant, ces nombres sont sujets au bruit et l'estimation des dérivées aggrave les choses, donc cette méthode n'est pas très précise.

  • 00:40:00 Dans cette section, le conférencier explique comment calculer les gradients radiaux et les utiliser pour estimer le temps de contact d'une image. Le gradient radial est calculé en prenant le produit scalaire du gradient de l'image avec un vecteur radial dans un système de coordonnées polaires érigé dans l'image. Le conférencier montre ensuite comment utiliser les moindres carrés pour minimiser la différence entre le gradient radial calculé et la valeur théorique de zéro pour une source lumineuse ponctuelle. Ceci est appliqué à un cas simple de mouvement le long de l'axe optique, où l'estimation du paramètre c donne le temps de contact.

  • 00:45:00 Dans cette section de la conférence, le professeur explique son approche pour estimer le temps de contact à l'aide de méthodes de vision en mouvement direct. Il utilise le calcul pour minimiser l'erreur quadratique moyenne en présence de bruit et dérive la formule pour c, qui est l'inverse du temps de contact. La clé est d'estimer le gradient de luminosité à l'aide de pixels voisins dans les directions x et y, puis de calculer le gradient radial et enfin de calculer les intégrales doubles sur tous les pixels pour obtenir les estimations de g et g au carré. Avec ceux-ci, le temps de contact peut être estimé facilement en utilisant la formule pour c. La méthode est simple et efficace, sans nécessiter de traitement de haut niveau ni de techniques sophistiquées de reconnaissance d'objets, ce qui en fait un calcul direct du temps de contact.

  • 00:50:00 Dans cette section, l'orateur traite de la mesure de la position d'un bus à l'aide de techniques d'analyse d'images. En mesurant le nombre de pixels dans l'image du bus et son évolution dans le temps, on peut déterminer avec précision la position du bus. Cependant, ce processus nécessite un haut niveau de précision et peut devenir difficile lorsqu'il s'agit de scénarios plus complexes. Pour démontrer ces techniques, l'orateur utilise un programme appelé Montevision, qui traite des images pour estimer le temps de contact et le foyer d'expansion avec divers objets. Le programme calcule trois valeurs pour optimiser la précision de l'analyse basée sur l'image, mais comme les résultats sont bruyants, ils nécessitent une amélioration constante pour être efficaces.

  • 00:55:00 Dans cette section, le conférencier discute d'une méthode pour calculer le temps de contact et les limites de le faire en utilisant des calculs image par image. Ces limitations incluent les changements de mise au point de l'image et l'échec de la méthode à s'adapter à des vitesses plus importantes dans des objets plus proches. Le conférencier montre comment surmonter ces limitations en utilisant des superpixels multi-échelles ou en regroupant des pixels pour améliorer la vitesse et la précision du traitement des images. Enfin, le conférencier montre une démonstration en direct à l'aide d'une caméra Web pour afficher le temps de contact en fonction du mouvement de la caméra.

  • 01:00:00 Dans cette section, le conférencier fait la démonstration d'un outil qui peut afficher des résultats intermédiaires, dans lequel la dérivée x contrôle le rouge et la dérivée y contrôle le vert, donnant un effet tridimensionnel, semblable à la variation rapide d'un gradient dans une topographie. carte. De plus, il est démontré que la dérivée radiale, g, va vers l'extérieur et, lorsqu'elle est multipliée par la dérivée temporelle, et, peut déterminer le mouvement. Cependant, il est reconnu qu'un tel outil a des limites et des erreurs qui sont calculables, et aucun code magique, ce qui en fait un outil fascinant et compréhensible.

  • 01:05:00 Dans cette section, le conférencier aborde le problème de la gestion des mouvements arbitraires dans le traitement d'images. Il note que le problème provient du fait que u et v, qui se réfèrent respectivement au mouvement dans les directions x et y, peuvent être différents sur toute l'image. Cela peut conduire à un million d'équations dans deux millions d'inconnues, ce qui donne l'impression que le problème est insoluble. Le conférencier suggère que des hypothèses supplémentaires peuvent être nécessaires pour résoudre le problème, mais note que dans la plupart des cas, les points voisins de l'image se déplacent à des vitesses identiques ou similaires, fournissant des informations supplémentaires. Il avertit également que la solution peut échouer s'il n'y a aucun gradient radial dans l'image, et explique ce que cela signifie.

  • 01:10:00 Dans cette section, le conférencier discute des modèles qui peuvent affecter le succès de l'utilisation des méthodes de mouvement de vision directe pour calculer le temps de contact. Le conférencier explique que certains modèles, comme une forme en x, ont des gradients changeant dans différentes directions et, par conséquent, fournissent des informations précieuses pour calculer le temps de contact. Cependant, un autre modèle, comme un graphique à secteurs, ne fournit pas ces informations car les gradients sont cohérents dans leur direction. Le conférencier mentionne également que l'algorithme pourrait détecter des exey non nuls à partir de minuscules points ou fibres qui existent même dans des modèles relativement cohérents comme un morceau de papier. Enfin, le cours introduit deux nouvelles variables, fu de z et fv de z, qui aideront à définir plus facilement le temps de contact et l'ennemi dans les équations.

  • 01:15:00 Dans cette section, l'orateur discute de la formule de calcul du foyer d'expansion, qui est basée sur les deux paramètres a et b, et comment f n'apparaît pas dans la formule. Alors que dans de nombreux cas, f est nécessaire pour calculer la distance et la vitesse, le calcul du temps de contact ne nécessite pas f. Le locuteur formule ensuite un problème sous la forme d'un problème des moindres carrés avec un nombre fini de paramètres a, b et c, et procède à la différenciation de l'intégrale pour trouver la dérivée de l'intégrande.

  • 01:20:00 Dans cette section de la conférence, l'orateur explique comment résoudre trois équations linéaires et trois inconnues pour découvrir comment différentes variables affecteront la vision du mouvement. La solution a une forme fermée, ce qui est avantageux car elle permet de tirer rapidement des conclusions, plutôt que d'avoir à recalculer avec différents paramètres. Il y a trois accumulateurs, qui se différencient dans la direction horizontale, verticale et g, qui affectent tous les coefficients. La matrice des coefficients est symétrique, ce qui donne une idée de la stabilité de la solution.

  • 01:25:00 Dans cette section de la conférence, l'orateur discute de la parallélisation du processus consistant à parcourir six accumulateurs dans une image et à les ajouter au fur et à mesure. Ce processus ne nécessite pas d'interactions entre les pixels et peut donc s'accélérer s'il est exécuté sur un GPU. Ces accumulateurs ne dépendent pas des changements dans le temps car ils ne font qu'accumuler des motifs de luminosité et de texture dans l'image. Les trois accumulateurs restants dépendent des changements dans le temps. Une fois tous les accumulateurs pris en compte, trois équations à trois inconnues doivent être résolues.
 

Cours 4 : Flux optique fixe, souris optique, hypothèse de luminosité constante, solution de forme fermée



Cours 4 : Flux optique fixe, souris optique, hypothèse de luminosité constante, solution de forme fermée

Dans la leçon 4 du cours sur la perception visuelle pour l'autonomie, le conférencier aborde des sujets tels que le flux optique fixe, la souris optique, l'hypothèse de luminosité constante, la solution de forme fermée et le temps de contact. L'hypothèse de luminosité constante conduit à l'équation de contrainte de changement de luminosité, qui relie le mouvement dans l'image au gradient de luminosité et au taux de changement de luminosité. Le conférencier montre également comment modéliser des situations où la caméra ou la surface est inclinée et discute de l'avantage de la moyenne à plusieurs échelles dans la gestion de grands mouvements. De plus, la conférence explore l'utilisation du temps de contact dans diverses situations autonomes et compare différents systèmes de contrôle pour l'atterrissage dans des engins spatiaux planétaires. Enfin, la conférence aborde la projection d'une ligne et comment elle peut être définie à l'aide de la projection en perspective.

Le conférencier discute des applications du traitement d'image, y compris comment les points de fuite peuvent être utilisés pour récupérer les paramètres de transformation pour l'étalonnage de la caméra et comment des objets d'étalonnage avec des formes connues peuvent déterminer la position d'un point dans le système centré sur la caméra. La conférence couvre également les avantages et les inconvénients de l'utilisation de différentes formes comme objets d'étalonnage pour les algorithmes de flux optique, tels que les sphères et les cubes, et comment trouver le centre de projection inconnu à l'aide d'un cube et de trois vecteurs. La conférence se termine en soulignant l'importance de prendre en compte les paramètres de distorsion radiale pour l'étalonnage des caméras en robotique réelle.

  • 00:00:00 Dans cette section, le conférencier parle de formation d'images et de suivi de mouvement. Ils discutent des équations de projection en perspective et du foyer d'expansion, qui est le point vers lequel le mouvement se produit. L'hypothèse de luminosité constante est introduite, ce qui signifie que dans de nombreuses circonstances, la luminosité d'une image d'un point de l'environnement ne changera pas avec le temps. Le conférencier explique comment cette hypothèse conduit à l'équation de contrainte de changement de luminosité, qui relie le mouvement dans l'image au gradient de luminosité et au taux de changement de luminosité. La conférence explique également comment la résolution de la vitesse nécessite des contraintes supplémentaires et comment tout ce qui se déplace à la même vitesse peut être une forme extrême de contrainte.

  • 00:05:00 Dans cette section de la conférence, l'orateur discute de la technique de minimisation de l'erreur pour estimer u et v dans les problèmes de flux optique où il existe une constante u et v pour l'ensemble de l'image, comme dans le cas d'une souris optique . Ce processus est fortement surcontraint, mais on peut obtenir une équation linéaire aux inconnues, avec une matrice de coefficients symétrique deux par deux. L'orateur montre comment calculer les dérivées et les conditions dans lesquelles cette méthode ne fonctionnera pas. Ils expliquent également un type particulier d'image où e_x et e_y sont dans le même rapport partout, et cette condition sera vraie.

  • 00:10:00 Dans cette section, le conférencier parle de l'isophoto où exy est constant, qui est une ligne droite avec des lignes parallèles qui ne diffèrent qu'en c. Ce type d'image pose des problèmes aux systèmes de souris optiques car ils ne peuvent pas mesurer le glissement dans une direction, rendant impossible la détermination de l'autre partie de celui-ci. La conférence introduit ensuite le concept de temps de contact, qui dépend de rapports de parties fractionnaires plutôt que de valeurs absolues, permettant au système de fonctionner sans étalonnage. Le conférencier montre également comment différencier l'équation, montrant que la taille de l'objet est constante, ce qui conduit à la dérivée du produit étant nulle.

  • 00:15:00 Dans cette section, le conférencier explique une relation simple qui traduit un certain pourcentage de changement de taille entre les images en un certain pourcentage de changement de distance, qui se traduit directement par le temps de contact (TTC). Le conférencier souligne l'importance de mesurer avec précision la taille de l'image lors de l'estimation du TTC à l'aide de la méthode de la taille de l'image, car le changement fractionnaire de l'image d'une image à l'autre est relativement faible pour un TTC élevé. Le conférencier discute également des hypothèses faites sur le temps de contact par rapport à une surface plane, notant que l'hypothèse selon laquelle z est constant s'applique toujours.

  • 00:20:00 Dans cette section, le conférencier explique comment modéliser des situations où la caméra ou la surface est inclinée. Dans le cas d'un plan incliné, la profondeur ne sera plus constante dans l'image. L'équation d'un plan est une équation linéaire en x et y, qui peut être un modèle plus compliqué à regarder. Généralement, les équations peuvent devenir trop compliquées et il peut ne pas y avoir de solution fermée. Cependant, il est préférable de se concentrer d'abord sur les cas où il existe une solution fermée. Si la surface n'est pas plane, on peut l'approximer par des polynômes pour mettre en place un problème de moindres carrés. Malheureusement, nous ne trouverons pas de solution fermée, nous avons donc besoin d'une solution numérique. Néanmoins, nous devons être prudents en introduisant plus de variables car cela laisse la solution se tortiller dans une autre direction, perdant tout avantage sur la modélisation que la surface est plane.

  • 00:25:00 Dans cette section, l'orateur aborde les problèmes d'implémentation multi-échelles en flux optique. Malgré la mise en œuvre réussie, il mentionne que la précision des résultats diminue à mesure que le mouvement dans l'image augmente. Une façon de gérer ce problème consiste à travailler avec des images plus petites, ce qui réduit le mouvement par image. Le conférencier discute également de l'avantage de la moyenne à plusieurs échelles, qui implique de travailler avec des ensembles d'images de plus en plus petits pour gérer de grands mouvements. La quantité de travail nécessaire augmente avec le nombre de sous-ensembles, mais l'effort de calcul total est réduit. L'orateur souligne que le processus d'optimisation multi-échelle est plus compliqué que la simple moyenne de blocs deux par deux qui a été utilisée dans le cours précédent.

  • 00:30:00 Dans cette section de la conférence, l'orateur explique comment le travail à plusieurs échelles peut grandement améliorer les résultats des calculs de flux optique. Il explique que le sous-échantillonnage doit être effectué après le filtrage passe-bas pour éviter le repliement, et bien que l'on puisse sous-échantillonner par un facteur moins agressif, tel que la racine carrée de 2, il est souvent ignoré au profit du bloc deux par deux plus simple. méthode de moyenne. L'orateur mentionne également plusieurs applications intéressantes du flux optique, telles que l'utilisation du temps de contact pour prévenir les accidents d'avion et pour améliorer l'atterrissage des engins spatiaux sur la lune de Jupiter, Europa. Il explique comment un système de contrôle peut utiliser le temps pour contacter les mesures afin de modifier l'accélération du moteur-fusée et de faire tomber un vaisseau spatial de manière plus fiable.

  • 00:35:00 Dans cette section, la conférence traite d'un système simple pour maintenir un temps de contact constant pendant la descente, qui peut être utilisé dans diverses situations autonomes, telles que les voitures ou les engins spatiaux. L'idée de base est d'ajuster la force appliquée au moteur selon que le temps de contact mesuré est plus court ou plus long que souhaité, afin de le maintenir constant. Cette méthode ne dépend pas d'une texture ou d'un calibrage spécifique, mais repose plutôt simplement sur le rapport entre la hauteur et la vitesse. L'équation de ce système peut être résolue comme une équation différentielle ordinaire, qui a une solution proportionnelle à z.

  • 00:40:00 Dans cette section, le conférencier discute d'un système de contrôle à temps constant jusqu'au contact et le compare à une approche plus traditionnelle pour l'atterrissage dans un vaisseau spatial planétaire. Le système de contrôle à temps de contact constant est avantageux car il est plus économe en énergie car il maintient constamment le temps de contact constant et ne nécessite pas de connaissance détaillée de la distance à la surface et de la vitesse. L'enseignant montre les calculs du temps de contact sous accélération constante et souligne que le temps de contact est toujours la moitié de ce qui est observé en utilisant une stratégie à hauteur constante.

  • 00:45:00 Dans cette section, le conférencier discute du concept de contrôle d'accélération constante et comment il se compare aux approches traditionnelles pour estimer la distance et les vitesses. Il introduit ensuite la généralisation du flux optique, appelé flux fixe, et explique qu'il suppose que le mouvement de toutes les parties de l'image est le même. Cependant, dans les cas où il y a des mouvements indépendants ou un petit nombre d'inconnues, le système peut être surdéterminé. Il discute également du problème mal posé des systèmes sous-contraints et comment une contrainte lourde peut être utilisée pour le résoudre.

  • 00: 50: 00 Dans cette section, le conférencier explique comment les points voisins d'une image ne se déplacent pas indépendamment, mais ont plutôt tendance à se déplacer à des vitesses similaires, ce qui crée des contraintes pour le flux optique. Cependant, cette contrainte n'est pas une équation simple et nécessite des outils plus précis pour être résolue. Si ces outils ne sont pas disponibles, l'image peut être divisée en morceaux plus petits où l'hypothèse d'une vitesse constante dans cette zone est moins significative. Mais cette division crée également des compromis entre la résolution et l'uniformité de la luminosité dans ces zones. La conférence aborde également l'idée des points de fuite et comment ils peuvent être utilisés pour l'étalonnage de la caméra ou la détermination de l'orientation relative de deux systèmes de coordonnées.

  • 00:55:00 Dans cette partie du cours, le professeur discute de la projection d'une ligne et comment elle peut être définie de différentes manières, y compris algébriquement et géométriquement. Il explique qu'une ligne en 3D peut être définie par un point et une direction à l'aide d'un vecteur unitaire, et que différents points sur la ligne ont différentes valeurs de s. Le professeur poursuit en expliquant comment cela peut être projeté dans l'image en utilisant la projection en perspective, ce qui donne une équation désordonnée avec les variables x, y et z. Cependant, en rendant s très grand, l'équation peut être simplifiée et les effets de l'étalonnage de la caméra et des systèmes d'imagerie peuvent être étudiés.

  • 01:00:00 Dans cette section, l'orateur parle de points de fuite, qui résultent de lignes qui convergent vers un point du plan image. Ces points de fuite peuvent être utilisés pour apprendre quelque chose sur la géométrie de l'image, qui peut être appliquée dans des scénarios réels tels que l'avertissement des policiers, des ouvriers du bâtiment et d'autres personnes qui pourraient être en danger en raison d'une voiture venant en sens inverse. La caméra peut déterminer la rotation de son système de coordonnées centré sur la caméra par rapport à la route en trouvant un point de fuite. Les lignes parallèles ont le même point de fuite, ce qui signifie que s'il existe une série de lignes parallèles qui forment une forme rectangulaire, trois points de fuite sont attendus.

  • 01:05:00 Dans cette section, le conférencier aborde deux applications du traitement d'image : trouver les points de fuite pour récupérer les paramètres de transformation pour l'étalonnage de la caméra, et utiliser des objets d'étalonnage de formes connues pour déterminer la position d'un point dans l'image centrée sur la caméra. système. Le conférencier explique que la recherche des points de fuite permet de récupérer le panoramique et l'inclinaison de la caméra par rapport à la direction de la route et de l'horizon. La conférence couvre également la nécessité de récupérer la position de l'objectif au-dessus du plan de l'image et la hauteur de la projection centrale pour un étalonnage précis de la caméra. L'enseignant propose d'utiliser un objet d'étalonnage de forme connue, comme une sphère, pour déterminer la position d'un point dans le système caméra-centrique.

  • 01:10:00 Dans cette section, le conférencier discute des avantages et des inconvénients de l'utilisation de différentes formes comme objets d'étalonnage pour les algorithmes de flux optique. Bien que les sphères soient relativement faciles à fabriquer et à obtenir, elles peuvent être bruyantes et peu précises lors de leur projection dans le plan de l'image. D'autre part, les cubes ont des avantages significatifs en raison de leurs angles droits et de leurs lignes parallèles, qui correspondent aux points de fuite. Le conférencier explique comment la recherche des points de fuite pourrait aider à déterminer les projections d'image de trois vecteurs pointant en 3D le long des lignes. Ces informations peuvent être utilisées pour calibrer plus précisément les algorithmes de flux optique.

  • 01:15:00 Dans cette section, l'orateur parle de trouver le centre de projection inconnu, P, en utilisant un objet d'étalonnage tel qu'un cube et trois vecteurs : A, B et C. Les trois vecteurs sont à angle droit pour l'autre, ce qui aide à créer trois équations qui résolvent les trois inconnues de P. Cependant, les termes du second ordre dans les équations quadratiques permettent d'avoir plusieurs solutions, c'est là qu'intervient le théorème de Zoot. En utilisant le théorème, l'orateur montre que le nombre maximum de solutions est le produit de l'ordre des équations. Pour simplifier les équations, le locuteur les soustrait par paires, ce qui conduit à trois équations linéaires qui peuvent être utilisées pour trouver les inconnues.

  • 01:20:00 Dans cette section, nous apprenons que bien qu'il existe trois équations linéaires, elles ne sont pas linéairement indépendantes, et donc il n'y a que deux solutions. Les équations linéaires définissent des plans dans l'espace 3D et, lorsqu'elles sont intersectées, donnent une ligne contenant le troisième plan, qui ne fournit aucune information supplémentaire. Cette technique est utile pour calibrer une caméra et trouver la position du centre de projection. Cependant, les caméras réelles ont des paramètres de distorsion radiale qui doivent être pris en compte pour l'étalonnage des caméras robotiques réelles.
 

Cours 5 : Démos TCC et FOR MontiVision, point de fuite, utilisation des vice-présidents dans l'étalonnage de la caméra



Cours 5 : Démos TCC et FOR MontiVision, point de fuite, utilisation des vice-présidents dans l'étalonnage de la caméra

La conférence couvre divers sujets liés à l'étalonnage de la caméra, y compris l'utilisation des points de fuite dans la projection en perspective, la triangulation pour trouver le centre de projection et le point principal dans l'étalonnage de l'image, et le concept de matrices normales pour représenter la rotation dans une matrice orthonormée. Le conférencier explique également les mathématiques pour trouver la distance focale d'une caméra et comment utiliser les points de fuite pour déterminer l'orientation d'une caméra par rapport à un système de coordonnées mondial. De plus, l'utilisation de TCC et de FOR MontiVision Demos est discutée, ainsi que l'importance de comprendre la géométrie derrière les équations dans la résolution de problèmes.

La conférence couvre divers sujets liés à la vision par ordinateur, notamment l'influence de l'éclairage sur la luminosité de la surface, la manière dont les surfaces mates peuvent être mesurées à l'aide de deux positions de source lumineuse différentes et l'utilisation de l'albédo pour résoudre le vecteur unitaire. La conférence traite également du point de fuite dans l'étalonnage de la caméra et d'une méthode simple pour mesurer la luminosité à l'aide de trois directions de source lumineuse indépendantes. Enfin, l'intervenant aborde la projection orthographique comme alternative à la projection perspective et les conditions nécessaires à son utilisation en reconstruction de surface.

  • 00:00:00 Dans cette section, l'orateur démontre l'utilisation de TCC et FOR MontiVision Demos sur une webcam pointée vers un clavier. Ils discutent de l'importance des calculs de temps de contact et des facteurs qui affectent ces calculs. Le conférencier aborde également le concept de points de fuite dans la projection en perspective et comment ils peuvent être utilisés dans l'étalonnage de la caméra. Ils expliquent l'équation pour les calculs de temps de contact et comment le signe de dzdt affecte l'image des objets en mouvement.

  • 00:05:00 Dans cette section, le conférencier aborde le concept de point de fuite dans l'étalonnage de l'appareil photo, qui est le point sur le plan de l'image où une ligne parallèle spéciale passe par le centre de projection. Les autres lignes parallèles ont également des points de fuite et, à mesure qu'elles s'éloignent, leur projection sur l'image se rapproche de la projection de la ligne spéciale. Ce concept permet de déterminer les relations entre les systèmes de coordonnées et l'étalonnage de la caméra, ce qui est utile pour la reconnaissance d'objets dans les applications de vision par ordinateur. Le conférencier donne un exemple d'un monde d'objets rectangulaires avec des ensembles de lignes parallèles qui définissent un système de coordonnées, qui peut être projeté sur le plan de l'image pour l'étalonnage.

  • 00:10:00 Dans cette section, l'orateur parle des points de fuite et de leur utilisation dans le calibrage de l'appareil photo. L'orateur explique qu'il existe trois points de fuite qui peuvent être déterminés avec précision en prolongeant des lignes parallèles, et ces points peuvent être utilisés pour trouver le centre de projection. Le centre de projection est l'endroit où la relation entre le système de coordonnées dans l'objet et le système de coordonnées dans le plan image est établie. En connectant le centre de projection aux points de fuite dans le plan image, trois vecteurs peuvent être créés, et ces vecteurs peuvent être utilisés pour trouver le point où les directions vers les points de fuite sont à angle droit les unes par rapport aux autres. L'orateur note que le lieu de tous les endroits où vous pourriez être à partir desquels les points de fuite seront à angle droit les uns par rapport aux autres est un cercle.

  • 00:15:00 Dans cette section, le conférencier discute de la version 3D du TCC et de l'étalonnage de la caméra. Il explique que la contrainte sur la position du centre de projection est qu'il repose sur une sphère, et comment utiliser les sphères pour réduire les possibilités du centre de projection. Le conférencier aborde ensuite les équations linéaires et les lignes droites, ainsi que la paramétrisation des lignes droites par thêta et rhô. La paramétrisation est utile car elle évite les singularités et fournit un monde à deux degrés de liberté pour les lignes.

  • 00:20:00 Dans cette section, le conférencier aborde la représentation des plans en trois dimensions à l'aide d'équations linéaires à trois inconnues. Il explique qu'il n'y a en fait que trois degrés de liberté, au lieu de quatre, en raison d'un facteur d'échelle. Cette dualité signifie qu'il existe une correspondance entre plans et points en 3D, similaire à la correspondance entre lignes et points en 2D. L'enseignant introduit ensuite le problème de l'étalonnage des caméras en le comparant au problème de la multilatération en robotique, qui consiste à croiser trois sphères.

  • 00:25:00 Dans cette section, l'orateur explique comment résoudre le point d'intersection de deux sphères dans l'espace 3D. La première sphère est définie comme ayant une équation avec des termes du second ordre, ce qui pourrait aboutir à jusqu'à huit solutions possibles. Cependant, en soustrayant cette équation d'une seconde sphère, une équation linéaire peut être obtenue à la place. En répétant ce processus pour toutes les paires de sphères, trois équations linéaires peuvent être créées, avec trois inconnues qui peuvent ensuite être résolues. Bien que cela semble être une solution parfaite, il est important de noter que la matrice créée par cette méthode est souvent singulière, et donc non unique dans sa solution.

  • 00:30:00 Dans cette section, l'orateur aborde le problème de la manipulation des équations et de la perte d'informations importantes dans le processus. Il explique que même s'il est parfaitement acceptable de dériver de nouvelles équations, il faut veiller à ne pas jeter les équations d'origine car elles peuvent encore contenir des informations cruciales nécessaires pour résoudre le problème. Il le démontre en utilisant l'exemple des équations linéaires et quadratiques, et comment certaines équations peuvent être jetées alors que d'autres doivent être conservées afin d'obtenir le nombre de solutions souhaité. L'orateur souligne également l'importance de comprendre la géométrie derrière les équations, car elle peut fournir des informations précieuses qui peuvent ne pas être immédiatement évidentes uniquement à partir de l'algèbre.

  • 00:35:00 Dans cette section de la transcription, l'orateur discute de la triangulation et de la façon de trouver le centre de projection et le point principal dans l'étalonnage de l'image. Ils expliquent que le centre de projection peut être trouvé à l'aide de trois points connus qui donnent trois plans, et que le centre peut être trouvé à leur intersection. Pour trouver le point principal, ils déposent la perpendiculaire du centre de projection dans le plan image. Ils discutent également des points de fuite qui peuvent être utilisés pour détecter si une image a été modifiée ou recadrée.

  • 00:40:00 Dans cette section, le conférencier discute de l'utilisation des points de fuite en photogrammétrie et en calibrage d'appareil photo. Il explique comment les points de fuite peuvent être utilisés pour déterminer l'authenticité des images et explore les divers canulars liés à l'exploration. Il plonge ensuite dans les mathématiques pour trouver la troisième composante d'un vecteur et résoudre une équation quadratique pour déterminer la distance focale. Il poursuit en expliquant un cas particulier où la distance focale peut être déterminée sans qu'il soit nécessaire de résoudre une équation quadratique. La vidéo fait partie d'une série de conférences sur les aspects techniques de la vision par ordinateur.

  • 00:45:00 Dans cette section, l'orateur discute de l'application des points de fuite dans l'étalonnage de la caméra spécifiquement pour déterminer l'orientation d'une caméra par rapport à un système de coordonnées mondial. L'orateur explique qu'en identifiant des caractéristiques telles que les marquages de bordure et de route dans l'image, qui sont supposés parallèles, ils peuvent produire un point de fuite qui peut être reconnu dans l'image. L'orateur explique également que dans le cas idéal où les trois points de fuite sont disponibles, les bords de l'objet rectangulaire capturé par la caméra peuvent être utilisés pour définir les axes x et y et ensuite déterminer la rotation entre le système de coordonnées de la caméra et le système de coordonnées mondial.

  • 00:50:00 Dans cette section, l'orateur explique le processus de recherche des vecteurs unitaires dans le système de coordonnées de l'objet mesuré dans le système de coordonnées de la caméra. Les vecteurs unitaires doivent être perpendiculaires les uns aux autres et sont ensuite utilisés pour calculer les TCC et FOR MontiVision Demos. La matrice de transformation représente l'orientation d'un système de coordonnées par rapport à l'autre, et l'orateur dit qu'il en fera davantage à l'avenir.

  • 00:55:00 Dans cette section, le conférencier discute du concept d'une matrice normale, où les lignes sont perpendiculaires les unes aux autres et la magnitude de chaque ligne est un. Le but est de représenter la rotation dans une matrice orthonormée. En déterminant la direction des axes de coordonnées dans l'objet, il est relativement facile d'aller et venir entre deux systèmes de coordonnées, ce qui est particulièrement utile pour l'étalonnage de la caméra. Enfin, la conférence aborde le concept de luminosité, où la luminosité observée dépend de la surface du matériau, de la source lumineuse, des angles incident et émergent et des angles d'azimut.

  • 01:00:00 Dans cette section de la vidéo, le conférencier discute du concept d'éclairage et de la manière dont il affecte la luminosité apparente des surfaces. Ils expliquent que la puissance qu'une surface reçoit d'une source lumineuse est affectée par l'angle auquel la surface est inclinée par rapport à la direction de la source lumineuse, qui peut être calculé à l'aide du cosinus de l'angle. L'orateur introduit ensuite l'idée d'une surface mate, qui réfléchit la lumière dans différentes directions mais a la propriété spéciale d'apparaître de manière égale dans n'importe quelle direction. Ils discutent ensuite de la façon de déterminer l'orientation d'une telle surface en mesurant sa luminosité avec deux positions de source lumineuse différentes.

  • 01:05:00 Dans cette section, l'orateur discute de la non-linéarité impliquée dans la résolution de n, qui est un vecteur unitaire. En utilisant des mesures de luminosité, le cosinus thêta i peut être estimé, et le cône des directions possibles de la normale à la surface peut être déterminé. Si deux mesures distinctes sont prises, deux cônes de directions sont créés, et seule l'intersection de ces cônes, constituée de deux directions possibles, donne une direction normale. Cependant, la contrainte selon laquelle il doit s'agir d'une normale unitaire signifie que ces deux directions possibles doivent maintenant être intersectées par une sphère unitaire pour effectuer une détermination finale. L'orateur explique qu'en utilisant l'albédo, qui définit la réflectivité d'une surface, un problème d'équation linéaire peut être créé pour déterminer la luminosité de quelque chose dans le plan de l'image. La valeur de l'albédo varie de zéro à un et indique la quantité d'énergie entrant dans un objet qui est réfléchie par rapport à la quantité absorbée et perdue.

  • 01:10:00 Dans cette section, la conférence traite de l'utilisation du point de fuite (VP) dans l'étalonnage de l'appareil photo. La conférence présente un vecteur à trois qui encapsule les inconnues et résout l'albédo et le vecteur unitaire par la multiplication matricielle du vecteur avec les positions de la source lumineuse. Cependant, cette méthode est limitée lorsque les sources lumineuses sont coplanaires, c'est-à-dire qu'elles sont dans le même plan, ou si deux lignes de la matrice sont identiques, auquel cas il est impossible d'inverser la matrice. La conférence note également les implications de ces contraintes pour les astronomes, car ils doivent s'assurer que les sources lumineuses ne sont pas dans le même plan.

  • 01:15:00 Dans cette section, l'orateur discute d'une méthode simple pour mesurer la luminosité à l'aide de trois directions de source lumineuse indépendantes, qui peuvent être pré-calculées et mises en œuvre efficacement. Il est suggéré que l'exploitation des trois ensembles de capteurs dans une caméra (RVB) peut être utile à cette fin. Une table de recherche peut être construite pour calibrer les surfaces en fonction de la forme connue d'une sphère et son orientation de surface peut être calculée pour mesurer la luminosité dans trois images. Cependant, les surfaces réelles ne suivent pas cette règle simple et une table de consultation peut être utilisée pour inverser les valeurs numériques de l'orientation de la surface. Enfin, l'orateur aborde la projection orthographique comme alternative à la projection perspective.

  • 01:20:00 Dans cette section, l'intervenant explique les conditions nécessaires à l'utilisation de la projection orthographique dans la reconstruction de surfaces à partir d'images. Il partage que l'hypothèse est basée sur le fait que la plage de profondeur est très petite par rapport à la profondeur elle-même, ce qui permet le grossissement constant requis pour cette projection. La projection orthographique est utilisée pour simplifier le processus de reconstruction de surfaces à partir d'images.
 

Cours 6: Stéréo photométrique, gain de bruit, amplification d'erreur, revue des valeurs propres et des vecteurs propres



Cours 6: Stéréo photométrique, gain de bruit, amplification d'erreur, revue des valeurs propres et des vecteurs propres

Tout au long de la conférence, l'orateur explique les concepts de gain de bruit, de valeurs propres et de vecteurs propres lors de la résolution de systèmes d'équations linéaires en stéréo photométrique. La conférence traite des conditions des matrices singulières, de la pertinence des valeurs propres dans l'analyse des erreurs et de l'importance de l'indépendance linéaire pour éviter les matrices singulières. La conférence se termine par une discussion sur la loi de Lambert et l'orientation des surfaces, et met en évidence la nécessité de représenter les surfaces à l'aide d'un vecteur normal unitaire ou de points sur une sphère unitaire. Dans l'ensemble, la conférence donne un aperçu des principes mathématiques sous-jacents à la stéréophotométrie et met en évidence les défis de la récupération précise de la topographie de la lune à partir des mesures terrestres.

Dans la conférence 6 d'un cours de photographie informatique, l'orateur explique comment utiliser le vecteur normal unitaire et les gradients d'une surface pour trouver l'orientation de la surface et tracer la luminosité en fonction de l'orientation de la surface. Ils expliquent comment utiliser la paramétrisation pq pour cartographier les orientations de surface possibles et montrent comment un plan incliné peut être utilisé pour tracer la luminosité à différents angles d'orientation. L'orateur explique également comment réécrire le produit scalaire du vecteur unitaire de la source lumineuse et du vecteur normal unitaire en termes de gradients pour trouver les courbes dans l'espace pq où cette quantité est constante. La conférence se termine par une explication de la façon dont les cônes créés en faisant tourner la ligne vers la source lumineuse peuvent être utilisés pour trouver des sections coniques de différentes formes.

  • 00:00:00 Dans cette section de la vidéo, le conférencier discute du gain de bruit dans le cas 1D, où il y a une inconnue et une mesure, et explique que si la courbe a une faible pente, une petite erreur peut être amplifiée en une grande zone. Passant au cas 2D, la discussion passe aux vecteurs propres et aux valeurs propres, qui sont caractéristiques d'une matrice et indiquent si le vecteur obtenu en multipliant la matrice pointe dans la même direction que le vecteur qui a été utilisé pour multiplier la matrice. Le conférencier fournit des détails sur la façon de trouver ces vecteurs et leur nombre, indiquant que la taille et l'échelle des vecteurs n'ont pas d'importance et qu'il peut y avoir plus d'un vecteur propre.

  • 00:05:00 Dans cette section, l'orateur discute du concept de matrice singulière et de sa pertinence dans la résolution de systèmes d'équations linéaires. Une matrice singulière est une matrice dont le déterminant est nul. Pour une matrice symétrique réelle n-par-n, le déterminant est un polynôme d'ordre n en lambda, avec n racines. Cela signifie que dans le cas d'un ensemble homogène d'équations, il existe plusieurs solutions, plutôt qu'une solution unique, si le déterminant est nul. Ceci est important lorsqu'il s'agit de problèmes multidimensionnels tels que la récupération de souris optique, où l'erreur dans certaines directions peut être différente des autres directions. Ainsi, une image plus nuancée est nécessaire au-delà de la simple identification d'un petit déterminant comme problématique.

  • 00:10:00 Dans cette section du cours, l'orateur discute des équations homogènes et de leurs propriétés intéressantes, y compris la condition pour qu'un ensemble d'équations homogènes ait une solution non triviale. Le déterminant de la matrice est également discuté, ainsi que les valeurs propres et les vecteurs propres. Les vecteurs propres seront des directions spéciales dans lesquelles la propriété des valeurs propres est vraie, et ils seront orthogonaux. Les valeurs propres détermineront dans quelle mesure l'erreur sera amplifiée, ce qui est important pour mesurer l'erreur dans la pratique. Bien que la recherche de valeurs propres et de vecteurs propres pour de grandes matrices soit souvent effectuée à l'aide d'un logiciel, il est utile de comprendre le processus à un niveau de base.

  • 00:15:00 Dans cette section, l'orateur discute des vecteurs propres et des valeurs propres dans la résolution d'équations homogènes pour un cas 2x2. Pour trouver des vecteurs propres, l'orateur montre que les solutions doivent être perpendiculaires aux lignes de la matrice. Le résultat donne quatre vecteurs propres pointant dans la même direction pour différentes valeurs de lambda, et ils peuvent être normalisés pour obtenir des vecteurs propres unitaires. La technique peut être étendue à une matrice n par n, qui fournit n vecteurs propres et les valeurs propres correspondantes pour discuter de l'amplification des erreurs.

  • 00:20:00 Dans cette section, le conférencier explique comment étendre la notation du produit scalaire aux matrices et montre que si les valeurs propres sont toutes différentes, alors tous les vecteurs propres sont orthogonaux. Il mentionne également que si certaines des racines sont identiques, cela ne force pas les vecteurs propres à être orthogonaux, mais il peut sélectionner deux vecteurs propres parmi tous les vecteurs propres possibles qui sont orthogonaux les uns aux autres. Cela aide à construire une base pour l'espace vectoriel. Le conférencier explique également comment considérer les vecteurs comme des vecteurs colonnes ou des matrices fines et montre comment le produit scalaire peut être écrit dans les deux sens.

  • 00:25:00 Dans cette section, le conférencier discute des vecteurs propres et de la manière dont ils peuvent être utilisés pour réexprimer n'importe quel vecteur en fonction de ceux-ci. En prenant une mesure de vecteur arbitraire et en multipliant la matrice par cette mesure pour obtenir des variables inconnues, différentes composantes peuvent être agrandies de différentes quantités le long des directions spéciales des vecteurs propres. C'est ce qu'on appelle le gain d'erreur. Cependant, ils traitent également de problèmes inverses où la matrice inverse est utilisée, et le conférencier introduit donc le produit dyadique de n vecteurs pour appliquer l'idée.

  • 00:30:00 Dans cette section, l'orateur parle des vecteurs propres et des valeurs propres, et comment ils peuvent être utilisés pour réécrire une matrice de différentes manières. Ils expliquent que ces termes sont tous dépendants, mais que les vecteurs propres eux-mêmes ne le sont pas, ils peuvent donc être factorisés. Ils expliquent ensuite comment cette approche peut être utilisée pour vérifier les propriétés des valeurs propres et pourquoi cela est important pour résoudre un problème de vision. Plus précisément, ils expliquent que la matrice utilisée pour résoudre ce problème multiplie souvent les composantes du signal par 1 sur lambda i, donc si lambda i est petit, cela peut créer un problème mal posé qui n'est pas stable.

  • 00:35:00 Dans cette section, le conférencier discute des vecteurs propres et des valeurs propres dans le contexte de l'analyse des erreurs. Il explique que si l'un des vecteurs propres a une petite valeur propre, même une petite erreur de mesure peut entraîner un grand changement dans le résultat. La direction de l'isophote correspond au vecteur propre avec une petite valeur propre, ce qui rend difficile la détection d'un mouvement précis, alors que la direction du gradient est plus indulgente. Le conférencier aborde ensuite la stéréophotométrie, une technique permettant de récupérer l'orientation de la surface en prenant plusieurs photos d'un objet dans différentes conditions d'éclairage. Il explique que le paramètre albédo est utilisé pour décrire la quantité de lumière réfléchie par la surface et qu'il peut aider à limiter l'orientation de la surface.

  • 00:40:00 Dans cette section, le conférencier explique le processus d'utilisation de différentes sources lumineuses pour obtenir trois mesures afin qu'un problème avec trois inconnues et trois mesures puisse être introduit. Cela permet de lever l'ambiguïté de l'orientation de l'image en utilisant des méthodes de résolution d'équations linéaires, ce qui se traduit par un moyen simple et peu coûteux de calculer la solution. Le conférencier note que la recherche des deux solutions découle d'un quadratique, ce qui peut être évité en utilisant la notation du produit scalaire pour convertir le vecteur unitaire en un vecteur 3 arbitraire. De plus, la vidéo mentionne l'importance des lignes linéairement indépendantes pour éviter les matrices singulières.

  • 00:45:00 Dans cette section de la conférence, la stéréo photométrie, l'amplification des erreurs, les valeurs propres et les vecteurs propres sont abordés. La redondance des mesures lorsque la somme des sources de lumière est nulle est explorée, et il est montré que si trois vecteurs dans un espace tridimensionnel sont coplanaires, alors la méthode échouera. Cependant, s'ils ne sont pas coplanaires et sont placés perpendiculairement l'un à l'autre, les résultats seront plus fiables. La conférence fait également référence à l'utilisation de la stéréophotométrie pour créer des cartes topographiques de la lune basées sur différentes illuminations du soleil.

  • 00:50:00 Dans cette section de la conférence, le professeur discute des défis d'essayer d'obtenir la topographie de la lune à partir de mesures terrestres. Bien qu'il soit possible de prendre des mesures à différentes positions sur l'orbite de la lune, cette méthode ne fonctionne pas car les vecteurs sont presque coplanaires. Le professeur parle également de l'hypothèse lambertienne, qui suppose qu'un objet a une réflectance parfaitement diffuse et uniforme, mais note que ce n'est pas le cas avec la surface de la lune. Cependant, cette hypothèse est utile pour comparer deux intensités d'éclairage, ce qui peut être obtenu en éclairant un côté avec une source et l'autre côté avec une autre source, puis en l'équilibrant de sorte que les deux côtés apparaissent également brillants lorsqu'ils sont regardés sous le même angle.

  • 00:55:00 Dans cette section de la conférence, le professeur discute des expériences menées par Lambert qui ont conduit à la découverte de la loi de Lambert, qui explique comment les surfaces réfléchissent la lumière lorsqu'elles sont éclairées sous différents angles. La loi stipule que la luminosité est proportionnelle au cosinus de l'angle d'incidence. La discussion met également en évidence la nécessité de parler de l'orientation de la surface et de la manière dont elle peut être représentée à l'aide d'un vecteur normal unitaire ou par des points sur une sphère unitaire. Le professeur mentionne que ce modèle phénoménologique est un comportement postulé et non une représentation exacte de surfaces réelles. La section se termine par l'introduction d'un développement en série de Taylor.
  • 01:00:00 Dans cette section de la vidéo, l'orateur discute de la relation entre la notation normale d'unité et la notation de gradient dans les problèmes de calcul. Ils expliquent comment basculer entre les deux notations et donnent des exemples de la façon dont cela est utile pour résoudre des problèmes dans différents domaines, tels que les coordonnées cartésiennes et les coordonnées polaires. L'orateur montre également comment trouver des tangentes dans une surface et explique comment utiliser la direction de ces tangentes pour trouver la relation entre la normale unitaire et p et q, qui représentent les gradients sur la surface.

  • 01:05:00 Dans cette section, le conférencier explique comment cartographier toutes les orientations de surface possibles à l'aide du vecteur normal unitaire de la surface, et comment cette information est utile pour la vision artificielle. Le produit croisé de deux vecteurs tangents situés dans la surface donne la direction du vecteur normal unitaire, qui peut ensuite être normalisé pour obtenir la direction de la surface. En projetant les orientations de surface dans un plan 2D à l'aide de la paramétrisation pq, on peut visualiser toutes les orientations de surface possibles. Les points sur ce plan correspondent à différentes valeurs p et q et donc à différentes orientations de surface, y compris le sol et toute surface au-dessus du sol avec la même orientation. Le conférencier note que bien que la vision artificielle puisse récupérer l'orientation de la surface, assembler ces orientations pour faire une surface complète est un problème distinct, mais surdéterminé.

  • 01:10:00 Dans cette section de la vidéo, l'orateur explique comment un plan incliné peut être utilisé comme outil pour tracer la luminosité en fonction de l'orientation de la surface en vision industrielle. Chaque point sur le plan correspond à une orientation de surface particulière, et les valeurs de luminosité peuvent être déterminées expérimentalement à partir d'un patch de matériau à différents angles d'orientation. Cependant, une seule mesure de luminosité ne peut pas récupérer deux inconnues, et plusieurs mesures sont nécessaires pour déterminer l'orientation de l'élément de surface. Ce concept est ensuite lié à la stéréophotométrie et à la surface lambertienne, où la luminosité est proportionnelle au cosinus de l'angle d'incidence, et les isophotes sont recherchés dans le plan de la pente.

  • 01:15:00 Ici, il discute de la réécriture de la direction de la source lumineuse d'une manière différente pour effectuer entièrement la même transformation sur le vecteur unitaire que sur n. Cela introduit un point où les rayons lumineux incidents sont parallèles à la surface normale, appelé psqs, qui est dans le plan et donne la surface la plus brillante pour la Lamborghini. En réécrivant les n points s sous une forme spécifique, ils peuvent déterminer les courbes dans l'espace pq où cette quantité est constante. Après avoir tout multiplié, il leur reste une équation du second ordre en p et q, qui correspond à une section conique. Les exemples donnés sont la parabole et l'ellipse.

  • 01:20:00 Dans cette section, l'orateur discute d'un diagramme qui peut être utilisé pour les graphiques, où une surface est tracée avec un diagramme qui contient un ensemble d'isofoads pour divers types de surfaces, y compris des paraboles, des ellipses, des cercles, des lignes , des points et des hyperboles. La luminosité de la surface est lue sur le diagramme et utilisée comme niveau de gris ou couleur dans l'image tracée. La normale unitaire peut être obtenue à partir de la surface et utilisée pour déterminer le point sur les isocharges. Le diagramme change lorsque la source lumineuse est déplacée, il est donc important de déterminer le point d'intersection de deux ensembles d'isocharges pour obtenir une solution unique. Trois sources lumineuses sont utilisées au lieu de deux, car le fait d'avoir deux sources lumineuses peut entraîner des solutions finies au lieu d'une solution unique.

  • 01:25:00 Dans cette section, l'orateur explique comment la ligne vers la source lumineuse peut être tournée pour créer des cônes et des angles différents, créant des cônes imbriqués. Ces cônes peuvent être coupés par un plan, ce qui donne des sections coniques qui ne sont pas toujours des ellipses, mais aussi des hyperboles et même des paraboles. L'orateur précise également que le cosinus thêta ne peut pas être négatif dans la pratique et laisse la question de savoir où la courbe passe d'une courbe fermée à une courbe ouverte comme un casse-tête pour les futurs problèmes de devoirs. La conférence se termine par un rappel de s'inscrire sur Piazza pour les mises à jour des devoirs et des annonces.
 

Cours 7: Espace dégradé, carte de réflectance, équation d'irradiance d'image, projection gnomonique



Cours 7: Espace dégradé, carte de réflectance, équation d'irradiance d'image, projection gnomonique

Cette conférence traite de l'espace de gradient, des cartes de réflectance et des équations d'éclairement d'image. Le conférencier explique comment utiliser une carte de réflectance pour déterminer l'orientation et la luminosité de la surface pour les applications graphiques, et comment créer une cartographie numérique de l'orientation de la surface à la luminosité à l'aide de trois photos prises dans des conditions d'éclairage différentes. Ils introduisent également le concept d'irradiance et sa relation avec l'intensité et la radiance, ainsi que l'importance d'utiliser une ouverture finie lors de la mesure de la luminosité. De plus, la conférence aborde les trois règles du comportement de la lumière après avoir traversé une lentille, le concept de raccourcissement et la façon dont la lentille focalise les rayons pour déterminer la quantité de lumière d'un patch sur la surface qui est concentrée dans l'image.

Dans cette conférence, le conférencier explique l'équation permettant de déterminer la puissance totale délivrée à une petite zone d'une image, qui tient compte des angles solides et du cosinus thêta. Ils relient cette équation au f-stop des appareils photo et à la façon dont la taille de l'ouverture contrôle la quantité de lumière reçue. L'orateur discute également de l'éclairement de l'image, qui est proportionnel à l'éclat des objets dans le monde réel, et de la façon dont la luminosité diminue lorsque nous nous déportons de l'axe. Ils discutent ensuite de la fonction de distribution de réflectance bidirectionnelle, qui détermine la luminosité d'une surface en fonction de la direction incidente et émise. Le conférencier explique que la réflectance peut être mesurée à l'aide d'un goniomètre et qu'il est important de modéliser de manière réaliste la façon dont un objet réfléchit la lumière. Ils expliquent également le concept de la réciprocité de Helmholtz pour la fonction de distribution de réflectance bidirectionnelle. La conférence passe ensuite à la discussion de l'application de l'espace de gradient aux modèles de matériaux de surface et rappelle aux étudiants de se tenir au courant des informations sur les devoirs.

  • 00:00:00 Dans cette section, le concept d'espace dégradé est introduit pour explorer ce qui détermine la luminosité d'une image. La luminosité dépend généralement de l'éclairage et de la géométrie, comme l'orientation de la surface, ce qui rend nécessaire de mentionner l'orientation du patch de surface pour déterminer la luminosité. Mention est également faite des normales unitaires, et p et q, qui ne sont que des raccourcis pratiques pour les pentes de l'image. La brillance d'une surface lambertienne est discutable, selon l'orientation de la surface considérée. De nombreuses surfaces mates sont des approximations d'une surface lambertienne, et de telles approximations peuvent sembler pratiques. Cependant, la plupart des situations cosmiques et microscopiques ne sont pas appropriées pour de telles approximations.

  • 00:05:00 Dans cette section de la conférence, l'orateur discute du concept de la carte de réflectance, un diagramme qui montre à quel point une surface est censée être brillante en fonction de son orientation. Ce diagramme peut être utilisé pour déterminer l'orientation et la luminosité de la surface pour les applications graphiques. L'orateur explique ensuite comment ce concept peut être étendu à des surfaces non lambertiennes et comment construire une table de correspondance pour déterminer la luminosité en fonction de l'orientation de la surface. Des informations et des contraintes supplémentaires peuvent être utilisées pour affiner davantage l'estimation de l'orientation de la surface.

  • 00:10:00 Dans cette section, le conférencier explique comment utiliser un objet de calibrage, tel qu'une sphère, pour le calibrage d'image. En prenant une image d'une sphère éclairée de tous les côtés et en y ajustant un cercle, on peut estimer le centre et le rayon de l'image. Pour les sphères, il existe une relation pratique où un point à la surface et un vecteur unitaire sont parallèles, ce qui facilite la détermination de l'orientation de la surface. Cette méthode peut également être utilisée pour la Terre, avec quelques modifications dans la définition de la latitude. En calculant p et q à l'aide de la formule du cours précédent, on peut déterminer n et l'orientation de la surface pour chaque point de l'image.

  • 00:15:00 Dans cette section, la conférence traite du processus de construction d'une cartographie numérique de l'orientation de la surface à la luminosité dans trois images prises dans différentes conditions d'éclairage. L'objectif est d'utiliser ces informations pour calculer l'orientation de la surface lors de la prise ultérieure de trois images d'un objet dans les mêmes conditions d'éclairage. L'enseignant explique la mise en œuvre de ce processus, qui consiste à créer un tableau tridimensionnel dans l'ordinateur où chaque case a des valeurs p et q. Les images sont ensuite quantifiées à des intervalles discrets et utilisées pour mettre des informations dans le tableau. La conférence aborde également des problèmes tels que les effets de quantification et les cellules vides qui peuvent ne jamais être remplies.

  • 00:20:00 Dans cette section, l'orateur explique l'espace dégradé, qui est un espace 2D mappé dans un espace 3D sans réellement remplir cet espace. Au lieu de cela, une surface est formée dans cet espace, et nous pouvons adresser des points sur cette surface en utilisant p et q. Lorsque nous passons de deux images à trois, nous introduisons le facteur d'albédo, qui évolue linéairement avec e1 e2 e3. Les objets d'étalonnage sont peints en blanc et des mesures sont effectuées, générant des définitions de la surface pour un rho égal à un. Cependant, pour les autres lignes, nous pouvons remplir les cubes et générer d'autres surfaces. La table de consultation dans laquelle les entrées sont placées comprend p qand row, une table de consultation 3D à 3D. Si quelque chose ne va pas, cela se traduit par une autre valeur que celle de l'albédo rhô, indiquant une erreur ou un blocage inattendu de l'une des trois sources lumineuses. La méthode aide à reconnaître la projection d'ombres ou, pour les surfaces réfléchissantes trop proches ou placées comme dans des formes de beignet qui se chevauchent, à segmenter et à décomposer l'image en parties.

  • 00:25:00 Dans cette section de la conférence, l'orateur discute des moyens de segmenter les ombres projetées et les zones de réflexion élevée à l'aide de l'espace de gradient et des cartes de réflectance. Il existe une manière méthodique de remplir les valeurs du tableau avec les valeurs de voxel correspondantes. L'orateur introduit également le concept d'irradiance, qui est la puissance par unité de surface d'une source lumineuse frappant une surface. Cette notion n'est pas très utile dans le cadre du traitement d'images, car on n'expose pas directement le capteur à l'éclairement. L'orateur explique qu'il existe une terminologie pour la quantité de puissance émise divisée par surface, mais qu'elle est inutile pour le traitement d'images.

  • 00:30:00 Dans cette section, l'orateur explique le concept d'intensité et sa signification en termes de mesure de la quantité de rayonnement allant dans une certaine direction à l'aide d'une source ponctuelle. L'angle solide est défini pour normaliser la mesure, et ses unités sont mesurées en stéradians, ce qui est similaire aux radians en 2D mais projeté dans trois espaces. L'angle solide permet la mesure d'un ensemble de directions dans n'importe quelle forme, où les directions possibles autour du haut-parleur sont égales à quatre pi stéradians. De plus, l'orateur évoque l'importance de tenir compte des cas où la surface est inclinée par rapport au centre de la sphère en raison du phénomène de raccourcissement de l'objet, comme lorsque l'objectif d'un appareil photo est incliné par rapport à un sujet décentré.

  • 00:35:00 Dans cette section de la vidéo, les concepts d'intensité et d'éclat sont expliqués. L'intensité est définie comme la puissance pour un angle solide, tandis que la luminance est la puissance par unité de surface par unité d'angle solide. La radiance est la quantité la plus utile lorsqu'il s'agit de mesurer ce qui atteint un observateur ou une caméra depuis une surface. Dans le plan de l'image, la luminosité est mesurée en tant qu'irradiance, qui est la luminosité que nous mesurons en termes de luminance de la surface.

  • 00:40:00 Dans cette section, le conférencier discute de la relation entre la mesure de l'énergie et de la puissance, et comment elles sont proportionnelles l'une à l'autre. Il parle également de l'importance d'utiliser une ouverture finie lors de la mesure de la luminosité et des problèmes qui surviennent lors de l'utilisation du modèle à sténopé. Le conférencier présente la lentille mince idéale et ses trois règles, y compris le rayon central non dévié et le rayon du centre focal émergeant parallèlement à l'axe optique. Il explique comment les lentilles fournissent la même projection que le sténopé tout en donnant un nombre fini de photons, et la pénalité pour les utiliser à une certaine distance focale et distance.

  • 00:45:00 Dans cette section, la vidéo explique les trois règles de comportement de la lumière après avoir traversé une lentille. La règle numéro un affirme que tout rayon provenant du centre focal, après avoir traversé la lentille, sera parallèle à l'axe optique. La règle numéro deux stipule qu'un réseau parallèle à partir de la droite passera par le centre focal. Enfin, la règle numéro trois est une combinaison des deux premières règles. La vidéo utilise des triangles similaires pour dériver la formule de l'objectif, qui permet de déterminer la mise au point et la longueur de l'objectif. Bien que les objectifs soient des ordinateurs analogiques impressionnants qui peuvent rediriger les rayons de lumière, ils ne peuvent pas réaliser une redirection parfaite en raison des limites physiques de l'objectif.

  • 00:50:00 Dans cette section, la vidéo explique comment les lentilles traitent les rayons provenant de différentes directions et comment les compromis existent entre différents types de défauts, tels que la distorsion radiale. La vidéo explique également le concept d'irradiance et de radiance de l'objet, et comment un schéma d'un système d'imagerie simple peut être utilisé pour déterminer la quantité d'énergie provenant d'un patch d'objet et la quantité qui se retrouve dans un patch d'image par illumination. De plus, la vidéo note l'hypothèse selon laquelle des plans d'image plats et des objectifs sont utilisés dans les caméras.

  • 00:55:00 Dans cette section de la conférence, l'orateur explique comment relier l'effet de raccourcissement du vecteur unitaire sur la surface d'un objet à la lumière incidente sur le capteur d'image. Il écrit une formule pour l'angle solide et prend en compte l'effet de raccourcissement en multipliant par le cosinus alpha et en divisant par f sécante alpha au carré. Il relie ensuite l'irradiance dans l'image à l'énergie totale provenant de ce patch et de la zone delta i. Enfin, il explique comment l'objectif focalise les rayons et comment l'angle solide qu'occupe l'objectif lorsqu'il est vu de l'objet détermine la quantité de lumière de cette tache sur la surface qui est concentrée dans l'image.
  • 01:00:00 Dans cette section de la conférence, l'orateur explique l'équation de la puissance totale délivrée à une petite zone d'une image, qui prend en compte l'angle solide et le cosinus thêta. La puissance par unité de surface est ensuite trouvée en divisant la puissance totale par la surface, qui est ce qui est réellement mesuré. L'orateur relie également cette équation au f-stop des appareils photo, qui détermine l'ouverture de l'ouverture et contrôle donc la quantité de lumière reçue. La taille de l'ouverture est généralement mesurée par pas de racine carrée de 2, et l'irradiance de l'image va en sens inverse du carré du f-stop.

  • 01:05:00 Dans cette section, l'orateur explique comment l'éclairement de l'image, qui est la luminosité de l'image, est proportionnel à l'éclat des objets dans le monde réel. La luminosité de la radiance de la surface est proportionnelle à la luminosité de l'irradiance de l'image, ce qui nous permet de mesurer facilement la luminosité de l'image. Cependant, la luminosité diminue au fur et à mesure que l'on s'éloigne de l'axe, représenté par le cosinus du quatrième alpha, ce qui doit être pris en compte lors de l'utilisation d'un objectif grand angle. Bien que cet effet soit peu perceptible, il peut être compensé dans la chaîne de traitement des images. Cette formule justifie l'idée de mesurer la luminosité à l'aide de niveaux de gris dans l'image et montre que cela a quelque chose à voir avec ce qui se trouve dans le monde réel.

  • 01:10:00 Dans cette section, le conférencier explique le concept de fonction de distribution de réflectance bidirectionnelle, qui détermine la luminosité d'une surface en fonction de la direction incidente et émise. Le conférencier révèle que le rapport de réflectance n'est pas aussi simple que de dire que le blanc reflète toute la lumière entrante et que le noir n'en reflète aucune. Le conférencier a également discuté de l'utilisation habituelle des angles polaires et d'azimut pour spécifier la direction de la lumière entrante ou sortante. La fonction de distribution de réflectance bidirectionnelle est essentielle pour déterminer la réflectance, et elle mesure la puissance sortante divisée par la puissance entrante.

  • 01:15:00 Dans cette section de la conférence, l'orateur discute de la réflectance, qui est définie comme la luminosité d'un objet lorsqu'il est vu d'une position spécifique divisée par la quantité d'énergie injectée depuis la direction de la source. Le conférencier explique que la réflectance peut être mesurée à l'aide d'un goniomètre, qui est un appareil de mesure d'angle qui permet d'explorer un espace à quatre dimensions. L'orateur note que de nombreuses surfaces ne nécessitent que la différence entre deux angles pour mesurer avec précision la réflectance, ce qui simplifie le processus pour certains objets. Il est important de modéliser de manière réaliste la façon dont un objet réfléchit la lumière, et la mesure de la réflectance permet cette modélisation réaliste plutôt que de simplement se rapprocher d'un modèle bien connu.

  • 01:20:00 Dans cette section, le professeur discute des matériaux qui nécessitent le modèle quadridimensionnel complet pour calculer leur apparence, tels que les objets irisés avec des microstructures qui produisent de la couleur par interférence, et les pierres semi-précieuses comme les yeux de tigre, qui ont étroitement microstructures entassées à l'échelle de la longueur d'onde de la lumière. Le professeur introduit également le concept de réciprocité de Helmholtz pour la fonction de distribution de réflectance bidirectionnelle, qui stipule que si vous échangez la lumière incidente et émise, vous devriez obtenir la même valeur, ce qui facilite la collecte de données.

  • 01:25:00 Dans cette section, l'orateur évoque une technique utilisée par un professeur lors d'un débat. L'orateur a d'abord pensé que le professeur soulignait son manque de connaissances en faisant référence à un livre en allemand, mais s'est rendu compte plus tard qu'il ne s'agissait que d'une technique de débat. La conférence passe ensuite à la discussion de l'application de l'espace de gradient aux modèles de matériaux de surface pour déterminer l'ombre de surface sur des objets tels que la lune et les planètes rocheuses de notre système solaire. L'orateur rappelle également aux étudiants de se tenir au courant de toute extension ou information importante concernant les devoirs via Piazza.
 

Cours 8 : Ombrage, cas particuliers, surface lunaire, microscope électronique à balayage, théorème de Green




Cours 8 : Ombrage, cas particuliers, surface lunaire, microscope électronique à balayage, théorème de Green

Dans cette conférence, le professeur aborde plusieurs sujets liés à la photométrie et à l'ombrage. Il explique la relation entre l'éclairement, l'intensité et le rayonnement et comment ils sont mesurés et liés. La conférence présente également la fonction de distribution de réflectance bidirectionnelle (BRDF) pour expliquer comment l'éclairage affecte l'orientation et le matériau d'une surface. Le conférencier discute en outre des propriétés d'une surface lambertienne idéale et de ses implications pour mesurer la lumière entrante et éviter toute confusion lorsqu'il s'agit de la réciprocité de Helmhotz. La conférence couvre également le processus de conversion du gradient en vecteur unitaire et son lien avec la position de la source lumineuse. Enfin, la conférence explique comment la mesure de la luminosité peut déterminer la pente ou la direction de la pente d'une surface.

La conférence couvre divers sujets liés à l'optique et à la vision par ordinateur. Le professeur discute de l'utilisation de la forme à partir de techniques d'ombrage pour obtenir un profil de la surface d'un objet afin de déterminer sa forme. Il passe ensuite à la discussion des lentilles et justifie l'utilisation de la projection orthographique. Le conférencier parle également de la suppression de la projection en perspective dans la vision artificielle en construisant des lentilles télécentriques et démontre diverses astuces pour compenser les aberrations dues à la variation de l'indice de réfraction du verre avec les longueurs d'onde. Enfin, l'orateur introduit le concept de projection orthographique, qui simplifie certains des problèmes liés à la projection perspective.

  • 00:00:00 Dans cette section, le conférencier passe en revue les concepts clés du cours précédent sur la photométrie. Il définit l'irradiance, l'intensité et le rayonnement et explique comment ils sont mesurés et liés. Il introduit ensuite la relation entre la luminance d'une surface et l'irradiance de la partie correspondante d'une image, qui peut être utilisée pour parler de luminosité à la fois dans le monde et à l'intérieur d'un appareil photo. Le conférencier explique comment cette relation est affectée par l'ouverture de l'objectif, qui limite l'angle solide et la surface de l'image.

  • 00:05:00 Dans cette section, l'accent est mis sur la détermination de l'éclat d'une surface par rapport à la quantité d'éclairage, de géométrie et de matériau. La fonction de distribution de réflectance bidirectionnelle (BRDF) est introduite pour expliquer comment l'éclairage affecte l'orientation et le matériau d'une surface. Le BRDF est une fonction de la direction incidente et de la direction émise de la lumière, qui peut être calculée en calculant la puissance de sortie totale divisée par la puissance d'entrée totale. De plus, le BRDF doit satisfaire une contrainte, dans laquelle il doit sortir le même si les directions vers la source et le spectateur sont échangées. Bien que certains modèles de réflectance de surface violent cette contrainte, elle n'est pas critique pour la vision humaine ou machine, ce qui en fait un raccourci pour réduire le nombre de mesures nécessaires à prendre.

  • 00:10:00 Dans cette section de la conférence, le professeur discute des propriétés d'une surface lambertienne idéale : elle apparaît également brillante dans toutes les directions d'observation, et s'il s'agit d'une surface lambertienne idéale, elle réfléchit également toute la lumière incidente. Le professeur explique que cela simplifie la formule puisqu'elle ne dépendra pas de deux des quatre paramètres. Il discute ensuite de la façon de traiter les sources distribuées comme les lumières dans une pièce et d'intégrer sur un hémisphère des directions incidentes. Le professeur explique que nous devons intégrer toutes les directions émises et comment calculer l'aire du patch en utilisant l'angle polaire et l'azimut. Enfin, il mentionne que le terme f est constant.

  • 00:15:00 Dans cette section, la conférence aborde le concept d'ombrage et la réflexion de la lumière sur une surface. La conférence souligne que la lumière tombant sur une surface dépend du rayonnement entrant et de l'angle d'incidence. On dit que toute la lumière est réfléchie et que la puissance déposée sur la surface est e cosinus thêta i fois l'aire de la surface. Par conséquent, lorsque la lumière réfléchie est intégrée, elle est égale à la lumière entrante. Le cours calcule la valeur constante de f pour la surface d'inversion et conclut que f vaut 1 sur pi pour la surface lambertienne. Il est noté que l'énergie réfléchie n'est pas rayonnée de manière égale dans toutes les directions, et il est expliqué comment le raccourcissement affecte la puissance émise par une surface.

  • 00:20:00 Dans cette section de la conférence, le professeur discute du concept d'une surface lambertienne, qui est une surface qui rayonne la lumière de manière égale dans toutes les directions. Cependant, lorsqu'il s'agit d'une surface grande et inclinée par rapport à la source lumineuse, la surface de l'élément de surface se rétrécit et, par conséquent, la puissance par unité de surface devient infinie. Pour éviter les dommages rétiniens, la surface rayonne moins dans certaines directions, mais la puissance par unité de surface reste constante. Cette condition signifie que la surface rayonne plus dans certaines zones et moins dans d'autres, ce qui donne un rapport de un sur pi au lieu de un sur 2 pi. La conférence explique ensuite comment utiliser ces connaissances pour mesurer la lumière entrante et éviter toute confusion lorsqu'il s'agit de la réciprocité de Helmhotz.

  • 00:25:00 Dans cette section, le conférencier introduit un type de surface qui est différent d'une surface lambertienne et qui est assez important dans de nombreuses applications. Ce type de surface est un sur la racine carrée du cosinus thêta i fois le cosinus thêta e, et il satisfait la réciprocité de Helmholtz. Le rayonnement de ce type de surface est affecté par le raccourcissement, et il est utilisé pour modéliser les surfaces des planètes lunaires et rocheuses ainsi que certains astéroïdes. La conférence explique comment déterminer les isophotes de cette surface, qui sont des cercles imbriqués dans l'espace 3D, mais sont projetés sous forme d'ellipses dans le plan image, donnant un aperçu des cartes de contour de luminosité.

  • 00:30:00 Dans cette section, l'orateur discute de la difficulté à trouver le moyen d'ombrager un certain matériau dans l'espace 3D. Ils expliquent que la méthode précédente utilisée dans un laboratoire ne fonctionnera pas pour ce matériau, donc une nouvelle approche est nécessaire. L'orateur démontre ensuite l'utilisation des normales unitaires pour trouver les valeurs constantes de tous les points de la surface, qui doivent être perpendiculaires à un vecteur fixe. Il montre ensuite que cela implique que tous les vecteurs unitaires sur la surface avec la même luminosité doivent se trouver dans un plan, révélant des informations utiles sur le matériau. Enfin, le locuteur utilise des coordonnées sphériques pour essayer de mieux comprendre.

  • 00:35:00 Dans cette section, le conférencier explique comment choisir un système de coordonnées lorsqu'il s'agit de l'ombrage de la surface lunaire, car avoir un bon système en place peut éviter un désordre algébrique. Ils recommandent d'utiliser un système de coordonnées où le soleil et la terre sont à z=0, simplifiant les calculs à une seule inconnue. La conférence aborde également brièvement l'apparence de la pleine lune, où le disque devrait être uniformément brillant, mais en raison de sa microstructure non lambertienne, il n'a pas l'air complètement sphérique. Le modèle Hakka est un bon modèle pour prédire ce type de comportement. Enfin, la conférence plonge dans la formule pour n points s sur n points v, pour finalement arriver à une version simplifiée utilisant des vecteurs de coordonnées sphériques.

  • 00:40:00 Dans cette section, le conférencier discute de la relation entre la luminosité et l'azimut de la surface lunaire. Ils expliquent que tous les points de la surface ayant la même luminosité ont le même azimut et que les lignes de longitude constante sont des isophodes. Ceci est très différent d'une surface lambertienne. Bien que la lune ait un albédo égal au charbon, elle apparaît très brillante dans le ciel en raison du manque d'objets de comparaison pour mesurer sa réflectance. Cependant, nous pouvons utiliser la stéréophotométrie pour déterminer l'orientation de la surface de la lune, et potentiellement même sa forme, en prenant plusieurs photos de la surface dans différentes conditions d'éclairage. Le modèle de Hopkin est utilisé pour décrire l'orientation de la surface en termes de gradient.

  • 00:45:00 Dans cette section, le conférencier discute du processus de conversion du gradient en vecteur unitaire et de son lien avec la position de la source lumineuse. Ils expliquent que la racine carrée est nécessaire pour assurer la satisfaction de Helmholtz, et en prenant le rapport de certains produits scalaires, on obtient une équation linéaire pour les isophotes qui peuvent être tracées dans l'espace pq. Le conférencier note que bien que ces lignes ne soient pas également espacées en raison de la racine carrée, elles sont parallèles et il y a une ligne où la luminosité est nulle, indiquant un virage à 90 degrés par rapport au rayonnement entrant. Dans l'ensemble, cette section couvre les concepts mathématiques qui sous-tendent le calcul des isophotes et la relation entre la position et la luminosité des sources lumineuses dans un espace donné.

  • 00:50:00 Dans cette section, le conférencier discute des avantages de l'ombrage linéaire en stéréo photométrique, qui permet de résoudre facilement divers problèmes. Avec deux conditions d'éclairage différentes, les deux équations linéaires se croisent et le point d'intersection est l'orientation de la surface. Le conférencier note qu'il n'y a pas d'ambiguïté avec l'ombrage lambertien, un problème avec la méthode précédente, où il y avait jusqu'à quatre solutions. Le conférencier démontre également que les premières dérivées spatiales tournent de la même manière que le système de coordonnées, ce qui est bénéfique pour déterminer l'orientation de la surface dans une direction particulière sans connaître l'orientation complète de la surface.

  • 00:55:00 Dans cette section, le conférencier explique comment la mesure de la luminosité peut déterminer la pente ou la direction de la pente d'une surface, permettant aux chercheurs de rassembler un profil d'une surface en mesurant la luminosité ou la réflectivité de points verticalement et horizontalement. Le processus nécessite une condition initiale pour démarrer, qui consiste à mesurer la luminosité de la surface et à trouver progressivement z. Cependant, la précision de la mesure peut être affectée par des variations de réflectivité et des imprécisions dans la mesure de la luminosité.

  • 01:00:00 Dans cette section, le professeur explique comment obtenir un profil de la surface d'un objet pour déterminer sa forme à l'aide de techniques d'ombrage. Il explique comment, en exécutant un profil sur un objet, il peut obtenir la forme du profil tant qu'il connaît la valeur initiale. Cependant, il ne peut pas obtenir la position verticale absolue du profil s'il ne connaît pas la valeur initiale. Il applique ensuite cette technique à la lune pour obtenir différents profils de la surface afin d'explorer la forme de l'objet. Le professeur parle également d'heuristiques pour assembler des surfaces 3D à partir des profils. Plus tard, il change de sujet pour parler des lentilles et justifie l'utilisation de la projection orthographique.

  • 01:05:00 Dans cette section, le conférencier explique comment les lentilles composées, composées de plusieurs éléments, compensent les aberrations grâce à des agencements soigneusement conçus. Il note que l'indice de réfraction du verre varie avec les longueurs d'onde, provoquant des aberrations chromatiques, mais des lentilles composées de différents matériaux peuvent compenser cela. Le conférencier explique comment des lentilles épaisses peuvent être approximées à l'aide de points nodaux et de plans principaux, et comment une astuce consistant à rendre t (épaisseur entre les points nodaux) négatif peut aboutir à un téléobjectif court. Cette technique peut réduire considérablement la longueur d'un téléobjectif tout en conservant sa longue distance focale et son petit champ de vision.

  • 01:10:00 Dans cette section, le conférencier démontre deux astuces pour supprimer la projection de perspective en vision artificielle. La première astuce consiste à déplacer l'un des nœuds à l'infini, ce qui réduit l'effet de grossissement variable avec la distance. En construisant un objectif télécentrique avec un centre de projection éloigné, le cône de directions devient plus parallèle et le grossissement reste constant quelle que soit la distance. La deuxième astuce consiste à déplacer l'autre nœud, ce qui modifie le grossissement lorsque le plan de l'image n'est pas exactement au bon endroit. Pour obtenir une image nette, l'objectif doit être mis au point en modifiant la distance focale du verre ou en déplaçant l'objectif par rapport au plan de l'image.

  • 01:15:00 Dans cette section de la conférence, l'orateur discute des problèmes liés au cosinus de la quatrième loi et au changement de grossissement lorsque le centre de projection n'est pas à plus l'infini. Il explique comment déplacer le point nodal vers l'extérieur et utiliser des lentilles télécentriques doubles peut éliminer ces problèmes, car cela amène le rayonnement à atteindre un capteur particulier perpendiculaire au capteur. De plus, l'orateur discute de la nécessité de petits couvercles d'objectif pour concentrer la lumière entrante dans une zone plus petite et éviter le crénelage, qui peut se produire lorsqu'il y a des composants à haute fréquence dans le signal. Enfin, l'orateur évoque la pertinence du filtrage passe-bas et l'importance de n'échantillonner que le double de la bande passante du signal pour le reconstituer parfaitement.

  • 01:20:00 Dans cette section, le conférencier explique comment le filtrage passe-bas avec moyenne par blocs peut réduire les problèmes de repliement lors de l'utilisation d'un réseau de lentilles pour mesurer la lumière d'une grande surface. Cette méthode fonctionne bien si la lumière arrive perpendiculairement au capteur, ce qui est obtenu en utilisant des lentilles télécentriques. Cependant, le cours explique ensuite que dans certains cas, comme lorsque les changements de profondeur dans une scène sont inférieurs à la profondeur elle-même, il est plus pratique d'utiliser la projection orthographique. Cela permet une relation linéaire entre x et y dans le monde et x et y dans l'image, permettant de mesurer les distances et les tailles des objets indépendamment de leur distance.

  • 01:25:00 Dans cette section, l'orateur introduit le concept de projection orthographique, qui est utile pour des applications pratiques avec des objectifs télécentriques et simplifie certains des problèmes qui seront discutés. Ils notent que si certains peuvent penser que cette méthode ne fonctionne que pour Lamborghini, elle fonctionne en fait pour tout, mais les équations deviennent compliquées pour les autres versions. L'orateur explique que le type de reconstruction qu'ils aborderont ensuite peut être fait sous projection perspective, mais c'est compliqué et peu perspicace. Cependant, en passant à la projection orthographique, bon nombre de ces problèmes deviennent plus clairs.
 

Cours 9: Forme à partir de l'ombrage, cas général - De la PDE non linéaire du premier ordre à cinq ODE



Cours 9: Forme à partir de l'ombrage, cas général - De la PDE non linéaire du premier ordre à cinq ODE

Cette conférence couvre le thème de la forme à partir de l'ombrage, une méthode pour interpréter les formes des objets en utilisant les variations de luminosité de l'image. Le conférencier explique le processus de microscopie électronique à balayage, où un collecteur d'électrons secondaire est utilisé pour mesurer la fraction d'un faisceau d'électrons entrant qui le fait reculer, permettant l'estimation de la pente de surface. Le cours traite également de l'utilisation des intégrales de contour, des moments et des moindres carrés pour estimer les dérivées de surface et trouver la plus petite surface en fonction du bruit de mesure. L'orateur dérive cinq équations différentielles ordinaires pour le problème de la forme à partir de l'ombrage et explique également le concept de l'opérateur laplacien, qui est utilisé dans les opérations de traitement d'image.

Dans cette conférence sur "Shape from Shading", l'orateur discute de diverses approches pour résoudre les équations de la solution des moindres carrés à la forme à partir de l'ombrage. Le conférencier explique différentes techniques pour satisfaire la condition laplacienne, ajuster les valeurs des pixels et reconstruire des surfaces à l'aide de mesures d'images et de calculs de pente à partir de différents points. La conférence couvre les sujets des valeurs initiales, de la transformation de la rotation et de la transformation inverse par moins thêta. Le conférencier conclut par une discussion sur la généralisation de ces équations pour des cartes de réflectance arbitraires et sur l'importance d'examiner des images au microscope électronique à balayage pour fournir des exemples concrets d'interprétation de l'ombrage.

  • 00:00:00 Dans cette section de la conférence, le professeur présente la forme à partir de l'ombrage, qui est la méthode de récupération des formes des objets à l'aide des mesures de luminosité de l'image. Il explique en quoi cette méthode diffère de la stéréophotométrie, qui nécessite plusieurs expositions. Le professeur discute également de différents types de matériaux de surface et de leurs propriétés réfléchissantes, y compris le hapke, un modèle de réflexion des planètes rocheuses, et un troisième modèle pour la microscopie. Il présente une comparaison entre les méthodes de microscopie électronique et explique pourquoi les microscopes électroniques à balayage produisent des images que les humains trouvent faciles à interpréter en raison de leurs variations spécifiques de luminosité, qui deviennent plus lumineuses à mesure que vous approchez des bords.

  • 00:05:00 Dans cette section, le conférencier discute de l'importance de l'ombrage dans les images, qui joue un rôle important dans l'interprétation de la forme des objets. Le conférencier présente des images d'une tête de papillon de nuit et d'une forme ovoïde semblable à un ballon de football qui présentent des variations de luminosité en fonction de l'orientation de leur surface, ce qui nous permet d'interpréter facilement leurs formes. Fait intéressant, malgré la surface non lambertienne de l'objet ressemblant à un ballon de football, les humains sont toujours capables d'interpréter sa forme avec précision. La conférence se penche ensuite sur le fonctionnement des microscopes électroniques à balayage, qui utilisent un faisceau d'électrons accélérés pour créer des images de la surface de l'objet.

  • 00:10:00 Dans cette section, le processus de création d'images ombrées à l'aide de la microscopie électronique à balayage est décrit. Des électrons à plusieurs kilo-électron-volts frappent un objet et certains rebondissent sous forme de rétrodiffusion, mais la plupart pénètrent et créent des électrons secondaires en perdant de l'énergie et en projetant des électrons sur des objets ionisants. Certains des électrons secondaires sortent de l'objet et sont rassemblés par une électrode pour balayer l'objet d'une manière raster. Le courant mesuré ici est ensuite utilisé pour moduler un faisceau lumineux dans un écran, qui peut être agrandi par déviation pour obtenir des milliers à des dizaines de milliers de grossissements, ce qui le rend plus puissant que la microscopie optique.

  • 00:15:00 Dans cette section de la conférence, l'orateur explique le processus de mesure de l'orientation d'une surface à l'aide d'un collecteur d'électrons secondaire. Le collecteur mesure la fraction du faisceau entrant qui le fait reculer, avec des surfaces fortement inclinées entraînant plus de courant en raison de la fuite de plus d'électrons secondaires. En traçant une carte de réflectance, luminosité en fonction de l'orientation, la pente de la surface peut être déterminée, mais pas son gradient, laissant deux inconnues et une contrainte. Ce problème est un exemple du problème de forme à partir de l'ombrage, où le but est d'estimer la forme de la surface à partir d'un motif de luminosité.

  • 00:20:00 Dans cette section de la conférence, l'orateur discute de l'utilisation d'une carte de réflectance pour déterminer la pente ou le gradient d'une surface. Ils expliquent que cette méthode peut être utilisée pour diverses surfaces et pas seulement pour certains types. La discussion couvre également les diagrammes d'aiguilles et comment ils peuvent être utilisés pour déterminer l'orientation et la forme de la surface. L'orateur explique que s'il s'agit d'un problème simple, il est surdéterminé car il y a plus de contraintes que d'inconnues. Cela permet une réduction du bruit et un meilleur résultat. Le cours se termine par une démonstration de l'intégration de p pour déterminer le changement de hauteur à partir de l'origine.

  • 00:25:00 Dans cette section, l'orateur explique comment intégrer les données connues pour estimer les hauteurs n'importe où le long de l'axe x ou de l'axe y, qui peuvent être combinées pour remplir toute la zone. Cependant, les valeurs p et q utilisées sont sujettes au bruit de mesure, ce qui signifie qu'il n'y a aucune garantie que la mesure de p et q de différentes manières conduira à la même réponse. Pour résoudre ce problème, une contrainte sur p et q doit être mise en place ; p et q doivent satisfaire cette contrainte pour toute boucle, et la grande boucle peut être décomposée en petites boucles qui s'annulent pour s'assurer que la contrainte est également vraie pour la grande boucle.

  • 00:30:00 Dans cette section, le conférencier discute de la relation entre une intégrale de contour et une intégrale de surface dans le contexte de la mesure des dérivées d'une surface avec un extérieur photométrique ou d'autres méthodes de vision. La conférence montre comment la pente peut être estimée en fonction du centre d'un tronçon, où la pente est à peu près constante, et utilise le développement en série de Taylor pour dériver une équation qui relie les dérivées de la surface z de x y. On dit qu'il est impossible de trouver le z exact de xy qui donne les p et q mesurés, mais une manière plus élégante est présentée pour trouver une approximation des moindres carrés.

  • 00:35:00 Dans cette section de la conférence, l'orateur discute de l'avantage de réduire les calculs de tous les pixels à la limite d'une région en vision artificielle. L'orateur utilise l'exemple du calcul de la surface et de la position d'une goutte à l'aide d'intégrales et de moments de contour, qui peuvent être calculés efficacement en traçant le contour au lieu de compter les pixels. Le cours se poursuit par l'application du théorème de Green pour faire correspondre l'intégrale de contour au calcul des moments.

  • 00:40:00 Dans cette section, le conférencier explique comment trouver la plus petite surface possible compte tenu de nos mesures. Idéalement, nous trouverions une surface où ses dérivées x et y correspondent respectivement aux p et q que nous avons obtenus de l'image. Cependant, en raison du bruit de mesure, cela ne sera pas possible, nous allons donc essayer de le rendre aussi petit que possible en résolvant un problème des moindres carrés. Z est une fonction avec des degrés de liberté infinis, nous ne pouvons donc pas utiliser le calcul ordinaire. Au lieu de cela, nous pouvons différencier par rapport à chacun des nombres finis d'inconnues sur une grille et définir le résultat égal à zéro pour obtenir de nombreuses équations.

  • 00:45:00 Dans cette section de la conférence, l'orateur discute du processus de recherche d'une valeur de z pour chaque point de la grille afin de minimiser l'erreur entre les valeurs observées et les dérivées estimées dans les directions x et y. Pour ce faire, l'orateur explique qu'il doit différencier et mettre le résultat égal à zéro pour toutes les valeurs possibles de i et j, ce qui se traduit par un ensemble d'équations linéaires qui peuvent être résolues à l'aide des moindres carrés. Cependant, le locuteur avertit d'un problème potentiel si les noms d'identifiant i et j ne sont pas remplacés par d'autres noms, ce qui peut entraîner une mauvaise réponse. Malgré un grand nombre d'équations, les équations sont rares, ce qui les rend plus faciles à résoudre.

  • 00:50:00 Dans cette section, l'orateur passe en revue le processus d'utilisation des équations différentielles partielles non linéaires du premier ordre pour dériver cinq équations différentielles ordinaires pour la forme du problème d'ombrage. Ils expliquent les étapes de différenciation des termes à l'intérieur d'un carré, en faisant correspondre les termes et en considérant diverses valeurs de k et l. L'enseignant simplifie l'équation finale et sépare les termes pour identifier les dérivées x et y de p et q respectivement. Le but est de trouver finalement une solution pour tous les points de l'image.

  • 00:55:00 Dans cette section, l'orateur explique le diagramme de molécules computationnelles, qui est une manière graphique d'estimer les dérivées en vision artificielle. Il l'utilise pour montrer comment dériver l'opérateur laplacien qui est largement utilisé dans les opérations de traitement d'image. Il explique que le Laplacien est à symétrie de rotation et qu'il existe des opérateurs dérivés très utiles dans la détection des contours qui sont également à symétrie de rotation.

  • 01:00:00 Dans cette section, l'orateur discute d'une approche discrète pour résoudre des équations pour la solution des moindres carrés à façonner à partir de l'ombrage, plutôt que d'utiliser le calcul de la variation. Les équations résultantes, bien qu'ayant de nombreuses variables, sont peu nombreuses ce qui rend possible la solution itérative. Le conférencier explique comment résoudre ces équations à l'aide d'une approche itérative qui consiste à calculer des moyennes locales de pixels voisins et à ajouter une correction basée sur les informations de l'image. L'orateur note que s'il est facile de proposer des solutions itératives, il est difficile de montrer qu'elles convergent, mais les manuels le suggèrent.

  • 01:05:00 Dans cette section, le conférencier discute d'une approche pour satisfaire la condition laplacienne en ajustant les valeurs de pixel à l'aide d'une équation simple avec des termes clairsemés. Cette approche est liée à la résolution de l'équation de la chaleur et peut être effectuée efficacement en parallèle, ce qui la rend stable même avec un bruit de mesure. La technique peut être appliquée à des données stéréo photométriques pour reconstruire une surface au moyen des moindres carrés, fournissant une solution raisonnable qui correspond aux données expérimentales. Cependant, le conférencier reconnaît que cette approche n'est pas directement utile au-delà de la stéréophotométrie et qu'il existe des problèmes plus difficiles à résoudre, tels que les reconstructions d'images uniques.

  • 01:10:00 Dans cette section, le conférencier discute d'un cas simple de la carte de réflectance avec des lignes droites parallèles comme isophotes. Les lignes parallèles permettent de tourner vers un système de coordonnées plus utile et de maximiser l'information dans une direction tout en la minimisant dans une autre. La conférence fournit la relation entre p, q, p premier et q premier, l'angle thêta donné par un triangle et la transformation inverse de la rotation par moins thêta. En fin de compte, la conférence analyse le cas général avec des lignes sinueuses et discute du concept de forme à partir de l'ombrage.

  • 01:15:00 Dans cette section, le conférencier explique comment reconstruire une surface à l'aide de mesures d'images et de calculs de pente à partir de différents points. La conférence couvre également l'idée que l'approche consistant à ajouter une constante à la hauteur de z et à trouver des changements n'a en aucun cas ajusté le Laplacien de z, ce qui implique que les différences de hauteur ne fournissent pas beaucoup d'informations, mais seulement une profondeur relative. Cependant, le professeur note qu'une valeur initiale de z est nécessaire pour obtenir une reconstruction.

  • 01:20:00 Dans cette section, l'orateur discute du défi d'avoir des valeurs initiales potentiellement différentes pour chaque ligne dans le calcul des solutions pour la forme d'une surface avec Shape from Shading. Bien qu'il soit facile de gérer un changement global de hauteur, avoir des valeurs initiales différentes pour chaque ligne nécessite une courbe initiale différente qui peut être mappée vers le monde d'origine sans rotation. L'orateur suggère d'utiliser une courbe initiale, qui est une fonction de eta, pour explorer la surface en se déplaçant le long de ces courbes, en les calculant indépendamment, puis en modifiant la vitesse à laquelle explorer la solution.

  • 01:25:00 Dans cette section, l'orateur explique qu'en multipliant par une constante, les équations deviennent plus simples, et le mouvement dans la direction x et y est proportionnel à q s et p s respectivement, tandis que dans la direction z, il y a un formule directe. La conférence se termine par une discussion sur la généralisation de ces équations pour des cartes de réflectance arbitraires et sur l'importance d'examiner des images au microscope électronique à balayage pour fournir des exemples concrets d'interprétation de l'ombrage.
 

Cours 10 : Expansion de la bande caractéristique, forme à partir de l'ombrage, solutions itératives



Cours 10 : Expansion de la bande caractéristique, forme à partir de l'ombrage, solutions itératives

Dans cette conférence, l'instructeur couvre le sujet de la forme à partir de l'ombrage en utilisant des mesures de luminosité dans le concept de formation d'image. Cela implique de comprendre l'équation d'irradiance de l'image, qui relie la luminosité à l'orientation de la surface, à l'éclairage, au matériau de surface et à la géométrie. Ils expliquent la méthode de mise à jour des variables p et q en utilisant deux systèmes d'équations distincts qui s'alimentent mutuellement et en traçant une bande entière à l'aide du gradient de luminosité. La conférence aborde également les défis de la résolution des EDP non linéaires de premier ordre et différentes méthodes pour passer d'un contour à un autre lorsque vous explorez la surface. Enfin, l'instructeur discute de la mise en œuvre de l'expansion de la bande caractéristique et explique pourquoi une approche séquentielle n'est peut-être pas la meilleure méthode, recommandant la parallélisation et le contrôle de la taille des pas.

Dans la conférence 10, le professeur discute de diverses méthodes pour résoudre les problèmes de forme à partir de l'ombrage, y compris l'utilisation de points stationnaires sur la surface et la construction d'une petite forme de capuchon autour de celle-ci pour estimer la forme locale. Le conférencier introduit également le concept de frontière occlusive, qui peut fournir des conditions de départ pour les solutions, et discute des progrès récents dans le calcul des solutions pour le problème à trois corps en utilisant des méthodes d'analyse numérique sophistiquées. De plus, la conférence aborde le sujet des méthodes de vision industrielle industrielle et les modèles associés qui seront discutés dans la conférence suivante.

  • 00:00:00 Dans cette section, l'instructeur fournit des annonces concernant le premier quiz et la soumission de proposition pour le projet de semestre. Le projet de terme implique la mise en œuvre d'une solution à un problème de vision artificielle, et les étudiants doivent soumettre une courte proposition avant le 22. L'instructeur parle ensuite du changement de rythme dans la couverture de la vision industrielle industrielle, où il examinera des brevets au lieu d'articles ou de manuels publiés. Dans le processus, les étudiants apprendront le langage des brevets, qui est essentiel pour les entrepreneurs impliqués dans les startups. Enfin, l'instructeur fournit des exemples de projets d'étudiants tels que la mise en œuvre de méthodes de sous-pixels pour la détection des contours ou le temps de contact sur un téléphone Android.

  • 00:05:00 Dans cette section, le conférencier aborde les différents aspects de la formation d'images, en se concentrant spécifiquement sur le concept de forme à partir de l'ombrage à l'aide de mesures de luminosité. Cela nécessite une compréhension de l'équation d'éclairement de l'image, qui relie la luminosité à l'orientation de la surface, à l'éclairage, au matériau de surface et à la géométrie. La carte de réflectance est utilisée pour simplifier cette équation et sert de moyen de résumer les propriétés de réflexion détaillées, bien qu'elle soit dérivée de la fonction de distribution de réflectance bidirectionnelle (BRDF). La conférence explique ensuite comment ce concept a été appliqué aux propriétés réfléchissantes de la lune et d'autres planètes rocheuses, résultant en un ensemble d'équations qui permettent de déterminer l'orientation de la surface dans certaines directions.

  • 00:10:00 Dans cette section, l'orateur discute de la règle pour faire un petit pas dans l'image pour correspondre à un petit pas en hauteur en utilisant la projection orthographique. Il explique que cela simplifie les calculs et est lié à l'hypothèse d'une lentille télécentrique et d'une source de lumière lointaine, ce qui rend possibles les hypothèses lambertiennes. Le processus global consiste à résoudre numériquement trois équations différentielles ordinaires avec la méthode d'Euler directe et à alimenter la luminosité à travers la surface de type Hapka. L'orateur montre comment exprimer cela en termes de p et q, puis dérive l'équation de l'image de la radiance.

  • 00:15:00 Dans cette section, l'orateur discute de la relation directe entre la quantité mesurée de luminosité de surface et la solution nécessaire pour une surface spécifique. Il explique qu'il existe une constante appelée rs, qui dépend de la position de la source, qui est utilisée pour simplifier la solution. La technique consiste à prendre la luminosité, à la mettre au carré, à la multiplier par rs et à soustraire un avec la dérivée dans la direction z. Le conférencier explique également comment obtenir une condition initiale pour les équations différentielles et comment définir une courbe à l'aide de paramètres. La méthode est ensuite généralisée pour aborder le cas général où la pente ne peut pas être déterminée localement.

  • 00:20:00 Dans cette section, le conférencier discute de la construction d'une solution à l'aide d'un développement de bande caractéristique. Pour ce faire, il faut calculer le changement de hauteur pour savoir comment z va changer. Ils supposent que nous commençons avec x, y et z, ainsi que l'orientation de la surface, p et q, et mettent à jour les règles pour x, y et z, et le changement de hauteur de z est donné par une équation. La mise à jour de p et q au fur et à mesure est nécessaire, ce qui donne une bande caractéristique portant l'orientation de la surface, ce qui est plus d'informations que d'avoir simplement une courbe. L'enseignant explique comment mettre à jour p et q en utilisant une matrice deux par deux et les dérivées secondes partielles de la hauteur, qui correspondent à la courbure.

  • 00:25:00 Dans cette section, le conférencier explique comment calculer la matrice de courbure pour une surface 3D, ce qui est plus compliqué que pour une courbe dans le plan. La matrice de courbure nécessite une matrice entière de dérivées du second ordre appelée matrice hessienne. Cependant, l'utilisation de dérivées d'ordre supérieur pour continuer la solution conduirait à plus d'inconnues. Par conséquent, l'équation d'éclairement de l'image est nécessaire, en particulier le gradient de luminosité, car les changements d'orientation de la surface correspondent à la courbure qui affecte la luminosité de l'image. En examinant la matrice commune H dans les équations de gradient de courbure et de luminosité, le calcul de H permettrait une mise à jour en x, y, z, p et q, complétant la méthode.

  • 00:30:00 Dans cette section, le conférencier discute du concept de résolution de h à l'aide de deux équations linéaires. H apparaît dans ces deux équations, mais comme nous avons deux équations et trois inconnues, nous ne pouvons pas résoudre h. Cependant, en utilisant un delta x et un delta y spécifiques, nous pouvons contrôler la taille du pas et choisir une direction particulière pour calculer delta p et delta q. Le conférencier explique également que la direction peut changer au fur et à mesure que la surface est explorée. En branchant cela dans l'équation, nous pouvons trouver comment changer p et q pour résoudre le problème.

  • 00:35:00 Dans cette section, le conférencier discute des cinq équations différentielles ordinaires nécessaires pour résoudre la variable z dans l'équation d'éclairement de l'image et présente une méthode pour générer une bande utilisant le gradient de luminosité pour mettre à jour les variables p et q. Le conférencier poursuit en expliquant la partie intéressante de la solution impliquant deux systèmes d'équations qui s'alimentent mutuellement, et comment ils déterminent la direction du gradient et peuvent être utilisés pour tracer une bande entière. En fin de compte, l'équation différentielle partielle est réduite à de simples équations différentielles ordinaires utilisant p et q pour rendre l'équation moins intimidante.

  • 00:40:00 Dans cette section, l'orateur discute des défis des PDE non linéaires de premier ordre pour résoudre la luminosité dans le contexte de la forme à partir de l'ombrage. Il s'agit d'un écart par rapport aux PDE généralement de second ordre et linéaires trouvés en physique, ce qui signifie qu'une méthode spéciale est nécessaire pour résoudre ces types de PDE. Le cas général pour tout R de P et Q est discuté puis appliqué à deux propriétés de surface spécifiques : hapke et le microscope électronique à balayage. Les règles de mise à jour pour X et Y sont proportionnelles à PS et QS, respectivement.

  • 00:45:00 Dans cette section, le conférencier explique la méthode pour mettre à jour les axes x, y et hauteur en utilisant l'expansion et la forme caractéristiques de la bande à partir de l'ombrage avec des solutions itératives. La méthode consiste à différencier par rapport à p et q pour calculer la mise à jour pour x et y et à utiliser prp plus qrq pour mettre à jour l'axe des hauteurs. La conférence note que cette méthode peut être utilisée sur des images au microscope électronique à balayage et aborde également le concept de caractéristiques de base, qui consiste à projeter les bandes caractéristiques sur le plan de l'image pour explorer autant que possible l'image.

  • 00:50:00 Dans cette section, l'orateur discute de la mise en œuvre de l'expansion de la bande caractéristique et explique pourquoi une approche séquentielle n'est peut-être pas la meilleure méthode. En raison des solutions indépendantes trouvées le long de chaque courbe, un processus peut être exécuté le long de chaque courbe, rendant le calcul parallélisable. La vitesse du calcul, qui doit avoir une taille de pas raisonnable, est discutée, et un cas simple où la taille de pas est contrôlée par la constante z est examiné. En divisant par le PRP et le QRQ dans l'équation pour z, le taux de changement devient un, ce qui donne des solutions constantes le long de chaque courbe avec des contours à des valeurs croissantes de z.

  • 00:55:00 Dans cette section de la conférence, l'orateur discute des différentes manières de passer d'un contour à un autre lorsque vous explorez la surface. Ils mentionnent l'option de pas à pas par incréments de taille constante dans la direction z, ou d'avoir une taille de pas constante dans l'image, ce qui nécessite de diviser toutes les équations par un facteur constant. Une autre option est le pas en incréments de taille constante en 3D, où la somme des carrés des incréments est 1, et enfin, la possibilité de pas en isophodes dans les contours de l'image de contraste ou de luminosité. Cependant, certaines de ces méthodes peuvent présenter des problèmes, tels que différentes courbes fonctionnant à des taux variables ou divisant par zéro, il est donc essentiel de prendre note de ces limitations.

  • 01:00:00 Dans cette section de la conférence, le professeur discute du produit scalaire des deux gradients dans l'image et la carte de réflectance, mais n'entre pas trop dans les détails. Le passage d'un contour à l'autre dans l'image permet de relier plus facilement les solutions voisines, et des méthodes d'analyse numérique brutes peuvent fournir des résultats suffisants. Le professeur poursuit ensuite en discutant des progrès récents dans les solutions informatiques pour le problème à trois corps et de la façon dont des méthodes d'analyse numérique sophistiquées sont utilisées pour résoudre des équations qui seraient autrement difficiles, voire impossibles à résoudre analytiquement.

  • 01:05:00 Dans cette section, le conférencier discute du défi d'avoir besoin d'une courbe initiale pour explorer une surface, ainsi que son orientation, en utilisant des méthodes de vision artificielle optique. Heureusement, il existe une équation d'éclairement d'image qui donne une contrainte sur l'orientation de la courbe, et nous savons que la courbe est dans la surface, ce qui nous permet de calculer les dérivées et de résoudre une équation linéaire. Cela signifie que nous pouvons trouver l'orientation et nous débarrasser du besoin d'une bande initiale sur l'objet si nous pouvons trouver des points spéciaux sur l'objet dont nous connaissons la forme, l'orientation, etc.

  • 01:10:00 Dans cette section, l'orateur discute du concept de la limite d'occlusion, qui est l'endroit où un objet s'enroule, de sorte que la partie d'un côté est visible et l'autre non. Si nous construisons une surface normale à ce point, elle sera parallèle à un vecteur construit le long de la frontière d'occlusion, ce qui nous donne des conditions de départ pour commencer nos solutions. Cependant, nous ne pouvons pas utiliser les rapports de la frontière d'occlusion pour résoudre les équations puisque la pente est infinie. L'orateur introduit également le concept de points stationnaires, qui sont des extremums uniques, globaux, isolés, et résultent des points les plus brillants de la surface d'un objet lorsqu'il est éclairé. Ces points nous fournissent l'orientation de la surface à cet endroit, ce qui est une information précieuse pour résoudre les problèmes de forme à partir de l'ombrage.

  • 01:15:00 Dans cette section, l'enseignant discute des points stationnaires sur la carte et l'image de réflectance, qui correspondent à des extrema ou des minima selon la technique d'imagerie utilisée. Cependant, les points stationnaires ne permettent pas le démarrage direct de la solution car il n'y a pas de changement dans les variables dépendantes. La solution ne peut s'éloigner du point stationnaire qu'en essayant de construire une approximation de la surface pour démarrer la solution. L'idée est de construire un petit plan en utilisant l'orientation du point stationnaire, puis de créer un rayon pour commencer la solution. Ce faisant, la solution peut s'éloigner du point stationnaire et commencer à itérer vers une meilleure solution.

  • 01:20:00 Dans cette section de la conférence, l'orateur discute du concept de points stationnaires sur des surfaces courbes en relation avec la forme à partir de l'ombrage. L'idée est de trouver une solution unique pour la courbure d'une surface qui a un point fixe. L'orateur explique que ces points sont importants dans la perception humaine et peuvent affecter l'unicité d'une solution. Le cours explique ensuite le processus de recherche de la courbure d'une surface à l'aide d'un exemple, où l'on suppose que la surface a un type sem de carte de réflectance et a un point stationnaire à l'origine. Le gradient de l'image s'avère nul à l'origine, confirmant la présence d'un extremum en ce point. Cependant, le gradient ne peut pas être utilisé pour estimer la forme locale car il est nul à l'origine, nécessitant ainsi une dérivée seconde.

  • 01:25:00 Dans cette section, l'orateur explique comment la prise des dérivées secondes partielles de la luminosité peut fournir des informations sur la forme et comment la récupérer, en estimant la forme locale à partir de points stationnaires et en construisant une petite forme de capuchon autour d'elle. De plus, l'orateur introduit le sujet des méthodes de vision industrielle industrielle et les modèles associés qui seront discutés dans la conférence suivante.
 

Cours 11 : Détection des bords, position des sous-pixels, CORDIC, détection des lignes (brevet américain 6408109)



Cours 11 : Détection des bords, position des sous-pixels, CORDIC, détection des lignes (brevet américain 6408109)

Cette vidéo YouTube intitulée "Lecture 11 : Edge Detection, Subpixel Position, CORDIC, Line Detection (US 6,408,109)" couvre plusieurs sujets liés à la détection des contours et à la localisation des sous-pixels dans les systèmes de vision industrielle. L'orateur explique l'importance des brevets dans le processus d'invention et comment ils sont utilisés dans les guerres de brevets. Ils discutent également de divers opérateurs de détection de contours et de leurs avantages et limites. La vidéo comprend des explications détaillées des formules mathématiques utilisées pour convertir les coordonnées cartésiennes en coordonnées polaires et déterminer la position du bord. La vidéo conclut en discutant de l'importance de rédiger des revendications larges et étroites pour les brevets et de l'évolution du droit des brevets au fil du temps.

Dans la conférence 11, l'orateur se concentre sur différentes molécules computationnelles pour la détection des contours et l'estimation des dérivées, en mettant l'accent sur l'efficacité. Les opérateurs Sobel et Roberts Cross sont présentés pour calculer la somme des carrés des gradients, avec des variations dans la formule et la technique discutées. Pour obtenir une précision sous-pixel, plusieurs opérateurs sont utilisés et des techniques telles que l'ajustement d'une parabole ou l'utilisation d'un modèle triangulaire sont présentées pour déterminer le pic de la courbe. De plus, la conférence discute des alternatives à la quantification et des problèmes de direction du gradient sur une grille carrée. Dans l'ensemble, la conférence souligne l'importance de prendre en compte de nombreux détails pour obtenir de bonnes performances pour la détection des contours.

  • 00:00:00 Dans cette section, le conférencier présente le sujet de la vision industrielle industrielle et son importance dans les processus de fabrication, y compris l'utilisation de la vision industrielle pour l'alignement et l'inspection dans la fabrication de circuits intégrés et la lisibilité des étiquettes pharmaceutiques. Le conférencier explique le but des brevets comme moyen d'obtenir un monopole limité dans l'utilisation d'une invention en échange d'une explication de son fonctionnement au profit de la société à long terme. La structure et les métadonnées d'un brevet sont également abordées, y compris le numéro et le titre du brevet, la date du brevet et l'utilisation des brevets comme munitions dans les guerres de brevets entre entreprises. La conférence décrit ensuite brièvement un brevet déposé par Bill Silver chez Cognex, une société leader dans le domaine de la vision artificielle, sur la détection et la localisation des sous-pixels.

  • 00:05:00 Dans cette section, le conférencier discute du processus de détection des contours dans les images numériques, où l'accent est mis sur la transition entre différents niveaux de luminosité. Le conférencier note que trouver des bords avec une précision inférieure au pixel est crucial dans les mondes de la bande transporteuse et des circuits intégrés, car cela réduit considérablement les bits nécessaires pour décrire quelque chose. La conférence explique en outre que ce processus peut être réalisé avec une caméra à pixels plus élevés, mais qu'il est coûteux, et donc un logiciel qui peut l'exécuter à moindre coût serait bénéfique. Le conférencier explique également qu'un 40e de pixel peut être atteint, ce qui est un avantage significatif, mais cela comporte des défis. La conférence se termine par une discussion sur le dépôt de brevet et sur la façon dont le processus a changé au fil du temps, y compris le langage obscur utilisé dans les documents et le retard subi dans la soumission d'une demande de brevet.

  • 00:10:00 Dans cette section de la vidéo, l'orateur discute de divers documents techniques et brevets liés à la détection des contours en vision artificielle, qui remonte aux années 1950. Le premier article célèbre sur ce sujet a été rédigé par Roberts en 1965, qui utilisait un détecteur de bord simple mais trompeur. L'orateur mentionne également d'autres articles et brevets liés à la détection des bords, discutant des avantages et des inconvénients de divers opérateurs de détection des bords, y compris l'opérateur de Sobel, le détecteur de bords croisés de Roberts et les opérateurs alternatifs de Bill Silva pour les grilles hexagonales. Le conférencier souligne l'importance de la détection des contours dans diverses applications et les efforts continus des ingénieurs et des chercheurs pour améliorer les algorithmes de détection des contours.

  • 00:15:00 Dans cette section, la conférence explique les avantages et les inconvénients de l'utilisation de caméras à grille hexagonale en termes de résolution et de symétrie de rotation, mais note que la difficulté supplémentaire de travailler avec une grille hexagonale était trop difficile à gérer pour les ingénieurs. La conférence aborde ensuite la conversion des coordonnées cartésiennes en coordonnées polaires en utilisant la formule de l'amplitude du gradient et de sa direction plutôt que le gradient de luminosité lui-même, malgré les dépenses liées à la prise de racines carrées et de tangentes d'arc. La conférence explore ensuite des solutions alternatives, telles que l'utilisation de tables de consultation ou la méthode CORDIC, qui est un moyen d'estimer la magnitude et la direction d'un vecteur en utilisant des étapes itératives pour réduire la différence avec un minimum d'opérations arithmétiques requises.

  • 00:20:00 Dans cette section de la conférence, l'orateur discute des algorithmes de détection des contours et de position des sous-pixels. Ils expliquent comment localiser un gradient important et utiliser une suppression non maximale pour trouver la direction maximale du gradient. L'orateur parle également de la quantification des directions du gradient et note que regarder plus loin peut conduire à une plus grande gamme de directions. Pour trouver le pic réel du gradient, une parabole est ajustée aux données et différenciée pour trouver le pic. Enfin, la conférence discute du comportement attendu de la luminosité lorsque l'on travaille avec un modèle du monde basé sur Mondrian.

  • 00:25:00 Dans cette section, la vidéo traite des techniques permettant d'obtenir une précision sous-pixel dans la détection des contours. Une approche consiste à quantifier les directions et à trouver le pic, mais il peut y avoir une ambiguïté quant au point à choisir le long du bord. Une autre méthode consiste à effectuer une interpolation perpendiculaire pour trouver le point de bord le plus proche du pixel central. Cependant, la position réelle du bord peut ne pas correspondre aux modèles supposés, ce qui peut introduire un biais. La vidéo suggère une correction simple pour calibrer le biais et améliorer la précision.

  • 00:30:00 Dans cette section, le conférencier discute des moyens d'améliorer la précision de détection des bords dans les systèmes de vision industrielle. Le brevet qu'il examine suggère d'utiliser différentes puissances de "s" pour éliminer les biais et augmenter la précision en fonction du système spécifique utilisé. La direction du gradient affecte également le biais et nécessite une compensation pour une précision encore plus élevée. Le schéma global du système comprend l'estimation des gradients de luminosité, la recherche de l'amplitude et de la direction, la suppression non maximale et la détection de crête pour interpoler la position et compenser le biais en utilisant le point le plus proche du maximum sur le bord. L'invention fournit un appareil et un procédé pour la détection de sous-pixels dans des images numériques et est résumée dans une version courte à la fin du brevet.

  • 00:35:00 Dans cette section, l'orateur discute du processus de brevetage d'une invention et de son lien avec les litiges en matière de brevets. Ils expliquent comment les inventeurs créent souvent à la fois un appareil et une méthode afin de couvrir toutes les bases et comment cela peut entraîner des revendications inutiles. L'orateur décrit un cas dans lequel une entreprise canadienne, Matrox, a été accusée d'avoir violé un brevet par l'implémentation logicielle de ce qui était dans le brevet. Des témoins experts ont été amenés pour analyser le code et à la fin, la conclusion était que tout était logiciel et non brevetable. La section couvre également l'importance de rendre un brevet aussi large que possible et de penser à toutes les modifications possibles, ce qui peut rendre les brevets rédigés par des juristes difficiles à lire.

  • 00:40:00 Dans cette section de la vidéo, l'orateur passe en revue les formules et une explication détaillée de la conversion des coordonnées cartésiennes en coordonnées polaires. Ils expliquent également les différentes formules utilisées pour trouver des pics dans les paraboles et les formes d'onde triangulaires. La vidéo passe ensuite aux brevets et au processus de revendication de ce que vous pensez avoir inventé pour la protéger. Le locuteur lit la première revendication, qui est un appareil pour détecter et localiser les sous-pixels des bords dans une image numérique, et décompose les différents composants qui composent la revendication, y compris un estimateur de gradient, un détecteur de crête et un interpolateur de sous-pixels. L'importance d'avoir plusieurs réclamations est également discutée, car cela protège contre de futures réclamations et contrefaçons.

  • 00:45:00 Dans cette section de la conférence, l'orateur explique comment rédiger et structurer des revendications de brevets. Il explique que la première revendication d'un brevet est généralement une revendication large, suivie de revendications plus restreintes qui sont plus spécifiques pour garantir que même si la revendication large est invalidée, les revendications plus restreintes peuvent toujours être maintenues. L'orateur passe ensuite à l'examen des revendications du brevet pour l'estimation du gradient, en soulignant certaines des conditions qui doivent être remplies pour que chaque revendication soit valide. Enfin, il explique comment le droit des brevets a évolué au fil du temps en ce qui concerne la durée de validité d'un brevet et les règles entourant les revendications de priorité.

  • 00:50:00 Dans cette section, la vidéo traite de la détection des bords en vision industrielle. Le modèle Mondrian du monde est introduit, ce qui implique de condenser des images en discutant simplement des bords pour trouver où se trouve quelque chose sur un tapis roulant ou aligner différentes couches d'un masque de circuit intégré. La détection des bords est définie comme un processus permettant de déterminer l'emplacement des frontières entre des régions d'image qui sont différentes et à peu près uniformes en luminosité. Un bord est défini comme un point dans une image où l'amplitude du gradient de l'image atteint un maximum local dans la direction du gradient de l'image ou où la dérivée seconde de la luminosité passe par zéro dans la direction du gradient de l'image. La vidéo aborde également la détection des contours à plusieurs échelles et explique l'inconvénient d'avoir une résolution infinie pour une image.

  • 00:55:00 Dans cette section de la conférence, l'orateur discute de la détection des contours et des problèmes de mesure d'un contour parfaitement aligné avec un pixel. Pour lutter contre cela, l'orateur explique l'utilisation d'un détecteur de bord laplacien, qui recherche les passages par zéro et dessine des contours, ce qui facilite la localisation du bord. Cependant, cette méthode peut conduire à de moins bonnes performances en présence de bruit. L'orateur couvre également le concept d'un point d'inflexion et comment il se rapporte au maximum de la dérivée, qui peut être utilisé pour définir le bord. Le cours couvre également l'estimation du gradient de luminosité et l'utilisation d'opérateurs à des angles de 45 degrés pour référencer le même point.

  • 01:00:00 Dans cette section de la conférence, l'orateur discute de la détection des contours et de l'estimation des dérivées à l'aide de différentes molécules computationnelles. Deux opérateurs utilisés par Roberts sont introduits, qui peuvent être utilisés pour calculer la somme des carrés des gradients dans le système de coordonnées d'origine. Le concept d'opérateurs de Sobel est également mentionné, et l'estimation de la dérivée à l'aide d'une technique de moyennage est discutée. Le terme d'erreur d'ordre le plus bas de l'estimation est de second ordre, ce qui le rend peu fiable pour les lignes courbes. Les termes d'ordre supérieur sont également introduits pour améliorer la précision.

  • 01:05:00 Dans cette section, le conférencier décrit l'utilisation d'un opérateur pour approximer une dérivée pour la détection des bords, permettant un terme d'erreur d'ordre supérieur qui peut fonctionner pour une ligne courbe tant que sa troisième dérivée n'est pas trop grande. En calculant la moyenne de deux valeurs et en trouvant une estimation de la dérivée, même les dérivées décalées d'un demi-pixel peuvent être utilisées. En comparant deux opérateurs avec le même terme d'erreur d'ordre le plus bas, un avec un multiplicateur plus petit s'avère avantageux. Cependant, l'application de l'opérateur pour estimer à la fois les dérivées x et y conduit à des incohérences, qui peuvent être traitées en utilisant un opérateur bidimensionnel. Cette approche est également utile pour calculer les dérivées de la direction y pour un cube entier de données dans un flux optique fixe.

  • 01:10:00 Dans cette section, l'orateur souligne l'importance de l'efficacité des opérateurs lors de la détection des contours avec des millions de pixels. En organisant intelligemment les calculs, l'opérateur peut être réduit de six opérations à quatre. L'intervenant cite l'opérateur Roberts Cross et Urbain Sobel, qui ont répliqué l'opérateur d'une manière particulière en faisant une moyenne sur un bloc 2x2 pour réduire le bruit mais aussi flouter l'image.

  • 01:15:00 Dans cette section de la vidéo, le conférencier explique comment éviter le problème de décalage d'un demi-pixel dans la détection des bords en utilisant plusieurs opérateurs. La discussion comprend des variantes de formule et des préférences de mise en œuvre. La conférence explique également les prochaines étapes, y compris la conversion des coordonnées cartésiennes en coordonnées polaires pour le gradient de luminosité, la quantification de la direction de l'amplitude du gradient et le balayage des valeurs maximales. La précision des sous-pixels n'est pas réalisable en raison du problème de quantification des pixels. L'enseignant explique comment ne garder que les maxima en ignorant les non-maxima dans l'image.

  • 01:20:00 Dans cette section, la vidéo traite de la nécessité de conditions asymétriques dans la détection des contours et d'une condition de départage pour les situations où g zéro est égal à g plus ou est égal à g moins. Pour trouver le pic de la courbe, la vidéo décrit l'ajustement d'une parabole au bord avec un tie-breaker, et il est montré que le s calculé de cette manière est limité en amplitude à la moitié. Une autre méthode illustrée est un petit modèle de triangle, qui suppose que les pentes des deux lignes sont les mêmes et estime les positions verticale et horizontale, ce qui donne la formule pour s. Les deux méthodes permettent d'obtenir une précision sous-pixel, et la vidéo suggère que le modèle en triangle peut sembler étrange mais qu'il est efficace dans certaines circonstances.

  • 01:25:00 Dans cette section, le conférencier discute de la forme d'un bord en cas de défocalisation, en particulier comment cela affecte la méthode de récupération de la position réelle du bord. Il parle également d'alternatives à la quantification de la direction du gradient et comment cela peut être problématique, en particulier sur une grille carrée où il n'y a que huit directions. Ce problème montre qu'il y a beaucoup de détails à considérer si l'on veut de bonnes performances, comme trouver un bon moyen de calculer les dérivées.