"Lecture 11: Edge Detection, Subpixel Position, CORDIC, Line Detection (US 6,408,109)"이라는 제목의 이 YouTube 비디오는 머신 비전 시스템의 에지 감지 및 서브픽셀 위치와 관련된 여러 주제를 다룹니다. 연사는 발명 과정에서 특허의 중요성과 특허 전쟁에서 특허가 어떻게 사용되는지 설명합니다. 또한 다양한 에지 감지 연산자와 그 장점 및 한계에 대해 설명합니다. 이 비디오에는 데카르트 좌표를 극좌표로 변환하고 가장자리 위치를 결정하는 데 사용되는 수학 공식에 대한 자세한 설명이 포함되어 있습니다. 비디오는 특허에 대한 광범위하고 좁은 주장을 작성하는 것의 중요성과 시간이 지남에 따라 특허법의 발전에 대해 논의하면서 결론을 내립니다.
강의 11에서 연사는 효율성에 중점을 두고 에지 감지 및 도함수 추정을 위한 다양한 계산 분자에 중점을 둡니다. Sobel 및 Roberts 교차 연산자는 기울기 제곱의 합을 계산하기 위해 제공되며 공식 및 기술의 변형이 논의됩니다. 하위 픽셀 정확도를 달성하기 위해 여러 연산자가 사용되며 곡선의 피크를 결정하기 위해 포물선 피팅 또는 삼각형 모델 사용과 같은 기술이 제공됩니다. 또한 강의에서는 양자화에 대한 대안과 정사각형 그리드의 그래디언트 방향 문제에 대해 논의합니다. 전반적으로 이 강의는 에지 감지를 위한 우수한 성능을 달성하기 위해 많은 세부 사항을 고려하는 것의 중요성을 강조합니다.
00:00:00 이 섹션에서 강사는 집적 회로 제조 및 제약 라벨 가독성에서 정렬 및 검사를 위한 머신 비전 사용을 포함하여 산업용 머신 비전의 주제와 제조 공정에서의 중요성을 소개합니다. 강사는 발명이 사회에 장기적으로 어떻게 도움이 되는지 설명하는 대가로 발명을 사용하여 제한된 독점권을 얻는 방법으로 특허의 목적을 설명합니다. 특허 번호와 제목, 특허 날짜, 회사 간의 특허 전쟁에서 탄약으로 특허를 사용하는 등 특허의 구조와 메타데이터도 논의됩니다. 그런 다음 강의에서는 선도적인 머신 비전 회사인 Cognex의 Bill Silver가 감지 및 하위 픽셀 위치에 대한 특허를 간략하게 설명합니다.
00:05:00 이 섹션에서 강사는 서로 다른 밝기 수준 간의 전환에 초점을 맞춘 디지털 이미지의 가장자리 감지 프로세스에 대해 설명합니다. 강사는 하위 픽셀 정확도에 대한 에지를 찾는 것이 무언가를 설명하는 데 필요한 비트를 크게 줄이기 때문에 컨베이어 벨트 및 집적 회로 세계에서 매우 중요하다고 말합니다. 강의는 더 높은 픽셀 카메라로 이 프로세스를 달성할 수 있지만 비용이 많이 들기 때문에 더 낮은 비용으로 수행할 수 있는 소프트웨어가 유리할 것이라고 설명합니다. 강사는 또한 픽셀의 40분의 1이 달성될 수 있으며 이는 상당한 이점이지만 어려움이 따른다고 설명합니다. 강의는 특허 출원에 대한 논의와 문서에 사용된 난해한 언어를 포함하여 시간이 지남에 따라 프로세스가 어떻게 변경되었는지, 특허 출원 제출 시 경험한 지연으로 마무리됩니다.
00:10:00 비디오의 이 섹션에서 발표자는 1950년대로 거슬러 올라가는 머신 비전의 가장자리 감지와 관련된 다양한 기술 문서 및 특허에 대해 논의합니다. 이 주제에 대한 최초의 유명한 논문은 1965년 Roberts가 발표한 것으로 단순하지만 오해의 소지가 있는 에지 검출기를 사용했습니다. 발표자는 또한 에지 감지와 관련된 다른 논문 및 특허를 언급하고 Sobel의 연산자, Roberts 교차 에지 감지기 및 Bill Silva의 육각형 그리드 대체 연산자를 포함하여 다양한 에지 감지 연산자의 장점과 단점에 대해 논의합니다. 연사는 다양한 응용 분야에서 가장자리 감지의 중요성과 가장자리 감지 알고리즘을 개선하기 위한 엔지니어와 연구원의 지속적인 노력을 강조합니다.
00:15:00 이 섹션에서는 해상도와 회전 대칭 측면에서 육각형 격자 카메라를 사용할 때의 장점과 단점을 강의에서 설명하지만 육각형 격자로 작업하는 추가 문제가 엔지니어가 처리하기에는 너무 많다는 점에 주목합니다. 그런 다음 강의는 제곱근과 아크 탄젠트를 취하는 데 드는 비용에도 불구하고 밝기 기울기 자체보다는 기울기의 크기와 방향에 대한 공식을 사용하여 데카르트 좌표에서 극좌표로 변환하는 방법에 대해 논의합니다. 그런 다음 강의에서는 필요한 최소한의 산술 연산으로 차이를 줄이기 위해 반복 단계를 사용하여 벡터의 크기와 방향을 추정하는 방법인 룩업 테이블 또는 CORDIC 방법을 사용하는 것과 같은 대체 솔루션을 탐색합니다.
00:20:00 강의의 이 섹션에서 연사는 가장자리 감지 및 하위 픽셀 위치 알고리즘에 대해 설명합니다. 기울기가 큰 위치를 찾는 방법과 비최대 억제를 사용하여 기울기의 최대 방향을 찾는 방법을 설명합니다. 화자는 또한 그래디언트의 방향을 양자화하는 것에 대해 이야기하고 더 멀리 보는 것이 더 넓은 범위의 방향으로 이어질 수 있다고 언급합니다. 그래디언트의 실제 피크를 찾기 위해 포물선을 데이터에 맞추고 피크를 찾기 위해 미분합니다. 마지막으로 강의는 몬드리안을 기반으로 하는 세계의 모델로 작업할 때 예상되는 밝기의 동작에 대해 논의합니다.
00:25:00 이 섹션에서는 비디오에서 가장자리 감지에서 하위 픽셀 정확도를 달성하는 기술에 대해 설명합니다. 한 가지 접근 방식은 방향을 양자화하고 피크를 찾는 것을 포함하지만 가장자리를 따라 어떤 지점을 선택해야 하는지 모호할 수 있습니다. 또 다른 방법은 수직 보간을 수행하여 중앙 픽셀에 가장 근접한 가장자리 점을 찾는 것입니다. 그러나 실제 에지 위치는 가정된 모델에 맞지 않을 수 있으며 이로 인해 편향이 발생할 수 있습니다. 비디오는 바이어스를 보정하고 정확도를 향상시키기 위한 간단한 수정을 제안합니다.
00:30:00 이 섹션에서 강사는 머신 비전 시스템에서 가장자리 감지 정확도를 개선하는 방법에 대해 논의합니다. 그가 검토하고 있는 특허는 사용 중인 특정 시스템에 따라 편향을 제거하고 정확도를 높이기 위해 "s"의 다른 거듭제곱을 사용하는 것을 제안합니다. 그래디언트의 방향도 바이어스에 영향을 미치며 더 높은 정확도를 위해 보정이 필요합니다. 시스템의 전체 다이어그램에는 밝기 기울기 추정, 크기 및 방향 찾기, 최대가 아닌 억제, 위치를 보간하고 에지에서 최대값에 가장 가까운 지점을 사용하여 바이어스를 보상하기 위한 피크 감지가 포함됩니다. 본 발명은 디지털 이미지에서 서브픽셀 검출을 위한 장치 및 방법을 제공하며 특허의 끝에 짧은 버전으로 요약되어 있습니다.
00:35:00 이 섹션에서 연사는 발명품 특허 프로세스와 특허 소송과의 관계에 대해 설명합니다. 그들은 발명가가 모든 기반을 포괄하기 위해 장치와 방법을 모두 만드는 방법과 이로 인해 불필요한 주장이 발생할 수 있는 방법을 설명합니다. 발표자는 캐나다 회사인 Matrox가 특허에 포함된 소프트웨어 구현을 통해 특허를 위반한 혐의로 기소된 사례를 설명합니다. 코드를 분석하기 위해 전문가 증인을 불러들였고 결국 모든 것이 소프트웨어이며 특허를 받을 수 없다는 결론을 내렸습니다. 이 섹션은 또한 특허를 가능한 한 광범위하게 만들고 변호사가 작성한 특허를 읽기 어렵게 만들 수 있는 모든 가능한 수정 사항을 생각하는 것의 중요성을 다룹니다.
00:40:00 비디오의 이 섹션에서 발표자는 직교 좌표를 극좌표로 변환하는 방법에 대한 공식과 자세한 설명을 살펴봅니다. 또한 포물선과 삼각형 파형에서 피크를 찾는 데 사용되는 다양한 공식을 설명합니다. 그런 다음 비디오는 특허와 이를 보호하기 위해 생각한 것을 주장하는 과정으로 들어갑니다. 화자는 디지털 이미지에서 에지의 서브픽셀 위치를 검출하는 장치인 첫 번째 주장을 읽고, 기울기 추정기, 피크 검출기 및 서브픽셀 보간기를 포함하여 주장을 구성하는 여러 구성 요소를 세분화합니다. 향후 청구 및 침해로부터 보호하기 때문에 여러 청구를 갖는 것의 중요성에 대해서도 논의합니다.
00:45:00 강의의 이 섹션에서 연사는 특허 청구를 작성하고 구조화하는 방법에 대해 논의합니다. 그는 특허의 첫 번째 클레임은 일반적으로 광범위한 클레임이고, 광범위한 클레임이 무효화되더라도 더 좁은 클레임이 여전히 유효하도록 보다 구체적인 좁은 클레임이 뒤따른다고 설명합니다. 그런 다음 스피커는 기울기 추정에 대한 특허의 주장을 검토하여 각 주장이 유효하기 위해 충족해야 하는 일부 조건을 강조합니다. 마지막으로 그는 특허의 유효 기간과 우선권 주장을 둘러싼 규칙과 관련하여 시간이 지남에 따라 특허법이 어떻게 발전해 왔는지 설명합니다.
00:50:00 이 섹션에서는 비디오에서 머신 비전의 가장자리 감지에 대해 설명합니다. 세계의 몬드리안 모델이 도입되었습니다. 이 모델은 컨베이어 벨트에 무언가가 있는 위치를 찾거나 집적 회로 마스크의 다른 레이어를 정렬하기 위해 가장자리를 논의하는 것으로 이미지를 압축하는 것을 포함합니다. 에지 감지는 밝기가 다르고 대략적으로 균일한 이미지 영역 사이의 경계 위치를 결정하는 프로세스로 정의됩니다. 가장자리는 이미지 기울기 크기가 이미지 기울기 방향에서 로컬 최대값에 도달하거나 밝기의 2차 도함수가 이미지 기울기 방향에서 0을 교차하는 이미지의 지점으로 정의됩니다. 이 비디오는 또한 다중 스케일 에지 감지를 다루고 이미지에 대한 무한 해상도의 단점을 설명합니다.
00:55:00 강의의 이 섹션에서 화자는 가장자리 감지와 픽셀과 완벽하게 정렬된 가장자리를 측정하는 문제에 대해 논의합니다. 이를 해결하기 위해 연사는 제로 교차점을 찾고 윤곽선을 그려 가장자리를 더 쉽게 찾을 수 있는 Laplacian 가장자리 탐지기의 사용을 설명합니다. 그러나 이 방법은 노이즈가 있는 경우 성능이 저하될 수 있습니다. 연사는 변곡점의 개념과 변곡점을 정의하는 데 사용할 수 있는 미분의 최대값과 어떻게 관련되는지에 대해서도 다룹니다. 이 강의에서는 밝기 기울기 추정과 같은 점을 참조하기 위해 45도 각도에서 연산자를 사용하는 방법도 다룹니다.
01:00:00 강의의 이 섹션에서 연사는 다양한 계산 분자를 사용하여 에지 감지 및 도함수 추정에 대해 논의합니다. 로버츠가 사용하는 두 연산자가 소개되는데, 이는 원래 좌표계에서 기울기의 제곱합을 계산하는 데 사용할 수 있습니다. Sobel 연산자의 개념도 언급하고, 평균화 기법을 사용한 도함수 추정에 대해 논의합니다. 추정의 최하위 오차 항은 2차로 표시되어 곡선에 대해 그다지 신뢰할 수 없습니다. 정확성을 향상시키기 위해 고차 항도 도입되었습니다.
01:05:00 이 섹션에서 강사는 연산자를 사용하여 가장자리 감지를 위한 도함수를 근사화하여 3차 도함수가 너무 크지 않은 한 곡선에 대해 작동할 수 있는 고차 오류 항을 허용하는 방법을 설명합니다. 두 값의 평균을 구하고 도함수의 추정치를 찾으면 절반 픽셀만큼 오프셋된 도함수도 사용할 수 있습니다. 동일한 최저 차수 오류 항을 가진 두 연산자를 비교하면 승수가 더 작은 연산자가 유리한 것으로 나타났습니다. 그러나 연산자를 적용하여 x 및 y 도함수를 모두 추정하면 불일치가 발생하며 이는 2차원 연산자를 사용하여 처리할 수 있습니다. 이 접근 방식은 고정된 광학 흐름에서 전체 데이터 큐브에 대한 y 방향의 도함수를 계산하는 데에도 유용합니다.
01:10:00 이 섹션에서 연사는 수백만 픽셀로 가장자리 감지를 수행할 때 운영자의 효율성의 중요성을 강조합니다. 계산을 교묘하게 배열하면 연산자를 6개에서 4개로 줄일 수 있습니다. 연사는 Roberts Cross 운영자와 Urbain Sobel에 대해 언급합니다. 그는 노이즈를 줄이고 이미지를 흐리게 하기 위해 2x2 블록에 대해 평균을 수행하여 특정 방식으로 운영자를 복제했습니다.
01:15:00 비디오의 이 섹션에서 강사는 여러 연산자를 사용하여 가장자리 감지에서 하프 픽셀 오프셋 문제를 피하는 방법에 대해 설명합니다. 토론에는 수식 변형 및 구현 기본 설정이 포함됩니다. 강의는 또한 밝기 기울기를 위한 데카르트 좌표에서 극좌표로의 변환, 기울기 크기 방향 양자화 및 최대값 스캔을 포함한 다음 단계를 설명합니다. 픽셀 양자화 문제로 인해 서브픽셀 정확도를 달성할 수 없습니다. 강사는 이미지에서 비최대값을 무시하고 최대값만 유지하는 방법을 설명합니다.
01:20:00 이 섹션에서 비디오는 가장자리 감지에서 비대칭 조건의 필요성과 g 0이 g 플러스 또는 g 마이너스와 같은 상황에 대한 타이 브레이커에 대해 설명합니다. 곡선의 정점을 찾기 위해 비디오는 타이 브레이커로 가장자리에 포물선을 맞추는 것을 설명하며 이 방법으로 계산된 s는 크기가 절반으로 제한됨을 보여줍니다. 표시된 또 다른 방법은 두 선의 기울기가 같다고 가정하고 수직 및 수평 위치를 추정하여 s에 대한 공식을 도출하는 작은 삼각형 모델입니다. 두 가지 방법 모두 서브픽셀 정확도를 달성하기 위한 것이며 비디오는 삼각형 모델이 이상하게 보일 수 있지만 특정 상황에서는 효과적이라고 제안합니다.
01:25:00 이 섹션에서 강사는 초점이 흐려지는 경우 가장자리의 모양, 특히 실제 가장자리 위치를 복구하는 방법에 어떤 영향을 미치는지 설명합니다. 그는 또한 그래디언트 방향의 양자화에 대한 대안과 그것이 어떻게 문제가 될 수 있는지, 특히 방향이 8개뿐인 정사각형 격자에서 어떻게 문제가 될 수 있는지에 대해 이야기합니다. 이 문제는 도함수를 계산하는 좋은 방법을 찾는 것과 같이 좋은 성능을 원한다면 고려해야 할 세부 사항이 많다는 것을 보여줍니다.
이 강의에서 교수는 지적 재산권, 특허, 상표권, 에지 감지를 위한 이미지 처리 기술 등 다양한 주제를 다룹니다. 이 강의에서는 2D 머신 비전에서 정확도의 중요성과 흐리거나 초점이 맞지 않는 가장자리를 감지하는 문제를 강조합니다. 교수는 피크 찾기에서 바이어스 보상 및 보정 보정 기술과 함께 하위 픽셀 보간을 사용하여 혼합 편도함수, 라플라시안 및 에지 감지를 찾는 방법을 다룹니다. 전반적으로 강의는 이러한 주제와 실제 적용에 대한 포괄적인 개요를 제공합니다.
이미지 처리에 대한 이 강의에서 발표자는 그래디언트 방향의 양자화를 피하고 에지 위치 결정의 정확도를 향상시키기 위한 다양한 방법에 대해 논의합니다. 보다 정확한 그래디언트 방향 결정을 위해 조회 테이블 및 양자화보다 선호되는 방법으로 보간법이 제안됩니다. 또한 단계 크기를 원으로 고정하고 다중 스케일 분석을 사용하는 것이 대체 기울기 계산 방법으로 논의됩니다. 연사는 또한 그래디언트의 y 구성 요소를 0으로 줄이기 위해 이미지를 회전하는 반복적인 접근 방식을 설명하고 특수 각도를 통해 회전하는 화음의 개념을 소개합니다. 일반적인 숙제 문제보다 일이 더 많기 때문에 학생들은 퀴즈를 일찍 시작하도록 상기시킵니다.
00:00:00 이 섹션에서 교수는 숙제 문제보다 더 길고 두 배로 계산되는 다가오는 퀴즈에 대해 논의합니다. 퀴즈는 최근 자료에 더 중점을 두고 지금까지의 코스 내용을 다룹니다. 그런 다음 교수는 실용 특허 및 디자인 특허와 같은 다양한 유형의 특허를 언급하면서 지적 재산 및 특허에 대해 간략하게 설명합니다. 특허권자와 정부 사이의 사회적 계약도 논의되는데, 여기서 특허권자는 어떤 일을 하는 방법을 정확히 설명하는 대가로 특정 기간 동안 제한된 독점권을 받습니다. 토론은 특허 소송에서 최선의 모드의 법적 개념을 다루면서 결론을 내립니다.
00:05:00 상표로 브랜드나 로고를 보호할 수 있습니다. 저작권법을 위반하지 않고 교육 목적 및 리버스 엔지니어링 소프트웨어와 같이 저작권이 있는 자료의 작은 부분을 사용하는 경우에는 예외가 있습니다. 저작권법은 저자의 수명에 일정 기간을 더한 기간을 보호하는 데 사용되었지만 이후에는 저자의 수명에 75년 이상을 더한 것으로 업데이트되었습니다. 상표법은 저작권보다 더 제한적인 브랜드와 로고를 보호합니다.
00:10:00 이 섹션에서 연사는 회사 이름과 로고의 상표 등록에 관한 규칙에 대해 논의하며 해당 분야에서 고유해야 하며 일반적인 단어가 될 수 없음을 강조합니다. 상표에는 회사를 보호하는 데 도움이 될 수 있는 모양, 표시 및 색상도 포함될 수 있습니다. 발표자는 또한 회사가 법적 보호를 받지 못하지만 제품의 세부 사항을 비밀로 유지하는 영업 비밀의 개념에 대해서도 언급합니다. 그런 다음 발표자는 가장자리 찾기와 관련된 낮은 수준의 특허를 소개하고 일단 가장자리가 발견되면 개체 인식과 위치 및 자세 결정을 위해 더 복잡한 이미지 처리 작업을 수행할 수 있다고 언급합니다. 연사는 2D 머신 비전 세계에서 정확성이 매우 중요하며 거의 완벽하게 작동해야 한다고 말합니다.
00:15:00 이 섹션에서 강사는 도함수를 추정하는 데 사용되는 다양한 방법을 논의하여 블롭 분석 및 이진 이미지 처리의 기본 사항을 검토합니다. 논의된 첫 번째 아이디어는 변곡점을 가장자리로 식별하기 위해 밝기 구배를 살펴본 다음 정점을 찾는 도함수를 살펴보는 것이었습니다. e sub x에 대한 서로 다른 근사치와 같은 도함수를 추정하는 다양한 방법을 조사했으며 Taylor 급수 확장을 사용하여 최하위 오류 항을 찾았습니다. 마지막으로 강의에서는 근육 전기 신호 분석과 노이즈 및 신호 왜곡으로 인해 고정밀 1차 미분을 찾을 때 프로세스가 얼마나 복잡해질 수 있는지에 대해 자세히 설명합니다.
00:20:00 이 섹션에서 강사는 가장자리를 감지하기 위해 가장자리 연산자의 길이를 선택하는 것과 관련된 장단점에 대해 설명합니다. 그는 너무 긴 연산자를 사용하면 서로 다른 기능이 상호 작용하여 에지를 감지하기 어려울 수 있다고 설명합니다. 이 절충은 가장자리가 서로 매우 가까워지는 큐브 이미지에서 가장자리를 감지할 때 적용할 수 있습니다. 강사는 1차 도함수의 컨볼루션을 두 번 적용하여 2차 도함수를 계산하는 방법을 설명하고 이 방법을 사용하여 결과의 정확성을 확인하는 방법을 보여줍니다. 마지막으로 그는 파생물 도출에 사용되는 계산 분자를 설계하는 다양한 방법을 확인하는 것의 중요성을 설명합니다.
00:25:00 강의의 이 섹션에서 교수는 2D 스텐실을 사용하여 혼합 편도함수를 찾는 과정을 설명합니다. 스텐실은 기능 중 하나를 뒤집고 겹치는 영역을 식별하기 위해 다른 기능 위에 겹쳐서 2x2 스텐실을 만듭니다. 교수는 뒤집히지 않은 계산 스텐실을 사용할 때 부호 반전을 주의하는 것이 중요하다고 지적합니다. 그들은 또한 혼합 편미분을 회전 좌표계에서 2차 미분으로 생각할 수 있다고 지적합니다. 전반적으로 이 섹션에서는 2D에서 혼합 편도함수를 찾는 방법에 대해 명확하고 자세히 설명합니다.
00:30:00 이 섹션에서는 Laplacian의 주제가 2차 미분 연산자로 다시 소개됩니다. 여기에서 중심 대칭 미분 연산자에 대한 Laplacian의 근사값을 얻기 위해 두 개의 연산자가 직교 방향으로 추가됩니다. 그런 다음 이 두 연산자의 가중 합을 도입하여 중앙 대칭 미분 연산자에 대한 라플라시안의 더 부드러운 버전을 생성하고 이 새로운 연산자는 이미지에 적용할 때 훨씬 더 계산적으로 효율적입니다. 또한 이러한 가중 계수의 값을 결정하는 기술(예: 최하위 오류 항 또는 0과 같은 합계)에 대해 설명합니다.
00:35:00 이 섹션에서 화자는 육각형 대신 직사각형 픽셀을 사용하는 문제에 대해 논의합니다. 그는 무선 주파수를 사용하여 우리 은하 중심의 블랙홀을 이미징하는 것과 같이 사람들이 효율성에 대해 우려하는 상황을 설명합니다. 발표자는 또한 선형 연산자와 비선형 연산자를 구별하고 회전 좌표계에서 도함수를 계산할 때 Robert가 스텐실을 사용하는 방법에 대해 설명합니다. 또한 그는 모든 곳에서 약한 응답을 얻지만 가장자리에서 강한 응답을 얻기 위해 모든 곳에서 에지 연산자를 적용하는 개념인 비최대 억제에 대해 설명합니다.
00:40:00 이 섹션에서 발표자는 가장자리 감지의 개념에 대해 논의하고 가장자리 감지에 임계값을 적용할 때의 단점을 강조합니다. 대신 화자는 에지 포인트를 식별하기 위해 기울기 방향의 최대값을 제외한 모든 것을 제거할 것을 제안합니다. 연사는 또한 최대가 아닌 억제와 타이 브레이킹의 비대칭 문제에 대해서도 이야기합니다. 마지막으로 스피커는 서브 픽셀 에지 위치를 결정하기 위해 포물선을 에지 응답 프로파일에 맞추는 방법을 설명합니다. 발표자는 곡선 모양의 선택이 임의적이라는 점을 인정하지만 대부분의 경우 2차 다항식이 적합할 수 있는 방법을 설명합니다.
00:45:00 이 섹션에서는 하위 픽셀 보간법을 사용한 가장자리 감지에 대해 알아봅니다. 그래디언트 방향은 에지의 방향을 알려주고, 잠재적인 에지 포인트를 실제 에지 위치에 투영하는 데 도움이 되도록 양자화합니다. 그런 다음 바이어스 보상을 수행하여 포물선 또는 삼각형 방법을 사용하여 에지 위치를 보다 정확하게 추정할 수 있습니다. 이렇게 하면 에지의 정점을 찾을 수 있고 원점에 가장 가까운 점을 취함으로써 정확도를 높일 수 있습니다.
00:50:00 강의의 이 섹션에서 발표자는 서브픽셀 에지 감지를 위한 피크 찾기의 보정 보정 방법에 대해 논의합니다. 본질적으로 이 방법은 방법에 대한 보정 조회 테이블을 만들기 위해 가장자리를 실험적으로 이동하고 실제 피크 값에 대해 피크 찾기 방법의 정확도를 측정하는 것을 포함합니다. 연사는 또한 가장자리 모양이 어떻게 다를 수 있는지에 대해 이야기하고 단일 매개변수 맞춤을 사용하여 모양을 근사화하는 방법을 보여줍니다. 이러한 차이점에도 불구하고 서브픽셀 에지 감지 정확도를 위해 방법에 대한 약간의 수정만 필요합니다.
00:55:00 강의의 이 섹션에서 교수는 퍼지 가장자리의 개념과 하위 픽셀 복구 및 앨리어싱 문제 방지에 중요한 이유에 대해 설명합니다. 교수는 흐릿한 가장자리의 한 가지 이유가 디포커스라고 설명합니다. 카메라 렌즈의 예를 들어, 교수는 초점이 맞는 물체는 점으로 포착되는 반면 초점이 약간 벗어난 동일한 물체는 균일한 밝기의 원으로 포착된다는 것을 보여줍니다. 이를 보완하기 위해 교수는 단위계단함수와 점확산함수를 소개하고, 이를 x와 y의 함수로 균일한 밝기의 원을 기술하는데 어떻게 사용할 수 있는지 설명한다.
01:00:00 이 섹션에서 화자는 초점이 맞지 않는 효과와 가장자리와 원을 중첩하여 기하학적으로 응답을 계산하는 방법을 설명합니다. 원의 부채꼴 면적과 삼각형 면적은 두 도형의 차이를 찾는 데 사용됩니다. 세타는 면적을 계산하는 데 사용되며 세부 사항은 0과 1 사이의 응답을 보여주기 위해 설명됩니다.
01:05:00 이 섹션에서 발표자는 알고리즘을 사용하여 가장자리 위치를 정확하게 결정하는 오류를 계산하기 위해 다이어그램을 플로팅하는 것에 대해 논의합니다. 그들은 이 오류가 작지만 0이 아닐 수 있으며 높은 정확도를 고려하는 데 필수적이라고 언급합니다. 그런 다음 연사는 두 가지 크기로 제공되는 간격으로 인해 어색함을 유발할 수 있는 그래디언트 방향의 양자화를 피하는 방법에 대해 이야기합니다. 그들은 이로 인해 약간 다른 오류 기여가 발생할 수 있다고 논의하고 이를 피할 수 있는 몇 가지 방법을 제안합니다. 이 섹션은 특허 침해와 이를 방지하는 방법에 대한 논의로 끝납니다. 여기서 초점은 발명을 개선하기보다는 다르게 만드는 데 있습니다.
01:10:00 비디오의 이 섹션에서 강사는 특정 특허에 존재하는 기울기 방향의 양자화를 피하기 위해 선호되는 방법에 대해 논의합니다. 그는 그 방법을 사용하는 대신 기울기 방향의 양자화를 피하기 위해 보간할 것을 제안합니다. 보간을 통해 값을 원활하게 근사화할 수 있고 그래디언트 방향을 정확하게 결정할 수 있습니다. 강사는 이 방법이 정확도를 향상시켜 룩업 테이블을 작성하거나 편향 그래프를 양자화하고 수정할 필요가 없다고 생각합니다. 이 방식의 단점은 보간법을 사용하고 있어 정확한 측정값을 아는 것에 비해 정확도가 부족하지만 무시할 수 있는 경우가 많다는 점이다.
01:15:00 강의의 이 섹션에서 발표자는 단계 크기를 변경하는 대신 고정하는 것과 관련된 기울기 계산의 대체 방법에 대해 논의합니다. 이 방법은 원을 사용하여 픽셀 간격을 결정하고 더 적은 양자화로 더 연속적인 그래디언트 방향을 제공합니다. 그러나 이 접근 방식에는 쌍선형 또는 쌍입방의 보간이 필요하며 더 많은 픽셀을 고려해야 하므로 추가 작업이 필요할 수 있습니다. 또한 화자는 이미지에서 선명한 가장자리와 흐릿한 가장자리를 찾는 데 멀티스케일 분석의 유용성에 대해 이야기합니다. 마지막으로 발표자는 직교에서 극좌표로의 변환에 대해 선호되는 구현에 대해 간략하게 언급합니다. 여기에는 좌표계 회전이 포함됩니다.
01:20:00 이 섹션에서 발표자는 반복적인 접근 방식을 사용하여 그래디언트의 y 구성 요소를 0으로 줄이기 위해 이미지를 회전하는 방법에 대해 설명합니다. 이를 위해 y 구성 요소의 크기가 0으로 줄어들 때까지 회전 각도를 반복적으로 조작합니다. 화자는 일련의 테스트 각도를 사용하고 각 반복마다 y 구성 요소의 크기를 줄이는 전략을 제안합니다. 각도는 2의 역승이 되도록 선택되어 곱셈 횟수를 4에서 2로 줄일 수 있습니다. 회전 각도가 충분히 작아질 때까지 반복적인 접근 방식을 반복합니다.
01:25:00 이 섹션에서 화자는 세타 i의 탄젠트가 i에 대한 2분의 1인 속성을 가진 특수 각도를 통해 회전하는 화음의 개념을 설명합니다. 반복 프로세스에는 해당 각도를 통해 변경하고 음수인지 여부를 추적하는 작업이 포함됩니다. 가장 먼저 할 일은 x와 y의 부호와 y가 x보다 큰지 여부를 살펴봄으로써 사소한 첫 번째 8분원으로 가져오는 것입니다. 다음 강의에서는 다중 척도와 샘플링을 다룰 예정이며, 연사는 일반적인 숙제 문제보다 일이 더 많기 때문에 시청자에게 퀴즈를 일찍 시작하도록 상기시킵니다.
강의는 PatQuick 특허(US 7,016,539)에 중점을 두고 객체 감지, 인식 및 포즈 결정에 중점을 둡니다. 이 특허는 공간에서 객체의 포즈를 감지하고 결정하는 것을 목표로 하며 다른 포즈와 회전에서 런타임 이미지와 비교되는 모델이라는 추상 표현을 사용하여 이전 방법보다 개선된 기능을 제공합니다. 이 특허는 또한 정확도를 높이기 위해 일반화된 자유도 목록을 통합하고 저역 통과 필터링 및 에지 감지를 사용하여 경계 지점을 획득하고 임계값을 최종 단계까지 연기합니다. 또한 강의에서는 이러한 모델을 표현하기 위해 원하는 간격과 대비가 있는 에지 감지 및 프로브를 사용하여 모델을 만드는 과정에 대해 설명하고, 변환, 회전, 스케일링 및 종횡비와 같은 자유도를 고려하여 다양한 변형을 허용하는 것이 중요함을 설명합니다. 개체 치수 및 관점.
이 비디오는 피크 감지 및 인접한 물체 감지 솔루션을 포함하여 물체 감지에서 효율적이고 확장 가능한 변환 검색에 사용되는 육각형 검색 패턴에 대해 설명합니다. 이 비디오는 또한 런타임 이미지에서 사전 결정된 패턴의 존재와 다차원 위치를 결정하기 위한 특허인 PatQuick에 대해 설명합니다. 이 방법은 프로브와 미리 계산된 그래디언트를 사용하여 개체의 포즈를 일치시키고 스코어링 기능의 통합으로 결과에서 오류를 제거합니다. 이 비디오는 내적을 사용하여 각도 차이를 결정하는 대체 방법을 탐색하고 다양한 입도에 대한 멀티 스케일 작업 및 프로브 선택의 복잡성을 강조합니다. 방법의 정확도는 검색 공간의 양자화에 의해 제한됩니다.
00:00:00 이 섹션에서는 물체를 검사할 뿐만 아니라 공간에서 물체의 자세를 감지, 인식 및 결정하는 것을 목표로 하는 특허 7016539를 소개합니다. 그것이 해결하기 위해 노력하는 문제는 기계를 사용하여 객체를 조작해야 하지만 객체에 대한 정확한 에지 정보가 없다는 것입니다. 선행 기술에는 4개의 다른 구성 요소가 있으며 그 중 하나는 이진 이미지 처리로 구성되어 있습니다. 이 처리에는 개체를 배경과 구별하여 이진 이미지를 생성하는 작업이 포함되어 처리가 더 쉽고 필요한 메모리가 적습니다. 로컬 계산은 이진 이미지의 면적, 둘레 및 중심 찾기, 병렬 하드웨어로 달성할 수 있는 병렬 방식의 오일러 수 계산과 같은 특정 저수준 이진 이미지 처리 작업에 대해 수행할 수 있습니다.
00:05:00 이 섹션에서는 강사가 객체 감지, 인식 및 포즈 결정을 위한 다양한 방법에 대해 설명합니다. 일부 매개 변수를 기반으로 이미지의 전경과 배경을 구별하는 임계값 지정 방법이 도입되었습니다. 그러나 이 방법은 전경과 배경이 명확하게 구분되지 않을 수 있으므로 제한적입니다. 이진 템플릿 방법에는 마스터 이미지 또는 골든 템플릿을 사용하여 개체를 정의하고 임계값을 통해 템플릿을 계산하는 작업이 포함됩니다. 정규화된 상관 관계는 두 이미지 간에 적합한 일치 항목을 찾기 위해 가능한 모든 일치 위치를 시도하는 것을 포함합니다. 이것은 컴퓨터 비전의 초기 연구 프로젝트인 Cognac의 명성에 대한 주장이었습니다.
00:10:00 이 섹션에서 발표자는 개체 감지 및 인식과 관련된 방법인 상관관계를 사용하여 정렬하는 과정에 대해 논의합니다. 가능한 한 작게. 그러나 현재로서는 가능한 모든 위치에 대해 모든 픽셀을 분석해야 하기 때문에 계산 비용으로 인해 변환만 고려되고 있습니다. 또한 화자는 오프셋을 계산하는 기울기 기반 방법과 상관 관계를 연관시키고 시간 변화를 최소화하여 상관 관계를 최대화하는 데 사용할 수 있는 방법에 대해 설명합니다.
00:15:00 이 섹션에서 강의는 특히 제조 공정의 다음 단계를 위해 집적 회로를 정렬하는 맥락에서 물체를 인식하고 그 자세를 결정하는 데 중점을 둡니다. 화자는 정렬을 결정하기 위한 다양한 방법에 대해 논의하고 차의 제곱합과 상관관계가 일반적으로 사용되지만 몇 가지 단점이 있음을 언급합니다. 특히 상관관계는 이미지 간의 대비가 다르더라도 높은 일치를 줄 수 있으며 일치를 구성하는 항목에 대한 명확한 임계값이 없습니다. 이러한 문제에도 불구하고 상관 관계는 계산 효율성으로 인해 여전히 인기가 있습니다. 또한 발표자는 이러한 방법이 광학 마우스에서 활용된 그래디언트 기반 방법의 통합을 통해 개선될 수 있다고 언급합니다.
00:20:00 이 섹션에서는 정규화된 상관관계와 이미지 인식에서의 역할에 대해 강의합니다. 정규화된 상관 관계는 이미지 밝기의 오프셋을 제거하고 광학 설정의 변경에 대한 프로세스의 민감도를 낮추는 데 사용됩니다. 정규화 방법은 두 이미지의 상관 관계를 계산하고 이를 정규화하여 대비의 변화를 제거합니다. 이때 이 방법은 피크를 계산하여 사용자가 상관 관계의 성공 여부를 측정할 수 있습니다. 결과적으로 높은 상관 점수는 좋은 일치를 나타내고 낮은 상관 점수는 나쁜 일치를 나타냅니다. 이 방법은 비용이 많이 들 수 있지만 초기에 Cognex의 명성을 얻기 위한 주장이었습니다.
00:25:00 이 섹션에서 비디오는 객체 감지 및 인식, 특히 이미지에서 미리 결정된 패턴의 존재를 결정하고 다차원 공간 내에서 패턴의 위치를 결정하는 것과 관련된 특허에 대해 설명합니다. 이전 방법에 비해 개선된 이 특허에는 모델이라는 패턴의 추상적 표현을 사용하는 것이 포함되며, 이 패턴은 다른 포즈, 회전 등에서 런타임 이미지와 비교됩니다. 비교는 일치 점수를 생성하며, 이는 더 많은 정보를 사용할 수 있을 때까지 의사 결정을 연기하는 임계값을 수락합니다. 이 특허는 또한 개체의 일부 또는 누락된 부분에 대한 정확도를 높이기 위해 변환 및 회전 대신 일반화된 자유도 목록을 제공합니다.
00:30:00 이 섹션에서는 잠재적인 일치 항목을 얻는 데 중점을 둔 PatQuick으로 알려진 개체 감지, 인식 및 포즈 결정에 대한 특허에 대해 설명합니다. 이 섹션에서는 특허가 저역 통과 필터링 및 에지 감지를 사용하여 다양한 해상도에서 경계점을 얻는 방법에 대해 자세히 설명합니다. 그런 다음 프로세스는 체인의 지점을 구성하기 위해 일관된 방향을 가진 인접한 경계 지점을 연결하여 계속됩니다. 이 특허는 가장자리가 약하더라도 가장자리를 함께 연결하고 임계값을 끝까지 연기한다는 점에서 다른 방법과 다릅니다.
00:35:00 이 섹션에서 발표자는 가장자리 감지를 사용하여 물체 인식을 위한 모델 생성과 이러한 모델을 나타내기 위해 원하는 간격과 대비를 가진 프로브를 생성하는 프로세스에 대해 논의합니다. 모델은 가장자리에 맞춰지고 이러한 프로브는 모델과 분석 중인 이미지 사이에 일치 여부를 감지하는 데 사용됩니다. 프로브는 고대비 영역을 식별하기 위한 증거 포인트로 사용되며 이 방법은 분석해야 하는 픽셀 수를 줄이는 데 도움이 됩니다. 타이 브레이킹은 프로브의 이웃 순서를 결정하는 맥락에서도 논의됩니다.
00:40:00 이 섹션에서 발표자는 런타임 이미지에서 관찰된 그래디언트를 모델의 그래디언트와 비교하는 방법에 대한 다양한 예를 논의합니다. 조도나 재질이 바뀌어도 그라데이션 방향이 유지될 가능성이 훨씬 높다고 그는 설명한다. 연사는 또한 각 프로브의 중요성을 결정하는 데 도움이 되는 무게의 개념을 소개합니다. 수동 가중치 할당은 개체 대칭을 설명하는 데 유용할 수 있지만 사람의 개입이 필요하며 일반적으로 사용되지 않습니다. 마지막으로 스피커는 계산 효율성을 높이는 데 사용되는 컴파일된 프로브 개체뿐만 아니라 프로브, 해당 위치, 방향 및 무게를 포함하여 모델의 다양한 개체를 정의합니다.
00:45:00 이 섹션에서는 화자가 컴파일된 프로브 개체를 이미지에 매핑하는 방법과 모델을 사용하는 방법을 설명합니다. 컴파일된 프로브는 이미지 좌표에 특화된 프로브 세트이며, 프로브와 주요 차이점은 컴파일된 프로브의 오프셋이 실제 변수가 아닌 픽셀 단위의 정수라는 것입니다. 화자는 또한 반드시 찾아야 하는 많은 자유도를 갖는 변환인 맵의 개념에 대해 논의하며 변환을 제외한 모든 변환을 포함합니다. 그래디언트 점수를 매기기 위해 그래디언트의 두 방향 사이의 극성, 대비 극성 및 90도 차이를 고려하는 그레이딩 기능이 사용됩니다.
00:50:00 이 섹션에서 발표자는 그래디언트의 방향과 크기를 고려하는 함수를 사용하여 프로브가 런타임 이미지의 해당 지점과 얼마나 잘 일치하는지 평가하는 방법을 설명합니다. 그러나 그는 대비 역전이 방향 기반 메트릭을 노이즈에 대해 덜 견고하게 만들 수 있는 반면 더 넓은 슬롭을 사용하면 무작위 정렬을 허용할 가능성을 높일 수 있다고 지적합니다. 자유도를 다루기 위해 화자는 회전, 배율 및 전단 조정에 사용되는 매개변수 및 함수의 예를 제공합니다. 전반적으로 물체 감지 프로세스는 상황에 따라 접근 방식이 다를 수 있으므로 다양한 고려 사항이 필요합니다.
00:55:00 이 섹션에서는 객체 감지, 인식 및 포즈 결정의 일반화된 자유도에 대해 알아봅니다. 이러한 자유도(예: 변환, 회전, 크기 조정 및 종횡비)를 통해 개체 치수 및 원근을 다양하게 변경할 수 있습니다. 정확히 2차원이 아닌 공간에서 작업할 때 이러한 정도를 고려하는 것이 중요합니다. 이렇게 하면 이미지가 직사각형이 아닌 마름모꼴로 나타납니다. 그러나 스케일링을 고려할 때 계산 비용에 주의하는 것이 필수적이며 보다 합리적인 접근 방식은 로그 스케일로 작업하는 것입니다. 또한 프로브 최소 둘러싸는 사각형은 일부 작업에서 계산을 줄일 수 있습니다. 포즈의 다차원 공간은 특정 값 사이의 근접성을 결정해야 하며 이는 해당 공간에서 두 포즈가 얼마나 가까운지 식별함으로써 수행됩니다.
01:00:00 비디오의 이 섹션에서 발표자는 객체 감지에서 효율적이고 확장 가능한 번역 검색에 사용되는 검색 패턴을 설명합니다. 이러한 패턴은 육각형을 중심으로 구성되어 수행된 작업 대 해상도 측면에서 파이보다 4배 높은 이점을 제공합니다. 발표자는 또한 육각형 그리드에서 피크 감지가 작동하는 방식에 대해 논의하고 인접한 물체 감지를 피하는 솔루션을 제공합니다. 또한 영상은 객체, 이미지, 밝기, 입도, 경계 등 특허법에서 일반적으로 사용되는 용어와 그래픽, 엑스레이 이미지 등 가시광선 이미지 이외의 응용 분야를 정의합니다. 이러한 용어의 일반화는 특허 및 잠재적 응용 범위를 넓히는 것을 목표로 합니다.
01:05:00 이 섹션에서 비디오는 런타임 이미지에서 사전 결정된 패턴의 인스턴스가 하나 이상 있는지 여부를 결정하고 각 현재 인스턴스의 다차원 위치를 결정하는 방법인 PatQuick에 대한 특허에 대해 설명합니다. . 이 특허는 검사 및 인식의 가능성을 포함하며, 여기서 프로세스는 각 개체에 대해 실행되며 대부분은 잘 일치하지 않지만 하나는 인식을 위한 것입니다. 비디오는 또한 지정된 세분성에서 밝기의 가장 큰 변화의 방향과 크기를 제공하는 벡터인 그래디언트의 사용과 찾을 수 있는 패턴의 데이터 인코딩 특성 집합인 모델의 사용에 대해 언급합니다. 실제 이미지 또는 CAD 도면에서 생성됩니다.
01:10:00 이 섹션에서 발표자는 객체의 일부가 가려지거나 누락된 경우에도 PatQuick의 방법이 작동하는 방식을 설명하여 검사 목적에 유용합니다. 이 방법은 프로브를 사용하여 객체의 포즈를 일치시키고 이론적으로 그라디언트는 각 일치에서 계산할 수 있지만 효율성을 위해 미리 계산하는 것이 유리합니다. 스코어링 기능의 통합은 랜덤 매치가 스코어를 상쇄하는 정도를 계산하는 데 사용되며, 계산하기 번거롭지만 결과에서 오류를 제거하고 노이즈를 줄여야 합니다. 방법에는 주로 방법 청구가 있으며 법적 상황이 변경되어 방법 청구만 발생했습니다.
01:15:00 이 섹션에서 화자는 탄젠트 함수를 사용하는 대신 내적을 사용하여 단위 벡터 간의 각도 차이를 결정하는 대체 방법에 대해 설명합니다. 그러나 이 방법은 큰 절대값을 생성하고 원래 방법만큼 좋지 않습니다. 발표자는 또한 양자화되는 방법의 단점과 더 정확한 결과를 위해 더 미세한 양자화를 사용하기 전에 잠재적 일치를 찾기 위해 전체 포즈 공간을 검색해야 하는 필요성에 대해 논의합니다. 이 섹션은 다양한 채점 기능을 논의할 필요성에 대한 언급으로 끝납니다.
01:20:00 이 섹션에서 화자는 결과가 정확하거나 빨라야 할 때 일치 항목을 찾는 것과 관련된 다양한 계산에 대해 설명합니다. 그들은 서로 다른 세분성에 대해 서로 다른 프로브와 모델을 사용하는 다중 규모 작업 실행의 복잡성을 탐구합니다. 프로브는 픽셀 그리드로 제한되지 않고 에지 포인트에서 파생되어 밝기 대비를 사용하는 것보다 더 신뢰할 수 있는 결과를 제공합니다. 또한 이 방법의 정확도는 검색 공간의 양자화에 의해 제한되며 향후 강의에서 다루는 다른 특허에서 이를 능가할 수 있습니다.
이 강의에서는 실시간 이미지에서 개체의 자세를 결정하는 다차원 공간에서 채점 기능을 생성하기 위해 프로브를 사용하는 데 중점을 두고 PatQuick 알고리즘에 대해 설명합니다. 기울기의 방향과 크기 측면에서 일치의 품질 등급을 매기는 데 사용되는 일치 함수도 검사되며 정확도와 속도 사이의 트레이드오프에 대해 논의된 다양한 채점 함수가 있습니다. 이 강의에서는 특히 이미지의 종횡비를 변경하는 변환을 수행할 때 계산의 세분성을 조정하고 방향을 올바르게 잡는 문제를 해결하는 것을 포함하여 패턴 일치 프로세스를 보다 효율적으로 만드는 데 사용되는 다양한 방법을 탐구합니다. 강의는 또한 사진에서 선을 감지하기 위한 호모그래피 및 Hough 변환에 대한 주제를 다룹니다.
강의는 Hough Transform, Extended Gauss Half Transform, 위치 결정, multi-scale sub-sampling, SIFT 등 컴퓨터 비전과 관련된 다양한 주제를 다룹니다. Hough Transform은 라인 및 에지 감지에 사용되는 반면 Extended Gauss Half Transform은 Hough Transform의 보다 정교한 버전입니다. 강의에서는 기지국의 위치와 같은 원을 감지하기 위해 허프 변환을 사용하는 방법도 설명합니다. 또한 발표자는 품질 저하 없이 작업량을 줄이기 위한 서브 샘플링 이미지에 대해 논의하고, 여러 장의 사진에서 3D 정보를 생성하는 데 널리 사용되는 장면의 서로 다른 이미지에서 대응점을 찾는 방법인 SIFT를 소개합니다. 마지막으로 연사는 음악 이론에 대해 간략하게 논의하고 제안서를 제출하라는 알림과 지체하지 말라는 인용문으로 끝납니다.
00:00:00 이 섹션에서 연사는 PatQuick 알고리즘과 프로브를 사용하여 다차원 공간에서 채점 기능을 생성하는 방법에 대해 설명합니다. 알고리즘은 이미지에서 적은 수의 점을 보고 많은 자유도를 처리할 수 있습니다. 논의된 특허는 관련이 있으며 머신 비전에 대한 물리 기반 접근 방식의 일부입니다. 설명된 알고리즘은 대부분 집적 회로 및 인쇄 회로 기판과 같은 2차원 표면과 관련된 상황으로 제한됩니다.
00:05:00 이 섹션에서 발표자는 이미지가 시스템에 표시되고 자동으로 모델을 계산하는 PatQuick 기술의 교육 단계에 대해 설명합니다. 이것은 각 시각적 작업에 대한 코드를 손으로 만드는 것보다 리소스와 시간을 절약하기 때문에 중요한 단계입니다. 그런 다음 모델은 실시간 이미지에 매핑되고 자세는 변환, 회전, 크기 조정, 기울이기 및 종횡비를 통해 결정됩니다. 개체에 대해 수집된 증거는 누적되며 최종 결과는 로컬 작업의 합계입니다. 그러나 이 방법의 한계는 포즈 공간의 양자화로 정확도에 영향을 미칠 수 있습니다.
00:10:00 이 섹션에서 화자는 다양한 크기와 모양의 패턴을 다룰 때 발생할 수 있는 잠재적인 6차원 공간에 대해 논의합니다. 변환에는 2개의 자유도가 있고 회전에는 1개의 자유도가 있지만 스케일링, 기울이기 및 종횡비는 각각 1개의 자유도를 가지므로 총 6개가 됩니다. 그러나 6개의 매개 변수를 모두 처리하는 것은 공간을 합리적인 숫자로 양자화하므로 비실용적입니다. 100과 같은 레벨의 결과는 총 10에서 12칸이 됩니다. 연사는 또한 기울기의 방향과 크기 측면에서 일치 품질 등급을 매기는 데 사용되는 일치 기능을 설명하면서 배경 잡음과 일치 가능성을 포함하여 기능의 몇 가지 단점을 강조합니다.
00:15:00 이 섹션에서 강사는 PatQuick 알고리즘에서 정확성과 속도 간의 균형을 위해 사용되는 다양한 채점 기능에 대해 설명합니다. 서로 다른 채점 함수에는 정규화된 값, 의미 있는 점수 또는 더 나은 일치로 더 큰 값과 같은 다양한 기능이 있습니다. 강사는 음수 가중치를 버리고 기울기 방향을 사용하여 점수를 계산한다고 설명합니다. 초점은 컴파일된 프로브와 다양한 변환에 있습니다. 이 강의에서는 곱셈의 필요성을 제거하고 양수 가중치가 있는 프로브만 처리하는 s1b라는 채점 기능의 두 번째 버전을 강조합니다.
00:20:00 이 섹션에서 화자는 PatQuick의 바람직한 실시예에 사용되는 다양한 기능에 대해 논의합니다. 한 함수는 그래디언트 방향을 고려하고 랜덤 매칭을 기반으로 항을 빼서 결과를 개선합니다. 또 다른 함수는 그래디언트 크기를 직접 사용하며 정규화되지 않습니다. 즉, 절대값이 중요하지 않습니다. 이러한 기능은 PatQuick의 후보 솔루션 및 미세 스캔 단계에서 사용됩니다. 화자는 바람직한 실시예가 상이한 기능을 갖지만, 구현을 위해 다른 대안이 또한 제공된다는 점에 주목한다.
00:25:00 강의의 이 섹션에서 연사는 패턴 일치 프로세스를 보다 효율적으로 만드는 것과 관련된 몇 가지 세부 사항에 대해 논의합니다. 한 가지 중요한 고려 사항은 만족스러운 결과를 얻을 때까지 해상도를 낮추어 조정할 수 있는 계산의 세분성입니다. 화자는 정규화 문제에 대해서도 언급하면서 일부 작업의 경우 연산 문제이기 때문에 정규화할 필요가 없다고 설명합니다. 또한 화자는 특히 이미지의 종횡비를 변경하는 변환을 수행할 때 프로세스가 그래디언트 방향에 크게 의존하기 때문에 올바른 방향을 얻는 문제를 해결합니다.
00:30:00 강의의 이 섹션에서 연사는 직각을 유지하지 않는 방식으로 x와 y를 변환할 때 그래디언트 방향 문제를 처리하는 방법에 대해 논의합니다. 해결책은 기울기 방향에서 등광체를 계산하고 변환하고 등광체에 직각으로 무언가를 구성하는 것입니다. 연사는 또한 모델에서 프로브를 사용하여 특정 영역이 합리적으로 일치하는지 여부를 결정하고 런타임 이미지의 가장자리가 모델의 일부와 일치하는 정도에 따라 백분율을 계산하는 추가 검사 주제를 다룹니다.
00:35:00 이 섹션에서 강사는 원근 투영 및 카메라 좌표계를 사용하여 3D 세계에서 평면의 투영에 대해 설명합니다. 그는 직교 행렬을 통해 카메라와 세계 좌표계 간의 변환 및 회전 관계에 대해 자세히 설명합니다. 그런 다음 강사는 세계 객체 좌표에서 이미지 좌표로의 변환을 탐구하고 분할을 포함할 때 원근 투영의 비선형적이고 지저분한 특성에 주목합니다. 그러나 그는 평면 표면의 특정 사례에 초점을 맞추고 시스템을 개체에 세울 수 있는 방법을 자세히 설명하여 더 간단한 변환을 허용합니다.
00:40:00 이 섹션에서 발표자는 z가 0인 좌표계를 사용하여 3D 표면을 2D 표면으로 바꾸는 것에 대해 이야기합니다. 이 경우 세 번째 열을 무시하고 단일 행렬을 얻기 위해 회전 변환으로 편리하게 접을 수 있는 방법을 보여줍니다. 그런 다음 행렬 R과 달리 정규직교가 아닌 행렬 T를 소개합니다. 마지막으로 3D에서 변환 및 회전의 자유도와 회전에 대해 생각하는 다양한 방법에 대해 논의합니다.
00:45:00 비디오의 이 섹션에서 연사는 특히 평면 표면에 대한 원근 투영의 경우 행렬의 회전, 변환 및 제약 조건에 대해 논의합니다. 변환을 위한 행렬은 9개의 독립적인 요소를 갖지만 직교성 및 직교성 등의 제약으로 인해 자유도는 6개에 불과합니다. 교정 데이터는 선형 최소 제곱을 사용하여 적합할 수 있지만 제약 조건도 적용해야 하므로 게시된 작업에서 종종 간과됩니다. 이러한 개념은 3D 변환에 대한 이후 논의에서 중요합니다.
00:50:00 비디오의 이 섹션에서 강사는 스케일 팩터 모호성과 호모그래피, 재미있는 종류의 행렬에 대해 설명합니다. 호모그래피는 사진 측량법에서 사용되며 주의를 평면에 한정할 때 적용됩니다. 강사는 카메라 영상에서 도로의 지점을 매핑할 때 사용되는 Hough 변환 및 일반화에 대해서도 설명합니다. 마지막으로 강사는 NASA 구름 상자와 사람들이 기본 입자를 구름 상자에 쏘고 그 공간에서 이온화된 지점의 사진을 찍어 어떻게 기본 입자를 연구했는지 설명합니다.
00:55:00 이 섹션에서 강사는 특히 윌슨 기포 상자 사진의 사진에서 선이나 호를 감지하기 위한 목적으로 이미지 분석 프로세스를 자동화한 역사에 대해 논의합니다. 허프 변환은 간격이 일정하지 않거나 크기가 균일하지 않은 라인을 감지하는 문제를 처리하기 위한 솔루션으로 개발되었으므로 라인이 이미지 공간에서 라인의 매개변수 공간으로 매핑되었습니다. 강사는 가능한 각 매개변수 조합에 대한 증거를 세는 누산기 배열의 개념을 설명하고 이미지의 선과 일치하는 피크를 찾습니다. 매개변수 공간에서 이미지 공간으로의 매핑을 통해 증거가 단지 거품일지라도 선을 잘 추정할 수 있습니다.
01:00:00 이 섹션에서 강사는 이미지 내에서 선, 원 또는 타원과 같은 간단한 개체의 존재를 감지하는 기술인 허프 변환의 개념을 설명합니다. 허프 변환은 이미지 공간을 매개 변수 공간에 매핑하여 작동합니다. 여기서 변환된 공간의 각 점은 원래 공간의 선을 나타냅니다. 변환은 원래 공간의 모든 선이 매개변수 공간의 고유한 교차점에 매핑되도록 대칭입니다. 강사는 예를 들어 이미지의 거품이 가능한 선에 대한 증거를 제공할 수 있는 방법을 설명하고 매개 변수 공간에서 변형을 찾아 변환된 공간에서 선에 해당하는 피크를 찾기 위한 증거를 축적할 수 있습니다.
01:05:00 이 섹션에서는 강사가 이미지에서 선 및 가장자리 감지에 사용되는 Hough 변환에 대해 설명합니다. 허프 변환은 변환의 가능한 매개변수를 위한 공간을 생성하며 각 점은 특정 선에 해당하므로 선이 불규칙하고 고르지 않은 간격으로 분포되어 있어도 증거를 수집하는 데 도움이 될 수 있습니다. 그러나 Hough Transform은 더 나은 방법이 있기 때문에 더 이상 에지 감지에 사용되지 않을 수 있습니다. 이 강의에서는 Hough Transform의 보다 정교한 버전인 Extended Gauss Half Transform에 대해서도 간략하게 언급합니다. 또한 강의에서는 원에 대해 설명하고 Hough 변환이 신호의 타이밍 어드밴스를 결정하여 휴대폰 신호를 감지하는 데 어떻게 사용될 수 있는지에 대해 설명합니다.
01:10:00 이 섹션에서 발표자는 GPS 좌표로부터의 거리를 결정하는 것과 같이 원과 관련된 문제를 해결하기 위해 Hough 변환의 확장을 사용하는 방법에 대해 논의합니다. 타이밍 어드밴스를 측정하고 주어진 반경을 기반으로 가능한 위치의 원을 구성함으로써 누산기 어레이를 사용하여 데이터를 업데이트하고 원의 위치를 식별하는 증거를 점진적으로 축적할 수 있습니다. 이 방법은 다양한 반지름을 가진 원뿔을 포함하는 더 큰 매개변수 공간으로 일반화될 수 있으며 공간의 각 점은 평면의 특정 위치에서 다른 원에 해당합니다. 최종 결과에는 셀 타워의 실제 위치를 나타내는 많은 원형 교차점이 포함되어야 합니다.
01:15:00 이 섹션에서 강의는 스코어 표면을 생성하기 위한 원래 매개변수 공간 및 증거 축적을 포함하는 일반화된 절반 변환의 아이디어를 논의합니다. 이는 특정 스케일 또는 특정 노이즈 레벨에서만 명백할 수 있는 가장자리 또는 텍스처와 같은 기능을 감지할 때 유용합니다. 더 낮은 해상도에서 작업하거나 치수를 줄임으로써 계산 비용을 줄이고 기능을 정확하게 감지하는 능력을 향상시킬 수 있습니다. 그러나 이 방법은 높은 수준의 노이즈가 있는 고차원 문제를 작업할 때 비용이 많이 드는 작업이 될 수 있습니다.
01:20:00 이 섹션에서 발표자는 이미지 품질을 희생하지 않고 셀 수를 줄이고 작업 부하를 줄이기 위해 이미지를 하위 샘플링하는 다양한 방법에 대해 설명합니다. 그들은 "r"의 서로 다른 값과 하위 샘플링 수준에 미치는 영향을 탐구합니다. "r"은 제곱근 2의 1이 일반적으로 사용되는 값입니다. 셀 수를 2로 줄이고 간격을 2의 제곱근. 또한 연사는 여러 사진에서 3D 정보를 생성하는 데 널리 사용되는 장면의 서로 다른 이미지에서 대응점을 찾는 방법인 SIFT를 소개합니다. SIFT는 옥타브당 여러 단계로 훨씬 덜 공격적인 하위 샘플링 방법을 사용하여 이미지의 각 지점에 대한 고유한 설명자를 만듭니다.
01:25:00 이 섹션에서 발표자는 한 옥타브가 8개의 음으로 나뉘는 음계에 대해 간략하게 설명하고 간격이 동일하지는 않지만 항상 2의 인수를 사용하지 않는 좋은 이유가 있다고 언급합니다. 연사는 또한 청중에게 제안서를 제출하도록 상기시키고 지체하지 않는 것에 대한 포춘 쿠키의 인용문을 공유합니다.
이 비디오에서는 패턴 인식 및 개체 감지와 관련된 여러 기술과 특허에 대해 설명합니다. 그러한 기술 중 하나는 인력 기반 시스템을 사용하여 런타임 이미지의 포즈를 반복적으로 개선하는 PatMax입니다. 또 다른 기술은 런타임 이미지 정렬을 개선하기 위해 픽셀 그리드에 벡터 필드를 생성하는 것과 관련이 있습니다. 강의는 또한 벡터 필드에서 힘 벡터를 살펴봄으로써 에지 감지 및 시드된 에지를 확장하기 위한 디스턴스 필드의 사용을 다룹니다. 연사는 또한 멀티 스케일 패턴 매칭의 사용과 선을 이미지 좌표 집합에 맞추는 것과 관련된 수학적 단계에 대해 논의합니다. 마지막으로 다중 척도를 효율적으로 계산하기 위한 특허가 도입되었습니다.
강의 15에서 강사는 이미지의 효율적인 컨볼루션, 필터링 및 서브 샘플링을 위한 다양한 기술과 지름길을 다룹니다. 여기에는 스플라인 조각별 다항식을 사용하여 필터 커널 근사화, 도함수를 컨볼루션으로 사용, 세 번째 차이를 반복적으로 취하여 이미지 압축, x 및 y 방향 컨볼루션 결합이 포함됩니다. 연사는 또한 이미지의 간섭과 앨리어싱을 피하기 위해 이미지 샘플링 전에 저역 통과 필터링의 중요성을 언급합니다.
00:00:00 이 섹션에서는 비디오에서 PatMax라는 2차원 이미지에서 물체를 찾는 또 다른 패턴에 대해 설명합니다. 이전 패턴인 PatQuick과 다른 점은 사물이 어디에 있는지에 대한 대략적인 아이디어를 이미 가지고 있다고 가정하고 대신 반복적인 최소 자승 접근법을 사용하여 해당 위치를 점진적으로 개선하는 것을 목표로 한다는 것입니다. PatMax를 사용하게 된 동기는 자기 쌍극자 사이의 힘에서 영감을 받아 에너지를 극대화하는 것이었습니다. 그러나 접근 방식의 직관은 모두 틀렸고 사물을 스프링과 연결하는 것이 훨씬 더 나은 비유가 될 것입니다. 이 특허는 또한 부분적으로 정렬에 관한 것이며 이전 AI 연구소의 다른 특허 및 간행물을 참조합니다.
00:05:00 이 섹션에서는 에지 쌍극자를 생성하고 2차원 벡터 필드를 생성하는 에지 감지를 사용하는 패턴 인식 시스템의 교육 프로세스를 설명합니다. 그런 다음 시스템은 어트랙션 프로세스를 사용하여 시작 포즈가 이미 획득되었다고 가정하고 런타임 이미지에 대한 좋은 포즈를 반복적으로 찾습니다. 클라이언트 맵은 정사각형 그리드에 있지 않은 픽셀 위치를 정사각형 픽셀 배열로 매핑하는 데 사용되며 RMS 오류 및 검사 평가와 같은 척도는 물체의 상태가 양호한지 여부를 결정하는 데 사용됩니다. 마지막으로 비디오는 필드 쌍극자 목록이 런타임 이미지와의 정렬에 사용되는 프로브를 생성하는 방법을 설명합니다.
00:10:00 이 섹션에서 강사는 픽셀 그리드에서 생성된 필드를 사용하여 정렬 개선에 대해 이야기합니다. 포즈는 모델 대신 런타임 이미지에서 기능 감지가 수행되는 이전 특허와 반대입니다. 이 필드의 목적은 런타임 이미지의 개별 결과를 다시 필드로 매핑하여 이전 특허의 경우와 같이 전체 이미지를 변환하는 것보다 비용을 절감하는 것입니다. 이 필드는 런타임 이미지의 개체가 트레이닝 이미지의 개체와 일치하는 정렬을 향해 필드를 그리는 새로운 프로세스를 통해 생성됩니다. 강의에서는 필드가 일반화되는 방법을 조사하고 필드 계산과 관련된 다양한 단계를 강조합니다.
00:15:00 이 섹션에서 비디오는 거리 맵이라고 하는 머신 비전에서 사용되는 일반적인 기술인 가장자리 감지를 위해 거리 필드를 초기화하고 채우는 프로세스에 대해 설명합니다. 초기화에는 방향과 함께 가장자리로부터의 거리에 해당하는 값을 필드 쌍극자에 제공하는 작업이 포함됩니다. 가장자리 근처의 나머지 사각형을 채우는 과정은 계산된 기하학에 따라 근처 사각형의 값이 결정되고 조정되는 반복 프로세스입니다. 거리 필드는 기본적으로 가장자리에서 얼마나 떨어져 있는지를 알려주는 각 가장자리를 따라 있는 홈입니다. 궁극적인 목표는 시스템이 더 낮은 에너지 상태로 정착되도록 각 에지를 연결하는 것입니다.
00:20:00 강의의 이 섹션에서 화자는 이웃 픽셀을 보고 벡터 필드를 사용하여 가장자리에 대한 힘과 방향을 계산하여 시드된 가장자리를 확장하는 과정에 대해 논의합니다. 그들은 힘 사이의 각도가 너무 커서 모서리를 나타내는 경우가 있으며 이러한 경우 벡터가 더 이상 원래 가장자리 픽셀을 가리키지 않는다고 설명합니다. 대비 방향 및 벡터 방향과 같은 추가 정보는 가장자리를 확장하는 일치 프로세스에 도움이 될 수 있습니다. 목표는 스프링의 기계적 시스템을 사용한 모델링과 유사하게 시스템의 에너지를 최소화하는 것입니다. 발표자는 에지의 경우 에지의 특정 지점과 얼마나 잘 일치하는지 확실하게 말하기 어려운 경우가 많으며 추적하려면 더 정교한 모델이 필요하다고 말합니다.
00:25:00 이 섹션에서 발표자는 런타임 이미지를 사용하여 특징 감지를 위한 알고리즘을 나타내는 기계적 아날로그에 대해 논의합니다. 시스템은 이미지에서 감지된 많은 특징의 일련의 힘을 사용하여 스스로 조정하고 기계적 스프링은 바깥쪽으로 확장되고 스케일 변환을 사용하여 조정됩니다. 그런 다음 시스템은 클러터와 커버리지를 계산하여 런타임 이미지가 모델과 얼마나 잘 일치하는지 평가합니다. 시스템의 궁극적인 목표는 모든 런타임 쌍극자를 체계적인 방식으로 이동시켜 에너지를 줄이는 것이며, 누적기 세트를 사용하는 자연 계산 방법을 사용하는 대규모 최소 제곱 시스템을 포함합니다.
00:30:00 이 섹션에서 강사는 번역 전용 및 번역 및 회전 사례를 포함하여 패턴 일치의 다양한 측면에 대해 논의합니다. 강사는 패턴 매칭에 사용되는 텐서는 정렬의 자유도를 허용하는 다차원 배열이라고 설명합니다. 강사는 또한 시작 포즈를 얻기 위해 저해상도에서 작업한 다음 이를 사용하여 고해상도 패턴 매칭을 수행하는 멀티 스케일 패턴 매칭에 대해 이야기합니다. 강사는 패턴 매칭 방법이 TV 카메라에서 전자 현미경에 이르기까지 실용적인 목적으로 사용되는 다양한 장치에 적용될 수 있다고 언급합니다. 마지막으로, 강사는 청구항 1이 매우 광범위하고 선행 기술에 의해 이의를 제기할 가능성이 있지만 종속 청구항이 보다 구체적인 세부 사항을 제공한다는 점에 주목하면서 특허에서 이루어진 청구항에 대해 논의합니다.
00:35:00 강의의 이 섹션에서 발표자는 저해상도 오류 값 및 초기 추측을 포함하여 여러 구성 요소에 의존하는 정렬 프로세스에 대한 특허에 대해 논의합니다. PatMax라고 하는 프로세스는 첫 번째 추측이 필요하고 캡처 범위가 있는 논의된 특허와 달리 첫 번째 추측 없이 저해상도에서 전체 포즈 공간을 검색합니다. 이 프로세스의 포즈 공간은 계산상의 이유로 PatMax와 반대입니다. 정렬 프로세스는 픽셀 수준에서 임계값 및 양자화를 피하고 대신 하위 픽셀 정확도에 중점을 둡니다. 스피커는 또한 기계식 스프링과 관련된 물리적 아날로그를 다룹니다.
00:40:00 이 섹션에서 발표자는 개체 검사 프로세스와 훈련된 이미지와 런타임 이미지 간의 변환을 일치시키고 결정하는 방법에 대해 설명합니다. 검사는 훈련된 이미지와 비교하여 런타임 이미지의 누락 및 추가 기능과 배경 텍스처로 인한 이미지의 혼란을 기반으로 합니다. 이미지에 가장자리와 모서리가 있을 때 거리 필드의 생성이 어떻게 변경되는지에 중점을 두고 설명합니다. 이산 세계에서 작업하는 문제와 유클리드 거리를 빠르고 효율적으로 근사화하는 방법을 포함하여 거리 변환을 계산하는 프로세스에 대해 설명합니다.
00:45:00 강의의 이 섹션에서는 변환 또는 회전 정렬을 제공하기 위해 로컬 힘을 추가하는 개념에 대해 설명합니다. 가중치는 사전 정의되거나 다른 변형 중에서 기울기 크기 또는 필드 쌍극자에 따라 달라질 수 있습니다. 중심 주위의 토크는 회전을 제공하는 데 사용되며 평면에서 두 벡터의 교차 곱의 z 구성 요소를 사용하여 토크에 대한 스칼라를 제공할 수 있습니다. 그런 다음 강의는 선까지의 거리를 설명하고 x 및 y 소수를 계산하기 위해 선과 정렬된 좌표계로의 회전을 설명합니다.
00:50:00 이 섹션에서 발표자는 두 매개변수 패밀리인 평면의 라인 패밀리를 매개변수화할 때 두 매개변수 rho 및 theta의 사용에 대해 설명합니다. 이 매개변수화는 높은 정확도로 에지 포인트에 맞는 라인을 찾는 것이 목표인 라인 피팅에 유용합니다. 발표자는 거리 제곱을 최소화하기 위해 미적분학을 사용하는 방법을 설명하고 선에 있는 점의 평균 중심인 x 막대와 y 막대를 rho 및 theta와 관련시키는 방법을 보여줍니다. 또한 강의에서는 중심으로 좌표를 이동하고 선의 매개변수를 결정하기 위해 theta와 rho 사이의 강력한 관계를 찾는 방법을 다룹니다.
00:55:00 이 섹션에서 강사는 헤세 정규 형식 방정식을 사용하여 일련의 이미지 좌표에 선을 맞추는 최소 제곱 솔루션을 찾는 수학적 단계를 설명합니다. 세타에 대한 도함수를 0으로 설정하면 각도의 두 배인 사인과 코사인을 포함하는 솔루션을 얻을 수 있으며 이는 삼각법 항등식을 사용하여 단순화할 수 있습니다. 이 방법은 좌표계 선택과 무관하고 짧은 가장자리 조각을 긴 가장자리 조각으로 결합하는 데 사용할 수 있으므로 y = mx + c를 맞추는 것보다 선호됩니다. 그런 다음 강사는 비용이 많이 드는 컨볼루션을 피하여 여러 척도를 효율적으로 계산하는 특허를 소개합니다.
01:00:00 이 섹션에서 강사는 다중 규모 목적을 위해 필터를 계산하는 효율적인 방법에 대해 이야기합니다. 요령은 스플라인 조각별 다항식을 사용하여 커널을 근사화하고 n 더하기 첫 번째 차이를 취하여 0으로 컨벌루션하기 쉽도록 하여 지원이 작은 스파스 커널을 생성하는 것입니다. 강의는 또한 n 더하기 첫 번째 차이의 역인 n 더하기 첫 번째 합과 회선 및 미분의 속성을 다룹니다. 전반적으로 강의는 큰 커널이 있는 큰 이미지의 컨볼루션을 더 쉽고 효율적으로 만들기 위한 지름길과 요령에 대한 통찰력을 제공합니다.
01:05:00 이 섹션에서 강사는 컨볼루션의 속성과 이점, 특히 함수 대신 분포가 허용되는 경우 파생물을 컨볼루션으로 취급할 수 있는 방법에 대해 설명합니다. 이를 통해 신호 처리에서 매우 강력할 수 있는 교환성 및 결합성과 같은 컨볼루션 속성을 사용할 수 있습니다. 강사는 또한 파생물을 계산하고 0이 아닌 값이 있는 위치를 찾는 것과 관련된 패턴을 희소하고 저렴하게 만들기 위해 컨볼루션을 사용하는 예를 설명합니다. 두 개의 값만 컨볼루션하면 되므로 상당한 이점이 있습니다.
01:10:00 이 섹션에서 강사는 이미지를 압축하기 위해 이미지의 세 번째 차이를 취하는 기술을 설명합니다. 세 번째 차이를 반복적으로 취함으로써 작고 희소한 값 집합이 생성되어 전체 원본 이미지를 사용하는 것에 비해 계산이 줄어듭니다. 이는 필요한 계산량을 변경하지 않고 필터의 대역폭과 규모를 제어하는 데 사용할 수 있습니다. 강사는 1차원 함수를 사용하여 이 기술을 시연한 다음 불연속성으로 인해 끝이 더 복잡한 포물선의 예를 보여줍니다.
01:15:00 강의의 이 섹션에서는 앨리어싱 아티팩트를 피하면서 하위 샘플링 이미지의 계산 효율성을 개선하기 위한 다양한 필터링 기술에 대해 설명합니다. 계산 시간과 0이 아닌 값의 수를 줄이는 데 중점을 두고 스플라인을 사용하여 Gaussian 및 동기화 함수와 같은 필터를 근사화하는 방법을 살펴봅니다. 또한 x 및 y 방향 모두에서 컨볼루션 작업을 결합하는 기술이 제시되어 중간 메모리가 덜 필요하고 1D 컨볼루션의 보다 효율적인 캐스케이드가 가능합니다. 가장자리 감지 및 다중 스케일 이미지 처리에 대한 이러한 항목의 관련성이 강조 표시됩니다.
01:20:00 이 섹션에서 연사는 복굴절이고 편광에 따라 두 개의 굴절률을 갖는 방해석 결정에 대해 논의합니다. 이로 인해 이미지의 두 복사본이 매우 가깝게 나타납니다. 이것은 더 높은 주파수 콘텐츠를 억제하고 샘플링을 개선하기 위해 카메라에서 사용됩니다. 그러나 이 필터를 제거하면 이미지에 간섭 및 앨리어싱이 발생할 수 있으며 촬영 중인 개체의 색상 및 모양이 변경될 수 있습니다. 발표자는 이미지 샘플링 전에 저역 통과 필터링의 개선으로 이러한 문제가 줄어들었지만 이미징에서 앨리어싱의 영향을 고려하는 것이 여전히 중요하다고 지적합니다.
강의는 대역 제한, 앨리어싱, 저역 통과 필터 근사, 블러링, 적분 이미지, 푸리에 분석 및 컨볼루션을 포함하여 신호 처리와 관련된 다양한 주제를 다룹니다. 연사는 앨리어싱 아티팩트를 피하기 위해 샘플링 전에 신호를 저역 통과 필터링하는 것이 중요하다고 강조합니다. 또한 블록 내 픽셀의 합을 효율적으로 계산하는 적분 이미지의 개념과 저역 통과 필터를 근사할 때 계산을 줄이는 다양한 기술을 소개합니다. 마지막으로 sinc 함수를 근사화하기 위해 사용되는 bicubic interpolation과 그 계산 비용에 대해 설명합니다.
이 강의에서 연사는 컨볼루션, 저역 통과 필터 근사 및 적분 이미지와 관련된 다양한 주제에 대해 논의합니다. 그들은 왼쪽에서 오른쪽으로 값을 더하고 평균을 얻기 위해 빼서 계산 시간을 절약하는 방법을 포함하여 컨벌루션의 다양한 구현을 설명합니다. 저역 통과 필터 근사에 대한 선형 보간법의 한계와 3차원 보간법과 같은 고급 방법에 비해 열등한 점에 대해서도 설명합니다. 주파수 범위를 제한하는 필박스의 개념과 그 가치가 소개되고 스피커는 이상적인 저역 통과 필터와 디포커싱이 베셀 기능에 미치는 영향에 대해 이야기합니다. 강의는 또한 DSLR 카메라 렌즈에 대한 저역 통과 필터 근사치의 사용과 사진 측량법의 개념에 대해서도 다룹니다.
00:00:00 이 섹션에서 스피커는 샘플링 파형과 이를 제한하는 대역의 중요성에 대해 설명합니다. 파형을 샘플링할 때 파형이 무한히 지원되고 개별 샘플만 얻을 수 있다는 점을 감안할 때 파형에 대해 무언가를 캡처할 수 있다는 것은 놀라운 일입니다. 그러나 주파수 성분이 제한되어 있는 경우 Nyquist 이론에 따르면 충분히 높은 주파수에서 샘플링하여 완전히 재구성할 수 있습니다. 기준은 신호의 가장 높은 주파수 성분이 2분의 fs보다 작도록 충분히 빠르게 샘플링하는 것입니다. 궁극적으로 대역 제한은 앨리어싱 아티팩트를 얻지 않고 파형의 본질을 캡처할 수 있기 때문에 중요합니다.
00:05:00 이 섹션에서는 신호 처리의 앨리어싱 개념에 대해 설명합니다. 앨리어싱은 특정 임계값 이상의 주파수 콘텐츠가 샘플링되고 낮은 주파수 콘텐츠와 구별할 수 없을 때 발생합니다. 이는 샘플링 후에 수정할 수 없으므로 더 높은 주파수 콘텐츠를 억제하여 미리 수행해야 합니다. 이렇게 하려면 샘플링 전에 신호를 저역 통과 필터링하는 것이 중요합니다. 그러나 진정한 저역 통과 필터링은 달성하기 어려우므로 근사치를 만들어야 합니다.
00:10:00 강의의 이 섹션에서 발표자는 사전 샘플링 필터링과 같은 방법을 통해 블러링의 개념을 논의하고 통합 이미지의 아이디어를 소개합니다. 그는 박스카 필터를 사용하여 블록 내 픽셀의 합을 계산하는 블록 평균화를 수행할 수 있지만 이 방법은 계산 비용이 많이 들 수 있다고 설명합니다. 이를 해결하기 위해 1D 및 2D 사례 모두에서 적분 이미지를 사용하여 합계를 보다 효율적으로 계산할 수 있습니다. 적분 이미지는 적분 그래디언트와 같은 다른 유형의 행렬에서도 작동할 수 있으므로 이미지에만 국한되지 않습니다.
00:15:00 이 섹션에서는 강사가 적분 이미지를 사용하여 사각형의 총합을 계산하는 방법을 설명합니다. 강사는 4번의 메모리 액세스와 3번의 산술 연산을 통해 모든 블록의 크기와 관계없이 총계를 얻을 수 있음을 보여줍니다. 이 기술은 인식 및 차단 평균화에 사용할 수 있습니다. 강사는 푸리에 분석과 이동 평균을 사용하여 블록을 평균화하는 방법에 대해서도 설명합니다.
00:20:00 강의의 이 섹션에서 발표자는 sinc 함수를 저역 통과 필터의 근사값으로 사용하는 단점에 대해 논의합니다. sinc 함수는 고주파수를 충분히 공격적으로 감쇠하지 않고 첫 번째 0에 충분히 빨리 도달하지 않으므로 저역 통과 필터 근사값에 적합하지 않습니다. 이 논의는 특히 샘플링 전에 필터링 작업을 수행하는 카메라와 관련이 있으며 블록 평균화는 sinc 함수에 대한 잠재적 대안으로 제안됩니다. 블록 평균화는 계산 비용이 저렴하고 저역 통과 필터의 더 나은 근사값을 얻기 위해 두 번 수행할 수 있습니다.
00:25:00 이 섹션에서 강사는 변환 도메인의 필터 속성과 이미지의 단계적 불연속성과 관련된 방식에 대해 설명합니다. 강사는 계단 함수의 변환이 하나의 주파수로 떨어지는데, 이는 계단 불연속성이 있는 이미지가 빠르게 떨어지지 않는 고주파 콘텐츠를 생성한다는 것을 의미합니다. 강사는 이것이 데이터가 주기적이라고 가정하기 때문에 이산 푸리에 변환의 문제이므로 데이터가 래핑될 때 단계 에지 불연속성을 도입한다고 지적합니다. 이를 해결하기 위해 강사는 이미지에 파형을 곱하여 끝이 일치하도록 하는 아포다이징을 제안합니다. 일반적인 아포다이징 필터 중 하나는 역 코사인 파형입니다.
00:30:00 이 섹션에서 비디오는 이미지에 적용된 dft를 처리하는 다양한 접근 방식을 다룹니다. 하나는 이미지 외부가 주기적으로 반복되거나 거울 이미지라고 가정하는 것입니다. 하지만 이것이 완벽한 솔루션은 아닙니다. 미분 불연속성의 가능성 때문입니다. 논의된 또 다른 접근 방식은 근사 필터를 사용한 저역 통과 필터링입니다. 그런 다음 비디오는 단위 임펄스 및 분포의 선별 속성과 같은 대략적인 저역 통과 필터링에 필요한 특정 속성을 다룹니다.
00:35:00 강의의 이 섹션에서 연사는 단위 임펄스와 컨볼루션과의 관계에 대해 논의합니다. 단위 임펄스가 컨볼루션의 한계로 정의하는 것은 수학적으로 정확하지 않지만 컨벌루션을 계산하고 엡실론이 0이 되는 경향이 있는 한계를 취함으로써 단위 임펄스와 함께 컨벌루션의 효과를 결정하는 데 사용할 수 있습니다. 화자는 컨볼루션이 도함수에 연결될 수 있으며 선형 이동 불변 연산자와 도함수 연산자가 밀접하게 관련되어 있다고 말합니다. 그들은 파생물이 본질적으로 두 개의 컨볼루션 중 하나가 뒤집힌 컨볼루션으로 취급될 수 있다고 설명합니다.
00:40:00 이 섹션에서 강사는 저역 통과 필터 근사치와 카메라에 사용되는 픽셀 평균화 방법을 개선할 수 있는 방법에 대해 설명합니다. 그는 아날로그 영역에서 샘플링하기 전에 추가 저역 통과 필터링을 수행해야 한다고 설명하고 복굴절 재료를 사용하여 특수 필터를 만들 것을 제안합니다. 이 필터에는 임펄스가 있는 컨볼루션으로 모델링하는 두 개의 이동된 이미지가 포함되어 원본 이미지의 약간 이동된 두 버전이 생성됩니다. 푸리에 변환으로 분석할 때 필터는 주파수에 따라 감소하지 않지만 엡실론에 대한 파이에서 감소하므로 적절한 엡실론 값을 선택할 수 있습니다.
00:45:00 이 섹션에서는 강사가 저역 통과 필터의 개념에 대해 설명하고 픽셀 간격보다 두꺼운 플레이트를 사용하여 고주파를 차단하는 기술을 소개합니다. 이 플레이트는 높은 주파수를 차단하지만 다른 주파수는 차단하지 않습니다. 강사는 이 매우 간단한 앤티앨리어싱 필터를 블록 평균화 필터와 함께 사용하면 이미지의 고주파 콘텐츠로 인해 발생하는 모아레 효과를 줄일 수 있다고 설명합니다. 그런 다음 강사는 지지대 크기를 최소화하면서 좋은 저역 통과 필터링을 위해 계산을 줄이는 것을 목표로 하는 특허 및 통합 이미지의 아이디어를 소개합니다. 강사는 컨벌루션을 사용하여 적분을 표현하는 방법을 보여주고 단위 임펄스의 푸리에 변환을 제공합니다.
00:50:00 이 섹션에서 비디오는 컨볼루션의 개념과 푸리에 변환 도메인의 미분 및 적분과의 관계에 중점을 둡니다. 2차 미분은 1차 미분 또는 임펄스를 컨벌루션하여 얻을 수 있다고 설명합니다. 이 개념은 필터링 프로세스에 적용되며, 필터가 희박한 경우 계산을 줄이기 위해 필터를 섹션으로 분할할 수 있습니다. 이는 상수 함수 또는 다항식 근사로 작업할 때 발생합니다. 스파스 필터로 컨볼루션 결과를 통합하거나 합산하면 더 적은 계산으로 원하는 답을 효율적으로 얻을 수 있습니다.
00:55:00 이 섹션에서 강사는 저역 통과 필터에 이상적이지만 영원히 지속되어 완전히 표현할 수 없는 sinc 함수의 근사에 대해 설명합니다. 이 강의에서는 픽셀이 회전되고 보간되어야 하는 2D 이미지에 대한 쌍입방 보간법을 소개합니다. 이 방법은 곡선이 3차로 설명되는 네 부분을 사용하는 것과 관련됩니다. 4차 도함수는 필터링에 사용되며 결과는 최근접 이웃 또는 선형 보간을 사용하는 것보다 훨씬 좋습니다. 동기화 기능을 근사화하는 데 계산 비용이 발생하여 사용하기에 비실용적이라고 설명합니다.
01:00:00 이 섹션에서는 블록 평균화 예제를 사용하여 블록을 이동하고 블록 아래에 있는 모든 항목을 합산하여 컨볼루션의 순진한 구현을 설명합니다. 또 다른 구현은 왼쪽에서 오른쪽으로 값을 더한 다음 평균을 얻기 위해 빼서 더 큰 세그먼트를 차단할 때 컴퓨팅 시간을 크게 절약하는 것으로 나타났습니다. 선형 보간법에 대해서도 논의하는데, 이는 직선을 사용하여 이산 그리드의 점을 연결하는 함수를 생성하여 컨볼루션과 관련이 있다고 생각할 수 있습니다.
01:05:00 이 섹션에서 발표자는 저역 통과 필터 근사를 위한 선형 보간 방법과 그 한계, 특히 노이즈 및 이미지 측정의 변화 측면에서 논의합니다. 그는 이 방법이 동기 함수를 모방한 선형 함수인 두 박스카의 컨벌루션을 포함한다고 설명합니다. 그는 또한 이 방법이 저역 통과 필터 근사화를 위한 3차 보간 방법과 같은 고급 방법보다 열등하다고 지적합니다. 또한 그는 최근접 이웃 근사 방법이 선형 방법보다 훨씬 덜 정밀한 구분 상수 함수라고 설명합니다.
01:10:00 강의의 이 섹션에서 연사는 컨볼루션의 맥락에서 저역 통과 필터 근사치 및 적분 이미지의 개념에 대해 논의합니다. 가장 가까운 이웃 보간법이 어떻게 박스카와 컨벌루션에 해당하는지, 그리고 자연 이미지에 대해 회전 대칭 좌표계를 사용하는 이점에 대해 설명합니다. 그런 다음 주파수 범위를 제한할 때 필박스의 개념과 그 가치를 소개합니다. 필박스의 역변환도 광학에서 일반적으로 사용되는 베셀 함수에 따라 달라지는 회전 대칭인 것으로 표시됩니다.
01:15:00 이 섹션에서 강사는 임펄스에 대한 확산 함수의 응답인 이상적인 저역 통과 필터에 대해 설명합니다. sync 함수와는 다른 이 함수의 첫 번째 0은 양자리 해상도 기준에 따른 해상도로 사용됩니다. 초점이 맞지 않을 때 강사는 확산 함수가 필박스로 바뀌고 이것이 공간 주파수 영역에서 베셀 함수가 된다는 것을 보여줍니다. 그런 다음 그는 초점 흐림이 Bessel 함수를 변경하여 초점에 영향을 미친다고 결론지었습니다.
01:20:00 강의의 이 섹션에서 연사는 저역 통과 필터 근사치의 사용과 그 결과로 발생하는 고주파수 콘텐츠의 감소에 대해 논의하며, 이로 인해 0의 존재로 인해 일부 주파수가 완전히 제거될 수 있습니다. 스피커는 또한 주파수 도메인을 보고 DSLR 카메라 렌즈의 스텝 크기를 결정하는 방법과 단일 투시 투영과 동일하지 않은 두 개의 투시 투영의 효과에 대해 이야기합니다. 마지막으로, 이미지가 수정되었는지 여부를 결정하는 방법으로 초점이 약간 벗어난 이미지를 가져와 컨벌루션하는 개념이 도입됩니다.
01:25:00 이 섹션에서 강사는 컨벌루션의 개념과 이것이 주파수 영역에서 곱셈과 어떻게 관련되는지 설명합니다. 그들은 필박스 기능을 사용하여 이미지를 컨볼루션하는 방법을 설명하지만 초점이 맞지 않는 사진을 곱하면 정확한 결과가 나오지 않는다는 점에 주의해야 합니다. 그런 다음 강의는 이미지 사이의 가장자리와 같은 기능을 일치시켜 카메라의 위치를 정확히 찾아냄으로써 이미지를 사용하여 개체 및 해당 위치에 대한 3D 정보를 생성하는 사진 측량의 주제로 전환됩니다.
이 강의에서는 깊이 단서, 카메라 보정 및 두 좌표계 간의 변환 설정을 포함하여 사진 측량과 관련된 다양한 주제를 다룹니다. 발표자는 해당 측정을 사용하여 두 시스템 간의 좌표 변환을 찾는 문제에 접근하는 방법을 설명하고 변환의 정확한 역수를 확인하는 것의 중요성을 강조합니다. 강의는 또한 2D 및 3D 공간에서 관성 축을 찾고 축에 투영된 두 점 사이의 거리를 결정하는 방법에 대해 설명합니다. 전반적으로 이 섹션에서는 사진 측량법과 그 응용 프로그램에 대한 포괄적인 개요를 제공합니다.
사진 측량은 왼쪽 및 오른쪽 좌표계의 포인트 클라우드에 좌표계를 구축하고 둘을 연관시켜야 합니다. 강사는 관성 행렬 또는 관성 축을 결정하고 기저 벡터를 설정하는 방법을 설명합니다. 또한 내적, 길이 및 각도의 보존과 같은 대칭 개체 및 회전 속성으로 인해 발생하는 문제에 대해 논의합니다. 또한 강의에서는 변환을 제거하고 오차항을 최소화하여 회전을 찾는 문제를 단순화하는 방법을 다룹니다. 마지막으로 강사는 벡터 미적분학을 사용하여 유사한 모양의 두 객체를 정렬하는 방법을 설명하고 회전에 대한 다른 표현을 탐색하도록 제안합니다.
00:00:00 이 섹션에서 발표자는 이미지를 사용하여 3차원 표면을 측정하고 재구성하는 사진 측량법을 소개합니다. 이 분야는 지도 제작에 뿌리를 두고 있으며 사진 발명 이후 대중화되었습니다. 연사는 두 개의 서로 다른 좌표계 사이의 관계 찾기, 단일 좌표계와 이동하거나 변경될 수 있는 물체 사이의 관계 찾기를 포함하여 사진 측량의 네 가지 고전적인 문제에 대해 논의합니다. 연사는 머신 비전이 종종 2차원 이미지에서 3차원을 복구하는 것과 관련된 두 번째 문제에 더 관심이 있지만 폐쇄형 솔루션으로 인해 3D 문제를 먼저 해결하는 것이 유리할 수 있다고 지적합니다.
00:05:00 이 섹션에서 강사는 2D에서 3D로, 3D에서 2D로 두 가지 유형의 사진 측량 응용 프로그램에 대해 설명합니다. 전자는 이미지에서 3차원 정보를 복구하고 공간에 있는 두 카메라 간의 관계를 결정하여 정렬합니다. 후자는 카메라를 이용한 정밀한 측량에 필요한 카메라 캘리브레이션과 평면에서 일정한 간격의 영상을 촬영하여 지형도를 생성하는 작업이다. 강사는 또한 두 눈을 통해 깊이를 인식하는 기능인 양안 스테레오를 포함하여 몇 가지 깊이 단서에 대해 논의합니다.
00:10:00 이 섹션에서 강사는 두 대의 카메라를 사용하여 유사한 삼각형을 사용하여 깊이 신호를 설정하는 방법을 설명합니다. 두 카메라에서 물체를 이미징하고 결과 이미지를 비교함으로써 위치 차이를 사용하여 물체의 깊이를 계산할 수 있습니다. 강의는 또한 거리가 시차에 반비례하기 때문에 이미지의 시차를 사용하여 깊이를 계산할 수 있다고 설명합니다. 마지막으로 이 섹션에서는 오류에 대한 민감도와 차이 측정 시 작은 불일치로 인해 얼마나 큰 오류가 발생할 수 있는지에 대해 다룹니다.
00:15:00 비디오의 이 섹션에서 강사는 두 대의 카메라를 사용한 사진 측량 및 3D 위치 측정에 대해 논의합니다. 그들은 기준선 또는 초점 거리를 늘리면 측정 정확도가 향상될 수 있지만 카메라가 너무 멀리 떨어지지 않도록 하는 것과 같이 이러한 양에 제약이 있다고 설명합니다. 그들은 또한 카메라가 특정 지오메트리에서 완벽하게 정렬되지 않은 경우 카메라를 보정하는 문제에 대해서도 언급합니다. 그런 다음 강사는 절대 방향과 일정한 자세를 유지하지 못할 수 있는 라이다 또는 항공 카메라와 같은 장치의 방향을 보정하는 방법에 대한 주제로 이동합니다. 마지막으로, 그들은 토론이 일치 문제를 제쳐두고 이미지에 흥미로운 점이 있다고 가정한다는 점에 주목합니다.
00:20:00 이 섹션에서 강사는 광선을 3D로 투사하고 교차점을 찾기 위해 두 좌표계의 회전 및 변환을 찾는 방법을 설명합니다. 그는 왼쪽 및 오른쪽 좌표계 모두에서 측정된 점의 예를 사용하여 레이블에 관계없이 두 좌표계에 적용될 수 있음을 지적합니다. 강사는 변환을 완전히 지정하기 위해 6개의 숫자(3개는 회전용, 3개는 변환용)의 필요성을 강조하고 각각에 대해 3개의 자유도가 있다고 설명합니다. 그는 회전이 직교 행렬로 표현될 필요가 없음을 강조하면서 변환 공식을 작성합니다.
00:25:00 강의는 객체의 회전 및 이동을 계산하는 방법을 이해하는 데 필수적인 회전 및 정규 직교 행렬의 속성에 대해 설명합니다. 강의는 또한 직교 정규성 제약 조건을 적용하여 반사를 제거하는 방법과 회전 행렬의 역행렬을 쉽게 얻을 수 있는 방법에 대해 설명합니다. 왼쪽 및 오른쪽 좌표계의 점을 중첩하고 정렬하는 방법을 더 잘 시각화하기 위해 물리적 모델도 제공됩니다.
00:30:00 이 섹션에서 화자는 해당 측정을 사용하여 두 시스템 간의 좌표 변환을 찾는 문제에 접근하는 방법에 대해 논의합니다. 이 문제는 최소 자승법으로 접근할 수 있으며, 목표는 왼쪽 좌표계와 오른쪽 좌표계에서 변환된 벡터 사이의 거리를 최소화하는 것입니다. 이것은 시스템이 에너지를 최소화하기 위해 자체적으로 조정하려고 시도하는 에너지 최소화 문제로 생각할 수 있습니다. 화자는 오른쪽 시스템에서 왼쪽으로의 변환이 왼쪽 시스템에서 오른쪽으로의 변환의 정확한 역수인지 확인하는 것의 중요성을 강조합니다. 이동 문제와 회전 문제를 분리하면 문제가 한 번에 세 자유도로 단순화됩니다.
00:35:00 이 섹션에서 화자는 물체의 점 측정을 사용하여 좌표계를 구성하는 방법을 설명합니다. 첫 번째 단계는 한 점을 원점으로 선택하고 두 번째 점에 연결하여 하나의 축을 만드는 것입니다. 처음 두 점 사이의 간격은 정규화되어 x축을 만들고 세 번째 점은 xy 평면을 정의하는 데 사용됩니다. y축은 첫 번째 점에서 x축 방향에 있는 세 번째 점까지 벡터의 구성 요소를 제거하고 결과 벡터를 원본에 수직으로 만들어서 만듭니다. z축은 두 벡터에 수직이므로 x와 y의 교차 곱으로 정의됩니다. 이 프로세스를 통해 좌표계를 생성하고 개체에 대한 두 좌표계의 점을 측정할 수 있습니다.
00:40:00 이 섹션에서는 화자가 좌표계를 구축하고 회전을 해결하는 방법을 설명합니다. 이를 위해 그들은 단위 벡터의 트라이어드를 사용하여 왼쪽과 오른쪽에 대한 좌표계를 정의합니다. 그런 다음 두 구름 점을 가져와 축을 만들고 단위 벡터를 서로 매핑하여 함께 배치하는 변환을 찾습니다. 그런 다음 3x3 행렬을 사용하여 별도의 방정식을 함께 붙이고 회전을 해결합니다. 그들은 변환을 제거함으로써 찾을 수 있는 자유도가 3개만 남아 있다고 언급합니다.
00:45:00 이 섹션에서 발표자는 사진 측량에서 좌표계 간의 매핑 포인트와 관련된 제약 조건에 대해 설명합니다. 두 시스템 사이의 세 가지 대응은 미지수가 세 개뿐인 솔루션에 충분해 보일 수 있지만 벡터 동등성은 각 제약 조건이 세 점의 가치가 있음을 의미합니다. 따라서 9개의 제약 조건이 있습니다. 그러나 회전의 자유도는 3도뿐이므로 과잉 정보가 발생합니다. 그런 다음 발표자는 변형을 위해 선택적으로 포인트를 선택하는 것과 관련된 임시 솔루션에 대해 논의하는데 이는 정확하지 않습니다. 또 다른 솔루션은 SVD(Singular Value Decomposition)를 사용하여 모든 대응 정보의 정보에 균등하게 가중치를 부여하는 최적의 변환 행렬을 찾는 것입니다.
00:50:00 이 섹션에서 강사는 2D 및 3D 공간에서 관성 축을 찾는 개념에 대해 설명합니다. 그는 최소 관성 축은 거리의 제곱 곱하기 질량의 적분을 계산하여 찾을 수 있지만 수직 축은 최대 관성을 가지며 3D에서는 안장 지점인 세 번째 축이 있다고 설명합니다. 그는 이러한 축이 식별되면 문제의 개체에 대한 좌표계를 설정할 수 있다고 말합니다. 축에서 원점까지의 거리를 찾는 공식에 대해서도 설명하고 회전을 찾는 문제에서 변환을 찾는 문제를 분리하기 위해 중심을 원점으로 선택합니다.
00:55:00 이 섹션에서 발표자는 오메가 축에 투영된 두 점 r과 r프라임 사이의 거리를 결정하는 방법을 설명합니다. 관성에 대한 공식은 이 거리에서 파생되며 축이 방향을 변경함에 따라 달라지는 것으로 표시됩니다. 그런 다음 화자는 내적, 곱셈의 연관성 및 항등 행렬을 사용하여 공식을 단순화합니다. 결과 공식은 관성이 항등 행렬을 곱하고 물체의 부피에 대해 적분한 r의 내적과 같다는 것을 보여줍니다.
01:00:00 이 섹션에서는 강사가 왼쪽 및 오른쪽 좌표계에서 포인트 클라우드에 좌표계를 구축한 다음 둘을 연관시키는 방법을 설명합니다. 이것은 관성 행렬 또는 관성의 축을 계산하여 수행되며, 이는 3x3 행렬에 대한 간단한 고유값 고유 벡터 문제입니다. 서로 수직인 세 개의 축(최대, 최소 및 새들 축)이 있습니다. 이러한 축은 기본 벡터를 설정하는 데 사용되며 동일한 방법이 오른쪽 좌표계에 대해 수행됩니다. 이를 수행하는 데 사용되는 방법은 모든 점을 동일하게 취급하고 문제를 최소화하므로 최소 제곱 문제입니다.
01:05:00 강의의 이 섹션에서 발표자는 대칭 객체를 다룰 때 사진 측량에서 임시 방법의 한계에 대해 논의합니다. 화자는 구, 사면체, 팔면체와 같은 일부 물체는 모든 방향에서 동일한 관성을 가지므로 신장에 의존하는 임시 방법을 사용하여 방향을 결정하기 어렵다고 설명합니다. 또한 발표자는 대응을 사용하여 방향을 결정하는 것이 더 정확하지만 각 지점의 정렬을 알아야 하기 때문에 어려운 접근 방식이라고 지적합니다. 연사는 또한 내적, 길이 및 각도의 보존을 포함하여 회전의 속성을 설명합니다.
01:10:00 이 섹션에서 교수는 벡터의 삼중 곱, 즉 벡터로 형성된 평행육면체의 부피에 대해 논의합니다. 이러한 벡터가 회전되면 회전이 반사가 아닌 경우 볼륨이 보존됩니다. 반사는 삼중 곱의 부호를 변경하여 볼륨을 변경하여 오른손 규칙 대신 왼손 규칙을 생성합니다. 이 원칙은 두 시스템 간의 오차를 최소화하기 위해 오프셋과 회전을 선택해야 하는 두 좌표 시스템 간의 변환을 찾기 위해 최소 제곱 문제를 설정할 때 중요합니다.
01:15:00 이 섹션에서 강사는 회전을 찾는 것에서 번역을 찾는 문제를 단순화하는 방법을 설명합니다. 좌표를 중심으로 이동하고 원래 좌표에서 빼서 변환을 제거하여 회전 문제를 훨씬 쉽게 해결합니다. 그런 다음 강사는 새 좌표를 오류 공식에 연결하고 용어를 그룹화하여 결국 작업하기 더 간단한 문제에 도달합니다. 강의는 번역을 위해 어떤 오프셋을 선택해야 하는지에 대한 질문으로 끝납니다.
01:20:00 이 섹션에서 강의는 번역을 찾는 문제와 회전을 찾는 문제를 분리하는 데 중점을 둡니다. 변환 공식은 회전 후 중심이 오른쪽 좌표계에 있는 위치와 왼쪽 좌표계 중심이 있는 위치 사이의 차이입니다. 다음 목표는 올바른 회전을 찾는 것과 관련된 나머지 오류 항을 최소화하는 것입니다. 회전에 의존하는 나머지 항을 최대화하여 뾰족하고 초밥 같은 모양으로 중심에 연결된 점의 구름을 상상할 때 직관적으로 이해되는 올바른 회전을 찾는 것이 강의의 목표입니다.
01:25:00 이 섹션에서는 강사가 벡터 미적분학을 사용하여 모양이 비슷한 두 개체를 정렬하는 방법을 설명합니다. 개체의 해당 척추를 취하고 각도를 결정하기 위해 그들 사이의 내적을 사용하여 개체를 정렬할 수 있습니다. 그러나 이는 추가된 제약 조건으로 복잡한 행렬을 처리하지 않고 미적분학을 사용하여 회전 문제를 해결하는 방법에 대한 문제를 제기합니다. 강사는 정렬 문제를 더 쉽게 만드는 회전에 대한 다른 표현을 살펴볼 것을 제안합니다.
이 강의에서는 회전을 나타내는 문제에 대해 논의하고 해밀턴 쿼터니언의 유용성을 소개합니다. 단위 쿼터니언은 세 공간의 회전에 직접 매핑되므로 특히 유용하며, 해당 공간에서 회전 및 최적화 공간에 대해 논의할 수 있습니다. 쿼터니언은 복소수와 유사한 속성을 가지며 내적, 삼중 곱, 길이, 각도 및 손잡이를 보존하므로 회전을 나타내는 데 특히 유용합니다. 강의는 또한 회전을 표현하는 다양한 방법, 벡터를 회전하고 회전을 구성할 수 있는 능력의 중요성, 행렬, 오일러 각도 및 짐벌 잠금과 같은 기존 방법의 한계에 대해 논의합니다. 마지막으로 강의는 회전을 모델에 최적화하고 맞추는 것과 회전 공간을 분석하고 시각화하기 위한 새로운 방법을 개발하는 것을 포함하여 현장에서 진행 중인 연구를 제시합니다.
이 강의에서 교수는 두 좌표계 사이의 좌표 변환 또는 두 좌표계에서 측정된 대응점으로 두 객체 사이의 가장 적합한 회전 및 평행이동을 찾는 문제에 대해 논의합니다. 강의에서는 쿼터니언을 사용하여 우주선 카메라를 카탈로그 방향과 정렬하고 상대 방향 문제를 해결하는 방법을 탐구합니다. 회전을 나타내는 쿼터니언의 효율성과 4차원 공간에서 회전을 표현하는 다양한 방법에 대해 설명합니다. 또한 강의는 다양한 다면체에 대한 다양한 회전 그룹을 탐색하여 규칙적인 공간 샘플링을 달성하기 위한 올바른 좌표계 선택의 중요성을 강조합니다.
00:00:00 이 섹션에서 연사는 번역과 같이 교환적이지 않기 때문에 회전을 처리하는 문제에 대해 논의합니다. 목표는 사진 측량 및 로봇 공학에서 회전을 처리하는 유용하고 일반적인 방법을 개발하는 것입니다. 해밀턴의 쿼터니언은 회전을 나타내는 보다 일반적인 방법을 제공하며, 특히 단위 쿼터니언으로 제한될 때 세 공간의 회전에 직접 매핑할 수 있습니다. 이를 통해 해당 공간에서 회전 및 최적화 공간에 대해 논의할 수 있습니다. 응용 프로그램은 로봇 공학에서 생물 의학에 이르기까지 방대하며 연사는 서로 다른 좌표계에 있는 두 개체 또는 이동한 하나의 개체를 측정하는 것과 관련된 문제에 대한 폐쇄형 솔루션을 개발하는 것을 목표로 합니다.
00:05:00 이 섹션에서는 회전 주제를 소개하고 설명합니다. 오일러의 정리에 따르면 강체의 모든 회전은 변하지 않는 선, 즉 축이 있다는 속성을 가집니다. 평행축 정리에 따르면 모든 축에 대한 회전은 원점을 통과하는 축에 대한 회전과 병진이 더해진 것과 같습니다. 일을 단순화하기 위해 이동과 회전을 분리하는 것이 편리합니다. 각속도는 벡터와 속도만 필요하기 때문에 회전 속도는 유한 회전 자체보다 훨씬 쉽습니다. 마지막으로 유한 회전은 통근하지 않으며 n = 3인 경우 3개의 자유도가 있습니다.
00:10:00 이 섹션에서 강사는 회전을 특정 평면을 보존하는 것으로 생각하는 것이 가장 좋다고 설명합니다. 예를 들어, xy 평면에 있는 물건을 다른 위치로 이동하는 동안 xy 평면을 보존할 수 있습니다. 강사는 또한 교차 곱이 3개의 자유도를 가지며 곱하는 두 벡터에 수직이기 때문에 벡터로 표시된다는 점에 주목합니다. 회전에 대한 표현이 존재하며 유용한 방법 중 하나는 축이 단위 벡터이고 회전 각도가 각도로 표시되는 축 및 각도 표기법입니다. Gibbs 벡터는 축과 각도를 단일 벡터로 결합하는 또 다른 표기법이지만 더 이상 단위 벡터가 아니며 세타가 파이와 같을 때 폭발합니다.
00:15:00 이 섹션에서 강사는 오일러 각, 직교 행렬, 지수 형식, 스테레오그래피 및 복소수 행렬을 포함하여 회전을 나타내는 다양한 방법을 설명합니다. 각 방법에는 고유한 제약 조건이 있으며 오일러 각도에 대한 24가지 정의가 있어 혼란스럽습니다. 그러나 단위 쿼터니언은 크기가 작고 보간이 용이하며 Gimbal lock의 영향을 받지 않는 등의 많은 장점을 가지고 있기 때문에 회전을 나타내는 데 가장 널리 사용되고 유용한 방법입니다. 또한 서로 다른 회전 표현 간에 변환할 수 있어야 합니다.
00:20:00 이 섹션에서 발표자는 벡터를 회전하고 회전된 좌표계에서 벡터의 위치를 찾는 문제와 회전을 구성하는 문제에 대해 논의합니다. 연사는 로드리게스의 공식을 소개합니다. 이 공식은 벡터를 가져와서 주어진 축에 대해 각도를 통해 회전시켜 첫 번째 문제를 해결합니다. 문제를 2D 문제로 분해하여 스피커는 회전 공식이 평면에서는 단순하지만 3D에서는 더 복잡하다는 것을 보여줍니다. 화자는 축과 각도 표기법이 회전을 시각화하는 데 유용하지만 구성을 달성하기 어렵다고 설명합니다.
00:25:00 이 섹션에서 강사는 각도와 모양을 보존하는 투영 기술을 사용하여 구를 평면에 매핑하는 것을 포함하여 다양한 회전 표현에 대해 설명합니다. 그는 또한 축과 각도와 같은 직관적인 표현뿐만 아니라 벡터를 회전하고 회전을 구성할 수 있는 능력의 중요성에 대해서도 언급합니다. 그러나 그는 회전 행렬 및 축 각도와 같은 일부 표현이 중복되거나 직관적이지 않을 수 있다고 지적합니다. 강사는 또한 그래픽에서 방향을 보간할 수 있는 동시에 특이점을 피하고 계산 효율성을 보장하는 것의 중요성을 강조합니다.
00:30:00 이 섹션에서 강사는 컴퓨터 그래픽에서 회전을 표현하고 보간하는 문제와 효율적으로 샘플링하고 평균화할 수 있는 회전 공간의 필요성에 대해 논의합니다. 그는 행렬, 오일러 각도, 짐벌 잠금 및 기타 기존 방법 사용의 한계를 지적하고 보다 실용적인 솔루션으로 쿼터니언을 소개합니다. 그는 쿼터니언이 어떻게 중복성과 특이점을 피할 수 있는지, 그리고 어떻게 쿼터니언이 수학적으로 우아하고 계산적으로 효율적인 방식으로 구성, 보간 및 샘플링될 수 있는지 설명합니다. 그는 또한 회전을 모델에 최적화하고 맞추는 것과 회전 공간을 분석하고 시각화하는 새로운 방법을 개발하는 것을 포함하여 이 분야에서 진행 중인 연구와 공개된 문제 중 일부를 강조합니다.
00:35:00 이 섹션에서 연사는 쿼터니언 생성의 역사와 수학, 특히 회전에서 쿼터니언의 중요성을 설명합니다. 그는 더블린의 수학자 윌리엄 해밀턴이 나눗셈을 가능하게 하는 방식으로 숫자의 세 쌍을 나타내는 방법을 찾으려고 노력했기 때문에 영감을 얻기 위해 복소수를 찾았다고 설명합니다. 해밀턴은 결국 쿼터니언, 즉 실수부와 세 개의 허수부가 있는 숫자가 문제를 해결할 수 있음을 발견했습니다. 그런 다음 스피커는 공간의 벡터 또는 4x4 행렬을 포함하여 쿼터니언을 나타내는 다양한 방법을 설명합니다.
00:40:00 이 섹션에서 강사는 행렬 사용, 스칼라 부분 및 3개의 허수 부분 사용을 포함하여 쿼터니언 곱셈을 나타내는 다양한 방법에 대해 설명합니다. 강사는 곱셈이 비가환적임을 강조하고 곱셈이 행렬과 벡터의 곱으로 어떻게 표현될 수 있는지 보여줍니다. 강의는 또한 쿼터니언 곱셈이 가환적이지 않고 연관적이라는 사실을 포함하여 몇 가지 기본 결과를 강조합니다.
00:45:00 이 섹션에서 발표자는 쿼터니언을 회전을 나타내는 유용한 방법으로 만드는 쿼터니언의 속성을 설명합니다. 쿼터니언은 허수부를 부정하는 것과 관련된 켤레를 포함하여 복소수와 유사한 속성을 가집니다. 내적은 노름(norm)으로 표현될 수 있으며 쿼터니언에 켤레를 곱하면 허수부가 없는 실수량이 나오므로 나눗셈에 사용할 수 있습니다. 단위 쿼터니언의 경우 역수는 켤레입니다. 쿼터니언은 스칼라 부분을 생략하여 벡터를 나타내는 데에도 사용할 수 있으며 이 공간에는 흥미로운 속성이 많이 있습니다.
00:50:00 이 섹션에서는 강사가 쿼터니언을 사용하여 회전을 표현하는 방법을 설명합니다. 단순한 쿼터니언 곱셈과 달리 쿼터니언에 벡터를 사전 곱하고, 켤레를 사후 곱하고, 벡터의 허수 부분을 추출하면 스칼라 부분이 0인 쿼터니언을 얻을 수 있으며 3D에서 벡터를 회전하는 데 사용할 수 있습니다. 4x4 행렬을 사용하여 쿼터니언 곱셈을 표현함으로써 강사는 이 연산이 원래 벡터의 내적을 보존하는 방법을 보여줍니다. 결과적으로 3x3 직교 회전 행렬은 쿼터니언을 직접 조작하지 않고 벡터를 회전하는 데 사용할 수 있습니다.
00:55:00 이 섹션에서 강사는 회전을 정의하는 속성과 쿼터니언을 사용하여 회전을 나타내는 방법에 대해 설명합니다. 쿼터니언은 회전의 적절한 표현이 되도록 내적, 삼중 곱, 길이, 각도 및 손잡이를 보존하는 회전의 4차원 표현입니다. 회전의 구성은 쿼터니언 표기법에서는 간단하지만 축 각도와 오일러 각도에서는 모두 어렵습니다. 쿼터니언의 벡터 부분은 회전축과 평행하므로 축을 쉽게 결정할 수 있습니다. 강사는 축 각도와 쿼터니언 표현 간의 변환 방법을 설명하고 구의 반대쪽이 동일한 회전을 나타내는지 확인합니다. 이는 평균을 계산하기 위한 사진 측량의 필수 지식입니다.
01:00:00 강의의 이 섹션에서 화자는 두 좌표 시스템 사이의 좌표 변환 또는 두 좌표 시스템에서 측정된 해당 지점을 사용하여 두 개체 사이의 가장 적합한 회전 및 변환을 찾는 문제에 대해 논의합니다. 스프링이 있는 물리적 아날로그를 사용하여 시스템은 회전 및 변환을 찾기 위해 오류 제곱의 합을 최소화하려고 합니다. 변환을 찾는 첫 번째 단계는 회전 후 왼쪽 시스템의 중심을 오른쪽 시스템의 중심으로 가져가는 것입니다. 이는 직관적이고 대응이 필요하지 않습니다. 그런 다음 변환 공식을 사용하여 오류 항을 최소화하기 위한 표현을 단순화합니다. 중간 항만 변경할 수 있으며 이를 최대화함으로써 시스템은 해당 점의 내적을 최대화할 수 있습니다.
01:05:00 이 섹션에서 강사는 쿼터니언 표기법을 사용하여 우주선 카메라를 카탈로그 방향과 정렬하는 방법에 대해 설명합니다. 그들은 쿼터니언을 사용하여 카탈로그 방향으로 카메라의 별 방향을 매핑합니다. 여기서 목표는 이 두 쿼터니언의 내적을 최대화하는 것입니다. 그러나 이로 인해 쿼터니언에 대한 값이 커질 수 있으므로 부과해야 하는 추가 제약 조건이 있습니다. 강사는 두 쿼터니언 방향의 차이를 최소화하기 위해 사용되는 쿼터니언에 대해 두 가지 미분 방법을 설명합니다.
01:10:00 강의의 이 섹션에서 교수는 데이터에서 구성된 4x4 실수 대칭 행렬의 고유 벡터와 고유 값에 대해 설명합니다. 가장 작은 고유값을 원했던 과거와 달리 사인 반전으로 인해 가장 큰 고유값에 해당하는 고유벡터를 선택해야 합니다. 행렬은 대칭입니다. 즉, 9개의 독립적인 양이 있고 행렬식은 0인 삼차항을 가집니다. 16개의 독립적인 양이 있지만 그 중 10개가 독립적이어서 이 행렬을 특별하게 만듭니다. 이를 통해 3차 방정식으로 줄일 수 있어 더 쉽게 풀 수 있습니다. 교수는 또한 3차 방정식과 4차 방정식은 5차 방정식과 달리 닫힌 형태로 풀 수 있다고 지적합니다.
01:15:00 이 섹션에서 강사는 회전을 나타내는 수단으로 쿼터니언의 바람직한 속성에 대해 설명합니다. 이러한 속성에는 벡터를 회전하고 쉽게 회전을 구성하는 기능, 중복되지 않는 직관적 표현, 계산 효율성, 방향을 보간하고 회전 범위의 평균을 구하는 기능이 포함됩니다. 그런 다음 강사는 세계의 두 지점에서 방향 데이터를 사용하여 두 좌표계의 기준선 및 상대 방향을 찾는 문제로 상대 방향을 소개합니다. 쿼터니언은 또한 로봇 매니퓰레이터의 운동학을 설명하는 데 유용하며 특히 손목에서 좌표계 정렬 문제를 방지하는 데 도움이 될 수 있습니다.
01:20:00 이 섹션에서 발표자는 정규 직교 행렬과 비교하여 회전을 나타내는 쿼터니언의 효율성에 대해 논의하여 쿼터니언 곱셈이 구성에는 더 빠르지만 벡터 회전에는 더 느리다는 것을 보여줍니다. 그는 쿼터니언이 행렬보다 재정규화하기도 더 쉽다고 지적합니다. 그런 다음 발표자는 다면체를 회전 구에 투영하여 공간의 규칙적이고 균일한 샘플링을 생성하여 4차원에서 회전 공간을 샘플링하는 방법에 대해 논의합니다.
01:25:00 이 섹션에서는 좌표계를 사용하여 회전 그룹에 대한 표현을 단순화하는 것과 같이 4차원 공간에서 회전을 나타내는 다양한 방법에 대해 강의합니다. 강의는 또한 다양한 다면체에 대한 다양한 회전 그룹을 탐색하며, 이러한 그룹을 사용하여 공간의 정기적인 공간 샘플링을 제공하므로 사용자는 검색 또는 평균화를 위해 다른 방향을 시도할 수 있습니다. 그러나 이러한 방법은 더 미세한 샘플링을 달성하기 위해 트릭이 필요할 수 있으며 올바른 좌표계를 선택하는 것이 중요합니다.
강의는 단위 쿼터니언을 사용하여 사진 측량법에서 회전을 표현하고, 쿼터니언과 정규 직교 행렬 표현 간 변환, 회전 대칭 처리, 대응이 없는 방식으로 변환, 크기 조정 및 회전을 조정하는 것을 포함하여 절대 방향의 다양한 측면을 다룹니다. 또한 라인 피팅 및 측정 과정에서 이상값과 견고성의 문제에 대해 논의하고, 이상값이 존재할 때 측정의 신뢰성을 향상시키는 방법으로 RANSAC(Random Sample Consensus) 방법을 소개합니다. 강의는 이상값 및 최적화와 관련된 문제를 포함하여 동일 평면 시나리오에서 두 평면을 사용하여 닫힌 형태의 절대 방향 문제를 해결하는 것에 대한 토론으로 마무리됩니다.
절대 방향에 대한 이 비디오에서 강사는 실제 데이터의 이상값 문제에 대해 논의하고 이상값을 처리하기 위해 무작위 하위 집합 적합을 포함하는 합의 방법인 RANSAC의 사용을 제안합니다. 강사는 또한 입방체에 구를 새기고 임의의 점을 투영하고 구의 표면을 테셀레이션하고 정다면체에 점을 생성하는 것을 포함하여 구에서 점의 균일한 분포를 달성하는 방법에 대해 설명합니다. 또한 강사는 라이브러리에 있는 여러 개체를 효율적으로 인식하기 위해 회전 공간을 샘플링하는 방법, 개체를 자체적으로 정렬하는 데 필요한 회전 수를 찾는 방법, 예제 또는 쿼터니언 곱셈을 통해 회전을 찾는 문제에 접근합니다.
00:00:00 강의의 이 섹션에서 연사는 사진 측량에서 회전을 나타내는 단위 쿼터니언의 사용에 대해 논의합니다. 단위 쿼터니언은 최악의 최소 문제에 대한 폐쇄형 솔루션을 허용하여 다른 표기법에서는 더 어려운 최적의 답변을 얻을 수 있는 객관적인 방법을 제공합니다. 특히 중요한 두 가지 작업은 회전의 구성과 벡터의 회전이며 둘 다 논의된 공식을 사용하여 나타낼 수 있습니다. 화자는 또한 Rodriguez의 공식을 사용하여 이 표기법을 축 및 각도 표기법과 관련시킵니다. 전반적으로 단위 쿼터니언을 사용하면 사진 측량법에서 회전을 보다 효율적으로 표현할 수 있습니다.
00:05:00 비디오의 이 섹션에서 스피커는 쿼터니언과 정규 직교 행렬 표현 간의 변환에 대해 설명합니다. 사원수를 행렬로 변환하는 공식에는 비대칭 부분과 대칭 부분이 모두 포함된 4x4 행렬이 포함됩니다. 발표자는 첫 번째 행과 열은 스칼라 부분이 0인 벡터인 특수 쿼터니언을 나타내므로 관련이 없다고 설명합니다. 직교 정규 행렬을 다시 쿼터니언으로 변환하기 위해 화자는 3x3 부분 행렬의 추적을 사용할 것을 권장합니다. 이 방법은 행렬 간 각도의 코사인을 풀 수 있는 두 개의 코사인 항 형태의 방정식으로 끝납니다.
00:10:00 이 섹션에서 강사는 행렬 R의 대각선 요소에서 회전 행렬을 계산하는 다양한 방법에 대해 설명합니다. 하나의 접근 방식은 회전 행렬의 추적을 중심으로 하지만 세타가 0인 근처에서 문제가 발생합니다. 대신, 모두 2보다 세타의 사인에 의존하는 비대각선 요소를 사용하는 것이 좋습니다. 그런 다음 강의는 다양한 합계와 차이를 계산하고 제곱근을 취하는 완전한 반전 공식을 제공합니다. 이 접근 방식의 문제점은 사인 모호성이지만 강의에서는 수치 정확도를 위해 가장 큰 것을 선택하여 해결하도록 제안합니다.
00:15:00 이 섹션에서 발표자는 직간접적으로 쿼터니언과 회전 행렬 간의 변환 프로세스와 좌표 변환의 크기 조정을 설명하는 방법에 대해 설명합니다. 그들은 최소 제곱 문제를 사용하고 4개의 합을 최소화하여 회전 및 배율 인수를 해결하는 과정을 설명합니다. 발표자는 연속적인 카메라 위치에서 얻은 지형 조각을 함께 패치할 때 규모를 설명하는 것의 중요성을 강조하고 이러한 상황에서 최적의 위치를 찾는 방법을 설명합니다.
00:20:00 이 섹션에서 발표자는 회전의 대칭 문제에 대해 논의합니다. 여기서 회전을 계산하는 데 사용되는 방법은 회전 행렬의 역행렬을 얻기 위해 반전될 수 있어야 합니다. 화자는 또한 대응이 필요하지 않고 중심을 중심으로 매핑할 수 있기 때문에 이전 방법보다 선호되는 또 다른 오류 용어를 탐색합니다. 이 방법은 스케일 인수에 대한 오차항의 도함수를 0으로 설정하고 스케일 인수를 해결하여 스케일 인수를 찾는 것과 관련이 있습니다. 이는 스케일 인수를 원래보다 약간 작게 만들어 부정행위를 방지합니다.
00:25:00 이 섹션에서는 강사가 대응 없는 방식으로 변환, 크기 조정 및 회전을 처리하는 방법을 설명합니다. 중심 방법을 사용하면 두 포인트 클라우드 크기의 비율로 축척 계수를 계산할 수 있습니다. 회전 부분에서는 쿼터니언인 q에 대해 행렬 N의 음의 행렬식을 최대화하는 미적분 문제를 간략하게 다룹니다. 해결책은 라그랑주 승수를 사용하여 찾을 수 있지만, 무한히 커지는 것을 방지하기 위해 q의 길이로 나누는 Rall의 몫이라는 더 간단한 방법을 사용할 수도 있습니다. 결과 함수는 모든 배열을 따라 일정하며 가능한 극단적으로 만드는 광선의 방향을 제공합니다.
00:30:00 이 섹션에서 발표자는 방정식을 미분하고 0으로 설정하여 시그마를 최대화하는 행렬을 찾는 방법을 설명합니다. 미분을 위한 비율 공식을 사용하여 화자는 q가 어떻게 고유 벡터인지 보여주고 가장 큰 고유 값에 해당하는 고유 벡터를 선택하여 행렬을 최대화할 수 있다고 설명합니다. 이 방법의 유일한 제약 조건은 고유 벡터가 대응 데이터에서 얻은 제약 조건을 충족해야 한다는 것입니다. 그러나 직교 행렬과 달리 이 제약 조건은 다루기가 훨씬 쉽습니다.
00:35:00 이 섹션에서 강사는 사진 측량 문제에 필요한 대응 수에 대해 논의합니다. 그들은 6가지를 찾는 것을 목표로 합니다: 병진 회전 및 스케일링은 대응당 3개의 제약을 의미하므로 두 개의 대응만 필요합니다. 그러나 2개의 대응만 있으면 5개의 제약 조건만 있습니다. 따라서 이를 달성하려면 세 가지 대응이 필요합니다. 또한 강사는 세 점에서 얻은 9개의 제약 조건과 일치하도록 변환을 일반화할 수 있는 가능성을 언급합니다. 그러나 그들은 이러한 제약 조건이 매우 중복된다는 점에 주목합니다.
00:40:00 이 섹션에서는 2D처럼 6개가 아닌 12개의 요소가 포함되어 3개의 대응으로 결정하기 어려운 3D의 일반적인 선형 변환 개념에 대해 설명합니다. 또한 비디오는 선형 변환이 실패하는 두 가지 방법이 있다고 설명합니다. 첫째, 대응이 충분하지 않은 경우, 둘째, 행렬 N이 하나 이상의 고유값 0을 갖는 경우입니다. 비디오는 행렬의 고유값을 찾기 위해 특성 방정식을 푸는 방법을 자세히 설명합니다.
00:45:00 동영상의 이 섹션에서 강사는 4x4 행렬 N을 계산하는 데 사용되는 3x3 행렬인 이음 곱을 사용하여 행렬 M을 계산하는 방법을 설명합니다. N을 얻는 효율적인 방법. M의 행렬식이 0이면 C1이 0이기 때문에 문제를 특히 쉽게 풀 수 있어 특별한 교과서 없이도 방정식을 풀 수 있습니다. 이 특별한 경우는 포인트 분포와 관련이 있으며 포인트가 동일 평면에 있을 때 발생할 수 있습니다. 강사는 포인트가 모두 평면에 있으면 문제를 쉽게 해결할 수 있는 경우 이것이 어떻게 똑같이 잘 적용되는지 보여줍니다.
00:50:00 비디오의 이 섹션에서 발표자는 동일 평면 시나리오에서 두 평면을 사용하여 닫힌 형태의 절대 방향 문제를 해결하는 방법을 설명합니다. 전체 3D 회전은 두 개의 간단한 회전으로 분해할 수 있습니다. 먼저 한 평면을 다른 평면 위에 놓이도록 회전한 다음 평면 내 회전으로 분해할 수 있습니다. 발표자는 쿼터니언을 구성하는 데 필요한 축과 각도를 찾고 좌표계 중 하나의 모든 점을 회전하여 다른 좌표계에 정렬하는 방법을 설명합니다. 또한 연사는 최적화 문제에서 이상값을 처리하는 문제와 오차의 절대값과 같이 오차의 제곱 이외의 것을 사용하면 더 많은 작업을 계산하고 결과를 일반화하는 데 어려움을 겪을 수 있는 방법에 대해 논의합니다.
00:55:00 이 섹션에서 강사는 라인 피팅 및 기타 측정 프로세스의 이상치 및 견고성 문제에 대해 논의합니다. 그는 RANSAC(Random Sample Consensus) 방법을 소개합니다. 이 방법은 포인트의 무작위 샘플을 취하고 최소 제곱법을 사용하여 가장 적합한 것을 찾은 다음 대역 내에 속하는 포인트 수를 확인하고 노이즈와 이상치에 대한 인라이어의 비율. 이 과정은 잘 맞을 때까지 반복됩니다. 강사는 RANSAC을 사용하면 이상값이 있는 상황에서 측정의 신뢰성을 향상시킬 수 있다고 말합니다.
01:00:00 비디오의 이 섹션에서 강사는 실제 데이터가 있을 때 이상치 문제와 RANSAC이라고도 하는 합의 방법을 사용하여 이를 처리하는 방법에 대해 논의합니다. 이 방법에는 임의의 하위 집합을 취하고, 적합을 수행하고, 가장 많은 적중이 있는 셀을 찾는 작업이 포함되며, 이를 통해 폐쇄형 솔루션이 없을 수 있는 개체의 방향을 측정할 수 있습니다. 강사는 이 접근 방식이 절대 방향에만 국한되지 않고 많은 응용 분야에서 유용하다고 강조합니다. 또한 강사는 볼록에 가까운 복잡한 객체에 대한 표현이 사물을 감지하고 방향을 찾는 데 유용할 수 있다고 언급합니다.
01:05:00 이 섹션에서 강사는 균일성을 달성하기 위해 구에서 샘플링 포인트의 어려움에 대해 설명합니다. 극지방이 다른 지역보다 더 집중되어 있기 때문에 균일 분포 생성기를 사용하여 세타 및 파이를 샘플링하여 균일한 포인트 분포를 얻을 수 없습니다. 제안된 솔루션은 입방체에 구를 새기고 입방체에서 구로 임의의 점을 투영하는 것입니다. 그러나 이것은 구가 정육면체에 접하는 지점의 밀도가 더 높아지게 합니다. 이를 해결하기 위해 강사는 일반 솔리드를 사용하여 구의 표면을 테셀레이션하거나 모서리 근처의 지점에 가중치를 도입하여 집합을 축소할 것을 제안합니다.
01:10:00 비디오의 이 섹션에서 강사는 구 표면의 균일한 점 분포를 얻는 방법에 대해 설명합니다. 한 가지 방법은 큐브에서 점을 균일하게 생성하고 구의 표면에 투영하는 반면 원점에 너무 가깝거나 구에서 너무 멀리 떨어진 점은 버리는 것입니다. 또 다른 방법은 정다면체를 사용하여 구를 분할하고 이러한 모양에 균일하게 점을 생성하는 것입니다. 그러나 이 방법은 실질적으로 균일한 분포를 생성하는 첫 번째 방법과 달리 더 미세한 분할을 얻기 위해 세분화가 필요합니다.
01:15:00 이 섹션에서 강사는 라이브러리의 여러 개체에 대한 인식 프로세스의 일부인 다양한 개체의 회전 공간을 샘플링하는 균일한 방법을 찾는 방법에 대해 설명합니다. 강사는 효율적이기 위해 회전 공간의 일부를 다른 부분보다 더 조밀하게 샘플링하는 것을 원하지 않으며 샘플링 공간의 균일한 방법을 찾는 것을 목표로 한다고 설명합니다. 그들은 회전 대칭을 갖는 육면체와 그 회전에 대해 논의하는 것으로 시작합니다. 강사는 목적이 서로 다른 모델에서 점 대응을 쉽게 찾을 수 있는 회전 방법을 찾는 것이라고 설명합니다.
01:20:00 이 섹션에서 발표자는 객체를 정렬하는 데 필요한 회전 수를 찾은 다음 두 가지 방법(기하학적 방법 및 쿼터니언 곱셈)을 사용하여 회전 그룹을 생성하는 방법에 대해 설명합니다. 축이 (1, 1, 1)이고 각도가 2π/3인 흥미로운 새 회전이 발견되어 정육면체의 모서리를 자체에 정렬하는 것으로 표시됩니다.
01:25:00 이 섹션에서 화자는 회전을 찾는 문제에 접근하는 두 가지 방법을 제공합니다. 첫 번째 방법은 예제를 보고 더하여 총 24회전을 얻는 것입니다. 두 번째 방법은 쿼터니언 곱셈을 구현하고 쌍별 곱을 취하여 테이블을 작성하여 새로운 것을 얻는지 확인하는 것입니다. 그런 다음 연사는 다음 토론에서 양안 시력과 더 관련이 있는 상대 방향을 포함할 것이라고 언급합니다.
강의의 이 섹션에서는 규칙적인 테셀레이션, 임계 표면, 양안 스테레오, 3차원 공간에서 변환 매개변수 찾기 등의 주제를 다룹니다. 강사는 구를 테셀레이션하는 가장 좋은 방법은 삼각형 테셀레이션의 이중을 사용하여 몇 개의 오각형으로 대략 육각형 모양을 만드는 것이라고 설명합니다. 그들은 또한 머신 비전에는 어렵지만 곧은 막대기로 가구를 만드는 데 사용할 수 있는 중요한 표면에 대해서도 논의합니다. 양안 스테레오에 대한 토론에서 강사는 두 카메라 간의 관계, 에피폴라 라인의 개념, 두 카메라의 교차점을 찾아 세상의 한 점을 결정하는 방법을 설명합니다. 또한 두 광선 사이의 오류를 계산하여 교차점을 결정하고 이미지 오류를 최소화하는 동시에 세계 오류와 이미지 오류 간의 변환 계수를 고려하는 방법을 설명합니다. 마지막으로 기준선을 나타내는 쿼터니언을 사용하여 공간에서 단단한 물체의 위치와 방향을 복구하기 위해 기준선과 D를 찾는 방법에 대해 논의합니다.
강의는 회전 공간, 규칙적인 테셀레이션, 임계 표면 및 쌍안경 스테레오를 포함한 다양한 주제를 다룹니다. 회전의 경우 강사는 수치적 접근 방식의 사용, 특이점 문제 및 단위 쿼터니언 사용의 이점에 대해 설명합니다. 규칙적인 테셀레이션을 통해 특정 표면이 양안 스테레오에 어떻게 문제를 일으킬 수 있는지 보여주고 오류 측정 및 가중치를 사용하여 문제를 완화할 것을 제안합니다. 화자는 또한 4차원 표면을 만지고 "두려움 없는 반성"을 포함하는 새로운 숙제 문제를 소개합니다.
00:00:00 비디오의 이 섹션에서 발표자는 구에 동일한 영역 투영을 갖는 플라토닉 및 아르키메데스 입체를 기반으로 구의 표면을 테셀레이션하는 방법에 대해 논의합니다. 표면의 테셀레이션은 삼각형, 사각형 및 오각형이 일반적으로 사용되는 정다각형을 패싯으로 사용하여 수행할 수 있습니다. 폴리곤의 면적은 동일하지 않으며 결과적으로 테셀레이션된 표면에는 많은 분할이 있습니다. 이 테셀레이션 방법은 회전을 논의할 때 적합하며 발표자는 이러한 솔리드의 회전 그룹을 설명합니다. 비디오는 또한 규칙적인 구조를 만들기 위해 20면체를 많은 삼각형 영역으로 테셀레이션하는 것을 기반으로 하는 측지선 돔의 사용에 대해 언급합니다.
00:05:00 이 섹션에서 강사는 표면을 동일한 크기의 모양으로 나누는 방법인 다양한 규칙적인 테셀레이션에 대해 논의했습니다. 정사각형 테셀레이션은 일반적으로 평면에서 사용되지만 구에는 이상적이지 않으며 삼각형 테셀레이션도 문제가 있습니다. 강사는 더 나은 옵션을 강조했습니다. 대략 육각형과 약간의 오각형 모양을 특징으로 하는 삼각형 테셀레이션의 이중입니다. 또한 강사는 한 장의 쌍곡면인 임계면에 대해 설명했습니다. 이러한 표면은 머신 비전 문제가 발생하기 어렵지만 직선 막대로 가구를 만드는 데 사용할 수 있는 괘선이라는 뚜렷한 특징이 있습니다. 마지막으로 강사는 방정식에 두 개의 음수 부호가 있는 두 시트의 쌍곡면에 대해 논의했습니다.
00:10:00 이 섹션에서 강사는 두 개의 시트 또는 세 개의 음수 기호로 만들 수 있는 다양한 유형의 표면에 대해 설명합니다. 또한 쌍곡면, 원뿔, 포물면, 평면 등 존재하는 다양한 특수 사례에 대해서도 설명합니다. 계속해서 강사는 두 대의 카메라를 사용하여 2D에서 3D를 계산하는 문제와 두 카메라의 형상을 이해하는 데 상대적인 방향이 어떻게 필요한지 설명합니다. 강의는 양안 스테레오가 자율 주행 차량에 어떻게 적용되는지 언급하며 끝납니다. 기준선이 고정되지 않은 경우 보정을 다시 수행해야 할 수도 있지만 전후 이미지가 있는 움직임에서 구조에 대해서도 동일한 프로세스가 작동합니다.
00:15:00 이 섹션에서 강사는 세계의 한 지점을 결정하기 위해 두 카메라의 교차점을 찾는 개념, 좌표계를 선택하는 방법 및 이 개념과 관련된 기하학에 대해 설명합니다. 강사는 기준선이 오른쪽 좌표계에서 측정되고 프라임은 왼쪽 좌표계에서 어떻게 변환되는지를 나타냅니다. 포인트가 기준선에 연결되면 평면을 정의하고 두 카메라 시스템의 평면 이미지는 포인트가 해당 선을 따라 어딘가에 이미지가 있는 직선으로 투사됩니다. 강의는 또한 에피폴라 라인의 개념과 거리 측정으로 이어지는 불일치를 찾는 데 어떻게 도움이 되는지 소개합니다.
00:20:00 이 섹션에서 강사는 쌍안경 스테레오 설정에서 두 카메라 간의 관계에 대해 논의합니다. 여기에는 한 카메라의 기준선과 다른 카메라에 대한 회전이 포함됩니다. 회전에는 3개의 자유도가 있지만 배율 인수 모호성으로 인해 절대 방향에서와 같이 6개의 자유도가 아닌 5개의 자유도로 문제가 줄어듭니다. 기준선은 단위 벡터로 처리되어 해당 구성요소에 대해 2개의 자유도만 제공합니다. 강사는 기준선의 절대 길이를 결정하기 위해서는 촬영된 물체의 크기에 대한 지식과 같은 추가 정보가 필요하다고 설명합니다.
00:25:00 이 섹션에서 강사는 측정값을 고정하는 데 필요한 대응 수를 결정하는 방법에 대해 설명합니다. 그는 이미지 포인트에서 와이어를 생성하고 칼라를 통과시켜 구속하는 기계적 비유를 설명합니다. 강사는 두 개의 대응만 사용하더라도 여전히 자유도가 있으므로 카메라 회전을 변경할 수 있다고 설명합니다. 두 번째 대응을 추가하면 자유도가 줄어들지만 여전히 불충분합니다. 답은 5개이며 대응당 하나의 제약 조건을 부여하여 카메라 방향의 수직적 차이를 없앨 수 있습니다. 피사계 심도는 수평 시차에 반비례합니다. 수십 년 동안 광학 장비가 설정되었던 방식인 수직 시차를 제거하여 기기를 설정할 수 있습니다.
00:30:00 강의의 이 섹션에서 연사는 고통스럽고 복잡한 과정이 될 수 있는 수렴을 위한 일련의 이동 및 조정을 사용하여 3차원 공간에서 변형의 매개변수를 찾는 과정에 대해 논의합니다. 그러나 실제로는 이미지 위치 측정의 정확도를 보장하고 오류를 최소화하기 위해 5개 이상의 포인트를 갖는 것이 중요합니다. 이 비선형 문제는 7개의 2차 방정식을 생성하며, 일단 해결되면 2에서 7(128)개의 솔루션을 제공할 수 있습니다. 이것은 대부분의 사람들에게 진부하지만 이론적 응용에 관심이 있는 사람들은 알아내는 것이 재미있다고 생각합니다. 마지막으로 강의에서는 대응에서 기준선 및 회전 매개변수를 찾을 때 세 벡터의 동일 평면 특성에 대해 논의합니다.
00:35:00 이 섹션에서는 3개의 벡터를 모서리로 사용하여 병렬 피펫을 구성하고 삼중 곱을 통해 부피를 결정하는 개념을 설명합니다. 세 벡터가 동일 평면에 있을 때 개체는 평평하고 3차원 볼륨이 없으므로 기대값이 0이거나 동일 평면 조건이 됩니다. 최소한의 오류로 기준선과 회전을 추정하기 위해 각 대응에 대한 삼중 곱의 제곱합을 최소화하는 잠재적 방법에 대해 설명합니다. 그러나 이것은 잡음 이득이 높고 잘못된 답을 얻을 수 있으므로 신뢰할 수 있는 방법이 아닙니다. 측정 오류를 최소화하고 비례 계수를 결정하기 위해 측정과 기준선 또는 회전이 완벽하지 않을 때 두 광선 사이의 최소 분리를 최소화하는 쪽으로 초점이 이동합니다.
00:40:00 이 섹션에서 강사는 두 광선 사이의 오류를 계산하고 교차점을 결정하는 방법에 대해 설명합니다. 그는 두 광선 사이의 거리에 대한 최소 접근이 두 광선 모두에 수직이어야 한다고 설명합니다. 즉, 교차 곱에 평행합니다. 벡터를 추가하고 0으로 설정하면 내적을 사용하여 방정식을 스칼라 방정식으로 변환하여 세 가지 제약 조건을 제공할 수 있습니다. 그런 다음 강사는 계속해서 특정 용어를 삭제하여 방정식을 단순화하는 방법과 광선을 따라 교차 또는 거의 교차하는 거리를 결정하는 데 도움이 되는 감마, 베타 및 알파를 계산하는 방법에 대해 논의합니다.
00:45:00 이 섹션에서 발표자는 회전 공간에서 3차원 위치를 계산할 때 알파, 베타 및 감마의 세 가지 양의 중요성에 대해 논의합니다. 감마는 단순히 거리 오차이지만 알파와 베타는 음수가 될 수 있습니다. 이는 일반적으로 물리적으로 합당하지 않은 교차하는 선분이 관찰자 뒤에 있는지 여부를 나타냅니다. 연사는 관련된 5차 방정식으로 인해 폐쇄형 솔루션이 현재 가능하지 않지만 이미지 오류를 최소화하는 것은 여전히 달성 가능하다고 언급합니다. 음의 알파 또는 베타가 있는 솔루션을 버리고 quintic solver를 사용하면 이미지의 오류를 최소화할 수 있습니다.
00:50:00 이 섹션에서 화자는 양안 스테레오에서 오차 제곱합을 최소화하는 동시에 세계 오차와 이미지 오차 사이의 변환 계수를 고려하는 문제에 대해 논의합니다. 이것은 솔루션에 따라 다르며 반복적으로 해결됩니다. 왼쪽 좌표계에서 오른쪽으로 회전한 삼중 곱은 쿼터니언을 도입하는 데 사용됩니다. 발표자는 스칼라 부분이 0인 쿼터니언을 사용하여 삼중 곱을 오른쪽 좌표계에서 왼쪽으로 회전하는 방법을 설명합니다. 벡터를 나타내는 쿼터니언 간의 곱셈 공식은 내적과 외적으로 단순화됩니다. Lemma는 곱셈기 중 하나를 다른 쪽으로 이동하는 방법에 대한 증거 없이 명시됩니다.
00:55:00 이 섹션에서 발표자는 기준선을 찾는 방법과 공간에서 단단한 물체의 위치와 방향을 복구하는 방법을 서로 다른 시점에서 촬영한 물체의 두 이미지를 통해 설명합니다. 화자는 기준선과 회전의 곱인 새 수량을 정의하고 기준선을 나타내는 쿼터니언을 사용하여 기준선과 D를 찾는 문제를 단순화합니다. 8개의 미지수가 있지만 자유도는 5개뿐입니다. 그래서 화자는 다양한 제약 조건을 사용합니다. 그들은 또한 왼쪽과 오른쪽 좌표의 교환을 허용하는 흥미로운 대칭에 대해 이야기합니다. 3D 공간 오차와 이미지 위치 오차의 관계인 가중치는 계산하기 어렵지만 조정할 수 있다.
01:00:00 이 섹션에서 발표자는 좋은 첫 번째 추측을 기반으로 가중치를 계산한 다음 해당 가중치를 다시 계산하고 문제를 다시 해결하는 것과 관련된 최적화 문제에 대해 논의합니다. 그들은 또한 왼쪽과 오른쪽 배열 사이의 대칭과 삼중 곱의 회전과 평행 이동 사이의 대칭과 함께 수치 계산에 어떻게 유용할 수 있는지에 대해 다룹니다. 궁극적으로 이 대칭은 근사해가 있으면 이 대칭을 활용하여 다른 근사해를 생성할 수 있음을 의미합니다. 또한 솔루션을 검색하는 과정에서 모두 동일한 결과를 생성하는 여러 버전을 찾을 수 있으므로 검색 프로세스를 가속화할 수 있습니다.
01:05:00 이 섹션에서 강사는 간단한 최소 제곱 폐쇄형 솔루션으로 알 수 없는 값 중 하나를 가정해야 하는 수치적 접근 방식을 사용하여 회전 공간 계산에 대해 설명합니다. 또 다른 접근법은 방정식이 가능한 한 0에 가까워질 때까지 매개변수를 조정하는 Marquardt 방법과 같은 비선형 최적화 패키지를 사용하는 것입니다. 그러나 이러한 접근 방식은 이 문제에 대한 폐쇄형 솔루션이 있는 것으로 간주되지 않습니다. 게다가 강사는 회전에 문제가 있다고 설명합니다. 정규 직교 행렬 방법으로 인해 숫자가 9개이고 자유도가 3개뿐이어서 세타가 pi일 때 Gibbs 벡터의 특이점이 발생하기 때문입니다.
01:10:00 이 섹션에서 화자는 단위 쿼터니언을 사용하여 회전을 나타내는 방법에 대해 논의하며, 3개의 자유도를 가진 4개의 숫자가 있다고 인용합니다. 그는 중복성을 줄이기 위해 제약 조건을 추가할 것을 권장하며 이 패키지에서 이러한 제약 조건을 추가할 수 있다고 말합니다. 그는 또한 두 회전을 결합하는 공식과 조금 더 복잡한 벡터 변환에 대해서도 다룹니다. 또한 스피커는 쿼터니언에 대해 알아야 할 모든 것을 요약한 4페이지 분량의 설명이 있음을 강조합니다. 마지막으로 그는 오류 측정의 사용과 큰 오류를 피하기 위해 더 큰 z-값을 고려할 때 가중치가 어떻게 필요한지에 대해 설명합니다.
01:15:00 이 섹션에서 발표자는 특정 종류의 표면이 물체의 방향을 결정하는 양안 스테레오 방법에 문제를 일으킬 수 있다고 설명합니다. 이러한 "중요한 표면"은 100년 전에 발견되었으며 오류에 대한 모호성과 높은 민감도를 유발할 수 있습니다. 화자는 비행기가 표면을 따라 이동할 때 표면 특징의 서로 다른 이미지 사이의 각도가 변경되지 않아 서로 다른 위치를 구별할 수 없는 U자형 계곡의 예를 제공합니다. 발표자는 한 시트의 쌍곡면이 한 시트에 대해 올바른 수의 빼기 기호를 가지고 있고 다른 표면과 매우 유사할 수 있기 때문에 쌍안 스테레오에 문제를 일으킬 수 있는 4차 곡면의 일반적인 예라고 지적합니다.
01:20:00 이 섹션에서 화자는 4차 곡면, 특히 이 곡면의 한 버전을 구성하는 두 개의 교차 평면에 대해 이야기합니다. 각 평면에는 선형 방정식이 있으며 함께 곱하면 두 평면의 조합이 얻어집니다. 평면 중 하나는 투영 중심을 통과합니다. 즉, 평면이 선으로 투영됩니다. 이것은 평평한 표면이 인간이 만든 구조물에서 흔히 볼 수 있는 문제라는 것을 의미하기 때문에 더욱 이상합니다. 화자는 다음에 "두려움 없는 성찰"에 대해 이야기해야 한다고 언급했고, 새로운 숙제 문제가 도입되었습니다.
강의 11: 가장자리 감지, 서브픽셀 위치, CORDIC, 라인 감지(미국 특허 6408109)
강의 11: 가장자리 감지, 서브픽셀 위치, CORDIC, 라인 감지(미국 특허 6408109)
"Lecture 11: Edge Detection, Subpixel Position, CORDIC, Line Detection (US 6,408,109)"이라는 제목의 이 YouTube 비디오는 머신 비전 시스템의 에지 감지 및 서브픽셀 위치와 관련된 여러 주제를 다룹니다. 연사는 발명 과정에서 특허의 중요성과 특허 전쟁에서 특허가 어떻게 사용되는지 설명합니다. 또한 다양한 에지 감지 연산자와 그 장점 및 한계에 대해 설명합니다. 이 비디오에는 데카르트 좌표를 극좌표로 변환하고 가장자리 위치를 결정하는 데 사용되는 수학 공식에 대한 자세한 설명이 포함되어 있습니다. 비디오는 특허에 대한 광범위하고 좁은 주장을 작성하는 것의 중요성과 시간이 지남에 따라 특허법의 발전에 대해 논의하면서 결론을 내립니다.
강의 11에서 연사는 효율성에 중점을 두고 에지 감지 및 도함수 추정을 위한 다양한 계산 분자에 중점을 둡니다. Sobel 및 Roberts 교차 연산자는 기울기 제곱의 합을 계산하기 위해 제공되며 공식 및 기술의 변형이 논의됩니다. 하위 픽셀 정확도를 달성하기 위해 여러 연산자가 사용되며 곡선의 피크를 결정하기 위해 포물선 피팅 또는 삼각형 모델 사용과 같은 기술이 제공됩니다. 또한 강의에서는 양자화에 대한 대안과 정사각형 그리드의 그래디언트 방향 문제에 대해 논의합니다. 전반적으로 이 강의는 에지 감지를 위한 우수한 성능을 달성하기 위해 많은 세부 사항을 고려하는 것의 중요성을 강조합니다.
강의 12: Blob 분석, 이진 이미지 처리, 그린의 정리, 도함수 및 적분
강의 12: Blob 분석, 이진 이미지 처리, 그린의 정리, 도함수 및 적분
이 강의에서 교수는 지적 재산권, 특허, 상표권, 에지 감지를 위한 이미지 처리 기술 등 다양한 주제를 다룹니다. 이 강의에서는 2D 머신 비전에서 정확도의 중요성과 흐리거나 초점이 맞지 않는 가장자리를 감지하는 문제를 강조합니다. 교수는 피크 찾기에서 바이어스 보상 및 보정 보정 기술과 함께 하위 픽셀 보간을 사용하여 혼합 편도함수, 라플라시안 및 에지 감지를 찾는 방법을 다룹니다. 전반적으로 강의는 이러한 주제와 실제 적용에 대한 포괄적인 개요를 제공합니다.
이미지 처리에 대한 이 강의에서 발표자는 그래디언트 방향의 양자화를 피하고 에지 위치 결정의 정확도를 향상시키기 위한 다양한 방법에 대해 논의합니다. 보다 정확한 그래디언트 방향 결정을 위해 조회 테이블 및 양자화보다 선호되는 방법으로 보간법이 제안됩니다. 또한 단계 크기를 원으로 고정하고 다중 스케일 분석을 사용하는 것이 대체 기울기 계산 방법으로 논의됩니다. 연사는 또한 그래디언트의 y 구성 요소를 0으로 줄이기 위해 이미지를 회전하는 반복적인 접근 방식을 설명하고 특수 각도를 통해 회전하는 화음의 개념을 소개합니다. 일반적인 숙제 문제보다 일이 더 많기 때문에 학생들은 퀴즈를 일찍 시작하도록 상기시킵니다.
강의 13: 객체 감지, 인식 및 포즈 결정, PatQuick(미국 특허 7016539)
강의 13: 객체 감지, 인식 및 포즈 결정, PatQuick(미국 특허 7016539)
강의는 PatQuick 특허(US 7,016,539)에 중점을 두고 객체 감지, 인식 및 포즈 결정에 중점을 둡니다. 이 특허는 공간에서 객체의 포즈를 감지하고 결정하는 것을 목표로 하며 다른 포즈와 회전에서 런타임 이미지와 비교되는 모델이라는 추상 표현을 사용하여 이전 방법보다 개선된 기능을 제공합니다. 이 특허는 또한 정확도를 높이기 위해 일반화된 자유도 목록을 통합하고 저역 통과 필터링 및 에지 감지를 사용하여 경계 지점을 획득하고 임계값을 최종 단계까지 연기합니다. 또한 강의에서는 이러한 모델을 표현하기 위해 원하는 간격과 대비가 있는 에지 감지 및 프로브를 사용하여 모델을 만드는 과정에 대해 설명하고, 변환, 회전, 스케일링 및 종횡비와 같은 자유도를 고려하여 다양한 변형을 허용하는 것이 중요함을 설명합니다. 개체 치수 및 관점.
이 비디오는 피크 감지 및 인접한 물체 감지 솔루션을 포함하여 물체 감지에서 효율적이고 확장 가능한 변환 검색에 사용되는 육각형 검색 패턴에 대해 설명합니다. 이 비디오는 또한 런타임 이미지에서 사전 결정된 패턴의 존재와 다차원 위치를 결정하기 위한 특허인 PatQuick에 대해 설명합니다. 이 방법은 프로브와 미리 계산된 그래디언트를 사용하여 개체의 포즈를 일치시키고 스코어링 기능의 통합으로 결과에서 오류를 제거합니다. 이 비디오는 내적을 사용하여 각도 차이를 결정하는 대체 방법을 탐색하고 다양한 입도에 대한 멀티 스케일 작업 및 프로브 선택의 복잡성을 강조합니다. 방법의 정확도는 검색 공간의 양자화에 의해 제한됩니다.
강의 14: PatQuick에서의 검사, 허프 변환, 호모그래피, 위치 결정, 다중 스케일
강의 14: PatQuick에서의 검사, 허프 변환, 호모그래피, 위치 결정, 다중 스케일
이 강의에서는 실시간 이미지에서 개체의 자세를 결정하는 다차원 공간에서 채점 기능을 생성하기 위해 프로브를 사용하는 데 중점을 두고 PatQuick 알고리즘에 대해 설명합니다. 기울기의 방향과 크기 측면에서 일치의 품질 등급을 매기는 데 사용되는 일치 함수도 검사되며 정확도와 속도 사이의 트레이드오프에 대해 논의된 다양한 채점 함수가 있습니다. 이 강의에서는 특히 이미지의 종횡비를 변경하는 변환을 수행할 때 계산의 세분성을 조정하고 방향을 올바르게 잡는 문제를 해결하는 것을 포함하여 패턴 일치 프로세스를 보다 효율적으로 만드는 데 사용되는 다양한 방법을 탐구합니다. 강의는 또한 사진에서 선을 감지하기 위한 호모그래피 및 Hough 변환에 대한 주제를 다룹니다.
강의는 Hough Transform, Extended Gauss Half Transform, 위치 결정, multi-scale sub-sampling, SIFT 등 컴퓨터 비전과 관련된 다양한 주제를 다룹니다. Hough Transform은 라인 및 에지 감지에 사용되는 반면 Extended Gauss Half Transform은 Hough Transform의 보다 정교한 버전입니다. 강의에서는 기지국의 위치와 같은 원을 감지하기 위해 허프 변환을 사용하는 방법도 설명합니다. 또한 발표자는 품질 저하 없이 작업량을 줄이기 위한 서브 샘플링 이미지에 대해 논의하고, 여러 장의 사진에서 3D 정보를 생성하는 데 널리 사용되는 장면의 서로 다른 이미지에서 대응점을 찾는 방법인 SIFT를 소개합니다. 마지막으로 연사는 음악 이론에 대해 간략하게 논의하고 제안서를 제출하라는 알림과 지체하지 말라는 인용문으로 끝납니다.
강의 15: 정렬, PatMax, 거리 필드, 필터링 및 하위 샘플링(미국 특허 7065262)
강의 15: 정렬, PatMax, 거리 필드, 필터링 및 하위 샘플링(미국 특허 7065262)
이 비디오에서는 패턴 인식 및 개체 감지와 관련된 여러 기술과 특허에 대해 설명합니다. 그러한 기술 중 하나는 인력 기반 시스템을 사용하여 런타임 이미지의 포즈를 반복적으로 개선하는 PatMax입니다. 또 다른 기술은 런타임 이미지 정렬을 개선하기 위해 픽셀 그리드에 벡터 필드를 생성하는 것과 관련이 있습니다. 강의는 또한 벡터 필드에서 힘 벡터를 살펴봄으로써 에지 감지 및 시드된 에지를 확장하기 위한 디스턴스 필드의 사용을 다룹니다. 연사는 또한 멀티 스케일 패턴 매칭의 사용과 선을 이미지 좌표 집합에 맞추는 것과 관련된 수학적 단계에 대해 논의합니다. 마지막으로 다중 척도를 효율적으로 계산하기 위한 특허가 도입되었습니다.
강의 15에서 강사는 이미지의 효율적인 컨볼루션, 필터링 및 서브 샘플링을 위한 다양한 기술과 지름길을 다룹니다. 여기에는 스플라인 조각별 다항식을 사용하여 필터 커널 근사화, 도함수를 컨볼루션으로 사용, 세 번째 차이를 반복적으로 취하여 이미지 압축, x 및 y 방향 컨볼루션 결합이 포함됩니다. 연사는 또한 이미지의 간섭과 앨리어싱을 피하기 위해 이미지 샘플링 전에 저역 통과 필터링의 중요성을 언급합니다.
강의 16: Fast Convolution, Low Pass Filter Approximations, Integral Images (미국 특허 6457032)
강의 16: Fast Convolution, Low Pass Filter Approximations, Integral Images (미국 특허 6457032)
강의는 대역 제한, 앨리어싱, 저역 통과 필터 근사, 블러링, 적분 이미지, 푸리에 분석 및 컨볼루션을 포함하여 신호 처리와 관련된 다양한 주제를 다룹니다. 연사는 앨리어싱 아티팩트를 피하기 위해 샘플링 전에 신호를 저역 통과 필터링하는 것이 중요하다고 강조합니다. 또한 블록 내 픽셀의 합을 효율적으로 계산하는 적분 이미지의 개념과 저역 통과 필터를 근사할 때 계산을 줄이는 다양한 기술을 소개합니다. 마지막으로 sinc 함수를 근사화하기 위해 사용되는 bicubic interpolation과 그 계산 비용에 대해 설명합니다.
이 강의에서 연사는 컨볼루션, 저역 통과 필터 근사 및 적분 이미지와 관련된 다양한 주제에 대해 논의합니다. 그들은 왼쪽에서 오른쪽으로 값을 더하고 평균을 얻기 위해 빼서 계산 시간을 절약하는 방법을 포함하여 컨벌루션의 다양한 구현을 설명합니다. 저역 통과 필터 근사에 대한 선형 보간법의 한계와 3차원 보간법과 같은 고급 방법에 비해 열등한 점에 대해서도 설명합니다. 주파수 범위를 제한하는 필박스의 개념과 그 가치가 소개되고 스피커는 이상적인 저역 통과 필터와 디포커싱이 베셀 기능에 미치는 영향에 대해 이야기합니다. 강의는 또한 DSLR 카메라 렌즈에 대한 저역 통과 필터 근사치의 사용과 사진 측량법의 개념에 대해서도 다룹니다.
강의 17: 사진측량, 방향, 관성축, 대칭, 방향
강의 17: 사진측량, 방향, 관성축, 대칭, 방향
이 강의에서는 깊이 단서, 카메라 보정 및 두 좌표계 간의 변환 설정을 포함하여 사진 측량과 관련된 다양한 주제를 다룹니다. 발표자는 해당 측정을 사용하여 두 시스템 간의 좌표 변환을 찾는 문제에 접근하는 방법을 설명하고 변환의 정확한 역수를 확인하는 것의 중요성을 강조합니다. 강의는 또한 2D 및 3D 공간에서 관성 축을 찾고 축에 투영된 두 점 사이의 거리를 결정하는 방법에 대해 설명합니다. 전반적으로 이 섹션에서는 사진 측량법과 그 응용 프로그램에 대한 포괄적인 개요를 제공합니다.
사진 측량은 왼쪽 및 오른쪽 좌표계의 포인트 클라우드에 좌표계를 구축하고 둘을 연관시켜야 합니다. 강사는 관성 행렬 또는 관성 축을 결정하고 기저 벡터를 설정하는 방법을 설명합니다. 또한 내적, 길이 및 각도의 보존과 같은 대칭 개체 및 회전 속성으로 인해 발생하는 문제에 대해 논의합니다. 또한 강의에서는 변환을 제거하고 오차항을 최소화하여 회전을 찾는 문제를 단순화하는 방법을 다룹니다. 마지막으로 강사는 벡터 미적분학을 사용하여 유사한 모양의 두 객체를 정렬하는 방법을 설명하고 회전에 대한 다른 표현을 탐색하도록 제안합니다.
강의 18: 회전과 그것을 표현하는 방법, 단위 쿼터니언, 회전 공간
강의 18: 회전과 그것을 표현하는 방법, 단위 쿼터니언, 회전 공간
이 강의에서는 회전을 나타내는 문제에 대해 논의하고 해밀턴 쿼터니언의 유용성을 소개합니다. 단위 쿼터니언은 세 공간의 회전에 직접 매핑되므로 특히 유용하며, 해당 공간에서 회전 및 최적화 공간에 대해 논의할 수 있습니다. 쿼터니언은 복소수와 유사한 속성을 가지며 내적, 삼중 곱, 길이, 각도 및 손잡이를 보존하므로 회전을 나타내는 데 특히 유용합니다. 강의는 또한 회전을 표현하는 다양한 방법, 벡터를 회전하고 회전을 구성할 수 있는 능력의 중요성, 행렬, 오일러 각도 및 짐벌 잠금과 같은 기존 방법의 한계에 대해 논의합니다. 마지막으로 강의는 회전을 모델에 최적화하고 맞추는 것과 회전 공간을 분석하고 시각화하기 위한 새로운 방법을 개발하는 것을 포함하여 현장에서 진행 중인 연구를 제시합니다.
이 강의에서 교수는 두 좌표계 사이의 좌표 변환 또는 두 좌표계에서 측정된 대응점으로 두 객체 사이의 가장 적합한 회전 및 평행이동을 찾는 문제에 대해 논의합니다. 강의에서는 쿼터니언을 사용하여 우주선 카메라를 카탈로그 방향과 정렬하고 상대 방향 문제를 해결하는 방법을 탐구합니다. 회전을 나타내는 쿼터니언의 효율성과 4차원 공간에서 회전을 표현하는 다양한 방법에 대해 설명합니다. 또한 강의는 다양한 다면체에 대한 다양한 회전 그룹을 탐색하여 규칙적인 공간 샘플링을 달성하기 위한 올바른 좌표계 선택의 중요성을 강조합니다.
강의 19: 닫힌 형식의 절대 방향, 이상값 및 견고성, RANSAC
강의 19: 닫힌 형식의 절대 방향, 이상값 및 견고성, RANSAC
강의는 단위 쿼터니언을 사용하여 사진 측량법에서 회전을 표현하고, 쿼터니언과 정규 직교 행렬 표현 간 변환, 회전 대칭 처리, 대응이 없는 방식으로 변환, 크기 조정 및 회전을 조정하는 것을 포함하여 절대 방향의 다양한 측면을 다룹니다. 또한 라인 피팅 및 측정 과정에서 이상값과 견고성의 문제에 대해 논의하고, 이상값이 존재할 때 측정의 신뢰성을 향상시키는 방법으로 RANSAC(Random Sample Consensus) 방법을 소개합니다. 강의는 이상값 및 최적화와 관련된 문제를 포함하여 동일 평면 시나리오에서 두 평면을 사용하여 닫힌 형태의 절대 방향 문제를 해결하는 것에 대한 토론으로 마무리됩니다.
절대 방향에 대한 이 비디오에서 강사는 실제 데이터의 이상값 문제에 대해 논의하고 이상값을 처리하기 위해 무작위 하위 집합 적합을 포함하는 합의 방법인 RANSAC의 사용을 제안합니다. 강사는 또한 입방체에 구를 새기고 임의의 점을 투영하고 구의 표면을 테셀레이션하고 정다면체에 점을 생성하는 것을 포함하여 구에서 점의 균일한 분포를 달성하는 방법에 대해 설명합니다. 또한 강사는 라이브러리에 있는 여러 개체를 효율적으로 인식하기 위해 회전 공간을 샘플링하는 방법, 개체를 자체적으로 정렬하는 데 필요한 회전 수를 찾는 방법, 예제 또는 쿼터니언 곱셈을 통해 회전을 찾는 문제에 접근합니다.
MIT 6.801 머신 비전, 2020년 가을. 강의 20: 회전 공간, 규칙적인 테셀레이션, 임계 표면, 쌍안 스테레오
강의 20: 회전 공간, 규칙적인 테셀레이션, 임계 표면, 쌍안 입체
강의의 이 섹션에서는 규칙적인 테셀레이션, 임계 표면, 양안 스테레오, 3차원 공간에서 변환 매개변수 찾기 등의 주제를 다룹니다. 강사는 구를 테셀레이션하는 가장 좋은 방법은 삼각형 테셀레이션의 이중을 사용하여 몇 개의 오각형으로 대략 육각형 모양을 만드는 것이라고 설명합니다. 그들은 또한 머신 비전에는 어렵지만 곧은 막대기로 가구를 만드는 데 사용할 수 있는 중요한 표면에 대해서도 논의합니다. 양안 스테레오에 대한 토론에서 강사는 두 카메라 간의 관계, 에피폴라 라인의 개념, 두 카메라의 교차점을 찾아 세상의 한 점을 결정하는 방법을 설명합니다. 또한 두 광선 사이의 오류를 계산하여 교차점을 결정하고 이미지 오류를 최소화하는 동시에 세계 오류와 이미지 오류 간의 변환 계수를 고려하는 방법을 설명합니다. 마지막으로 기준선을 나타내는 쿼터니언을 사용하여 공간에서 단단한 물체의 위치와 방향을 복구하기 위해 기준선과 D를 찾는 방법에 대해 논의합니다.
강의는 회전 공간, 규칙적인 테셀레이션, 임계 표면 및 쌍안경 스테레오를 포함한 다양한 주제를 다룹니다. 회전의 경우 강사는 수치적 접근 방식의 사용, 특이점 문제 및 단위 쿼터니언 사용의 이점에 대해 설명합니다. 규칙적인 테셀레이션을 통해 특정 표면이 양안 스테레오에 어떻게 문제를 일으킬 수 있는지 보여주고 오류 측정 및 가중치를 사용하여 문제를 완화할 것을 제안합니다. 화자는 또한 4차원 표면을 만지고 "두려움 없는 반성"을 포함하는 새로운 숙제 문제를 소개합니다.