机器学习和神经网络 - 页 12

 

第2讲:图像形成、透视投影、时间导数、运动场



第2讲:图像形成、透视投影、时间导数、运动场

在本讲座中,将广泛讨论透视投影的概念及其与运动的关系。讲师演示了如何使用透视投影方程的微分来帮助测量图像中亮度模式的运动,以及它与现实世界中的运动的关系。该讲座还涵盖了扩展焦点、连续和离散图像等主题,以及在估计图像中物体的速度时具有纹理参考点的重要性。此外,讲座还涉及沿曲线的全导数以及尝试恢复光流矢量场时的方程计数和约束问题。

演讲者涵盖了各种主题,例如亮度梯度、物体运动、2D 情况和等光度。计算物体速度面临的一个挑战是亮度梯度比例关系引起的孔径问题,通过对不同图像区域的贡献加权或寻找最小解来解决。然后,讲座深入研究了等光度线的不同情况,并强调了在确定速度时计算有意义的答案而不是嘈杂的答案的重要性,使用噪声增益的概念,它衡量图像变化对结果变化的敏感性.

  • 00:00:00 在本节中,讲师讨论透视投影和运动。透视投影涉及 3D 世界中的点与 2D 图像之间的关系,可以通过合适的坐标系来表示。他们解释说,透视方程的微分有助于测量图像中亮度模式的运动,然后可用于确定现实世界中的运动。讲师通过使用更容易理解的符号(例如 x 和 y 方向上的速度)来降低方程的复杂性。

  • 00:05:00 在本节中,讲师解释了如何使用运动矢量找到扩展焦点,即图像中没有运动的点。这一点很重要,因为它允许我们简单地通过将它连接到原点来确定运动的方向,并且它告诉我们一些关于环境或运动的信息。讲师接着展示了如果展开的焦点在某个点上,图像的图案将如何出现,以及如何绘制矢量图来显示运动场。

  • 00:10:00 在这节课中,在图像形成和透视投影的背景下引入了焦点扩展和压缩的概念。该方程描述了从膨胀焦点向外辐射的矢量,这对于测量距离和速度很重要。 w 与 z 的比率决定了向量的大小,扩展焦点的倒数是压缩焦点。通过取 z 与 w 的比值,可以估计撞击时间,这对于着陆航天器或测量距离很有用。然后以矢量形式介绍这个想法,尽管它不是立即有用的。

  • 00:15:00 在本节中,演讲者讨论了透视投影方程以及如何使用它来引入图像坐标。扩展的焦点被引入为r点为零的点,其对应于z。通过相对于时间对每个分量进行微分,我们可以推导出 3D 运动和深度运动的方程。演讲者还使用本书附录中的结果将方程式转换为关于流动的一般说明,允许根据世界运动来表达图像运动。

  • 00:20:00 在本节中,讲师讨论图像运动的概念及其与 z 轴的关系。发现由此产生的图像运动垂直于 z 轴,这并不奇怪,因为图像仅在二维中具有 x 和 y 方向的速度。然后,讲座探讨了径向运动的概念及其对图像运动的影响,得出的结论是,如果物体直接朝向或远离观察者移动,则不存在图像运动。讲师最后检查了矢量长度不完全相同的流场示例,证明虽然令人不快,但这可能是有利的。

  • 00:25:00 在本节中,讲师讨论了解图像形成的前向过程如何帮助解决从运动场恢复深度的逆问题。讲师指出,深度和速度是影响运动场外观的两个关键因素,知道一个可以帮助计算另一个。但是,恢复两者可能会导致有多个解决方案或没有解决方案的不适定问题。讲师还简要介绍了图像亮度模式,它可以表示为亮度值的二维模式,以及使用 RGB 值表示的颜色,这将在后面讨论。最后,讲师解释说图像可以表示为连续的或离散的,数字图像在空间中被量化,通常在矩形网格上。

  • 00:30:00 在这节课中,教授讨论了图像处理中连续域和离散域的区别。虽然在实践中图像通常由具有两个索引的数字数组表示,但使用连续函数可以更容易理解某些操作,例如取积分。此外,教授还谈到了用差分法逼近亮度的 x 和 y 导数,以及亮度梯度在图像处理中的重要性。讲座还涉及一维传感器以及它们如何用于成像,运动作为扫描图像的一种方式。教授提出了确定图像两帧之间运动速度的问题,并给出了一个光学鼠标映射桌面的示例。

  • 00:35:00 在本节中,讲师讨论了光学鼠标技术中的假设,特别是观察表面时的恒定亮度假设。他还解释了如何通过分析帧之间的亮度变化来使用曲线的小线性近似来确定运动。讲师介绍了偏导数符号以及可用于边缘检测的亮度梯度的分量。最后,推导出公式delta e = e sub x 乘以delta x 并除以delta t 来计算运动。

  • 00:40:00 在讲座的这一部分,演讲者讨论了如何从 1D 图像中的单个像素恢复运动。结果允许说话者恢复运动,但这种方法不适用于 2D 图像。演讲者解释说,较大的 ET 值表示运动速度较快,并且当 EX 为零时会出现问题,因为除以零或较小的值会导致测量问题导致误差。此外,演讲者解释说,较小的 EX 值或零 EX 值会由于测量误差而导致估算值出现噪声。

  • 00:45:00 在讲座的这一部分,演讲者讨论了在估计图像中物体的速度时具有纹理的参考点的重要性。除非满足某些图像条件,否则这种类型的测量可能会有噪声且不可靠。但是,通过使用多个像素并应用最小二乘等技术来减少误差,可以显着改善结果。通过组合多个像素,测量的标准偏差可以减少 n 的平方根,这对于大图像很重要。但是,重要的是根据纹理的斜率对测量值进行加权,以避免使用来自高斜率区域的信息污染低斜率区域。最后,将分析扩展到二维图像,并讨论了多种方法以获得下一个结果。

  • 00:50:00 在本节中,讲师解释了如何将视频帧概念化为以 x、y 和 t 为轴的三维亮度值体积。然后讲座继续描述偏导数以及它们如何从 x、y 或 t 方向上的相邻像素的差异中导出。然后,讲师探索了沿曲线的全导数的概念,特别是与运动中物体的亮度梯度相关的概念。使用链式法则,全导数可以表示为偏导数,从而可以预测物体的亮度将如何随时间变化。最后,讲座介绍了从图像序列中找到 u 和 b 的概念。

  • 00:55:00 在本节中,讲师讨论了尝试恢复光流矢量场时的方程计数和约束问题。在一个未知 u 和一个约束方程的情况下,可以获得有限个解。然而,由于有两个未知数 u 和 v 以及一个方程约束,它似乎毫无希望。约束方程是从图像移动时亮度不变的假设推导出来的。讲师展示了在速度空间中绘制约束方程显示它是一条线,这是解决问题的重大进展。目标是将点固定到一个点并获得精确的光流矢量场。

  • 01:00:00 在视频的这一部分,演讲者讨论了亮度梯度在确定物体运动中的重要性。亮度梯度是垂直于高亮度区域和低亮度区域之间的过渡指向的单位向量。演讲者解释说,在进行局部测量时,没有足够的方程来确定物体的运动。然而,可以确定亮度梯度方向上的运动。然后演讲者继续讨论 2D 情况,并指出需要使用多个约束来确定对象的运动。为了证明这一点,演讲者求解了一个简单的线性方程以恢复 u 和 v 的值。

  • 01:05:00 在本节中,讲师解释了如何求逆 2x2 矩阵并使用它来求解图像运动的线性方程组。然而,在某些边缘情况下,矩阵的行列式可以为零,这意味着亮度梯度彼此成正比,从而导致孔径问题。这个问题表明对不同图像区域的贡献需要不同的加权,而不是仅仅对结果进行平均。为了解决这个问题,我们需要寻找使方程为零或尽可能小的 u 和 v 的值。

  • 01:10:00 在本节中,演讲者讨论了适用于理想情况的约束条件,即在对整个图像进行积分时,u 和 v 的正确值导致被积函数为零。这可以作为找到 u 和 v 的正确值的策略的基础。演讲者指出,当场景中没有光线或纹理时,这种方法可能会失败,从而导致 ex 和 ey 的值为零。然后,演讲者解释了如何通过对被积函数求平方和最小化来将被积函数变成始终为正的东西,从而导致具有两个未知数的两个方程的微积分问题。但是,如果 2×2 矩阵的行列式为零,这可能会失败,如果 ex 处处为零或 ex 等于 ey,则会发生这种情况。

  • 01:15:00 在本节中,演讲者讨论了等光度线的不同情况,它们是亮度梯度相等的线。等光度线可以呈 45 度角、平行线或曲线。然而,演讲者强调最一般的情况是某个角度的等光度线,因为它涵盖了所有其他情况。他们还提到,当等光度线是平行线时会出现唯一的问题,这可以通过寻找图像中亮度梯度变化很大的区域来解决,例如角落或具有高等光度曲率的区域。最后,演讲者介绍了噪声增益的概念,并鼓励学生发送他们对讲座或即将进行的家庭作业的任何问题。

  • 01:20:00 在本节中,讲师讨论了在确定运动速度时计算有意义的答案而不是嘈杂的答案的重要性。他解释了噪声增益的概念,它指的是图像变化对结果变化的敏感性,以及它如何影响速度计算。然后他继续描述一个一维变换,其中前向函数是已知的,目标是以一种合理且对噪声不过分敏感的方式将其反转。
 

第 3 讲:接触时间、扩展焦点、直接运动视觉方法、噪声增益



第 3 讲:接触时间、扩展焦点、直接运动视觉方法、噪声增益

在本讲座中,噪声增益的概念被强调,因为它与机器视觉过程相关,重点关注不同方向和精度变化。讲师讨论了准确测量矢量和理解增益以最大限度地减少计算错误的重要性。演讲涵盖了接触时间、扩展焦点和运动场的概念,并演示了如何计算径向梯度来估计接触时间。讲师还演示了如何使用网络摄像头进行现场演示,从而克服使用多尺度超像素进行逐帧计算的局限性。总体而言,该讲座提供了有关机器视觉过程的复杂性以及如何准确测量各种数量的有用见解。

本讲座讨论了运动视觉的各个方面及其在确定接触时间、扩展焦点和直接运动视觉方法中的应用。演讲者展示了可视化中间结果的工具,但也承认了它们的局限性和错误。此外,解决了图像处理中处理任意运动的问题,并强调了以相似速度运动的相邻点的重要性。本讲座还深入探讨了影响直接运动视觉方法成功的模式,并引入了新变量来更方便地定义接触时间和敌人。最后,讨论了求解三个线性方程和三个未知数以了解不同变量如何影响运动视觉的过程,以及该过程的并行化以加速计算。

  • 00:00:00 在本节中,讲师讨论了噪声增益,它指的是测量误差与环境相关量估计误差之间的关系。他举了一个使用 Wi-Fi 接入点的室内 GPS 系统的例子来说明这个想法。系统的准确性受到从电话到接入点并以高精度返回的往返时间测量的限制。讲师强调,一些机器视觉过程的噪声增益分析在不同的方向上会有所不同,不会是一个单一的数字。相反,准确度可以在一个方向上很好地确定,但在另一个方向上则不能,这取决于你如何四处走动。

  • 00:05:00 在视频的这一部分,讲师讨论了使用转发器确定位置的概念以及这可能导致的相应错误。他解释说,如果使用两个转发器并将其放置在一条线上,则由于距离的微小变化,确定某个方向的准确性变得困难。但是,如果转发器相隔 90 度,则精度会提高。此外,讲师解释了圆圈的使用,因为它们与确定具有相同误差量的可能位置的轨迹有关。

  • 00:10:00 在本节中,讲师解释了正向变换的概念,它将我们从环境中需要测量的量转化为可以在仪器中观察到的东西。他解释说,测量可能并不完美,因此感兴趣数量中的噪声通过传递函数的导数与测量中的噪声相关。讲师还强调了噪声增益的重要性,强调 x 的 f prime 值较小并不好,因为所测量的量的不确定性会很大。

  • 00:15:00 在本节中,演讲者讨论了如何测量矢量以及了解这些测量中增益的重要性。他们解释说,测量矢量比测量标量稍微复杂一些,但仍然可以通过应用线性变换来完成。演讲者强调矢量测量的一个重要方面是理解增益,这涉及考虑各向异性并确定结果和测量的变化幅度。确定行列式的倒数对于求解线性方程至关重要,并且避免该值为零或太小以最大程度地减少计算中误差的放大是至关重要的。演讲者提供了一个二乘二矩阵的例子来解释如何获得逆矩阵。

  • 00:20:00 在这节课中,噪声增益的概念被应用到一个涉及运动和求解变量u和v的例子中。解释如果数量很小,噪声会被显着放大,并且这是因为两个像素的亮度梯度在方向上相似,信息差异很小。速度空间图用于显示两条线如何相交以及一条线中的微小偏移如何导致交点发生大变化,这不是理想的情况。然而,并不是所有的希望都破灭了,因为注意到噪声增益在所有方向上可能并不相同,知道哪个组件可以信任是很有用的。然后,讲座继续回顾恒定亮度假设和约束方程,然后再讨论接触时间的概念。

  • 00:25:00 更复杂的符号。在本节中,讲师讨论了光电鼠标问题以及如何使用最小二乘法来处理它。目标是使用 ex、ey 和 et 的测量值找到正确的速度,但这些测量值通常会被噪声破坏,因此积分的最小值(非零)将是我们对 u 和 v 的估计。一些微积分来确定最小值并解释最小化这个积分的重要性。然后他们继续讨论 u 和 v 是可预测的简单情况,例如在焦点扩展的情况下,并回顾透视投影中世界坐标和图像坐标之间的关系。

  • 00:30:00 在本节中,演讲者讨论了 x 和 y 方向上速度为零的运动的速度、距离和扩展焦点之间的关系。演讲内容包括 z 的 w 量,它是 z 方向的运动分量,以及以米每秒或秒为单位测量的速度距离,也称为接触时间,这有助于找到如何如果没有任何变化,一个人撞到一个物体之前需要很长时间。然后,演讲者继续通过一个简单的例子演示当有人向墙壁移动时扩展焦点如何工作,以及在这种情况下运动场会是什么样子。

  • 00:35:00 在本节中,演讲者解释说,虽然我们可能认为寻找向量是解决寻找膨胀焦点问题的最简单方法,但现实是我们所拥有的只是亮度模式的图像,并且它们中没有向量。相反,我们需要使用扩展或收缩图像的图像数据来解决这个问题。演讲者展示了一张显示压缩而非扩展的向量图,但强调扩展的焦点是本实验的一个重要因素。演讲者还介绍了径向梯度的概念,它是两个向量的点积:亮度梯度向量和到相机光心的向量,这可以用来衡量时间的倒数在图像中的一个点使用亮度导数进行接触。然而,这些数字受到噪声的影响,估计导数会使事情变得更糟,因此这种方法不是很准确。

  • 00:40:00 在本节中,讲师解释了如何计算径向梯度并使用它们来估计图像的接触时间。径向梯度是通过图像梯度与图像中竖立的极坐标系中的径向矢量的点积来计算的。然后,讲师展示了如何使用最小二乘法来最小化计算出的径向梯度与点光源的零理论值之间的差异。这适用于沿光轴运动的简单情况,其中参数 c 的估计给出了接触时间。

  • 00:45:00 在讲座的这一部分,教授解释了他使用直接运动视觉方法估计接触时间的方法。他使用微积分来最小化存在噪声时的均方误差,并推导出 c 的公式,它是接触时间的倒数。关键是使用 x 和 y 方向上的相邻像素估计亮度梯度,然后计算径向梯度,最后计算所有像素的二重积分以获得 g 和 g 平方的估计。有了这些,可以使用 c 的公式轻松估算接触时间。该方法简单有效,不需要高级处理或复杂的对象识别技术,可以直接计算接触时间。

  • 00:50:00 在本节中,演讲者讨论了使用图像分析技术测量公交车的位置。通过测量公交车图像中的像素数量及其随时间的变化情况,可以准确确定公交车的位置。但是,此过程需要很高的精度,并且在处理更复杂的场景时可能会变得具有挑战性。为了演示这些技术,演讲者使用了一个名为 Montevision 的程序,该程序处理图像以估计与各种物体接触和扩展焦点的时间。该程序计算三个值以优化基于图像的分析的准确性,但由于结果嘈杂,因此需要不断改进才能有效。

  • 00:55:00 在本节中,讲师讨论了一种计算接触时间的方法以及使用逐帧计算的局限性。这些限制包括图像焦点变化以及该方法无法针对较近物体中的较大速度进行调整。讲师演示了如何通过使用多尺度超像素或将像素组合在一起来提高图像处理速度和准确性来克服这些限制。最后,讲师进行了现场演示,使用网络摄像头根据摄像头的移动显示联系时间。

  • 01:00:00 在本节中,讲师演示了一个可以显示中间结果的工具,其中 x 导数控制红色,y 导数控制绿色,提供三维效果,类似于地形中梯度的快速变化地图。此外,径向导数 g 被证明向外移动,当乘以时间导数 et 时,可以确定运动。然而,众所周知,这样的工具具有可计算的局限性和错误,并且没有神奇的代码,这使其成为一个引人入胜且易于理解的工具。

  • 01:05:00 在本节中,讲师讨论了图像处理中处理任意运动的问题。他指出,问题的起因是 u 和 v 分别表示 x 和 y 方向上的运动,在整个图像中可能不同。这可能导致一百万个方程式和两百万个未知数,使问题看起来无法解决。讲师建议可能需要额外的假设来解决问题,但指出在大多数情况下,图像中的相邻点以相同或相似的速度移动,从而提供额外的信息。他还警告说,如果图像中的径向梯度为零,解决方案可能会失败,并解释了这意味着什么。

  • 01:10:00 在本节中,讲师讨论了可能影响使用直接视觉运动方法计算接触时间成功的模式。讲师解释说,某些图案(如 x 形)具有沿不同方向变化的梯度,因此可为计算接触时间提供有价值的信息。然而,另一种模式(如饼图)无法提供此信息,因为渐变在其方向上是一致的。讲师还提到,该算法可以从微小的斑点或纤维中拾取非零 exey,这些斑点或纤维甚至以相对一致的模式存在,如一张纸。最后,讲座介绍了两个新变量,fu of z 和 fv of z,这将有助于在方程式中更方便地定义接触时间和敌人。

  • 01:15:00 在这一节中,演讲者讨论了基于两个参数a和b的计算扩展焦点的公式,以及f如何不出现在公式中。虽然出于许多目的,需要 f 来计算距离和速度,但接触时间计算不需要 f。然后,演讲者将问题表述为具有有限数量的参数 a、b 和 c 的最小二乘问题,并继续对积分进行微分以找到被积函数的导数。

  • 01:20:00 在讲座的这一部分,演讲者解释了如何求解三个线性方程和三个未知数,以找出不同的变量将如何影响运动视觉。该解决方案具有封闭形式,这是有益的,因为它允许快速得出结论,而不必使用不同的参数重新计算。共有三个累加器,它们在水平、垂直和 g 方向上有所区别,它们都会影响系数。系数矩阵是对称的,这有助于理解解的稳定性。

  • 01:25:00 在讲座的这一部分,演讲者讨论了并行化运行图像中的六个累加器并在运行过程中添加它们的过程。此过程不需要像素之间的交互,因此如果在 GPU 上运行可以加快速度。这些累加器不依赖于时间的变化,因为它们只是在图像中累加亮度模式和纹理。其余三个累加器确实取决于时间的变化。一旦考虑了所有累加器,就必须求解三个未知数的三个方程。
 

第四讲:固定光流、光电鼠标、恒定亮度假设、闭式解



第四讲:固定光流、光电鼠标、恒定亮度假设、闭式解

在视觉感知 for autonomy 课程的第 4 讲中,讲师讨论了固定光流、光电鼠标、恒定亮度假设、封闭形式解决方案和接触时间等主题。恒定亮度假设导致亮度变化约束方程,它将图像中的运动与亮度梯度和亮度变化率联系起来。讲师还演示了如何对相机或表面倾斜的情况进行建模,并讨论了多尺度平均在处理大运动方面的好处。此外,本讲座探讨了在各种自主情况下使用时间进行联系,并比较了行星航天器着陆的不同控制系统。最后,讲座涉及直线的投影以及如何使用透视投影来定义它。

演讲者讨论了图像处理的应用,包括如何使用消失点来恢复相机校准的变换参数,以及具有已知形状的校准对象如何确定以相机为中心的系统中的点的位置。讲座还涵盖了使用不同形状作为光流算法标定对象的优缺点,例如球体和立方体,以及如何使用立方体和三个向量找到未知的投影中心。讲座最后强调了将径向畸变参数考虑在内以进行真实机器人相机校准的重要性。

  • 00:00:00 在本节中,讲师谈论图像形成和运动跟踪。他们讨论了透视投影方程和扩展的焦点,这是发生运动的点。引入恒定亮度假设,这意味着在许多情况下,环境中某个点的图像亮度不会随时间变化。讲师解释了该假设如何得出亮度变化约束方程,该方程将图像中的运动与亮度梯度和亮度变化率联系起来。本讲座还介绍了求解速度如何需要额外的约束,以及所有以相同速度移动的东西如何成为一种极端形式的约束。

  • 00:05:00 在讲座的这一部分,演讲者讨论了在光流问题中最小化估计 u 和 v 的技术,其中整个图像的 u 和 v 是恒定的,例如光学鼠标.这个过程是高度过约束的,但我们可以得到未知数的线性方程,具有对称的二乘二系数矩阵。演讲者展示了如何计算导数以及此方法不起作用的条件。他们还解释了一种特殊类型的图像,其中 e_x 和 e_y 在任何地方都处于相同的比例,并且这种情况将成立。

  • 00:10:00 这节讲师说的是exy不变的isophoto,就是一条直线和平行线只是c不同而已。这种类型的图像给光学鼠标系统带来了问题,因为它们无法测量一个方向的滑动,从而无法确定它的另一部分。然后讲座介绍了接触时间的概念,它取决于小数部分的比率而不是绝对值,使系统无需校准即可工作。讲师还演示了如何对方程进行微分,表明物体的大小是常数,从而导致乘积的导数为零。

  • 00:15:00 在本节中,讲师解释了一个简单的关系,该关系将帧之间尺寸的一定百分比变化转化为距离的一定百分比变化,这直接转化为接触时间 (TTC)。讲师强调了在使用图像大小方法估算 TTC 时准确测量图像大小的重要性,因为对于高 TTC,图像在帧与帧之间的微小变化相对较小。讲师还讨论了相对于平面接触时间所做的假设,并指出 z 恒定的假设仍然适用。

  • 00:20:00 在本节中,讲师讨论如何对相机或表面倾斜的情况进行建模。在倾斜平面的情况下,图像中的深度将不再恒定。平面方程是 x 和 y 的线性方程,这可能是一个更复杂的模型。通常,那里的方程可能会变得太复杂,并且可能没有封闭形式的解。但是,最好首先关注存在封闭形式解决方案的情况。如果表面不是平面的,我们可以通过多项式对其进行近似来建立最小二乘问题。不幸的是,我们找不到封闭形式的解决方案,所以我们需要一个数值解。尽管如此,我们必须小心引入更多变量,因为它会让解决方案在另一个方向上弯曲,从而失去表面是平面的建模的任何优势。

  • 00:25:00 在本节中,演讲者讨论了光流中多尺度实现的问题。尽管实施成功,但他提到结果的准确性会随着图像中的运动变大而降低。处理此问题的一种方法是使用较小的图像,从而减少每帧的运动。演讲者还讨论了多尺度平均的好处,这涉及使用越来越小的图像集来处理大运动。所需的工作量会随着子集数量的增加而增加,但总的计算量会减少。演讲者强调,多尺度优化的过程比上一课中使用的简单的两两块平均更复杂。

  • 00:30:00 在讲座的这一部分,演讲者讨论了在多尺度下工作如何能够极大地改善光流计算的结果。他解释说,二次采样应该在低通滤波之后进行以防止混叠,虽然可以通过一个不太激进的因子进行二次采样,例如 2 的平方根,但它通常被忽略以支持更简单的二乘二块平均法。演讲者还提到了光流的几个有趣应用,例如利用时间联系来防止飞机事故,以及改善航天器在木星卫星 Europa 上的着陆。他解释了控制系统如何利用时间联系测量来改变火箭发动机的加速度并更可靠地击落航天器。

  • 00:35:00 在本节中,讲座讨论了一个简单的系统,用于在下降过程中保持恒定的接触时间,可用于各种自主情况,例如汽车或航天器。基本思想是根据测量的接触时间是短于还是长于所需时间来调整施加到引擎上的力,以使其保持恒定。这种方法不依赖于任何特定的纹理或校准,而是简单地依赖于高度和速度之间的比率。该系统的方程可以作为常微分方程求解,其解与 z 成正比。

  • 00:40:00 在本节中,讲师讨论了恒定接触时间控制系统,并将其与更传统的行星航天器着陆方法进行了比较。恒定接触时间控制系统是有利的,因为它更节能,因为它始终保持接触时间恒定并且不需要关于到表面的距离和速度的详细信息。讲师展示了在恒定加速度下接触时间的计算,并强调接触时间始终是使用恒定高度策略观察到的接触时间的一半。

  • 00:45:00 在本节中,讲师讨论了恒定加速度控制的概念,以及它与用于估算距离和速度的传统方法的比较。然后他介绍了光流的泛化,称为固定流,并解释说它假设图像所有部分的运动是相同的。但是,在存在独立运动或少量未知数的情况下,系统可能会超定。他还讨论了欠约束系统的不适定问题以及如何使用重约束来解决该问题。

  • 00:50:00 在本节中,讲师讨论图像中的相邻点如何不独立移动,而是倾向于以相似的速度移动,这对光流产生了限制。然而,这个约束不是一个简单的方程式,需要更精确的工具来求解。如果这些工具不可用,则可以将图像分成更小的部分,其中该区域的恒定速度假设不太重要。但这种划分也会在这些区域的分辨率和亮度均匀性之间产生权衡。本讲座还涉及消失点的概念,以及如何将它们用于相机校准或确定两个坐标系的相对方向。

  • 00:55:00 在讲座的这一部分,教授讨论了直线的投影以及如何以各种方式(包括代数和几何方式)定义它。他解释说,3D 中的一条线可以使用单位向量由一个点和一个方向定义,并且线上的不同点具有不同的 s 值。教授接着解释了如何使用透视投影将其投影到图像中,从而产生一个包含变量 x、y 和 z 的混乱方程。然而,通过使 s 非常大,可以简化方程式并且可以研究相机校准和成像系统的影响。

  • 01:00:00 在本节中,演讲者讨论了消失点,消失点是由会聚到图像平面中的一点的线产生的。这些消失点可以用来了解图像的几何形状,可以应用于现实生活中,例如警告警察、建筑工人和其他可能因迎面而来的汽车而处于危险之中的人。相机可以通过寻找消失点来确定其以相机为中心的坐标系相对于道路的旋转。平行线具有相同的消失点,这意味着如果有一系列平行线形成矩形,则预期有三个消失点。

  • 01:05:00 在本节中,讲师讨论了图像处理的两个应用:寻找消失点以恢复摄像机标定的变换参数,以及使用具有已知形状的标定对象来确定以摄像机为中心的点的位置系统。讲师解释说,找到消失点可以恢复相机相对于道路和地平线方向的摇摄和倾斜。讲座还包括需要恢复镜头在图像平面上方的位置和中心投影的高度以进行精确的相机校准。讲师建议使用具有已知形状(例如球体)的校准对象来确定点在以相机为中心的系统中的位置。

  • 01:10:00 在本节中,讲师讨论了使用不同形状作为光流算法标定对象的优缺点。虽然球体相对容易制作和获得,但在将它们投影到图像平面时它们可能会产生噪音并且不太准确。另一方面,立方体由于其直角和平行线而具有显着优势,这与消失点相对应。讲师解释了寻找消失点如何帮助确定沿线在 3D 中指向的三个矢量的图像投影。此信息可用于更准确地校准光流算法。

  • 01:15:00 在本节中,演讲者通过使用立方体等校准对象和三个向量 A、B 和 C 来寻找未知的投影中心 P。这三个向量与彼此,这有助于创建三个方程来求解 P 的三个未知数。然而,二次方程中的二阶项使得有多个解成为可能,这就是佐特定理的用武之地。使用定理,演讲者表明解的最大数量是方程阶数的乘积。为了简化方程式,演讲者将它们成对相减,得到三个可用于求出未知数的线性方程式。

  • 01:20:00 在本节中,我们了解到虽然存在三个线性方程,但它们不是线性无关的,因此只有两个解。线性方程定义 3D 空间中的平面,相交时会生成一条包含第三个平面的直线,该平面不提供任何附加信息。此技术有助于校准相机和找到投影中心的位置。然而,真实相机具有径向畸变参数,需要在真实机器人相机校准时考虑这些参数。
 

第 5 讲:TCC 和 FOR MontiVision 演示、消失点、VP 在相机校准中的使用



第 5 讲:TCC 和 FOR MontiVision 演示、消失点、VP 在相机校准中的使用

讲座涵盖了与相机标定相关的各种主题,包括透视投影中消失点的使用、三角测量法在图像标定中寻找投影中心和主点,以及在正交矩阵中表示旋转的法线矩阵的概念。讲师还解释了计算相机焦距的数学方法,以及如何使用消失点来确定相机相对于世界坐标系的方向。此外,还讨论了 TCC 和 FOR MontiVision 演示的使用,以及理解方程背后的几何结构在解决问题中的重要性。

讲座涵盖与计算机视觉相关的各种主题,包括照明对表面亮度的影响、如何使用两个不同的光源位置测量无光泽表面,以及使用反照率求解单位向量。本讲座还讨论了相机校准中的消失点以及使用三个独立光源方向测量亮度的简单方法。最后,演讲者谈到了正交投影作为透视投影的替代方法,以及在表面重建中使用它的必要条件。

  • 00:00:00 在本节中,演讲者演示了如何在指向键盘的网络摄像头上使用 TCC 和 FOR MontiVision Demos。他们讨论了接触时间计算的重要性以及影响这些计算的因素。演讲者还讨论了透视投影中消失点的概念以及它们如何用于相机校准。他们解释了接触时间计算的方程式以及 dzdt 的符号如何影响运动物体的图像。

  • 00:05:00 在本节中,讲师讨论了相机校准中消失点的概念,消失点是图像平面上一条特殊平行线穿过投影中心的点。其他平行线也有消失点,它们越远,它们在图像上的投影就越接近特殊线的投影。这个概念允许确定坐标系和相机校准之间的关系,这对于计算机视觉应用程序中的对象识别很有用。讲师提供了一个矩形对象世界的示例,其中包含定义坐标系的平行线组,可以将其投影到图像平面上以进行校准。

  • 00:10:00 在本节中,演讲者讨论了消失点及其在相机校准中的应用。讲者解释说,通过延长平行线可以准确地确定三个消失点,这些点可以用来寻找投影的中心。投影中心是物体坐标系与像平面坐标系建立关系的地方。通过将投影中心连接到图像平面中的消失点,可以创建三个向量,这些向量可用于找到到消失点的方向彼此成直角的点。演讲者指出,消失点彼此成直角的所有你可能所在的位置的轨迹是一个圆。

  • 00:15:00 在本节中,讲师讨论了 3D 版本的 TCC 和相机校准。他解释说,投影中心位置的限制是它位于一个球体上,以及如何使用球体来缩小投影中心的可能性。讲师然后讨论线性方程和直线,以及通过 theta 和 rho 参数化直线。参数化很有用,因为它避免了奇点并为线提供了一个二自由度的世界。

  • 00:20:00 在本节中,讲师使用具有三个未知数的线性方程讨论三维平面的表示。他解释说,由于比例因子,实际上只有三个自由度,而不是四个。这种二元性意味着在 3D 平面和点之间存在映射,类似于 2D 中线和点之间的映射。讲师随后介绍了相机校准问题,并将其与机器人技术中涉及三个球体相交的多点定位问题进行了比较。

  • 00:25:00 在本节中,演讲者解释了如何求解 3D 空间中两个球体的交点。第一个球体被定义为具有二阶项的方程式,这可能导致多达八种可能的解决方案。然而,通过从第二个球体中减去这个方程,可以获得一个线性方程。通过对所有球体对重复此过程,可以创建三个线性方程,然后可以求解三个未知数。虽然这看起来是一个完美的解决方案,但需要注意的是,通过这种方法创建的矩阵通常是奇异的,因此在其解决方案中是非唯一的。

  • 00:30:00 在本节中,演讲者讨论了处理方程式和在此过程中丢失重要信息的问题。他解释说,虽然推导出新的方程式非常好,但必须小心不要丢弃原始方程式,因为它们可能仍然包含解决问题所需的关键信息。他使用线性和二次方程的例子来证明这一点,以及如何丢弃一些方程而必须保留其他方程以获得所需数量的解。演讲者还强调了理解方程背后的几何学的重要性,因为它可以提供有价值的见解,而这些见解可能无法仅从代数中立即显现出来。

  • 00:35:00 在这段文字记录中,演讲者讨论了三角测量以及如何在图像校准中找到投影中心和主点。他们解释说,可以使用产生三个平面的三个已知点找到投影中心,并且可以在它们的交点处找到中心。为了找到主点,他们将垂直于投影中心的垂线放到图像平面中。他们还讨论了可用于检测图像是否已被修改或裁剪的消失点。

  • 00:40:00 在本节中,讲师讨论了消失点在摄影测量和相机校准中的使用。他解释了如何使用消失点来确定图像的真实性,并探讨了与探索相关的各种骗局。然后,他深入研究了寻找矢量的第三个分量和求解二次方程以确定焦距的数学。他接着解释了一种特殊情况,在这种情况下无需求解二次方程即可确定焦距。该视频是关于计算机视觉技术方面的讲座系列的一部分。

  • 00:45:00 在本节中,演讲者讨论了消失点在相机校准中的应用,特别是用于确定相机相对于世界坐标系的方向。演讲者解释说,通过识别图像中假定平行的路缘和道路标记等特征,它们可以产生可以在图像中识别的消失点。演讲者还解释说,在所有三个消失点都可用的理想情况下,相机捕获的矩形对象的边缘可用于定义 x 轴和 y 轴,并随后确定相机坐标系与世界坐标系。

  • 00:50:00 在本节中,演讲者解释了在相机坐标系中测量的物体坐标系中找到单位向量的过程。单位向量必须彼此成直角,然后用于计算 TCC 和 FOR MontiVision 演示。变换矩阵表示一个坐标系相对于另一个坐标系的方向,演讲者表示他们将来会做更多这样的事情。

  • 00:55:00 在本节中,讲师讨论了正规矩阵的概念,其中行彼此垂直,并且每行的大小为 1。这样做的目的是表示正交矩阵中的旋转。通过确定物体中坐标轴的方向,可以相对容易地在两个坐标系之间来回切换,这对于相机标定特别有用。最后,讲座涉及亮度的概念,其中观察到的亮度取决于材料表面、光源、入射角和出射角以及方位角。

  • 01:00:00 在视频的这一部分,演讲者讨论了照明的概念以及它如何影响表面的表观亮度。他们解释说,表面从光源获得的功率受表面相对于光源方向倾斜的角度影响,这可以使用角度的余弦来计算。演讲者随后介绍了哑光表面的概念,它可以向各个方向反射光线,但具有从任何方向看起来都同样明亮的特殊属性。他们继续讨论如何通过使用两个不同的光源位置测量其亮度来确定此类表面的方向。

  • 01:05:00 在本节中,演讲者讨论了求解单位向量 n 时涉及的非线性。通过使用亮度测量值,可以估计余弦θi,并且可以确定表面法线的可能方向的锥体。如果进行两次单独的测量,则会创建两个方向锥,并且只有由两个可能方向组成的那些锥的交点才能给出法线方向。然而,它必须是单位法线的约束意味着这两个可能的方向现在必须与单位球体相交才能做出最终决定。演讲者解释说,通过使用定义表面反射率的反照率,可以创建一个线性方程问题来确定图像平面中物体的亮度。反照率值的范围从零到一,表示进入物体的能量有多少被反射回来,有多少被吸收和损失。

  • 01:10:00 在本节中,讲座讨论了消失点 (VP) 在相机校准中的使用。本讲座介绍了一个包含未知数的三向量,并通过向量与光源位置的矩阵乘法求解反照率和单位向量。然而,当光源共面时,即它们在同一平面内,或者如果矩阵的两行相同,则此方法受到限制,在这种情况下无法反转矩阵。讲座还指出了这些限制对天文学家的影响,因为他们需要确保光源不在同一平面上。

  • 01:15:00 在本节中,演讲者讨论了一种使用三个独立光源方向测量亮度的简单方法,该方法可以预先计算并高效实现。建议利用相机 (RGB) 中的三组传感器可用于此目的。可以构建查找表以根据球体的已知形状校准表面,并且可以计算其表面方向以测量三个图像中的亮度。然而,真实表面并不遵循这个简单的规则,可以使用查找表来反转表面方向的数值。最后,演讲者谈到了正交投影作为透视投影的替代方法。

  • 01:20:00 在本节中,演讲者解释了使用正交投影从图像重建表面的必要条件。他分享说,该假设是基于深度范围与深度本身相比非常小,从而允许该投影所需的恒定放大率。正交投影用于简化从图像重建表面的过程。
 

第 6 讲:光度立体声、噪声增益、误差放大、特征值和特征向量复习



第 6 讲:光度立体声、噪声增益、误差放大、特征值和特征向量复习

在整个讲座中,演讲者解释了在光度立体声中求解线性方程组时噪声增益、特征值和特征向量的概念。本讲座讨论了奇异矩阵的条件、误差分析中特征值的相关性以及线性独立性在避免奇异矩阵方面的重要性。本讲座最后讨论了朗伯定律和表面方向,并强调了使用单位法向量或单位球体上的点来表示表面的必要性。总体而言,该讲座提供了对光度立体声背后的数学原理的深入了解,并强调了从地球测量中准确恢复月球地形的挑战。

在计算摄影课程的第 6 讲中,演讲者讨论了如何使用单位法向量和表面的梯度来找到表面方向,并将亮度绘制为表面方向的函数。他们解释了如何使用 pq 参数化来映射可能的表面方向,并展示了如何使用斜面来绘制不同方向角度的亮度。演讲者还讨论了如何根据梯度重写光源单位向量与单位法向量的点积,以找到 pq 空间中该量为常数的曲线。讲座最后解释了如何使用通过将线旋转到光源而创建的圆锥体来查找不同形状的圆锥部分。

  • 00:00:00 在视频的这一部分,讲师讨论了 1D 情况下的噪声增益,其中有一个未知数和一个测量值,并解释说如果曲线具有低斜率,则小误差可以放大为大误差区域。继续讨论 2D 情况,讨论转移到特征向量和特征值,它们是矩阵的特征,并指示通过矩阵相乘获得的向量是否指向与用于矩阵相乘的向量相同的方向。讲师提供了有关如何找到这些向量以及有多少向量的详细信息,并指出向量的大小和比例无关紧要,并且可以有多个特征向量。

  • 00:05:00 在本节中,演讲者讨论了奇异矩阵的概念及其在求解线性方程组中的相关性。奇异矩阵是行列式为零的矩阵。对于 n×n 实对称矩阵,行列式是 lambda 中的 n 阶多项式,具有 n 个根。这意味着在齐次方程组的情况下,如果行列式为零,则存在多个解,而不是唯一解。这在处理光电鼠标恢复等多维问题时很重要,其中某些方向的误差可能与其他方向不同。因此,除了将一个小的决定因素识别为有问题之外,还需要更细致的描述。

  • 00:10:00 在讲座的这一部分,演讲者讨论了齐次方程及其有趣的性质,包括一组齐次方程具有非平凡解的条件。还讨论了矩阵的行列式,以及特征值和特征向量。特征向量将是特征值属性成立的特殊方向,并且它们将是正交的。特征值将决定误差将被放大多少,这对于实际测量误差很重要。虽然查找大型矩阵的特征值和特征向量通常是使用软件完成的,但从基本层面了解该过程还是很有用的。

  • 00:15:00 在本节中,演讲者讨论了求解 2x2 情况下的齐次方程的特征向量和特征值。为了找到特征向量,演讲者表明解应该垂直于矩阵的行。对于不同的lambda值,结果给出了指向同一方向的四个特征向量,可以将它们归一化得到单位特征向量。该技术可以扩展到 n×n 矩阵,它提供 n 个特征向量和相应的特征值来讨论误差放大。

  • 00:20:00 在本节中,讲师解释了如何将点积符号扩展到矩阵,并表明如果特征值都不同,则所有特征向量都是正交的。他还提到,如果某些根相同,这不会强制特征向量正交,但他可以从所有可能的特征向量中选择两个彼此正交的特征向量。这有助于构建向量空间的基础。讲师还讨论了如何将向量视为列向量或瘦矩阵,并展示了如何以两种方式编写点积。

  • 00:25:00 在本节中,讲师讨论了特征向量以及如何使用它们根据特征向量重新表达任何向量。通过采用任意向量测量并将矩阵乘以该测量以获得未知变量,不同的分量可以沿着特征向量的特殊方向放大不同的量。这称为误差增益。然而,他们也在处理使用逆矩阵的逆问题,因此讲师介绍了 n 个向量的二元乘积来应用这个想法。

  • 00:30:00 在本节中,演讲者讨论了特征向量和特征值,以及如何使用它们以各种方式重写矩阵。他们解释说这些项都是相关的,但特征向量本身不是,因此可以将它们分解出来。他们继续讨论如何使用这种方法来检查特征值的属性,以及为什么这对解决视觉问题很重要。具体来说,他们解释说,用于解决此问题的矩阵通常会在 lambda i 上将信号分量乘以 1,因此如果 lambda i 很小,就会产生不稳定的病态问题。

  • 00:35:00 在本节中,讲师在误差分析的背景下讨论特征向量和特征值。他解释说,如果其中一个特征向量的特征值很小,那么即使是很小的测量误差也会导致结果发生很大变化。 isophote 的方向对应特征值较小的特征向量,因此很难检测到准确的运动,而梯度方向则更宽容。然后讲师继续讨论光度立体,这是一种通过在不同光照条件下拍摄物体的多张照片来恢复表面方向的技术。他解释说,反照率参数用于描述表面反射了多少光,它可以帮助限制表面方向。

  • 00:40:00 在这一部分中,讲师解释了使用不同光源获得三个测量值的过程,从而可以引入一个具有三个未知数和三个测量值的问题。这允许通过使用线性方程求解方法消除图像方向的歧义,从而产生一种简单且廉价的方法来计算解决方案。讲师指出,找到两个解是由二次方程式产生的,这可以通过使用点积符号将单位向量转换为任意三元向量来避免。此外,该视频还提到了线性独立行对于避免奇异矩阵的重要性。

  • 00:45:00 在讲座的这一部分中,讨论了光度立体、误差放大以及特征值和特征向量。探索了光源之和为零时的测量冗余,并表明如果三维空间中的三个向量共面,则该方法将失败。但是,如果它们不共面并且彼此成直角放置,则结果会更可靠。该讲座还提到了使用光度立体根据来自太阳的不同光照创建月球地形图。

  • 00:50:00 在讲座的这一部分,教授讨论了尝试从地球测量中获取月球地形的挑战。虽然可以在月球轨道的不同位置进行测量,但这种方法行不通,因为矢量几乎是共面的。教授还谈到了朗伯假设,该假设假设物体具有完美的漫反射和均匀反射,但指出月球表面并非如此。然而,这个假设对于比较两个照明强度是有用的,这可以通过用一个光源照射一侧,用另一个光源照射另一侧然后平衡它来实现,这样当从相同的角度看时,两侧看起来同样明亮。

  • 00:55:00 在讲座的这一部分,教授讨论了兰伯特进行的实验,这些实验导致了兰伯特定律的发现,该定律解释了表面在从不同角度照明时如何反射光。该定律指出亮度与入射角的余弦成正比。讨论还强调了讨论表面方向的必要性,以及如何使用单位法向量或单位球体上的点来表示它。教授提到这个现象学模型是一种假定的行为,而不是真实表面的精确表示。本节最后介绍了泰勒级数展开。
  • 01:00:00 在这部分视频中,演讲者讨论了计算问题中单位正态表示法和梯度表示法之间的关系。他们解释了如何在两种表示法之间来回切换,并举例说明这如何有助于解决不同领域的问题,例如笛卡尔坐标和极坐标。演讲者还展示了如何在曲面中找到切线,并解释了如何使用这些切线的方向来找到单位法线与代表曲面梯度的 p 和 q 之间的关系。
     
  • 01:05:00 在本节中,讲师讨论如何使用表面的单位法向量映射所有可能的表面方向,以及此信息如何对机器视觉有用。位于表面的两个切向量的叉积给出了单位法向量的方向,然后可以将其归一化以获得表面的方向。通过使用 pq 参数化将表面方向投影到 2D 平面中,可以可视化所有可能的表面方向。该平面上的点对应于不同的 p 和 q 值,因此对应于不同的表面方向,包括地板和地板上方具有相同方向的任何表面。讲师指出,虽然机器视觉可以恢复表面方向,但将这些方向拼凑在一起以形成完整的表面是一个单独但过度确定的问题。

  • 01:10:00 在视频的这一部分,演讲者解释了如何使用斜面作为工具来绘制亮度作为机器视觉中表面方向的函数。平面上的每个点都对应于一个特定的表面方向,亮度值可以通过不同方向角度的一块材料通过实验确定。然而,单次亮度测量无法恢复两个未知数,需要多次测量才能确定表面元素的方向。这个概念然后与光度立体和朗伯表面相关,其中亮度与入射角的余弦成正比,并且在斜面中寻找等光度线。

  • 01:15:00 他在这里讨论以不同的方式重写光源的方向,以完全对单位向量执行与 n 相同的转换。这引入了一个入射光线平行于表面法线的点,称为 psqs,它位于平面中并为兰博基尼提供最亮的表面。通过以特定形式重写 n 个点,他们可以确定 pq 空间中该数量为常数的曲线。全部相乘后,剩下 p 和 q 的二阶方程,对应于圆锥曲线。给出的例子是抛物线和椭圆。

  • 01:20:00 在本节中,演讲者讨论了一个可用于图形的图表,其中绘制了一个表面以及一个图表,该图表包含一组适用于各种类型表面的等载荷,包括抛物线、椭圆、圆、直线、点和双曲线。从图表中读取表面的亮度,并在绘制的图像中用作灰度级或颜色。单位法线可以从表面获得并用于确定等载线上的点。当光源移动时,图表会发生变化,因此确定两组等载线的交点以获得唯一的解决方案很重要。使用三个光源而不是两个,因为具有两个光源可能导致有限的解决方案而不是单一的解决方案。

  • 01:25:00 在本节中,演讲者解释了如何旋转光源线以创建圆锥体和不同角度,从而创建嵌套圆锥体。这些圆锥体可以用平面切割,得到的圆锥截面并不总是椭圆,而是双曲线甚至抛物线。演讲者还澄清了 cosine theta 在实践中不能为负,并将曲线从闭合曲线变为开放曲线的问题留作以后作业问题的谜题。讲座最后提醒您在 Piazza 上报名参加家庭作业和公告更新。
 

第7讲:梯度空间、反射图、图像辐照度方程、日经投影



第7讲:梯度空间、反射图、图像辐照度方程、日经投影

本讲座讨论梯度空间、反射图和图像辐照度方程。讲师解释了如何使用反射图来确定图形应用程序的表面方向和亮度,以及如何使用在不同光照条件下拍摄的三张照片创建从表面方向到亮度的数值映射。他们还介绍了辐照度的概念及其与强度和辐射率的关系,以及在测量亮度时使用有限孔径的重要性。此外,讲座还涉及光线在穿过镜头后的表现的三个规则、透视缩短的概念,以及镜头如何聚焦光线以确定有多少来自表面上的斑块的光线会聚到图像中。

在本次讲座中,演讲者解释了用于确定传送到图像中一个小区域的总功率的方程式,该方程式考虑了立体角和余弦θ。他们将这个方程式与相机中的光圈值以及光圈大小如何控制接收到的光量联系起来。演讲者还讨论了图像辐照度,它与现实世界中物体的辐射度成正比,以及当我们离开轴时亮度如何下降。他们继续讨论双向反射分布函数,该函数根据入射和发射方向确定表面的亮度。讲师解释说,可以使用测角仪测量反射率,并且对物体如何反射光进行逼真建模很重要。他们还解释了双向反射分布函数的亥姆霍兹互易性概念。然后讲座继续讨论将梯度空间应用于表面材料模型,并提醒学生及时了解作业信息。

  • 00:00:00 在本节中,引入梯度空间的概念来探索决定图像亮度的因素。亮度通常取决于照明和几何形状,如表面方向,因此有必要提及表面块的方向以确定亮度。还提到了单位法线,以及 p 和 q,它们只是图像中斜率的方便简写。朗伯表面的亮度是有争议的,这取决于所讨论表面的方向。许多无光泽表面是朗伯表面的近似值,这种近似值看起来很方便。然而,大多数宇宙和微观情况都不适合这种近似。

  • 00:05:00 在讲座的这一部分,演讲者讨论了反射图的概念,该图显示了一个表面根据其方向看起来应该有多亮。此图可用于确定图形应用程序的表面方向和亮度。演讲者接着解释了如何将这个概念扩展到非朗伯表面,以及如何建立一个查找表来根据表面方向确定亮度。附加信息和约束可用于进一步细化表面方向的估计。

  • 00:10:00 在本节中,讲师讨论如何使用校准对象(例如球体)进行图像校准。通过从四面八方拍摄一个发光的球体的图像并在其上拟合一个圆,可以估计图像的中心和半径。对于球体,有一个方便的关系,即点到表面和单位矢量平行,可以很容易地确定表面方向。这种方法也可以用于地球,对纬度的定义进行一些修改。通过使用上一讲的公式计算 p 和 q,可以确定图像中每个点的 n 和表面方向。

  • 00:15:00 在本节中,讲座讨论了在不同照明条件下拍摄的三张照片中构建从表面方向到亮度的数值映射的过程。目标是在稍后在相同光照条件下拍摄物体的三张图像时,使用此信息计算表面方向。讲师解释了这个过程的实现,它涉及在计算机中创建一个三维数组,其中每个框都有 p 和 q 值。然后将图像量化为离散间隔并用于将信息放入阵列中。该讲座还解决了诸如量化效应和可能永远不会被填充的空单元格等问题。

  • 00:20:00 在本节中,演讲者解释了梯度空间,它是一个 2D 空间被映射到 3D 空间而没有实际填充该空间。相反,在该空间中形成了一个表面,我们可以使用 p 和 q 寻址该表面上的点。当我们从两个图像变为三个图像时,我们引入了反照率因子,它与 e1 e2 e3 成线性比例。校准对象被涂成白色,并进行测量,生成 rho 等于 1 的表面定义。但是,对于其他行,我们可以填充立方体并生成其他表面。放置条目的查找表包括p qand row,一个3D到3D的查找表。如果出现问题,它会反映为反照率 rho 以外的其他值,表明三个光源之一出现错误或意外阻塞。该方法有助于识别阴影投射,或者对于距离太近或放置成重叠甜甜圈形状的反射表面,将图像分割和分解成多个部分。

  • 00:25:00 在讲座的这一部分,演讲者讨论了使用梯度空间和反射图来分割投射阴影和高反射区域的方法。有一种有条不紊的方法可以用相应的体素值填充表格值。演讲者还介绍了辐照度的概念,即照射到表面的光源每单位面积的功率。这个概念在图像处理的上下文中不是很有用,因为我们没有将传感器直接暴露在照明中。演讲者解释说,发射功率的数量除以面积是有术语的,但它对图像处理毫无用处。

  • 00:30:00 在本节中,演讲者解释了强度的概念及其含义,即使用点源测量沿特定方向传播的辐射量。定义立体角以归一化测量,其单位以球面度为单位,类似于 2D 中的弧度,但投影到三个空间中。立体角允许测量任何形状的一组方向,其中扬声器周围的可能方向等于四个 pi 球面度。此外,演讲者还谈到了考虑由于物体的透视缩短现象导致表面区域相对于球体中心倾斜的情况的重要性,例如当相机镜头相对于偏离中心的物体倾斜时。

  • 00:35:00 在视频的这一部分中,解释了强度和辐射度的概念。强度定义为立体角的功率,而辐射度是每单位立体角每单位面积的功率。在测量从表面到达观察者或照相机的物质时,辐射度是更有用的量。在图像平面中,亮度被测量为辐照度,这是我们根据表面的辐射亮度测量的亮度。

  • 00:40:00 在本节中,讲师讨论测量能量和功率之间的关系,以及它们如何相互成正比。他还谈到了在测量亮度时使用有限孔径的重要性,以及使用针孔模型时出现的问题。讲师介绍了理想的薄透镜及其三个规则,包括中心光线不偏转,以及来自焦点中心的光线平行于光轴出射。他解释了透镜如何在提供有限数量的光子的同时提供与针孔相同的投影,以及在特定焦距和距离下使用它们的代价。

  • 00:45:00 在本节中,视频解释了光线通过镜头后的行为的三个规则。第一条规则声称任何来自焦点中心的光线在穿过透镜后都将平行于光轴。第二条规则规定,右侧的平行阵列将穿过焦点中心。最后,第三条规则是前两条规则的组合。该视频使用相似三角形推导镜头公式,从而可以确定镜头的焦距和长度。虽然镜头是令人印象深刻的模拟计算机,可以重定向光线,但由于镜头的物理限制,它们无法实现完美的重定向。

  • 00:50:00 在本节中,视频讨论了镜头如何处理来自各个方向的光线,以及如何权衡不同类型的缺陷(例如径向畸变)。该视频还解释了辐照度和物体辐射率的概念,以及如何使用简单成像系统图来确定有多少能量从物体块中脱落,以及有多少能量通过照明最终进入图像块。此外,该视频还指出了在相机中使用平面图像平面和镜头的假设。

  • 00:55:00 在讲座的这一部分,演讲者讨论了如何将物体表面上的单位矢量的透视缩短效果与图像传感器上的入射光联系起来。他写下了立体角的公式,并通过乘以余弦 alpha 并除以 f 正割 alpha 的平方来考虑透视缩短效应。然后,他将图像中的辐照度与该色块发出的总能量和面积增量 i 联系起来。最后,他谈到了透镜如何聚焦光线,以及从物体观察时透镜占据的立体角如何决定有多少来自表面上的斑块的光会聚到图像中。
  • 01:00:00 在讲座的这一部分,演讲者解释了传递到图像中一个小区域的总功率的方程式,其中考虑了立体角和余弦θ。然后通过将总功率除以面积,这就是实际测量的面积,得出每单位面积的功率。演讲者还将此等式与相机中的光圈值联系起来,光圈值决定了光圈的开度,从而控制了接收到的光量。光圈大小通常以 2 的平方根为单位进行测量,图像辐照度与光圈值的平方成反比。

  • 01:05:00 在本节中,演讲者讨论了图像辐照度(图像中的亮度)如何与现实世界中物体的辐射度成正比。表面辐射的亮度与图像辐照度中的亮度成正比,便于我们测量图像中的亮度。然而,当我们离开轴时,亮度会下降,以第四个 alpha 的余弦表示,使用广角镜头时必须考虑到这一点。虽然这种影响不是很明显,但可以在图像处理链中进行补偿。这个公式证明了使用图像中的灰度级测量亮度的想法是正确的,并表明它与现实世界中的事物有关。

  • 01:10:00 在本节中,讲师解释了双向反射分布函数的概念,它根据入射和发射方向确定表面的亮度。讲师透露,反射率并不像说白色反射所有进来的光,黑色不反射任何光那么简单。讲师还讨论了通常使用极角和方位角来指定光线进入或光线离开的方向。双向反射分布函数对于确定反射率至关重要,它测量输出功率除以输入功率。

  • 01:15:00 在讲座的这一部分,演讲者讨论了反射率,反射率定义为从特定位置观察时物体的亮度除以从光源方向输入的能量。演讲者解释说,可以使用测角仪测量反射率,测角仪是一种有助于探索四维空间的角度测量设备。演讲者指出,许多表面只需要两个角度之间的差异即可准确测量反射率,从而使某些物体的过程更简单。对物体如何反射光进行逼真的建模很重要,测量反射率可以实现这种逼真的建模,而不仅仅是用众所周知的模型进行近似。

  • 01:20:00 在本节中,教授讨论了需要全四维模型来计算其外观的材料,例如具有通过干涉产生颜色的微观结构的虹彩物品,以及像虎眼这样的半宝石,它们具有紧密的在光波长的尺度上堆积的微结构。教授还为双向反射率分布函数引入了亥姆霍兹互易性的概念,即如果交换入射光和发射光,应该得到相同的值,使数据收集更容易。

  • 01:25:00 在本节中,演讲者讨论了一位教授在辩论中使用的技巧。演讲者最初以为教授通过引用一本德语书籍来强调他们缺乏知识,但后来意识到这只是一种辩论技巧。然后讲座继续讨论将梯度空间应用于表面材料模型以确定物体(例如太阳系中的月球和岩石行星)的表面阴影。演讲者还提醒学生通过 Piazza 及时了解有关家庭作业的任何延期或重要信息。
 

第 8 讲:阴影、特殊情况、月球表面、扫描电子显微镜、格林定理




第 8 讲:阴影、特殊情况、月球表面、扫描电子显微镜、格林定理

在本次讲座中,教授涵盖了与光度学和阴影相关的几个主题。他解释了辐照度、强度和辐射之间的关系,以及它们是如何测量和关联的。本讲座还介绍了双向反射分布函数 (BRDF),以解释照明如何影响表面的方向和材料。讲师进一步讨论了理想朗伯表面的特性及其对测量入射光和避免处理亥姆霍兹互易性时的混淆的影响。本讲座还涵盖了从梯度转换为单位向量的过程,以及它与光源位置的关系。最后,讲座解释了测量亮度如何确定表面的陡度或坡度方向。

讲座涵盖与光学和计算机视觉相关的各种主题。教授讨论了使用着色技术的形状来获取物体表面的轮廓以确定其形状。然后他转而讨论镜头并证明正交投影的使用是合理的。讲师还讨论了通过构建远心镜头来消除机器视觉中的透视投影,并演示了各种技巧来补偿由于玻璃的折射率随波长变化而引起的像差。最后,演讲者介绍了正交投影的概念,它简化了与透视投影相关的一些问题。

  • 00:00:00 在本节中,讲师回顾了上一节光度学讲座中的关键概念。他定义了辐照度、强度和辐射度,并解释了它们的测量方式和相关性。然后他介绍了表面的辐射度与图像相应部分的辐照度之间的关系,这可以用来谈论世界和相机内部的亮度。讲师解释了这种关系如何受镜头光圈的影响,镜头光圈限制了图像的立体角和面积。

  • 00:05:00 在本节中,重点是确定与照明量、几何形状和材料相关的表面辐射率。引入双向反射分布函数 (BRDF) 来解释照明如何影响表面的方向和材料。 BRDF 是光的入射方向和发射方向的函数,可以通过计算总输出功率除以总输入功率来计算。此外,BRDF 必须满足一个约束条件,其中如果源和观察者的方向互换,它必须得出相同的结果。虽然一些表面反射率模型违反了这一限制,但它对人类或机器视觉并不重要,使其成为减少需要进行的测量次数的捷径。

  • 00:10:00 在讲座的这一部分,教授讨论了理想朗伯表面的特性:从每个观察方向看,它看起来都同样明亮,如果它是理想的朗伯表面,它还会反射所有入射光。教授解释说这简化了公式,因为它不依赖于四个参数中的两个。然后,他讨论了如何处理分布式光源,例如房间内的灯光,以及如何在入射方向的半球上进行积分。教授解释说我们需要对所有发射方向进行积分,以及如何使用极角和方位角计算贴片的面积。最后,他提到 f 项是常数。

  • 00:15:00 在本节中,讲座讨论了阴影的概念和光在表面上的反射。讲座强调落在表面上的光取决于入射辐射和入射角。据说所有的光都被反射,沉积在表面上的功率是 e 余弦θ i 乘以表面面积。因此,当反射光积分时,等于入射光。本讲座计算了反演面的 f 的常数值,并得出结论,对于朗伯面,f 是 1 over pi。值得注意的是,反射能量并非在所有方向均等地辐射,并解释了透视缩短如何影响从表面发射的功率。

  • 00:20:00 在讲座的这一部分,教授讨论了朗伯表面的概念,朗伯表面是一个向各个方向均匀辐射光的表面。然而,当处理与光源成一定角度的大表面时,表面元件的面积缩小,结果,单位面积的功率变得无穷大。为了避免视网膜损伤,表面在某些方向上辐射较少,但单位面积的功率保持不变。这种情况意味着表面实际上在某些区域辐射更多,而在其他区域辐射更少,导致比率为 1 比 pi 而不是 1 比 2 pi。然后讲座继续解释如何使用这些知识来测量入射光并避免在处理亥姆霍兹互易性时产生混淆。

  • 00:25:00 在本节中,讲师介绍了一种不同于朗伯曲面的曲面,它在许多应用中都非常重要。这类曲面是余弦θi 乘以余弦θe 的平方根的一,满足亥姆霍兹互易性。此类表面的辐射度受透视的影响,用于模拟月球和岩石行星以及一些小行星的表面。该讲座解释了如何确定该表面的等光度线,它们是 3D 空间中的嵌套圆,但在图像平面中投影为椭圆,从而深入了解亮度等值线图。

  • 00:30:00 在本节中,演讲者讨论了在 3D 空间中找到对特定材质进行着色的方法的困难。他们解释说,以前在实验室中使用的方法不适用于这种材料,因此需要一种新方法。演讲者然后演示使用单位法线来找到表面上所有点的常数值,这些点必须垂直于固定向量。然后他表明,这意味着表面上具有相同亮度的所有单位矢量必须位于一个平面内,从而揭示有关材料的有用信息。最后,演讲者使用球坐标来尝试获得更好的理解。

  • 00:35:00 在本节中,讲师讨论了在处理月球表面阴影时如何选择坐标系,因为拥有一个好的系统可以防止代数混乱。他们建议使用太阳和地球位于 z=0 的坐标系,将计算简化为只有一个未知数。讲座还简要介绍了满月的外观,圆盘应该是均匀明亮的,但由于其非朗伯微观结构,它看起来并不完全是球形。 Hakka 模型可以很好地预测这种行为。最后,讲座深入探讨了 n 点 s 对 n 点 v 的公式,最终得出了一个使用球坐标向量的简化版本。

  • 00:40:00 在这一部分,讲师讨论了月球表面的亮度和方位角之间的关系。他们解释说,表面上所有具有相同亮度的点都具有相同的方位角,并且经度恒定的线是等光线。这与朗伯曲面非常不同。尽管月亮的反照率与煤炭相当,但由于缺乏比较对象来测量其反射率,它在天空中显得非常明亮。然而,我们可以使用光度立体来确定月球的表面方向,甚至可能通过在不同光照条件下拍摄表面的多张照片来确定它的形状。 Hopkin 模型用于根据梯度描述表面方向。

  • 00:45:00 在本节中,讲师讨论了从梯度转换为单位向量的过程以及它与光源位置的关系。他们解释说,平方根对于确保 Helmholtz 的满意度是必要的,并且在取某些点积的比率时,可以获得可以在 pq 空间中绘制的等光度线的线性方程。讲师指出,虽然这些线由于平方根的原因不是等间距的,但它们是平行的,并且有一条线的亮度为零,表示与入射辐射呈 90 度转弯。总的来说,本节涵盖了计算等光度的基础数学概念以及给定空间中光源的位置和亮度之间的关系。

  • 00:50:00 在本节中,讲师讨论了线性阴影在光度立体中的优势,可以轻松解决各种问题。在两种不同的光照条件下,两个线性方程相交,交点就是表面方向。讲师指出,朗伯着色没有歧义,这是以前方法的问题,最多有四个解决方案。讲师还演示了一阶空间导数与坐标系的旋转方式相同,这有助于在不知道表面的整个方向的情况下确定特定方向的表面方向。

  • 00:55:00 在本节中,讲师解释了测量亮度如何确定表面的陡度或倾斜方向,使研究人员能够通过测量垂直和水平点的亮度或反射率来收集表面的轮廓。该过程需要一个初始条件才能开始,即测量表面的亮度并逐步找到 z。然而,测量的准确性可能会受到反射率变化和测量亮度不准确的影响。

  • 01:00:00 在本节中,教授讨论了如何使用形状着色技术获取物体表面的轮廓以确定其形状。他解释了如何通过在对象上运行轮廓,只要他知道初始值就可以获得轮廓的形状。但是,如果他不知道初始值,他就无法获得轮廓的绝对垂直位置。然后,他将这种技术应用于月球,以获得表面的各种轮廓,以探索物体的形状。这位教授还谈到了将剖面中的 3D 表面缝合在一起的启发式方法。后来,他切换话题来谈论镜头,并证明了正交投影的使用。

  • 01:05:00 在本节中,讲师讨论了由多个元件组成的复合透镜如何通过精心设计的排列来补偿像差。他指出,玻璃的折射率随波长而变化,从而导致色差,但不同材料的复合镜片可以弥补这一点。讲师解释了如何使用节点和主平面来近似厚度透镜,以及使 t(节点之间的厚度)为负的巧妙技巧如何导致短远摄镜头。这种技术可以显着缩短长焦镜头的长度,同时保持其长焦距和小视场。

  • 01:10:00 在本节中,讲师演示了两种去除机器视觉中透视投影的技巧。第一个技巧涉及将其中一个节点移动到无穷远,这减少了放大倍率随距离变化的影响。通过构建具有远距离投影中心的远心镜头,方向锥变得更加平行,并且无论距离如何,放大率都保持不变。第二个技巧涉及移动另一个节点,当图像平面不在正确的位置时,它会改变放大倍数。为了获得清晰的图像,需要通过改变玻璃的焦距或相对于图像平面移动镜头来聚焦镜头。

  • 01:15:00 在这节课中,演讲者讨论了投影中心不在正无穷大时余弦第四定律和改变放大倍率的问题。他解释了如何将节点移出并使用双远心镜头可以消除这些问题,因为它会导致辐射垂直于传感器到达特定传感器。此外,演讲者还讨论了使用小透镜盖将入射光集中到较小区域并避免混叠的必要性,混叠在信号中存在高频分量时可能会发生。最后,演讲者提到了低通滤波的相关性以及仅采样信号带宽两倍的信号以完美重建信号的重要性。

  • 01:20:00 在本节中,讲师讨论了在使用小透镜阵列测量大面积光时,低通滤波和块平均如何减少混叠问题。如果光线垂直于传感器射入,则此方法效果很好,这是通过使用远心镜头实现的。然而,讲座接着解释说,在某些情况下,例如当场景中的深度变化小于深度本身时,使用正交投影会更方便。这使得世界中的 x 和 y 与图像中的 x 和 y 之间存在线性关系,从而可以测量物体的距离和大小,而与它们相距多远无关。

  • 01:25:00 在本节中,演讲者介绍了正射投影的概念,这对于远心镜头的实际应用很有用,并简化了将要讨论的一些问题。他们指出,虽然有些人可能认为这种方法只适用于兰博基尼,但它实际上适用于所有车型,但其他版本的方程式会变得混乱。演讲者解释说,他们接下来要讲的那种重建可以在透视投影下完成,但它很复杂,也不是很有见地。然而,通过更改为正交投影,其中许多问题变得更加清晰。
 

第 9 讲:来自阴影的形状,一般情况 - 从一阶非线性 PDE 到五个 ODE



第 9 讲:来自阴影的形状,一般情况 - 从一阶非线性 PDE 到五个 ODE

本讲座涵盖了阴影形状的主题,这是一种使用图像亮度变化来解释物体形状的方法。讲师解释了扫描电子显微镜的过程,其中二次电子收集器用于测量进入的电子束使其返回的分数,从而可以估计表面斜率。本讲座还讨论了使用轮廓积分、矩和最小二乘法来估计表面导数并找到给定测量噪声的最小表面。讲者从阴影问题推导出形状的五个常微分方程,并解释了图像处理运算中使用的拉普拉斯算子的概念。

在本次关于“Shape from Shading”的讲座中,演讲者讨论了求解方程的各种方法,以求出从阴影中形状的最小二乘解。讲师解释了使用不同点的图像测量和斜率计算来满足拉普拉斯条件、调整像素值和重建表面的不同技术。讲座涵盖了初值、旋转变换和负θ逆变换等主题。讲师最后讨论了这些方程对任意反射率图的推广,以及检查扫描电子显微镜图像以提供明暗解释的具体示例的重要性。

  • 00:00:00 在这节课中,教授介绍shape from shading,即利用图像亮度测量恢复物体形状的方法。他解释了这种方法与需要多次曝光的光度立体有何不同。教授还讨论了不同类型的表面材料及其反射特性,包括 hapke、岩石行星反射模型和第三种显微镜模型。他介绍了电子显微镜方法之间的比较,并解释了为什么扫描电子显微镜产生的图像由于其特定的亮度变化而易于被人类解读,当你接近边缘时会变得更亮。

  • 00:05:00 在本节中,讲师讨论了图像中阴影的重要性,它在解释物体形状方面起着重要作用。讲师展示了飞蛾头部和卵形足球形状的图像,它们的亮度会根据其表面方向发生变化,使我们能够轻松解释它们的形状。有趣的是,尽管足球状物体的非朗伯表面,人类仍然能够准确地解释它的形状。然后,讲座深入探讨了扫描电子显微镜的工作原理,它使用一束加速电子来创建物体表面的图像。

  • 00:10:00 在本节中,描述了使用扫描电子显微镜创建阴影图像的过程。几千电子伏特的电子撞击物体,一些电子以反向散射的形式反弹,但大多数电子通过失去能量和撞击电离物体的电子来穿透并产生二次电子。一些二次电子从物体中出来并被电极收集,以类似光栅的方式扫描物体。然后将此处测量的电流用于调制显示器中的光束,该光束可以通过偏转放大以获得数千到数万的放大倍数,使其比光学显微镜更强大。

  • 00:15:00 在讲座的这一部分,演讲者解释了使用二次电子收集器测量表面取向的过程。收集器测量入射光束中使其退出的部分,高度倾斜的表面由于更多的二次电子逸出而导致更多的电流。通过绘制反射图、亮度与方向的关系,可以确定表面的斜率,但不能确定其梯度,留下两个未知数和一个约束。此问题是阴影形状问题的一个示例,其目标是根据亮度模式估计表面形状。

  • 00:20:00 在讲座的这一部分,演讲者讨论了使用反射图来确定表面的斜率或梯度。他们解释说,这种方法可用于各种表面,而不仅仅是某些类型。讨论还包括针图以及如何使用它们来确定表面方向和形状。演讲者解释说,虽然这是一个简单的问题,但由于限制条件多于未知数,因此问题被过度确定了。这样可以减少噪音并获得更好的结果。讲座以对 p 进行积分以确定距原点的高度变化的演示结束。

  • 00:25:00 在本节中,演讲者讨论了如何整合已知数据来估计沿 x 轴或 y 轴任意位置的高度,这些数据可以组合起来填充整个区域。但是,所使用的 p 和 q 值会受到测量噪声的影响,这意味着无法保证以不同方式测量 p 和 q 会得出相同的答案。为了解决这个问题,必须对 p 和 q 施加约束;对于任何循环,p 和 q 都必须满足此约束,并且可以将大循环分解为相互抵消的小循环,以确保该约束对大循环也适用。

  • 00:30:00 在本节中,讲师讨论了在使用光度外部或其他视觉方法测量表面的导数的情况下轮廓积分和面积积分之间的关系。该讲座展示了如何根据拉伸的中心来估计斜率,其中斜率几乎是恒定的,并使用泰勒级数展开来推导出一个方程,该方程与 x y 的表面 z 的导数相关。据说找到给出测量的 p 和 q 的 xy 的精确 z 是不可能的,但是提出了一种更优雅的方法来找到最小二乘近似值。

  • 00:35:00 在讲座的这一部分,演讲者讨论了在机器视觉中减少从所有像素到区域边界的计算的好处。演讲者以通过轮廓积分和力矩计算斑点的面积和位置为例,通过追踪轮廓而不是计算像素可以有效地计算出斑点的面积和位置。本讲座继续应用格林定理来匹配等高线积分与矩的计算。

  • 00:40:00 在本节中,讲师讨论如何根据我们的测量值找到尽可能小的表面。理想情况下,我们会找到一个表面,其 x 和 y 导数分别与我们从图像中获得的 p 和 q 相匹配。然而,由于测量噪声,这是不可能的,因此,我们将尝试通过解决最小二乘问题使其尽可能小。 Z是一个无限自由度的函数,所以我们不能用普通的微积分。相反,我们可以对网格上有限数量的未知数中的每一个进行微分,并将结果设置为零以获得许多方程。

  • 00:45:00 在讲座的这一部分,演讲者讨论了为每个网格点找到 z 值以最小化 x 和 y 方向上的观测值和估计导数之间的误差的过程。为此,演讲者解释说,他们需要对 i 和 j 的所有可能值进行微分并将结果设置为零,这会产生一组可使用最小二乘法求解的线性方程。但是,如果标识符名称 i 和 j 未替换为其他名称,演讲者会警告潜在的问题,这可能导致得到错误的答案。尽管有大量的方程式,但方程式是稀疏的,使它们更容易求解。

  • 00:50:00 在本节中,演讲者回顾了使用一阶非线性偏微分方程推导阴影形状问题的五个常微分方程的过程。他们解释了对正方形内的项进行微分、匹配项以及考虑 k 和 l 的不同值的步骤。讲师简化了最终方程并分离了各项以分别识别 p 和 q 的 x 和 y 导数。目标是最终找到图像中所有点的解决方案。

  • 00:55:00 在本节中,演讲者解释了计算分子图,这是一种在机器视觉中估计导数的图形方式。他用它来展示如何推导在图像处理操作中大量使用的拉普拉斯算子。他解释说,拉普拉斯算子是旋转对称的,并且存在在边缘检测中非常有用的导数算子,它们也是旋转对称的。

  • 01:00:00 在本节中,演讲者讨论了一种离散的方法来求解方程的最小二乘解,而不是使用变分法。得到的方程虽然有很多变量,但是是稀疏的,这使得迭代求解成为可能。演讲者解释了如何使用迭代方法求解这些方程,该方法涉及计算相邻像素的局部平均值并根据图像信息添加校正。演讲者指出,虽然迭代解决方案很容易提出,但证明它们收敛很困难,但教科书建议它们收敛。

  • 01:05:00 在本节中,讲师讨论了一种通过使用具有稀疏项的简单方程调整像素值来满足拉普拉斯条件的方法。这种方法与求解热方程有关,可以并行高效地完成,即使在有测量噪声的情况下也能保持稳定。该技术可应用于光度立体数据,以最小二乘法重建表面,提供与实验数据相匹配的合理解决方案。然而,讲师承认,这种方法在光度立体之外并没有直接的用处,而且还有更多具有挑战性的问题需要解决,例如单幅图像重建。

  • 01:10:00 在本节中,讲师将讨论以平行直线作为等光度线的反射率贴图的简单案例。平行线可以旋转到更有用的坐标系,并在一个方向上最大化信息,同时在另一个方向上最小化信息。讲座提供了p、q、p素数和q素数之间的关系,三角形给定的角度theta,以及通过负theta旋转的逆变换。最后,讲座分析了波浪线的一般情况,并从阴影中讨论了形状的概念。

  • 01:15:00 在本节中,讲师将介绍如何使用不同点的图像测量和斜率计算来重建表面。该讲座还涵盖了这样一种想法,即向 z 的高度添加一个常数并发现变化的方法并没有以任何方式调整 z 的拉普拉斯算子,这意味着高度的差异不会提供太多信息,而只能提供相对深度。但是,讲师指出,需要 z 的初始值才能获得重建。

  • 01:20:00 在本节中,演讲者讨论了在使用 Shape from Shading 计算表面形状的解决方案时,每一行可能具有不同初始值的挑战。虽然处理高度的整体变化很容易,但每一行具有不同的初始值需要不同的初始曲线,该曲线可以映射回原始的、未旋转的世界。演讲者建议使用初始曲线(它是 eta 的某个函数)通过沿着这些曲线移动来探索表面,独立计算它们,然后改变探索解决方案的速度。

  • 01:25:00 在本节中,演讲者解释了通过乘以一个常数,方程变得更简单,x 和 y 方向的移动分别与 q s 和 p s 成正比,而在 z 方向上,有一个简单的公式。本讲座最后讨论了这些方程在任意反射图上的推广,以及检查扫描电子显微镜图像以提供明暗解释的具体示例的重要性。
 

第 10 讲:特征带扩展、着色形状、迭代解决方案



第 10 讲:特征带扩展、着色形状、迭代解决方案

在本讲座中,讲师涵盖了图像形成概念中使用亮度测量的阴影形状主题。这涉及理解图像辐照度方程,该方程将亮度与表面方向、照明、表面材料和几何形状相关联。他们解释了更新 p 和 q 变量的方法,方法是使用两个相互馈入的独立方程组,并使用亮度梯度追踪整个条带。本讲座还讨论了求解一阶非线性 PDE 的挑战,以及在探索表面时从一个轮廓步进到另一个轮廓的不同方法。最后,讲师讨论了特征条扩展的实现以及为什么顺序方法可能不是最好的方法,建议并行化并控制步长。

在第 10 讲中,教授讨论了解决阴影形状问题的各种方法,包括使用表面上的固定点并在其周围构建一个小帽形来估计局部形状。讲师还介绍了遮挡边界的概念,它可以为解决方案提供起始条件,并讨论了使用复杂的数值分析方法计算三体问题解决方案的最新进展。此外,讲座还涉及工业机器视觉方法的主题以及将在下一课中讨论的相关模式。

  • 00:00:00 在本节中,讲师发布有关学期项目的第一次测验和提案提交的公告。学期项目涉及实施机器视觉问题的解决方案,学生应在 22 日之前提交一份简短的提案。然后讲师谈到了涵盖工业机器视觉的步伐变化,他们将在其中查看专利而不是已发表的论文或教科书。在此过程中,学生将学习专利语言,这对于参与初创企业的企业家来说至关重要。最后,讲师提供了学生项目的示例,例如在 Android 手机上实现用于边缘检测或联系时间的亚像素方法。

  • 00:05:00 在本节中,讲师讨论了图像形成的不同方面,特别侧重于使用亮度测量的阴影的形状概念。这需要了解图像辐照度方程,该方程将亮度与表面方向、照明、表面材料和几何形状联系起来。反射率图用于简化此方程式,并用作总结详细反射特性的一种方式,尽管它源自双向反射率分布函数 (BRDF)。讲座继续解释这个概念如何应用于月球和其他岩石行星的反射特性,从而产生一组方程式,可以确定某些方向的表面方向。

  • 00:10:00 在本节中,演讲者讨论了使用正交投影在图像中迈出一小步以对应高度上的一小步的规则。他解释说,这简化了数学并与远心镜头和远光源的假设联系起来,这使得朗伯假设成为可能。整个过程包括用正向欧拉法数值求解三个常微分方程,并通过哈普卡型表面输入亮度。演讲者展示了如何用 p 和 q 来表达这一点,然后推导出辐射图像的方程。

  • 00:15:00 在本节中,演讲者讨论了表面亮度测量值与特定表面所需解决方案之间的直接关系。他解释说有一个名为 rs 的常量,它取决于源位置,用于简化解决方案。该技术包括获取亮度、对其进行平方、将其乘以 rs,然后减去 1 和 z 方向的导数。演讲者还解释了如何获得微分方程的初始条件以及如何使用参数定义曲线。然后将该方法推广到解决无法在本地确定斜率的一般情况。

  • 00:20:00 在本节中,讲师讨论使用特征条扩展构建解决方案。为此,需要计算高度的变化以了解 z 将如何变化。他们假设我们从 x、y 和 z 开始,连同表面方向 p 和 q,并更新 x、y 和 z 的规则,z 高度的变化由一个方程给出。随着我们的进行更新 p 和 q 是必要的,从而产生一个带有表面方向的特征带,这比仅仅拥有一条曲线更多的信息。讲师解释了如何使用二乘二矩阵和与曲率对应的高度的二阶偏导数来更新 p 和 q。

  • 00:25:00 在本节中,讲师讨论如何计算 3D 曲面的曲率矩阵,这比平面中的曲线更复杂。曲率矩阵需要一个完整的二阶导数矩阵,称为 Hessian 矩阵。但是,使用高阶导数继续求解会导致更多的未知数。因此,需要图像辐照度方程,特别是亮度梯度,因为表面方向的变化对应于影响图像亮度的曲率。通过查看曲率和亮度梯度方程中的公共矩阵 H,计算 H 将允许更新 x、y、z、p 和 q,从而完成该方法。

  • 00:30:00 在本节中,讲师讨论了使用两个线性方程求解 h 的概念。 H 出现在这两个方程中,但由于我们有两个方程和三个未知数,我们无法求解 h。然而,通过使用特定的 delta x 和 delta y,我们可以控制步长并选择特定的方向来计算 delta p 和 delta q。讲师还解释说,方向可能会随着表面的探索而改变。通过将其代入等式,我们可以找到如何改变 p 和 q 来解决问题。

  • 00:35:00 本节讲师讨论了求解图像辐照度方程中z变量所需的五个常微分方程,并介绍了一种利用亮度梯度更新p和q变量生成条带的方法。讲师接着解释了解决方案中有趣的部分,涉及两个相互反馈的方程组,以及它们如何确定梯度方向并可用于追踪整个条带。最终,偏微分方程被简化为使用 p 和 q 的简单常微分方程,使方程看起来不那么吓人。

  • 00:40:00 在本节中,演讲者讨论了一阶非线性偏微分方程在根据阴影解决形状背景下的亮度问题时遇到的挑战。这与物理学中常见的二阶线性偏微分方程不同,这意味着需要一种特殊的方法来求解这些类型的偏微分方程。讨论了 P 和 Q 的任何 R 的一般情况,然后将其应用于两个特定的表面特性:hapke 和扫描电子显微镜。 X 和 Y 的更新规则显示为分别与 PS 和 QS 成正比。

  • 00:45:00 在本节中,讲师解释了使用迭代解决方案的着色特征条扩展和形状来更新 x、y 和高度轴的方法。该方法涉及对 p 和 q 进行微分以计算 x 和 y 的更新,并使用 prp 加 qrq 来更新高度轴。讲座指出,这种方法可用于扫描电子显微镜图像,还涉及到基本特征的概念,这涉及将特征条带投影到图像平面上,以尽可能多地探索图像。

  • 00:50:00 在本节中,演讲者讨论了特征条扩展的实施以及为什么顺序方法可能不是最佳方法。由于沿着每条曲线找到了独立的解决方案,因此可以沿着每条曲线运行一个过程,从而使计算可并行化。讨论了需要具有合理步长的计算速度,并检查了步长由常数 z 控制的简单情况。通过在 z 的方程中除以 PRP 和 QRQ,变化率变为 1,从而导致沿着每条曲线的恒定解,等值线在 z 值增加。

  • 00:55:00 在讲座的这一部分,演讲者讨论了在探索表面时从一个轮廓步进到另一个轮廓的不同方法。他们提到了在 z 方向上以恒定大小增量步进的选项,或者在图像中具有恒定步长的选项,这需要将所有方程除以一个常数因子。另一种选择是在 3D 中步进恒定大小的增量,其中增量的平方和为 1,最后,可以在对比度或亮度图像的轮廓中步进等值线。然而,其中一些方法可能存在问题,例如不同的曲线以不同的速率运行或除以零,因此必须注意这些限制。

  • 01:00:00 在讲座的这一部分,教授讨论了图像和折射率图中两个梯度的点积,但没有讲得太详细。在图像中从一个轮廓移动到另一个轮廓可以更容易地将相邻的解决方案联系在一起,粗略的数值分析方法可以提供足够的结果。然后,教授继续讨论了三体问题计算解决方案的最新进展,以及如何使用复杂的数值分析方法来求解方程式,否则这些方程式即使不是不可能解析也很难求解。

  • 01:05:00 在本节中,讲师讨论了使用光学机器视觉方法需要初始曲线来探索表面及其方向的挑战。幸运的是,有一个图像辐照度方程对曲线的方向给出了一个约束,我们知道曲线在表面上,这使我们能够计算导数并求解线性方程。这意味着如果我们可以在我们知道形状、方向等的对象上找到特殊点,我们就可以找到方向并摆脱对对象初始条带的需要。

  • 01:10:00 在本节中,演讲者讨论了遮挡边界的概念,遮挡边界是物体卷曲的地方,这样一侧的部分可见,而另一侧不可见。如果我们在该点构建表面法线,它将平行于沿遮挡边界构建的向量,这为我们提供了开始解决方案的起始条件。但是,我们不能使用遮挡边界的比率来求解方程,因为斜率是无限大的。演讲者还介绍了固定点的概念,固定点是唯一的、全局的、孤立的极值,是物体被照亮时表面上最亮点的结果。这些点为我们提供了该点的表面方向,这是解决阴影形状问题的宝贵信息。

  • 01:15:00 在本节中,讲师讨论了反射图和图像上的固定点,这些固定点对应于极值或最小值,具体取决于所使用的成像技术。但是,固定点不允许直接开始求解,因为因变量没有变化。当尝试构造曲面的近似值以开始求解时,求解只能远离静止点。这个想法是使用固定点的方向构造一个小平面,然后制作一个半径来开始解决方案。通过这样做,解决方案可以离开固定点并开始迭代以获得更好的解决方案。

  • 01:20:00 在讲座的这一部分,演讲者讨论了曲面上固定点与阴影形状相关的概念。这个想法是为具有固定点的曲面的曲率找到唯一的解决方案。演讲者解释说,这些点在人类感知中很重要,并且会影响解决方案的独特性。然后,本讲座继续使用示例解释寻找表面曲率的过程,其中假设表面具有 sem 类型的反射率图并且在原点处具有固定点。发现图像的梯度在原点处为零,证实该点存在极值。然而,梯度不能用于估计局部形状,因为它在原点处为零,因此需要二阶导数。

  • 01:25:00 在本节中,演讲者解释了采用亮度的二阶偏导数如何提供有关形状的信息以及如何通过从固定点估计局部形状并在其周围构建一个小帽形来恢复它。此外,演讲者还介绍了工业机器视觉方法的主题以及将在后续讲座中讨论的相关模式。
 

第11讲:边缘检测、亚像素位置、CORDIC、线检测(美国专利6408109)



第11讲:边缘检测、亚像素位置、CORDIC、线检测(美国专利6408109)

这段名为“第 11 课:边缘检测、亚像素位置、CORDIC、线检测(美国 6,408,109)”的 YouTube 视频涵盖了机器视觉系统中与边缘检测和亚像素定位相关的几个主题。演讲者解释了专利在发明过程中的重要性以及它们如何用于专利战。他们还讨论了各种边缘检测运算符及其优点和局限性。该视频详细解释了用于将笛卡尔坐标转换为极坐标并确定边缘位置的数学公式。该视频最后讨论了为专利撰写广义和狭义权利要求的重要性以及专利法随时间的演变。

在第 11 讲中,演讲者重点介绍了用于边缘检测和导数估计的不同计算分子,重点是效率。提出了 Sobel 和 Roberts Cross 算子来计算梯度的平方和,并讨论了公式和技术的变化。为了实现亚像素精度,使用了多个运算符,并提出了拟合抛物线或使用三角形模型等技术来确定曲线的峰值。此外,该讲座还讨论了量化的替代方案以及方形网格上的梯度方向问题。总的来说,讲座强调了考虑许多细节以获得良好的边缘检测性能的重要性。

  • 00:00:00 在本节中,讲师介绍了工业机器视觉的主题及其在制造过程中的重要性,包括使用机器视觉在集成电路制造和药品标签可读性中进行对准和检查。讲师解释了专利的目的,作为一种在使用发明方面获得有限垄断的方式,以换取解释它如何长期造福社会。还讨论了专利的结构和元数据,包括专利号和标题、专利日期以及在公司之间的专利战中将专利用作弹药。然后讲座简要介绍了 Bill Silver 在领先的机器视觉公司 Cognex 的一项关于检测和亚像素定位的专利。

  • 00:05:00 在本节中,讲师讨论了数字图像中的边缘检测过程,其中重点关注不同亮度级别之间的过渡。讲师指出,找到亚像素精度的边缘在传送带和集成电路领域至关重要,因为它显着减少了描述某些东西所需的位数。讲座进一步解释说,这个过程可以用更高像素的相机来实现,但它的成本很高,因此能够以较低成本执行它的软件将是有益的。讲师还解释说,可以实现 40 分之一像素,这是一个显着的优势,但也带来了挑战。讲座最后讨论了专利申请以及该过程如何随时间发生变化,包括文件中使用的晦涩难懂的语言,以及提交专利申请所经历的延迟。

  • 00:10:00 在视频的这一部分,演讲者讨论了与机器视觉边缘检测相关的各种技术论文和专利,这些论文和专利可以追溯到 1950 年代。关于这个主题的第一篇著名论文是 Roberts 在 1965 年发表的,它使用了一个简单但具有误导性的边缘检测器。演讲者还提到了其他与边缘检测相关的论文和专利,讨论了各种边缘检测算子的优缺点,包括 Sobel 算子、Roberts 交叉边缘检测器和 Bill Silva 的六边形网格交替算子。演讲者强调了边缘检测在各种应用中的重要性,以及工程师和研究人员为改进边缘检测算法所做的持续努力。

  • 00:15:00 在本节中,讲座解释了使用六边形网格相机在分辨率和旋转对称性方面的优缺点,但指出使用六边形网格的额外麻烦对工程师来说太多了。然后讲座继续讨论使用梯度大小及其方向的公式而不是亮度梯度本身从笛卡尔坐标转换为极坐标,尽管计算平方根和反正切的代价很高。然后,本讲座探讨了替代解决方案,例如使用查找表或 CORDIC 方法,这是一种使用迭代步骤估计矢量的大小和方向的方法,以减少所需的最少算术运算的差异。

  • 00:20:00 在讲座的这一部分,演讲者讨论了边缘检测和亚像素位置算法。他们解释了如何定位梯度较大的位置并使用非最大抑制来找到梯度的最大方向。演讲者还谈到了梯度方向的量化,并指出看得更远可以导致更大范围的方向。为了找到梯度的实际峰值,将抛物线拟合到数据并微分以找到峰值。最后,讲座讨论了使用基于蒙德里安的世界模型时亮度的预期行为。

  • 00:25:00 在本节中,视频讨论了在边缘检测中实现亚像素精度的技术。一种方法涉及量化方向并找到峰值,但对于沿着边缘选择哪个点可能存在歧义。另一种方法是执行垂直插值以找到与中心像素最接近的边缘点。然而,实际的边缘位置可能不符合假设的模型,这会引入偏差。该视频建议进行简单的校正以校准偏差并提高准确性。

  • 00:30:00 在本节中,讲师讨论了提高机器视觉系统中边缘检测精度的方法。他正在审查的专利建议根据所使用的特定系统使用不同的“s”幂来消除偏差并提高准确性。梯度的方向也会影响偏差,需要补偿以获得更高的精度。系统的整体图包括估计亮度梯度、寻找幅度和方向、非最大值抑制和峰值检测以使用边缘上离最大值最近的点来插值位置和补偿偏差。本发明提供了一种用于数字图像中的亚像素检测的设备和方法,并在专利的末尾进行了简短的总结。

  • 00:35:00 在本节中,演讲者讨论了为发明申请专利的过程及其与专利诉讼的关系。他们解释了发明家如何经常创造一种设备和方法以涵盖所有基础,以及这如何导致不必要的索赔。演讲者描述了一个案例,在该案例中,一家加拿大公司 Matrox 被指控通过软件实施专利中的内容而侵犯了专利。专家证人被请来分析代码,最后得出的结论是它全是软件,不能申请专利。本节还介绍了使专利尽可能宽泛并考虑所有可能的修改的重要性,这可能会使律师撰写的专利难以阅读。

  • 00:40:00 在视频的这一部分,演讲者回顾了公式并详细解释了如何将笛卡尔坐标转换为极坐标。他们还解释了用于查找抛物线和三角波形峰值的不同公式。然后视频进入专利和声明您认为保护它的东西的过程。演讲者宣读了第一项声明,这是一种用于检测数字图像边缘的子像素定位的装置,并分解了构成声明的不同组件,包括梯度估计器、峰值检测器和子像素插值器。还讨论了拥有多项索赔的重要性,因为它可以防止未来的索赔和侵权。

  • 00:45:00 在讲座的这一部分,演讲者讨论了如何撰写和构建专利权利要求。他解释说,专利中的第一个权利要求通常是一个宽泛的权利要求,然后是更具体的更窄的权利要求,以确保即使宽泛的权利要求无效,更窄的权利要求仍然有效。然后,演讲者继续检查梯度估计专利中的权利要求,强调每个权利要求有效需要满足的一些条件。最后,他解释了专利法在专利有效期和优先权要求方面如何随着时间的推移而演变。

  • 00:50:00 在本节中,视频讨论了机器视觉中的边缘检测。介绍了世界的蒙德里安模型,其中涉及将图像浓缩为仅讨论边缘以查找传送带上某物的位置或排列集成电路掩模的不同层。边缘检测被定义为确定不同且亮度大致均匀的图像区域之间边界位置的过程。边缘被定义为图像中图像梯度幅度在图像梯度方向上达到局部最大值或亮度的二阶导数在图像梯度方向上过零的点。该视频还涉及多尺度边缘检测,并解释了图像无限分辨率的缺点。

  • 00:55:00 在讲座的这一部分,演讲者讨论了边缘检测以及测量与像素完美对齐的边缘的问题。为了解决这个问题,演讲者解释了拉普拉斯边缘检测器的使用,它会寻找零交叉点并绘制轮廓,从而更容易定位边缘。但是,这种方法在存在噪声的情况下会导致性能变差。演讲者还介绍了拐点的概念及其与导数最大值的关系,导数最大值可用于定义边缘。本讲座还包括亮度梯度估计以及使用 45 度角的算子来参考同一点。

  • 01:00:00 在讲座的这一部分,演讲者讨论了边缘检测和使用不同计算分子的导数估计。介绍了Roberts使用的两个算子,可以用来计算原坐标系中梯度的平方和。还提到了 Sobel 算子的概念,并讨论了使用平均技术估计导数。估计的最低阶误差项显示为二阶,使其对于曲线不太可靠。还引入了高阶项以提高准确性。

  • 01:05:00 在本节中,讲师描述了使用算子来逼近用于边缘检测的导数,允许高阶误差项适用于曲线,只要其三阶导数不太大即可。通过平均两个值并找到导数的估计值,甚至可以使用偏移半个像素的导数。比较具有相同最低阶误差项的两个运算符,发现具有较小乘数的运算符是有利的。然而,应用算子来估计 x 和 y 导数会导致不一致,这可以通过使用二维算子来处理。这种方法对于计算固定光流中整个数据立方体的 y 方向的导数也很有用。

  • 01:10:00 在本节中,演讲者强调了操作员在使用数百万像素进行边缘检测时效率的重要性。通过巧妙地安排计算,运算符可以从六个操作减少到四个。演讲者提到了 Roberts Cross 算子和 Urbain Sobel,他们通过对 2x2 块进行平均来以特定方式复制算子,以减少噪声但同时模糊图像。

  • 01:15:00 在视频的这一部分中,讲师讨论了如何使用多个算子来避免边缘检测中的半像素偏移问题。讨论包括公式变化和实施偏好。讲座还解释了接下来的步骤,包括亮度梯度从笛卡尔坐标到极坐标的转换、梯度幅度方向量化和扫描最大值。由于像素量化问题,无法实现亚像素精度。讲师解释了如何通过忽略图像中的非最大值来仅保留最大值。

  • 01:20:00 在本节中,视频讨论了边缘检测中不对称条件的必要性以及 g 零等于 g 加或等于 g 减的情况的决胜局。为了找到曲线的峰值,该视频描述了使用决胜局将抛物线拟合到边缘,并且表明以这种方式计算的 s 的大小限制为一半。显示的另一种方法是小三角形模型,它假设两条线的斜率相同并估计垂直和水平位置,从而得出 s 的公式。这两种方法都是为了实现亚像素精度,视频表明三角形模型可能看起来很奇怪,但在某些情况下是有效的。
     
  • 01:25:00 在本节中,讲师讨论了散焦情况下边缘的形状,特别是它如何影响恢复实际边缘位置的方法。他还谈到了梯度方向量化的替代方案,以及它如何产生问题,特别是在只有八个方向的方形网格上。这个问题表明,要想获得好的性能,需要考虑很多细节,比如找到一种好的计算导数的方法。