图像提取方法的研究很重要。图像提取就是从图像中找出需要的东西。这些东西可能是物体的边缘,也可能是特定的区域,或者是整个物体的形状。我们的生活里到处都是图像。手机拍照,电脑看图,医院用CT片,卫星拍地面照片,这些全是图像。从这些图像里拿出有用的信息,就是图像提取要做的事。
研究图像提取方法是为了让计算机看懂图像。计算机自己不会看。它只能认识数字。一张图像在计算机里就是一大堆数字。这些数字代表每个点的颜色和亮度。图像提取方法就是教计算机怎样处理这些数字,怎样从数字里找到规律,怎样把我们需要的那部分数字标记出来。这个工作有点像从一堆沙子里捡出金色的沙子。
最早的图像提取方法很简单。人们看看图像哪里亮哪里暗。亮的地方和暗的地方交界处可能就是边缘。于是有了基于灰度的方法。计算每个点附近的亮度变化。变化大的地方可能就是边缘。这种方法计算快,容易明白。但它不够好。图像里有很多噪声。噪声就是一些杂乱的小点。比如老电视的雪花点。噪声会让亮度乱变。计算机可能把噪声当成边缘。这种方法也不够聪明。它只能找亮度变化,不理解图像内容。
人们想到了更好的办法。数学工具被用进来。微分可以计算变化率。图像亮度变化大的地方,微分值就大。罗伯特算子,普雷维特算子,索贝尔算子,这些都是用微分找边缘的方法。它们用一个小的模板在图像上移动。模板像一个小窗户。透过小窗户看图像的一小块。计算这一小块里亮度的差异。差异大的地方就标为边缘点。这些方法比只看亮度强。它们能减少一些噪声的影响。但它们还是不够精确。边缘可能断断续续,不够光滑。
更高级的方法出现了。坎尼边缘检测算法很有名。它想找到真正的边缘,不要假的。它有几个标准。边缘要准,找到的位置要和真实边缘对齐。边缘要全,真的边缘不能漏掉。边缘要少,一个边缘只响应一次。坎尼算法先用高斯滤波把图像弄平滑。平滑可以减少噪声。然后计算图像的梯度。梯度方向就是边缘垂直的方向。梯度大小就是边缘的强度。接着进行非极大值抑制。只保留梯度方向上最大的那些点。最后用双阈值连接边缘。高的阈值找到强边缘,低的阈值找到弱边缘。弱边缘只有和强边缘连在一起才保留。坎尼算法效果很好。它至今还在广泛使用。
光找边缘不够。有时我们需要把图像里某个区域完整地拿出来。这就是图像分割。区域生长是一种分割方法。先选一个种子点。种子点像一颗种子。把和种子颜色或亮度相近的邻居点合并进来。合并的点变成新的种子。再继续合并邻居。直到没有能合并的点为止。这样长出一片区域。分水岭算法是另一种方法。把图像想象成地形图。亮的地方是山峰,暗的地方是山谷。往山谷里灌水。水从最低处开始上涨。不同山谷来的水相遇的地方就筑一道坝。这些坝就是分割的边界。分水岭算法容易把图像分得太碎。一点噪声就可能形成一个小山谷,产生多余的坝。
机器学习改变了图像提取。机器学习让计算机自己学习怎么提取。人们给计算机看很多图像。这些图像上已经标好了边缘或区域。计算机自己找规律。它调整内部大量的参数。这些参数组成一个复杂的网络。这就是神经网络。卷积神经网络特别适合处理图像。它用卷积层一层层看图像。第一层可能看到边和角。第二层可能看到简单的形状。第三层可能看到物体的部分。最后一层看到整个物体。训练好的神经网络提取图像又快又准。它能理解更复杂的内容。它能分清猫和狗的边界,能分割出道路和车辆。
深度学习方法现在很厉害。U-Net是一种常用的分割网络。它的结构像字母U。左边一半是下采样,不断缩小图像,提取特征。右边一半是上采样,不断放大图像,恢复细节。中间有跳跃连接,把左边的特征直接传到右边。这样既能理解大局,又不丢掉细节。MaskR-CNN可以同时找物体和分割物体。它先找出图像里可能有哪些物体框。然后在每个框里精细地分割出物体的形状。这些方法在医学图像里帮助很大。它们能自动从CT图像里分割出肿瘤。它们能在卫星图像里划出森林和农田的边界。
图像提取方法仍然面临困难。图像的情况千变万化。光照会变。早上和晚上的照片亮度不同。物体姿态会变。同一个杯子从上面看和侧面看不一样。遮挡会发生。一个人可能被树挡住一半。背景会很复杂。草丛里的一只猫很难找。这些情况让提取变得困难。提取方法需要更鲁棒。鲁棒就是遇到各种情况都能稳住,都能做好。
小样本学习是一个研究方向。我们不可能给计算机看尽所有东西。有时候只有几张标好的图像。小样本学习想让计算机学会举一反三。看过几只不同样子的猫,就能从新图像里找出从来没见过的猫。无监督学习是另一个方向。不需要人工标注图像。让计算机自己从大量无标注图像里发现结构,学习怎么把图像分成有意义的块。这对人类来说很容易,对计算机却很难。
图像提取方法的应用非常广泛。自动驾驶汽车用摄像头看路。它必须立刻提取出道路线,车辆,行人,信号灯。安全监控系统需要从视频里提取出异常行为。工厂里机器视觉检查产品有没有缺陷。手机的人脸解锁需要先提取出人脸。这些应用要求提取方法必须快速准确。慢一点,错一点,都可能出问题。
图像提取方法的研究还在继续。人们追求更高的精度,更快的速度,更强的适应能力。新的算法不断出现。老的方法也在改进。硬件计算能力越来越强。以前在大型计算机上跑的程序,现在在手机上就能跑。这打开了更多应用的大门。图像提取方法会让机器更聪明地看世界。它会成为我们生活中看不见的帮手。从诊断疾病到探索宇宙,它都在发挥作用。研究图像提取方法,就是给机器一双更好的眼睛。