在过去几年里,我做过的最有趣的项目之一是一个关于图像处理的项目。目标是开发一种能够识别可口可乐“罐”的系统(请注意,我强调的是“罐”这个词,你会在一分钟内看到原因)。您可以看到下面的一个示例,其中可以在绿色矩形中识别,带有缩放和旋转。

项目的一些限制:

背景可能非常嘈杂。罐可以有任何刻度或旋转,甚至可以有方向(在合理的范围内)。图像可能具有一定程度的模糊性(轮廓可能不完全笔直)。图像中可能有可口可乐瓶子,算法应该只检测到罐子!图像的亮度可能会有很大的变化(所以你不能“太依赖”颜色检测)。罐子可以部分隐藏在侧面或中间,也可能部分隐藏在瓶子后面。图像中可能根本就没有罐头,在这种情况下,你必须什么都找不到,然后写一条消息这样说。

所以你可能会遇到这样棘手的事情(在这种情况下,我的算法完全失败了):

我不久前做过这个项目,做得很开心,我有一个不错的实现。以下是关于我的实现的一些细节:

语言:使用OpenCV库在C++中完成。

预处理:对于图像预处理,即将图像转换为更原始的形式以提供给算法,我使用了两种方法:

将颜色域从RGB更改为HSV,并基于“红色”色调进行过滤,饱和度高于一定阈值以避免类似橙色的颜色,低值过滤以避免暗色调。最终的结果是一个黑白二值图像,其中所有的白色像素都将表示符合此阈值的像素。显然,图像中仍然有很多垃圾,但这减少了您必须处理的维度的数量。使用中值滤波(取所有邻居的中值像素值并用该值替换像素)进行噪声滤波,以减少噪声。使用Canny边缘检测滤波器在两个前一步骤后获得所有项目的轮廓。

算法:我为这项任务选择的算法本身取自这本关于特征提取的很棒的书,称为广义霍夫变换(与常规霍夫变换截然不同)。它基本上说了几件事:

你可以在不知道其解析方程的情况下描述空间中的物体(这里就是这种情况)。它可以抵抗图像变形,例如缩放和旋转,因为它基本上会测试图像的缩放因子和旋转因子的每一种组合。它使用算法将“学习”的基础模型(模板)。轮廓图像中剩余的每个像素将根据从模型中获得的信息,投票给另一个像素,该像素可能是对象的中心(按重力计算)。

最后,你会得到一张选票的热图,例如,在这里,罐子轮廓的所有像素都会投票给它的引力中心,所以你会在与中心相对应的同一个像素中获得很多选票,并且会在热图中看到一个峰值,如下所示:

一旦你做到了这一点,一个简单的基于阈值的启发式方法可以为你提供中心像素的位置,你可以从中导出缩放和旋转,然后围绕它绘制你的小矩形(最终的缩放和旋转因子显然是相对于你的原始模板的)。至少在理论上。。。

结果:现在,虽然这种方法在基本案例中有效,但在某些领域严重缺乏:

它非常慢!我没有充分强调这一点。几乎需要整整一天的时间来处理30张测试图像,显然是因为我的旋转和平移比例非常高,因为有些罐子非常小。当瓶子出现在图像中时,它完全丢失了,出于某种原因,几乎总是找到瓶子而不是罐子(可能是因为瓶子更大,因此像素更多,因此投票更多)模糊图像也不好,因为投票结果以像素形式出现在中心周围的随机位置,从而以非常嘈杂的热图结束。在平移和旋转方面实现了差异,但在方向上没有,这意味着没有直接面对摄像机目标的罐子无法被识别。

你能帮我改进我的特定算法吗,专门使用OpenCV特性,来解决上面提到的四个特定问题吗?

我希望有些人也能从中学到一些东西,毕竟我认为不仅仅是提问的人应该学习


当前回答

我会检测红色矩形:RGB->HSV,过滤红色->二值图像,关闭(展开然后侵蚀,在matlab中称为imclose)

然后从大到小看矩形。在已知位置/比例中具有较小矩形的矩形都可以删除(假设瓶子比例恒定,较小的矩形将是瓶盖)。

这会给你留下红色的矩形,然后你需要以某种方式检测标识,以确定它们是红色的矩形还是可乐罐。像OCR,但有一个已知的标志?

其他回答

我喜欢你的问题,不管它是否离题:P

有趣的旁白;我刚刚完成了我学位上的一门课程,我们学习了机器人和计算机视觉。我们这学期的项目与你描述的非常相似。

我们不得不开发一种机器人,它使用Xbox Kinect在各种照明和环境条件下检测任何方向的可乐瓶和可乐罐。我们的解决方案包括在色调通道上使用带通滤波器,并结合霍夫圆变换。我们能够稍微限制环境(我们可以选择机器人和Kinect传感器的位置和方式),否则我们将使用SIFT或SURF变换。

您可以在我的博客文章中阅读我们的方法,主题为:)

嗯,我真的觉得我找到了一些东西(这就像是有史以来最有趣的问题——所以,即使找到了一个可以接受的答案,如果不继续尝试找到“完美”的答案,那将是一种耻辱)。。。

一旦你找到了标志,你的麻烦就完成了一半。然后你只需要弄清楚标志周围的东西之间的区别。此外,我们希望尽可能少做额外的工作。我认为这实际上是一个简单的部分。。。

徽标周围是什么?对于罐头,我们可以看到金属,尽管有灯光的影响,但其基本颜色不会发生任何变化。只要我们知道标签的角度,我们就可以知道标签正上方是什么,所以我们要看看它们之间的区别:

在这里,标志的上方和下方是完全黑暗的,颜色一致。在这方面相对容易。

这里,上面和下面的东西都是浅色的,但颜色仍然一致。它是全银的,而且全银金属实际上看起来非常罕见,而且一般都是银色。此外,它有一个很薄的狭缝,距离已经被识别的红色足够近,所以你可以追踪它的整个长度,以计算可以被认为是罐头金属环的百分比。真的,你只需要罐边的一小部分就可以知道它是它的一部分,但你仍然需要找到一个平衡点,确保它不仅仅是一个空瓶子,背后有金属。

最后,这是一个棘手的问题。但不那么棘手,一旦我们只通过我们可以直接在红色包装纸上方(和下方)看到的东西。它是透明的,这意味着它将显示它背后的任何东西。这很好,因为它背后的东西在颜色上不太可能像罐头的银色圆形金属一样一致。它背后可能有很多不同的东西,这会告诉我们它是一个空的(或装满了透明液体)瓶子,或者是一个一致的颜色,这可能意味着它装满了液体,或者瓶子只是在一个纯色的前面。我们使用的是最接近顶部和底部的颜色,正确的颜色出现在正确位置的可能性相对较小。我们知道这是一个瓶子,因为它没有罐的关键视觉元素,与瓶子后面的东西相比,这是相对简单的。

(最后一个是我能找到的最好的一个空的大可口可乐瓶——有趣的是,瓶盖和环是黄色的,表明瓶盖的红色可能不应该被依赖)

在罕见的情况下,瓶子后面有一个类似的银色阴影,即使是在提取塑料之后,或者瓶子里不知怎么充满了相同的银色液体,我们可以回到我们可以粗略估计的银色形状上-正如我所提到的,它是圆形的,遵循罐子的形状。尽管我缺乏图像处理方面的知识,但这听起来很慢。更好的是,为什么不通过检查标志的侧面来推断这一点,以确保没有相同的银色?啊,但是如果罐头后面有同样的银色呢?然后,我们确实需要更加注意形状,再次查看罐子的顶部和底部。

根据这一切需要多么完美,它可能会非常缓慢,但我想我的基本概念是首先检查最简单和最接近的东西。在开始计算其他元素的形状之前,先检查已经匹配的形状周围的颜色差异(这似乎是最微不足道的部分)。要列出它,请执行以下操作:

找到主要吸引人的地方(红色标志背景,可能还有标志本身的方向,但如果罐子被打开,你需要专注于红色)通过非常明显的红色再次验证形状和方向检查形状周围的颜色(因为它快速且无痛)最后,如果需要,验证主要景点周围颜色的形状,以获得正确的圆度。

如果你不能做到这一点,这可能意味着罐子的顶部和底部都被覆盖了,而人类唯一可以用来可靠区分罐子和瓶子的东西就是罐子的遮挡和反射,这将是一场更难处理的战斗。然而,为了更进一步,您可以使用其他答案中提到的半透明扫描技术,跟踪罐子/瓶子的角度来检查更多类似瓶子的特征。

有趣的额外噩梦可能包括一个罐子方便地坐在瓶子后面,距离如此之远,以至于它的金属恰好显示在标签的上方和下方,只要你沿着红色标签的整个长度扫描,这仍然会失败-这实际上是一个更大的问题,因为你没有检测到一个罐子,而不是认为你实际上检测到了一个瓶子,包括偶然发现的罐子。在这种情况下,杯子是半空的!


作为一个免责声明,除了这个问题之外,我在图像处理方面没有任何经验,也从未想过,但它非常有趣,让我对它进行了非常深入的思考,在阅读了所有其他答案后,我认为这可能是完成这项工作的最简单和最有效的方法。就我个人而言,我只是很高兴我实际上不需要考虑编程!

EDIT

此外,看看我在MS Paint中绘制的这幅图。。。这绝对是可怕的,而且相当不完整,但仅根据形状和颜色,你可以猜到它可能会是什么。本质上,这些是人们需要费心扫描的唯一东西。当你看到如此接近的独特形状和颜色组合时,还有什么可能呢?我没有画的那一点,白色背景,应该被认为是“任何不一致的东西”。如果它有一个透明的背景,它几乎可以覆盖任何其他图像,你仍然可以看到它。

另一种方法是使用尺度不变特征变换(SIFT)或加速鲁棒特征(SURF)提取特征(关键点)。

您可以在这个页面上找到一个用Java、C++和Python编写的OpenCV代码示例:Features2D+同态查找已知对象

这两种算法对缩放和旋转都是不变的。因为它们与特征一起工作,所以也可以处理遮挡(只要有足够多的关键点可见)。

图像来源:教程示例

SIFT的处理需要几百毫秒,SURF速度更快,但不适合实时应用。ORB使用FAST,FAST在旋转不变性方面较弱。

原始文件

SURF:加速强大功能独特的图像特征来自比例不变关键点ORB:SIFT或SURF的有效替代方案

深度学习

收集至少几百张包含可乐罐的图像,将其周围的边界框标注为阳性类,包括可乐瓶和其他可乐产品,将其标记为阴性类以及随机对象。

除非您收集了一个非常大的数据集,否则请对小数据集使用深度学习功能。理想情况下,使用支持向量机(SVM)与深度神经网络的组合。

一旦您将图像输入到先前训练的深度学习模型(例如GoogleNet),而不是使用神经网络的决策(最终)层来进行分类,则使用先前层的数据作为特征来训练分类器。

OpenCV和Google Net:http://docs.opencv.org/trunk/d5/de7/tutorial_dnn_googlenet.html

OpenCV和SVM:http://docs.opencv.org/2.4/doc/tutorials/ml/introduction_to_svm/introduction_to_svm.html

查看形状

看看罐子/瓶子红色部分的形状。请注意,罐的顶部略微变细,而瓶的标签是直的。您可以通过比较红色部分的宽度和长度来区分这两者。

查看亮点

区分瓶子和罐子的一种方法是材料。瓶子由塑料制成,而罐子由铝金属制成。在光线充足的情况下,观察镜面反射是区分瓶子标签和罐头标签的一种方法。

据我所知,这就是人类如何区分这两种标签的区别。如果照明条件较差,那么在区分这两个方面肯定会有一些不确定性。在这种情况下,您必须能够检测到透明/半透明瓶子本身的存在。