在过去几年里,我做过的最有趣的项目之一是一个关于图像处理的项目。目标是开发一种能够识别可口可乐“罐”的系统(请注意,我强调的是“罐”这个词,你会在一分钟内看到原因)。您可以看到下面的一个示例,其中可以在绿色矩形中识别,带有缩放和旋转。

项目的一些限制:

背景可能非常嘈杂。罐可以有任何刻度或旋转,甚至可以有方向(在合理的范围内)。图像可能具有一定程度的模糊性(轮廓可能不完全笔直)。图像中可能有可口可乐瓶子,算法应该只检测到罐子!图像的亮度可能会有很大的变化(所以你不能“太依赖”颜色检测)。罐子可以部分隐藏在侧面或中间,也可能部分隐藏在瓶子后面。图像中可能根本就没有罐头,在这种情况下,你必须什么都找不到,然后写一条消息这样说。

所以你可能会遇到这样棘手的事情(在这种情况下,我的算法完全失败了):

我不久前做过这个项目,做得很开心,我有一个不错的实现。以下是关于我的实现的一些细节:

语言:使用OpenCV库在C++中完成。

预处理:对于图像预处理,即将图像转换为更原始的形式以提供给算法,我使用了两种方法:

将颜色域从RGB更改为HSV,并基于“红色”色调进行过滤,饱和度高于一定阈值以避免类似橙色的颜色,低值过滤以避免暗色调。最终的结果是一个黑白二值图像,其中所有的白色像素都将表示符合此阈值的像素。显然,图像中仍然有很多垃圾,但这减少了您必须处理的维度的数量。使用中值滤波(取所有邻居的中值像素值并用该值替换像素)进行噪声滤波,以减少噪声。使用Canny边缘检测滤波器在两个前一步骤后获得所有项目的轮廓。

算法:我为这项任务选择的算法本身取自这本关于特征提取的很棒的书,称为广义霍夫变换(与常规霍夫变换截然不同)。它基本上说了几件事:

你可以在不知道其解析方程的情况下描述空间中的物体(这里就是这种情况)。它可以抵抗图像变形,例如缩放和旋转,因为它基本上会测试图像的缩放因子和旋转因子的每一种组合。它使用算法将“学习”的基础模型(模板)。轮廓图像中剩余的每个像素将根据从模型中获得的信息,投票给另一个像素,该像素可能是对象的中心(按重力计算)。

最后,你会得到一张选票的热图,例如,在这里,罐子轮廓的所有像素都会投票给它的引力中心,所以你会在与中心相对应的同一个像素中获得很多选票,并且会在热图中看到一个峰值,如下所示:

一旦你做到了这一点,一个简单的基于阈值的启发式方法可以为你提供中心像素的位置,你可以从中导出缩放和旋转,然后围绕它绘制你的小矩形(最终的缩放和旋转因子显然是相对于你的原始模板的)。至少在理论上。。。

结果:现在,虽然这种方法在基本案例中有效,但在某些领域严重缺乏:

它非常慢!我没有充分强调这一点。几乎需要整整一天的时间来处理30张测试图像,显然是因为我的旋转和平移比例非常高,因为有些罐子非常小。当瓶子出现在图像中时,它完全丢失了,出于某种原因,几乎总是找到瓶子而不是罐子(可能是因为瓶子更大,因此像素更多,因此投票更多)模糊图像也不好,因为投票结果以像素形式出现在中心周围的随机位置,从而以非常嘈杂的热图结束。在平移和旋转方面实现了差异,但在方向上没有,这意味着没有直接面对摄像机目标的罐子无法被识别。

你能帮我改进我的特定算法吗,专门使用OpenCV特性,来解决上面提到的四个特定问题吗?

我希望有些人也能从中学到一些东西,毕竟我认为不仅仅是提问的人应该学习


当前回答

有趣的问题:当我瞥了一眼你的瓶子图片时,我以为它也是一个罐子。但是,作为一个人,我所做的区别是,我注意到这也是一个瓶子。。。

那么,为了区分罐子和瓶子,先扫描瓶子怎么样?如果你找到了一个,在找罐头之前先把标签遮住。

如果你已经在做罐头,那么实施起来并不太困难。真正的缺点是它使处理时间加倍。(但考虑到现实世界中的应用程序,你最终还是会想做瓶子;-)

其他回答

为了加快速度,我会利用这样一个事实,即您不需要找到任意的图像/对象,而是需要找到带有可口可乐标志的图像/物体。这一点非常重要,因为这个标志非常独特,并且在频域中,特别是在RGB的红色通道中,它应该具有特征性的、尺度不变的特征。也就是说,水平扫描线(在水平对齐的徽标上训练)所遇到的从红到白到红的交替图案在穿过徽标的中心轴时将具有独特的“节奏”。这种节奏将在不同的尺度和方向上“加速”或“减速”,但在比例上保持相等。您可以识别/定义几十条这样的扫描线,包括水平和垂直穿过徽标的扫描线以及多条对角的扫描线。称这些为“签名扫描线”

在目标图像中搜索该签名是以水平条扫描图像的简单问题。寻找红色通道中的高频(表示从红色区域移动到白色区域),一旦发现,查看是否跟随训练课程中确定的频率节律。一旦找到匹配项,您将立即知道扫描线在徽标中的方向和位置(如果您在训练过程中跟踪这些内容),因此从那里识别徽标的边界是微不足道的。

如果这不是一个线性有效的算法,或者几乎是这样,我会感到惊讶。它显然不能解决你的罐头瓶歧视问题,但至少你会有你的标志。

(更新:为了识别瓶子,我会在标志附近寻找可乐(棕色液体),也就是瓶子内部。或者,在一个空瓶子的情况下,我会寻找一个帽子,它将始终具有相同的基本形状、大小和与徽标的距离,通常都是白色或红色。搜索一个纯色椭圆形状,帽子应该在哪里,相对于徽标。当然不是万无一失,但你的目标应该是快速找到容易的。)

(我的图像处理时代已经过去几年了,所以我保持了这个建议的高度和概念性。我认为它可能稍微接近人眼的运作方式,或者至少我的大脑是如何运作的!)

我真的很喜欢达伦·库克和斯塔克对这个问题的回答。我当时正在对这些问题发表评论,但我认为我的方法太过简单,不能离开这里。

简而言之,您已经确定了一种算法,以确定可口可乐标志是否存在于空间中的特定位置。现在,您正在尝试确定一个适合于区分可口可乐罐和其他物体的启发式方法,包括:瓶子、广告牌、广告和可口可乐用具,所有这些都与这个标志性标志相关。在你的问题陈述中,你没有提到很多这些额外的案例,但我觉得它们对你的算法的成功至关重要。

这里的秘密是确定一个罐包含哪些视觉特征,或者通过负空间,确定其他可乐产品存在哪些不存在于罐中的特征。为此,当前的顶级答案勾勒出了一个选择“可以”的基本方法,如果且仅当“瓶子”未被识别时,可以通过瓶盖、液体或其他类似的视觉启发法进行识别。

问题是这种故障。例如,一个瓶子可能是空的,没有盖子,导致假阳性。或者,它可能是一个部分瓶子,额外的特征被破坏,再次导致错误检测。不用说,这并不优雅,也不符合我们的目的。

为此,罐的最正确选择标准如下:

你在问题中勾勒出的物体轮廓形状是否正确?如果是,则为+1。如果我们假设存在自然光或人造光,我们是否检测到瓶子的铬轮廓,表明这是否由铝制成?如果是,则为+1。我们确定物体的镜面反射财产相对于我们的光源是正确的吗(光源检测的说明性视频链接)?如果是,则为+1。我们能否确定将对象标识为罐头的任何其他财产,包括但不限于徽标的拓扑图像倾斜、对象的方向、对象的并置(例如,在平面上,如桌子或其他罐头的上下文中)以及拉片的存在?如果是,则每个值+1。

您的分类可能如下所示:

对于每一场候选比赛,如果检测到可口可乐标志的存在,则绘制灰色边界。对于超过+2的每一场比赛,画一个红色边框。

这在视觉上向用户突出显示了检测到的内容,强调了可能被正确检测为破损罐的弱阳性。

每种属性的检测都具有非常不同的时间和空间复杂性,对于每种方法http://dsp.stackexchange.com对于为您的目的确定最正确和最有效的算法来说是非常合理的。我在这里的目的是,纯粹而简单地强调,通过使候选检测空间的一小部分无效来检测某个东西是否是罐头,并不是解决这个问题的最稳健或有效的解决方案,理想情况下,您应该采取相应的措施。

嘿,恭喜黑客新闻发布!总的来说,这是一个非常棒的问题,值得宣传

深度学习

收集至少几百张包含可乐罐的图像,将其周围的边界框标注为阳性类,包括可乐瓶和其他可乐产品,将其标记为阴性类以及随机对象。

除非您收集了一个非常大的数据集,否则请对小数据集使用深度学习功能。理想情况下,使用支持向量机(SVM)与深度神经网络的组合。

一旦您将图像输入到先前训练的深度学习模型(例如GoogleNet),而不是使用神经网络的决策(最终)层来进行分类,则使用先前层的数据作为特征来训练分类器。

OpenCV和Google Net:http://docs.opencv.org/trunk/d5/de7/tutorial_dnn_googlenet.html

OpenCV和SVM:http://docs.opencv.org/2.4/doc/tutorials/ml/introduction_to_svm/introduction_to_svm.html

MVTec有一个名为HALCON的计算机视觉软件包,它的演示可以为您提供好的算法想法。有很多与您的问题类似的示例,您可以在演示模式下运行,然后查看代码中的运算符,看看如何从现有的OpenCV运算符实现它们。

我已经使用这个软件包为类似这样的问题快速原型化复杂的算法,然后找到如何使用现有的OpenCV特性实现它们。特别是对于您的情况,您可以尝试在OpenCV中实现嵌入在运算符find_scaled_shape_model中的功能。一些运营商指出,这篇关于算法实现的科学论文有助于找出如何在OpenCV中做类似的事情。

即使是人类也很难在第二张图片中区分瓶子和罐子(前提是瓶子的透明区域是隐藏的)吗?

除了一个很小的区域外,它们几乎是一样的(也就是说,罐子顶部的宽度有点小,而瓶子的包装纸整个宽度相同,但有一个小变化,对吗?)

我想到的第一件事是检查瓶子的红色顶部。但是,如果瓶子没有顶部,或者瓶子部分隐藏(如上所述),这仍然是一个问题。

我想到的第二件事是关于瓶子的透明度。OpenCV在查找图像中的透明对象方面有一些工作。检查以下链接。

OpenCV会议记录2012-03-19OpenCV会议记录2012-02-28

特别是看看这个,看看他们如何准确地检测玻璃:

OpenCV会议记录2012-04-24

查看其实施结果:

他们说这是K.McHenry和J.Ponce在CVPR 2006年发表的论文《寻找玻璃的大地测量活动轮廓框架》的实施。

这可能会对你的情况有所帮助,但如果瓶子装满了,问题就会再次出现。

所以我认为在这里,你可以先搜索瓶子的透明主体,或者搜索一个红色区域,该区域与两个透明物体横向连接,这显然就是瓶子。(理想情况下,图像如下。)

现在,您可以删除黄色区域,即瓶子的标签,并运行您的算法来查找罐子。

无论如何,这个解决方案和其他解决方案一样也有不同的问题。

只有当你的瓶子是空的时候,它才起作用。在这种情况下,您必须搜索两种黑色之间的红色区域(如果可口可乐液体是黑色的)。如果透明部分被覆盖,则另一个问题。

但无论如何,如果图片中没有上述问题,这似乎是一个更好的方法。