图像处理：“可口可乐罐”识别算法的改进

在过去几年里，我做过的最有趣的项目之一是一个关于图像处理的项目。目标是开发一种能够识别可口可乐“罐”的系统（请注意，我强调的是“罐”这个词，你会在一分钟内看到原因）。您可以看到下面的一个示例，其中可以在绿色矩形中识别，带有缩放和旋转。

项目的一些限制：

背景可能非常嘈杂。罐可以有任何刻度或旋转，甚至可以有方向（在合理的范围内）。图像可能具有一定程度的模糊性（轮廓可能不完全笔直）。图像中可能有可口可乐瓶子，算法应该只检测到罐子！图像的亮度可能会有很大的变化（所以你不能“太依赖”颜色检测）。罐子可以部分隐藏在侧面或中间，也可能部分隐藏在瓶子后面。图像中可能根本就没有罐头，在这种情况下，你必须什么都找不到，然后写一条消息这样说。

所以你可能会遇到这样棘手的事情（在这种情况下，我的算法完全失败了）：

我不久前做过这个项目，做得很开心，我有一个不错的实现。以下是关于我的实现的一些细节：

语言：使用OpenCV库在C++中完成。

预处理：对于图像预处理，即将图像转换为更原始的形式以提供给算法，我使用了两种方法：

将颜色域从RGB更改为HSV，并基于“红色”色调进行过滤，饱和度高于一定阈值以避免类似橙色的颜色，低值过滤以避免暗色调。最终的结果是一个黑白二值图像，其中所有的白色像素都将表示符合此阈值的像素。显然，图像中仍然有很多垃圾，但这减少了您必须处理的维度的数量。使用中值滤波（取所有邻居的中值像素值并用该值替换像素）进行噪声滤波，以减少噪声。使用Canny边缘检测滤波器在两个前一步骤后获得所有项目的轮廓。

算法：我为这项任务选择的算法本身取自这本关于特征提取的很棒的书，称为广义霍夫变换（与常规霍夫变换截然不同）。它基本上说了几件事：

你可以在不知道其解析方程的情况下描述空间中的物体（这里就是这种情况）。它可以抵抗图像变形，例如缩放和旋转，因为它基本上会测试图像的缩放因子和旋转因子的每一种组合。它使用算法将“学习”的基础模型（模板）。轮廓图像中剩余的每个像素将根据从模型中获得的信息，投票给另一个像素，该像素可能是对象的中心（按重力计算）。

最后，你会得到一张选票的热图，例如，在这里，罐子轮廓的所有像素都会投票给它的引力中心，所以你会在与中心相对应的同一个像素中获得很多选票，并且会在热图中看到一个峰值，如下所示：

一旦你做到了这一点，一个简单的基于阈值的启发式方法可以为你提供中心像素的位置，你可以从中导出缩放和旋转，然后围绕它绘制你的小矩形（最终的缩放和旋转因子显然是相对于你的原始模板的）。至少在理论上。。。

结果：现在，虽然这种方法在基本案例中有效，但在某些领域严重缺乏：

它非常慢！我没有充分强调这一点。几乎需要整整一天的时间来处理30张测试图像，显然是因为我的旋转和平移比例非常高，因为有些罐子非常小。当瓶子出现在图像中时，它完全丢失了，出于某种原因，几乎总是找到瓶子而不是罐子（可能是因为瓶子更大，因此像素更多，因此投票更多）模糊图像也不好，因为投票结果以像素形式出现在中心周围的随机位置，从而以非常嘈杂的热图结束。在平移和旋转方面实现了差异，但在方向上没有，这意味着没有直接面对摄像机目标的罐子无法被识别。

你能帮我改进我的特定算法吗，专门使用OpenCV特性，来解决上面提到的四个特定问题吗？

我希望有些人也能从中学到一些东西，毕竟我认为不仅仅是提问的人应该学习

当前回答

我不知道OpenCV，但从逻辑上看，我认为你可以通过改变你正在寻找的形象，即可口可乐，来区分瓶子和罐头。你应该一直到罐的顶部，因为如果是罐，可口可乐顶部有银色衬里，而如果是瓶子，则没有银色衬里。

但显然，这种算法在罐头顶部隐藏的情况下会失败，但在这种情况下，即使是人类也无法区分两者（如果只有可乐瓶/罐头的可口可乐部分可见）

2012-04-19 07:15:46

其他回答

我真的很喜欢达伦·库克和斯塔克对这个问题的回答。我当时正在对这些问题发表评论，但我认为我的方法太过简单，不能离开这里。

简而言之，您已经确定了一种算法，以确定可口可乐标志是否存在于空间中的特定位置。现在，您正在尝试确定一个适合于区分可口可乐罐和其他物体的启发式方法，包括：瓶子、广告牌、广告和可口可乐用具，所有这些都与这个标志性标志相关。在你的问题陈述中，你没有提到很多这些额外的案例，但我觉得它们对你的算法的成功至关重要。

这里的秘密是确定一个罐包含哪些视觉特征，或者通过负空间，确定其他可乐产品存在哪些不存在于罐中的特征。为此，当前的顶级答案勾勒出了一个选择“可以”的基本方法，如果且仅当“瓶子”未被识别时，可以通过瓶盖、液体或其他类似的视觉启发法进行识别。

问题是这种故障。例如，一个瓶子可能是空的，没有盖子，导致假阳性。或者，它可能是一个部分瓶子，额外的特征被破坏，再次导致错误检测。不用说，这并不优雅，也不符合我们的目的。

为此，罐的最正确选择标准如下：

你在问题中勾勒出的物体轮廓形状是否正确？如果是，则为+1。如果我们假设存在自然光或人造光，我们是否检测到瓶子的铬轮廓，表明这是否由铝制成？如果是，则为+1。我们确定物体的镜面反射财产相对于我们的光源是正确的吗（光源检测的说明性视频链接）？如果是，则为+1。我们能否确定将对象标识为罐头的任何其他财产，包括但不限于徽标的拓扑图像倾斜、对象的方向、对象的并置（例如，在平面上，如桌子或其他罐头的上下文中）以及拉片的存在？如果是，则每个值+1。

您的分类可能如下所示：

对于每一场候选比赛，如果检测到可口可乐标志的存在，则绘制灰色边界。对于超过+2的每一场比赛，画一个红色边框。

这在视觉上向用户突出显示了检测到的内容，强调了可能被正确检测为破损罐的弱阳性。

每种属性的检测都具有非常不同的时间和空间复杂性，对于每种方法http://dsp.stackexchange.com对于为您的目的确定最正确和最有效的算法来说是非常合理的。我在这里的目的是，纯粹而简单地强调，通过使候选检测空间的一小部分无效来检测某个东西是否是罐头，并不是解决这个问题的最稳健或有效的解决方案，理想情况下，您应该采取相应的措施。

嘿，恭喜黑客新闻发布！总的来说，这是一个非常棒的问题，值得宣传

2012-04-22 22:56:27

MVTec有一个名为HALCON的计算机视觉软件包，它的演示可以为您提供好的算法想法。有很多与您的问题类似的示例，您可以在演示模式下运行，然后查看代码中的运算符，看看如何从现有的OpenCV运算符实现它们。

我已经使用这个软件包为类似这样的问题快速原型化复杂的算法，然后找到如何使用现有的OpenCV特性实现它们。特别是对于您的情况，您可以尝试在OpenCV中实现嵌入在运算符find_scaled_shape_model中的功能。一些运营商指出，这篇关于算法实现的科学论文有助于找出如何在OpenCV中做类似的事情。

2014-04-09 23:40:43

我首先要寻找的是颜色-像红色，当在图像中进行红眼检测时-有一个特定的颜色范围需要检测，考虑到周围区域，例如如果图像中确实可见，与另一只眼睛的距离。

1：第一个特点是颜色，红色非常占优势。在检测到可口可乐红之后，有几个项目值得关注1A：这个红色区域有多大（它有足够的数量来确定一个真正的罐子是否正确-10个像素可能不够），1B：它包含标签的颜色吗？“可口可乐”或波浪。1B1：是否有足够的理由认为它是一个标签。

第1项是一种捷径-如果图像中不存在，请继续。

因此，如果是这样的话，我可以利用我的图像片段，开始稍微缩小问题区域——基本上看周围区域/边缘。。。

2：给定上述图像区域ID为1-验证所讨论项目的周围点[边缘]。A：有什么看起来像是罐顶或罐底的银吗？B：瓶子可能看起来是透明的，但玻璃桌也可能是透明的-玻璃桌/架子或透明区域也是如此-如果是这样的话，可能会有多个出口。瓶子可能有一个红色的盖子，它可能没有，但它应该有瓶盖/螺纹螺钉的形状，或者盖子。C：即使这失败了A和B，它仍然可以是部分的。。当它是部分的时，这会更复杂，因为部分瓶/部分罐看起来可能相同，所以需要对红色区域边缘到边缘的测量进行更多的处理。。小瓶子的大小可能差不多。。

3：经过上述分析后，也就是我会看字母和波浪标志的时候-因为我可以定位搜索单词中的一些字母，因为你可能没有所有的文字，因为没有所有的罐子，波浪将在某些点与文本对齐（距离方向），这样我就可以搜索概率，并知道在距离x处波浪的那个点应该存在哪些字母。

2017-09-04 11:40:21

嗯，我真的觉得我找到了一些东西（这就像是有史以来最有趣的问题——所以，即使找到了一个可以接受的答案，如果不继续尝试找到“完美”的答案，那将是一种耻辱）。。。

一旦你找到了标志，你的麻烦就完成了一半。然后你只需要弄清楚标志周围的东西之间的区别。此外，我们希望尽可能少做额外的工作。我认为这实际上是一个简单的部分。。。

徽标周围是什么？对于罐头，我们可以看到金属，尽管有灯光的影响，但其基本颜色不会发生任何变化。只要我们知道标签的角度，我们就可以知道标签正上方是什么，所以我们要看看它们之间的区别：

在这里，标志的上方和下方是完全黑暗的，颜色一致。在这方面相对容易。

这里，上面和下面的东西都是浅色的，但颜色仍然一致。它是全银的，而且全银金属实际上看起来非常罕见，而且一般都是银色。此外，它有一个很薄的狭缝，距离已经被识别的红色足够近，所以你可以追踪它的整个长度，以计算可以被认为是罐头金属环的百分比。真的，你只需要罐边的一小部分就可以知道它是它的一部分，但你仍然需要找到一个平衡点，确保它不仅仅是一个空瓶子，背后有金属。

最后，这是一个棘手的问题。但不那么棘手，一旦我们只通过我们可以直接在红色包装纸上方（和下方）看到的东西。它是透明的，这意味着它将显示它背后的任何东西。这很好，因为它背后的东西在颜色上不太可能像罐头的银色圆形金属一样一致。它背后可能有很多不同的东西，这会告诉我们它是一个空的（或装满了透明液体）瓶子，或者是一个一致的颜色，这可能意味着它装满了液体，或者瓶子只是在一个纯色的前面。我们使用的是最接近顶部和底部的颜色，正确的颜色出现在正确位置的可能性相对较小。我们知道这是一个瓶子，因为它没有罐的关键视觉元素，与瓶子后面的东西相比，这是相对简单的。

（最后一个是我能找到的最好的一个空的大可口可乐瓶——有趣的是，瓶盖和环是黄色的，表明瓶盖的红色可能不应该被依赖）

在罕见的情况下，瓶子后面有一个类似的银色阴影，即使是在提取塑料之后，或者瓶子里不知怎么充满了相同的银色液体，我们可以回到我们可以粗略估计的银色形状上-正如我所提到的，它是圆形的，遵循罐子的形状。尽管我缺乏图像处理方面的知识，但这听起来很慢。更好的是，为什么不通过检查标志的侧面来推断这一点，以确保没有相同的银色？啊，但是如果罐头后面有同样的银色呢？然后，我们确实需要更加注意形状，再次查看罐子的顶部和底部。

根据这一切需要多么完美，它可能会非常缓慢，但我想我的基本概念是首先检查最简单和最接近的东西。在开始计算其他元素的形状之前，先检查已经匹配的形状周围的颜色差异（这似乎是最微不足道的部分）。要列出它，请执行以下操作：

找到主要吸引人的地方（红色标志背景，可能还有标志本身的方向，但如果罐子被打开，你需要专注于红色）通过非常明显的红色再次验证形状和方向检查形状周围的颜色（因为它快速且无痛）最后，如果需要，验证主要景点周围颜色的形状，以获得正确的圆度。

如果你不能做到这一点，这可能意味着罐子的顶部和底部都被覆盖了，而人类唯一可以用来可靠区分罐子和瓶子的东西就是罐子的遮挡和反射，这将是一场更难处理的战斗。然而，为了更进一步，您可以使用其他答案中提到的半透明扫描技术，跟踪罐子/瓶子的角度来检查更多类似瓶子的特征。

有趣的额外噩梦可能包括一个罐子方便地坐在瓶子后面，距离如此之远，以至于它的金属恰好显示在标签的上方和下方，只要你沿着红色标签的整个长度扫描，这仍然会失败-这实际上是一个更大的问题，因为你没有检测到一个罐子，而不是认为你实际上检测到了一个瓶子，包括偶然发现的罐子。在这种情况下，杯子是半空的！

作为一个免责声明，除了这个问题之外，我在图像处理方面没有任何经验，也从未想过，但它非常有趣，让我对它进行了非常深入的思考，在阅读了所有其他答案后，我认为这可能是完成这项工作的最简单和最有效的方法。就我个人而言，我只是很高兴我实际上不需要考虑编程！

EDIT

此外，看看我在MS Paint中绘制的这幅图。。。这绝对是可怕的，而且相当不完整，但仅根据形状和颜色，你可以猜到它可能会是什么。本质上，这些是人们需要费心扫描的唯一东西。当你看到如此接近的独特形状和颜色组合时，还有什么可能呢？我没有画的那一点，白色背景，应该被认为是“任何不一致的东西”。如果它有一个透明的背景，它几乎可以覆盖任何其他图像，你仍然可以看到它。

2014-07-12 16:12:27

我喜欢这个挑战，并想给出一个答案，这样可以解决问题。

提取标志的特征（关键点、SIFT、SURF等描述符）将点与徽标的模型图像匹配（使用Matcher，如Brute Force）估计刚体的坐标（PnP问题-SolvePnP）根据刚体估计盖的位置进行反投影并计算瓶盖的图像像素位置（ROI）（我假设你有相机的固有参数）用方法检查盖子是否存在。如果有，那么这就是瓶子

检测瓶盖是另一个问题。它可以是复杂的，也可以是简单的。如果我是你，我会简单地检查ROI中的颜色直方图，以便做出简单的决定。

如果我错了，请给出反馈。谢谢

2013-09-24 14:14:11

图像处理：“可口可乐罐”识别算法的改进

推荐文章

最新文章

标签