图像处理：“可口可乐罐”识别算法的改进

在过去几年里，我做过的最有趣的项目之一是一个关于图像处理的项目。目标是开发一种能够识别可口可乐“罐”的系统（请注意，我强调的是“罐”这个词，你会在一分钟内看到原因）。您可以看到下面的一个示例，其中可以在绿色矩形中识别，带有缩放和旋转。

项目的一些限制：

背景可能非常嘈杂。罐可以有任何刻度或旋转，甚至可以有方向（在合理的范围内）。图像可能具有一定程度的模糊性（轮廓可能不完全笔直）。图像中可能有可口可乐瓶子，算法应该只检测到罐子！图像的亮度可能会有很大的变化（所以你不能“太依赖”颜色检测）。罐子可以部分隐藏在侧面或中间，也可能部分隐藏在瓶子后面。图像中可能根本就没有罐头，在这种情况下，你必须什么都找不到，然后写一条消息这样说。

所以你可能会遇到这样棘手的事情（在这种情况下，我的算法完全失败了）：

我不久前做过这个项目，做得很开心，我有一个不错的实现。以下是关于我的实现的一些细节：

语言：使用OpenCV库在C++中完成。

预处理：对于图像预处理，即将图像转换为更原始的形式以提供给算法，我使用了两种方法：

将颜色域从RGB更改为HSV，并基于“红色”色调进行过滤，饱和度高于一定阈值以避免类似橙色的颜色，低值过滤以避免暗色调。最终的结果是一个黑白二值图像，其中所有的白色像素都将表示符合此阈值的像素。显然，图像中仍然有很多垃圾，但这减少了您必须处理的维度的数量。使用中值滤波（取所有邻居的中值像素值并用该值替换像素）进行噪声滤波，以减少噪声。使用Canny边缘检测滤波器在两个前一步骤后获得所有项目的轮廓。

算法：我为这项任务选择的算法本身取自这本关于特征提取的很棒的书，称为广义霍夫变换（与常规霍夫变换截然不同）。它基本上说了几件事：

你可以在不知道其解析方程的情况下描述空间中的物体（这里就是这种情况）。它可以抵抗图像变形，例如缩放和旋转，因为它基本上会测试图像的缩放因子和旋转因子的每一种组合。它使用算法将“学习”的基础模型（模板）。轮廓图像中剩余的每个像素将根据从模型中获得的信息，投票给另一个像素，该像素可能是对象的中心（按重力计算）。

最后，你会得到一张选票的热图，例如，在这里，罐子轮廓的所有像素都会投票给它的引力中心，所以你会在与中心相对应的同一个像素中获得很多选票，并且会在热图中看到一个峰值，如下所示：

一旦你做到了这一点，一个简单的基于阈值的启发式方法可以为你提供中心像素的位置，你可以从中导出缩放和旋转，然后围绕它绘制你的小矩形（最终的缩放和旋转因子显然是相对于你的原始模板的）。至少在理论上。。。

结果：现在，虽然这种方法在基本案例中有效，但在某些领域严重缺乏：

它非常慢！我没有充分强调这一点。几乎需要整整一天的时间来处理30张测试图像，显然是因为我的旋转和平移比例非常高，因为有些罐子非常小。当瓶子出现在图像中时，它完全丢失了，出于某种原因，几乎总是找到瓶子而不是罐子（可能是因为瓶子更大，因此像素更多，因此投票更多）模糊图像也不好，因为投票结果以像素形式出现在中心周围的随机位置，从而以非常嘈杂的热图结束。在平移和旋转方面实现了差异，但在方向上没有，这意味着没有直接面对摄像机目标的罐子无法被识别。

你能帮我改进我的特定算法吗，专门使用OpenCV特性，来解决上面提到的四个特定问题吗？

我希望有些人也能从中学到一些东西，毕竟我认为不仅仅是提问的人应该学习

当前回答

我喜欢你的问题，不管它是否离题：P

有趣的旁白；我刚刚完成了我学位上的一门课程，我们学习了机器人和计算机视觉。我们这学期的项目与你描述的非常相似。

我们不得不开发一种机器人，它使用Xbox Kinect在各种照明和环境条件下检测任何方向的可乐瓶和可乐罐。我们的解决方案包括在色调通道上使用带通滤波器，并结合霍夫圆变换。我们能够稍微限制环境（我们可以选择机器人和Kinect传感器的位置和方式），否则我们将使用SIFT或SURF变换。

您可以在我的博客文章中阅读我们的方法，主题为：）

2013-01-04 06:10:22

其他回答

MVTec有一个名为HALCON的计算机视觉软件包，它的演示可以为您提供好的算法想法。有很多与您的问题类似的示例，您可以在演示模式下运行，然后查看代码中的运算符，看看如何从现有的OpenCV运算符实现它们。

我已经使用这个软件包为类似这样的问题快速原型化复杂的算法，然后找到如何使用现有的OpenCV特性实现它们。特别是对于您的情况，您可以尝试在OpenCV中实现嵌入在运算符find_scaled_shape_model中的功能。一些运营商指出，这篇关于算法实现的科学论文有助于找出如何在OpenCV中做类似的事情。

2014-04-09 23:40:43

你需要一个从经验中学习和提高分类精度的程序。

我建议深度学习，随着深度学习，这将成为一个微不足道的问题。

您可以在Tensorflow上重新培训inception v3模型：

如何为新类别重新获取Inception的最终层。

在这种情况下，您将训练卷积神经网络来将对象分类为可口可乐罐或非可口可乐罐。

2017-09-08 17:46:46

有一堆颜色描述符用于识别物体，下面的论文对其中的很多进行了比较。当与SIFT或SURF结合时，它们特别强大。仅SURF或SIFT在可口可乐罐图像中不太有用，因为它们不能识别很多兴趣点，您需要颜色信息来帮助。我在一个项目中使用了带有SURF的BIC（边界/内部像素分类），它非常适合识别物体。

Web图像检索中颜色描述符的比较研究

2013-01-03 15:26:41

我喜欢这个挑战，并想给出一个答案，这样可以解决问题。

提取标志的特征（关键点、SIFT、SURF等描述符）将点与徽标的模型图像匹配（使用Matcher，如Brute Force）估计刚体的坐标（PnP问题-SolvePnP）根据刚体估计盖的位置进行反投影并计算瓶盖的图像像素位置（ROI）（我假设你有相机的固有参数）用方法检查盖子是否存在。如果有，那么这就是瓶子

检测瓶盖是另一个问题。它可以是复杂的，也可以是简单的。如果我是你，我会简单地检查ROI中的颜色直方图，以便做出简单的决定。

如果我错了，请给出反馈。谢谢

2013-09-24 14:14:11

另一种方法是使用尺度不变特征变换（SIFT）或加速鲁棒特征（SURF）提取特征（关键点）。

您可以在这个页面上找到一个用Java、C++和Python编写的OpenCV代码示例：Features2D+同态查找已知对象

这两种算法对缩放和旋转都是不变的。因为它们与特征一起工作，所以也可以处理遮挡（只要有足够多的关键点可见）。

图像来源：教程示例

SIFT的处理需要几百毫秒，SURF速度更快，但不适合实时应用。ORB使用FAST，FAST在旋转不变性方面较弱。

原始文件

SURF：加速强大功能独特的图像特征来自比例不变关键点ORB：SIFT或SURF的有效替代方案

2012-04-16 05:17:39

图像处理：“可口可乐罐”识别算法的改进

推荐文章

最新文章

标签