图像处理：“可口可乐罐”识别算法的改进

在过去几年里，我做过的最有趣的项目之一是一个关于图像处理的项目。目标是开发一种能够识别可口可乐“罐”的系统（请注意，我强调的是“罐”这个词，你会在一分钟内看到原因）。您可以看到下面的一个示例，其中可以在绿色矩形中识别，带有缩放和旋转。

项目的一些限制：

背景可能非常嘈杂。罐可以有任何刻度或旋转，甚至可以有方向（在合理的范围内）。图像可能具有一定程度的模糊性（轮廓可能不完全笔直）。图像中可能有可口可乐瓶子，算法应该只检测到罐子！图像的亮度可能会有很大的变化（所以你不能“太依赖”颜色检测）。罐子可以部分隐藏在侧面或中间，也可能部分隐藏在瓶子后面。图像中可能根本就没有罐头，在这种情况下，你必须什么都找不到，然后写一条消息这样说。

所以你可能会遇到这样棘手的事情（在这种情况下，我的算法完全失败了）：

我不久前做过这个项目，做得很开心，我有一个不错的实现。以下是关于我的实现的一些细节：

语言：使用OpenCV库在C++中完成。

预处理：对于图像预处理，即将图像转换为更原始的形式以提供给算法，我使用了两种方法：

将颜色域从RGB更改为HSV，并基于“红色”色调进行过滤，饱和度高于一定阈值以避免类似橙色的颜色，低值过滤以避免暗色调。最终的结果是一个黑白二值图像，其中所有的白色像素都将表示符合此阈值的像素。显然，图像中仍然有很多垃圾，但这减少了您必须处理的维度的数量。使用中值滤波（取所有邻居的中值像素值并用该值替换像素）进行噪声滤波，以减少噪声。使用Canny边缘检测滤波器在两个前一步骤后获得所有项目的轮廓。

算法：我为这项任务选择的算法本身取自这本关于特征提取的很棒的书，称为广义霍夫变换（与常规霍夫变换截然不同）。它基本上说了几件事：

你可以在不知道其解析方程的情况下描述空间中的物体（这里就是这种情况）。它可以抵抗图像变形，例如缩放和旋转，因为它基本上会测试图像的缩放因子和旋转因子的每一种组合。它使用算法将“学习”的基础模型（模板）。轮廓图像中剩余的每个像素将根据从模型中获得的信息，投票给另一个像素，该像素可能是对象的中心（按重力计算）。

最后，你会得到一张选票的热图，例如，在这里，罐子轮廓的所有像素都会投票给它的引力中心，所以你会在与中心相对应的同一个像素中获得很多选票，并且会在热图中看到一个峰值，如下所示：

一旦你做到了这一点，一个简单的基于阈值的启发式方法可以为你提供中心像素的位置，你可以从中导出缩放和旋转，然后围绕它绘制你的小矩形（最终的缩放和旋转因子显然是相对于你的原始模板的）。至少在理论上。。。

结果：现在，虽然这种方法在基本案例中有效，但在某些领域严重缺乏：

它非常慢！我没有充分强调这一点。几乎需要整整一天的时间来处理30张测试图像，显然是因为我的旋转和平移比例非常高，因为有些罐子非常小。当瓶子出现在图像中时，它完全丢失了，出于某种原因，几乎总是找到瓶子而不是罐子（可能是因为瓶子更大，因此像素更多，因此投票更多）模糊图像也不好，因为投票结果以像素形式出现在中心周围的随机位置，从而以非常嘈杂的热图结束。在平移和旋转方面实现了差异，但在方向上没有，这意味着没有直接面对摄像机目标的罐子无法被识别。

你能帮我改进我的特定算法吗，专门使用OpenCV特性，来解决上面提到的四个特定问题吗？

我希望有些人也能从中学到一些东西，毕竟我认为不仅仅是提问的人应该学习

当前回答

有趣的问题：当我瞥了一眼你的瓶子图片时，我以为它也是一个罐子。但是，作为一个人，我所做的区别是，我注意到这也是一个瓶子。。。

那么，为了区分罐子和瓶子，先扫描瓶子怎么样？如果你找到了一个，在找罐头之前先把标签遮住。

如果你已经在做罐头，那么实施起来并不太困难。真正的缺点是它使处理时间加倍。（但考虑到现实世界中的应用程序，你最终还是会想做瓶子；-）

2012-04-16 05:03:20

其他回答

这可能是一个非常幼稚的想法（或者根本不起作用），但所有焦炭罐的尺寸都是固定的。因此，如果同一张图片中同时包含一个罐子和一个瓶子，那么你可以根据尺寸来区分它们（瓶子会更大）。现在，由于缺少深度（即3D映射到2D映射），瓶子可能会缩小，并且没有尺寸差异。您可以使用立体成像恢复一些深度信息，然后恢复原始大小。

2012-04-16 05:13:11

有趣的问题：当我瞥了一眼你的瓶子图片时，我以为它也是一个罐子。但是，作为一个人，我所做的区别是，我注意到这也是一个瓶子。。。

那么，为了区分罐子和瓶子，先扫描瓶子怎么样？如果你找到了一个，在找罐头之前先把标签遮住。

如果你已经在做罐头，那么实施起来并不太困难。真正的缺点是它使处理时间加倍。（但考虑到现实世界中的应用程序，你最终还是会想做瓶子；-）

2012-04-16 05:03:20

我会检测红色矩形：RGB->HSV，过滤红色->二值图像，关闭（展开然后侵蚀，在matlab中称为imclose）

然后从大到小看矩形。在已知位置/比例中具有较小矩形的矩形都可以删除（假设瓶子比例恒定，较小的矩形将是瓶盖）。

这会给你留下红色的矩形，然后你需要以某种方式检测标识，以确定它们是红色的矩形还是可乐罐。像OCR，但有一个已知的标志？

2012-04-16 06:34:38

也许已经晚了很多年，但仍然是一个值得尝试的理论。

红色徽标区域的边界矩形与瓶/罐的整体尺寸的比例不同。对于罐，应为1:1，而对于瓶（带或不带盖子）则不同。这应该可以很容易地区分两者。

更新：由于罐和瓶的尺寸不同，标志区域的水平曲率会有所不同。如果您的机器人需要拾取罐/瓶，并且您相应地决定抓握，这可能特别有用。

2018-02-05 19:33:18

如果你不局限于一个不受你限制的相机，也许你可以改用像Xbox Kinect这样的距离传感器。使用此功能，您可以对图像执行基于深度和颜色的匹配分割。这允许更快地分离图像中的对象。然后，您可以使用ICP匹配或类似技术来匹配罐子的形状，而不仅仅是它的轮廓或颜色，如果它是圆柱形的，如果您之前对目标进行过3D扫描，这可能是任何方向的有效选项。这些技术通常很快，特别是用于解决速度问题的特定目的时。

我还建议，不一定是为了准确性或速度，而是为了好玩，你可以在色调分割图像上使用经过训练的神经网络来识别罐子的形状。这些速度非常快，通常可以达到80/90%的准确率。培训需要一个很长的过程，因为您必须手动识别每个图像中的罐。

2012-04-16 04:54:25

图像处理：“可口可乐罐”识别算法的改进

推荐文章

最新文章

标签