图像处理：“可口可乐罐”识别算法的改进

在过去几年里，我做过的最有趣的项目之一是一个关于图像处理的项目。目标是开发一种能够识别可口可乐“罐”的系统（请注意，我强调的是“罐”这个词，你会在一分钟内看到原因）。您可以看到下面的一个示例，其中可以在绿色矩形中识别，带有缩放和旋转。

项目的一些限制：

背景可能非常嘈杂。罐可以有任何刻度或旋转，甚至可以有方向（在合理的范围内）。图像可能具有一定程度的模糊性（轮廓可能不完全笔直）。图像中可能有可口可乐瓶子，算法应该只检测到罐子！图像的亮度可能会有很大的变化（所以你不能“太依赖”颜色检测）。罐子可以部分隐藏在侧面或中间，也可能部分隐藏在瓶子后面。图像中可能根本就没有罐头，在这种情况下，你必须什么都找不到，然后写一条消息这样说。

所以你可能会遇到这样棘手的事情（在这种情况下，我的算法完全失败了）：

我不久前做过这个项目，做得很开心，我有一个不错的实现。以下是关于我的实现的一些细节：

语言：使用OpenCV库在C++中完成。

预处理：对于图像预处理，即将图像转换为更原始的形式以提供给算法，我使用了两种方法：

将颜色域从RGB更改为HSV，并基于“红色”色调进行过滤，饱和度高于一定阈值以避免类似橙色的颜色，低值过滤以避免暗色调。最终的结果是一个黑白二值图像，其中所有的白色像素都将表示符合此阈值的像素。显然，图像中仍然有很多垃圾，但这减少了您必须处理的维度的数量。使用中值滤波（取所有邻居的中值像素值并用该值替换像素）进行噪声滤波，以减少噪声。使用Canny边缘检测滤波器在两个前一步骤后获得所有项目的轮廓。

算法：我为这项任务选择的算法本身取自这本关于特征提取的很棒的书，称为广义霍夫变换（与常规霍夫变换截然不同）。它基本上说了几件事：

你可以在不知道其解析方程的情况下描述空间中的物体（这里就是这种情况）。它可以抵抗图像变形，例如缩放和旋转，因为它基本上会测试图像的缩放因子和旋转因子的每一种组合。它使用算法将“学习”的基础模型（模板）。轮廓图像中剩余的每个像素将根据从模型中获得的信息，投票给另一个像素，该像素可能是对象的中心（按重力计算）。

最后，你会得到一张选票的热图，例如，在这里，罐子轮廓的所有像素都会投票给它的引力中心，所以你会在与中心相对应的同一个像素中获得很多选票，并且会在热图中看到一个峰值，如下所示：

一旦你做到了这一点，一个简单的基于阈值的启发式方法可以为你提供中心像素的位置，你可以从中导出缩放和旋转，然后围绕它绘制你的小矩形（最终的缩放和旋转因子显然是相对于你的原始模板的）。至少在理论上。。。

结果：现在，虽然这种方法在基本案例中有效，但在某些领域严重缺乏：

它非常慢！我没有充分强调这一点。几乎需要整整一天的时间来处理30张测试图像，显然是因为我的旋转和平移比例非常高，因为有些罐子非常小。当瓶子出现在图像中时，它完全丢失了，出于某种原因，几乎总是找到瓶子而不是罐子（可能是因为瓶子更大，因此像素更多，因此投票更多）模糊图像也不好，因为投票结果以像素形式出现在中心周围的随机位置，从而以非常嘈杂的热图结束。在平移和旋转方面实现了差异，但在方向上没有，这意味着没有直接面对摄像机目标的罐子无法被识别。

你能帮我改进我的特定算法吗，专门使用OpenCV特性，来解决上面提到的四个特定问题吗？

我希望有些人也能从中学到一些东西，毕竟我认为不仅仅是提问的人应该学习

当前回答

也许已经晚了很多年，但仍然是一个值得尝试的理论。

红色徽标区域的边界矩形与瓶/罐的整体尺寸的比例不同。对于罐，应为1:1，而对于瓶（带或不带盖子）则不同。这应该可以很容易地区分两者。

更新：由于罐和瓶的尺寸不同，标志区域的水平曲率会有所不同。如果您的机器人需要拾取罐/瓶，并且您相应地决定抓握，这可能特别有用。

2018-02-05 19:33:18

其他回答

请看一下Zdenek Kalal的捕食者跟踪器。它需要一些训练，但它可以主动学习被跟踪对象在不同方向和尺度上的外观，并实时进行操作！

源代码可以在他的网站上找到。它在MATLAB中，但也许社区成员已经完成了一个Java实现。我已经成功地在C#中重新实现了TLD的跟踪器部分。如果我没记错的话，TLD使用费尔斯作为关键点检测器。我使用SURF或SIFT（@stacker已经建议）来重新获取被跟踪器丢失的对象。跟踪器的反馈可以很容易地随时间建立一个筛选/冲浪模板的动态列表，随着时间的推移，可以以非常高的精度重新获取对象。

如果你对我的跟踪器的C#实现感兴趣，欢迎提问。

2012-04-17 20:56:15

为了加快速度，我会利用这样一个事实，即您不需要找到任意的图像/对象，而是需要找到带有可口可乐标志的图像/物体。这一点非常重要，因为这个标志非常独特，并且在频域中，特别是在RGB的红色通道中，它应该具有特征性的、尺度不变的特征。也就是说，水平扫描线（在水平对齐的徽标上训练）所遇到的从红到白到红的交替图案在穿过徽标的中心轴时将具有独特的“节奏”。这种节奏将在不同的尺度和方向上“加速”或“减速”，但在比例上保持相等。您可以识别/定义几十条这样的扫描线，包括水平和垂直穿过徽标的扫描线以及多条对角的扫描线。称这些为“签名扫描线”

在目标图像中搜索该签名是以水平条扫描图像的简单问题。寻找红色通道中的高频（表示从红色区域移动到白色区域），一旦发现，查看是否跟随训练课程中确定的频率节律。一旦找到匹配项，您将立即知道扫描线在徽标中的方向和位置（如果您在训练过程中跟踪这些内容），因此从那里识别徽标的边界是微不足道的。

如果这不是一个线性有效的算法，或者几乎是这样，我会感到惊讶。它显然不能解决你的罐头瓶歧视问题，但至少你会有你的标志。

（更新：为了识别瓶子，我会在标志附近寻找可乐（棕色液体），也就是瓶子内部。或者，在一个空瓶子的情况下，我会寻找一个帽子，它将始终具有相同的基本形状、大小和与徽标的距离，通常都是白色或红色。搜索一个纯色椭圆形状，帽子应该在哪里，相对于徽标。当然不是万无一失，但你的目标应该是快速找到容易的。）

（我的图像处理时代已经过去几年了，所以我保持了这个建议的高度和概念性。我认为它可能稍微接近人眼的运作方式，或者至少我的大脑是如何运作的！）

2012-04-17 21:06:00

如果您对它的实时性感兴趣，那么您需要添加一个预处理过滤器，以确定哪些内容会被重负荷扫描。一个很好的快速、非常实时的预处理过滤器，它可以让你扫描更可能是可口可乐罐的东西，然后再移动到更棘手的东西上，它是这样的：在图像中搜索与可口可乐罐sqrt（pow（红色，2）+pow（蓝色，2）+pow（绿色，2））有一定公差的最大色块。从非常严格的颜色容差开始，然后逐步降低到更宽松的颜色容差。然后，当您的机器人在处理当前帧的分配时间内用完时，它会将当前找到的瓶子用于您的目的。请注意，您必须调整sqrt中的RGB颜色（pow（红色，2）+pow（蓝色，2）+pow（绿色，2）），以使其恰到好处。

此外，这看起来真的很愚蠢，但在编译C代码时，是否确保启用了-oFast编译器优化？

2017-05-12 22:07:26

我喜欢你的问题，不管它是否离题：P

有趣的旁白；我刚刚完成了我学位上的一门课程，我们学习了机器人和计算机视觉。我们这学期的项目与你描述的非常相似。

我们不得不开发一种机器人，它使用Xbox Kinect在各种照明和环境条件下检测任何方向的可乐瓶和可乐罐。我们的解决方案包括在色调通道上使用带通滤波器，并结合霍夫圆变换。我们能够稍微限制环境（我们可以选择机器人和Kinect传感器的位置和方式），否则我们将使用SIFT或SURF变换。

您可以在我的博客文章中阅读我们的方法，主题为：）

2013-01-04 06:10:22

我不知道OpenCV，但从逻辑上看，我认为你可以通过改变你正在寻找的形象，即可口可乐，来区分瓶子和罐头。你应该一直到罐的顶部，因为如果是罐，可口可乐顶部有银色衬里，而如果是瓶子，则没有银色衬里。

但显然，这种算法在罐头顶部隐藏的情况下会失败，但在这种情况下，即使是人类也无法区分两者（如果只有可乐瓶/罐头的可口可乐部分可见）

2012-04-19 07:15:46

图像处理：“可口可乐罐”识别算法的改进

推荐文章

最新文章

标签