出于研究目的,我试图抓取公共Docker注册表(https://registry.hub.docker.com/),并找出1)平均图像有多少层,2)这些层的大小,以了解分布情况。

然而,我研究了API和公共图书馆以及github上的细节,但我找不到任何方法:

检索所有公共存储库/图像(即使有数千个,我仍然需要一个开始列表来迭代) 找出图像的所有层 找到一个图层的大小(所以不是图像,而是单个图层)。

有人能帮我找到找回这些信息的方法吗?

谢谢你!

编辑:有人能验证在Docker注册表中搜索'*'是返回所有的存储库,而不仅仅是任何地方提到'*'的东西吗?https://registry.hub.docker.com/search?q= *


当前回答

还有一个工具:https://github.com/CenturyLinkLabs/dockerfile-from-image

使用imagelayer .io的GUI

其他回答

这将检查docker图像并打印图层:

$ docker image inspect nginx -f '{{.RootFS.Layers}}'
[sha256:d626a8ad97a1f9c1f2c4db3814751ada64f60aed927764a3f994fcd88363b659 sha256:82b81d779f8352b20e52295afc6d0eab7e61c0ec7af96d85b8cda7800285d97d sha256:7ab428981537aa7d0c79bc1acbf208c71e57d9678f7deca4267cc03fba26b9c8]

我已经通过使用Docker网站上的搜索功能解决了这个问题,其中“*”是一个有效的搜索,返回200k个存储库,然后我爬取每个单独的页面。HTML解析允许我提取每个页面上的所有图像名称。

他们给出了一个很好的答案: https://stackoverflow.com/a/32455275/165865

只需运行下面的图片:

docker run --rm -v /var/run/docker.sock:/var/run/docker.sock nate/dockviz images -t

还有一个工具:https://github.com/CenturyLinkLabs/dockerfile-from-image

使用imagelayer .io的GUI

https://hub.docker.com/search?q=*显示了整个Docker中心中的所有图像,这是不可能通过搜索命令得到的,因为它不接受通配符。 从v1.10开始,你可以通过拖动图像并使用以下命令来找到图像中的所有图层: Docker拉ubuntu ID=$(sudo docker inspect -f{{。Id}} ubuntu) 金桥.rootfs。diff_ids /var/lib/docker/image/aufs/imagedb/content/$(echo $ID|tr ':' '/')

3)大小可以在/var/lib/docker/image/aufs/layerdb/sha256/{LAYERID}/size中找到,尽管LAYERID !=前面命令中找到的diff_ids。为此,您需要查看/var/lib/docker/image/aufs/layerdb/sha256/{LAYERID}/diff,并与前面的命令输出进行比较,以正确匹配正确的diff_id和大小。