如何搜索亚马逊s3桶?

我有一个装满了上千份文件的桶。我如何搜索水桶?

当前回答

另一种选择是在您的web服务器上镜像S3桶并在本地遍历。诀窍在于本地文件是空的，只用作骨架。或者，本地文件可以保存您通常需要从S3获取的有用元数据(例如，文件大小、mimetype、作者、时间戳、uuid)。当您提供下载文件的URL时，在本地搜索，但要提供到S3地址的链接。

本地文件遍历很容易，而且这种用于S3管理的方法与语言无关。本地文件遍历还可以避免维护和查询文件数据库，或者延迟执行一系列远程API调用来验证和获取桶内容。

您可以允许用户通过FTP或HTTP直接将文件上传到您的服务器，然后在非高峰时段通过递归遍历任意大小文件的目录将一批新的和更新的文件传输到Amazon。在完成向Amazon的文件传输后，将web服务器文件替换为同名的空文件。如果一个本地文件有任何文件大小，那么直接提供它，因为它正在等待批量传输。

其他回答

S3没有原生的“搜索此桶”，因为实际内容是未知的-此外，由于S3是基于键/值的，因此没有原生的方法可以一次访问多个节点，而更传统的数据存储提供了一个(SELECT * FROM…(在SQL模型中)。

您需要做的是执行ListBucket以获得bucket中对象的列表，然后遍历每个项，执行您实现的自定义操作—这就是您的搜索。

考虑到你在AWS…我认为你会想要使用他们的CloudSearch工具。把你想要搜索的数据放到他们的服务中…让它指向S3密钥。

http://aws.amazon.com/cloudsearch/

快进到2020年，使用aws-okta作为我们的2fa，下面的命令，尽管迭代这个特定bucket(+270,000)中的所有对象和文件夹非常缓慢，但运行良好。

aws-okta exec dev -- aws s3 ls my-cool-bucket --recursive | grep needle-in-haystax.txt

我也面临同样的问题。在S3中进行搜索应该比目前的情况容易得多。这就是为什么我在S3中实现了这个用于搜索的开源工具。

search是完全开源的S3搜索工具。它的实现始终牢记性能是关键因素，并根据基准测试在几秒钟内搜索包含~1000个文件的桶。

安装很简单。你只需要下载docker-compose文件并运行它

docker-compose up

搜索将开始，你可以在任何桶搜索任何东西。

使用Amazon Athena查询S3桶。另外，加载数据到Amazon Elastic搜索。希望这能有所帮助。

推荐文章