下载整个S3存储桶?

我注意到似乎没有从AWS管理控制台下载整个s3桶的选项。

有什么简单的方法可以把所有东西都装进我的桶里吗?我正在考虑使根文件夹公共，使用wget抓取它，然后再次使它私有，但我不知道是否有更简单的方法。

当前回答

AWS CLI

有关更多信息，请参阅“AWS CLI命令参考”。

AWS最近发布了他们的命令行工具，它的工作原理很像boto，可以使用

sudo easy_install awscli

sudo pip install awscli

安装完成后，您可以简单地运行:

aws s3 sync s3://<source_bucket> <local_destination>

例如:

aws s3 sync s3://mybucket .

将mybucket中的所有对象下载到当前目录。

并输出:

download: s3://mybucket/test.txt to test.txt
download: s3://mybucket/test2.txt to test2.txt

这将使用单向同步下载您的所有文件。它不会删除当前目录中的任何现有文件，除非您指定了——delete，而且它不会更改或删除S3上的任何文件。

您还可以进行S3桶到S3桶的同步，或本地到S3桶的同步。

请查看文档和其他示例。

虽然上面的示例是如何下载完整的存储桶，但您也可以通过执行下面的操作递归地下载文件夹

aws s3 cp s3://BUCKETNAME/PATH/TO/FOLDER LocalFolderName --recursive

这将指示CLI递归下载BUCKETNAME桶中的PATH/ to / folder目录中的所有文件和文件夹键。

其他回答

除了关于aws s3同步的建议外，我还建议查看s5cmd。

根据我的经验，我发现对于多次下载或大规模下载，这比AWS CLI要快得多。

S5cmd支持通配符，这样可以工作:

S5cmd cp s3://桶名/* ./文件夹

你可以使用s3cmd下载你的桶:

s3cmd --configure
s3cmd sync s3://bucketnamehere/folder /destination/folder

您可以使用另一种名为rclone的工具。这是Rclone文档中的一个代码示例:

rclone sync /home/local/directory remote:bucket

我已经为S3做了一些开发，我还没有找到一个简单的方法来下载整个存储桶。

如果您想用Java编写代码，那么jets3t库很容易用于创建存储桶列表并遍历该列表以下载它们。

首先，从AWS管理咨询器获取一个公共私钥集，这样您就可以创建一个S3service对象:

AWSCredentials awsCredentials = new AWSCredentials(YourAccessKey, YourAwsSecretKey);
s3Service = new RestS3Service(awsCredentials);

然后，获取bucket对象的数组:

S3Object[] objects = s3Service.listObjects(YourBucketNameString);

最后，遍历该数组，每次下载一个对象:

S3Object obj = s3Service.getObject(bucket, fileName);
            file = obj.getDataInputStream();

我把连接代码放在线程安全的单例中。由于显而易见的原因，省略了必要的try/catch语法。

如果你更愿意用Python编写代码，你可以使用Boto。

在查看BucketExplorer之后，“下载整个桶”可能会满足你的需要。

aws s3 sync s3://<source_bucket> <local_destination>

是一个很好的答案，但它不会工作，如果对象在存储类冰川灵活检索，即使文件已经恢复。在这种情况下，你需要添加标志——force-glacier-transfer。

您可以使用MinIO客户端执行以下操作:mc cp -r https://s3-us-west-2.amazonaws.com/bucketName/ localdir

MinIO还支持会话、断点续传下载、上传等等。MinIO支持Linux、OS X和Windows操作系统。它是用Golang编写的，在Apache Version 2.0下发布。

推荐文章