我有一个300mb的git回购。我目前签出的文件的总大小是2 MB,其余的git回购的总大小是298 MB。这基本上是一个只有代码的回购,不应该超过几MB。
我怀疑有人不小心提交了一些大文件(视频、图像等),然后删除了它们……但不是从git,所以历史仍然包含无用的大文件。如何在git历史中找到大文件?有400多个提交,所以一个接一个的提交是不实际的。
注意:我的问题不是关于如何删除文件,而是如何在第一时间找到它。
我有一个300mb的git回购。我目前签出的文件的总大小是2 MB,其余的git回购的总大小是298 MB。这基本上是一个只有代码的回购,不应该超过几MB。
我怀疑有人不小心提交了一些大文件(视频、图像等),然后删除了它们……但不是从git,所以历史仍然包含无用的大文件。如何在git历史中找到大文件?有400多个提交,所以一个接一个的提交是不实际的。
注意:我的问题不是关于如何删除文件,而是如何在第一时间找到它。
当前回答
像这样使用git-filter-repo的——analyze特性:
$ cd my-repo-folder
$ git-filter-repo --analyze
$ less .git/filter-repo/analysis/path-all-sizes.txt
其他回答
像这样使用git-filter-repo的——analyze特性:
$ cd my-repo-folder
$ git-filter-repo --analyze
$ less .git/filter-repo/analysis/path-all-sizes.txt
你应该使用BFG Repo-Cleaner。
根据该网站:
BFG是一个更简单、更快的git-filter-branch的替代方案 清除Git存储库历史中的坏数据: 删除疯狂的大文件 删除密码,凭证和其他私人数据
减少存储库大小的经典过程是:
git clone --mirror git://example.com/some-big-repo.git
java -jar bfg.jar --strip-biggest-blobs 500 some-big-repo.git
cd some-big-repo.git
git reflog expire --expire=now --all
git gc --prune=now --aggressive
git push
我在苏黎世联邦理工学院物理系的维基页面上找到了一个简单的解决方案(接近该页的末尾)。只要做个git垃圾收集,把垃圾清除掉,然后
git rev-list --objects --all \
| grep "$(git verify-pack -v .git/objects/pack/*.idx \
| sort -k 3 -n \
| tail -10 \
| awk '{print$1}')"
将为您提供存储库中最大的10个文件。
现在还有一个更懒的解决方案,GitExtensions现在有一个插件,可以在UI中做到这一点(以及处理历史重写)。
如何在git历史记录中追踪大文件?
从分析、确认和选择根本原因开始。使用git-repo-analysis来提供帮助。
你也可以在BFG Repo-Cleaner生成的详细报告中找到一些价值,它可以通过克隆到数字海洋液滴,使用10MiB/s的网络吞吐量快速运行。
我无法使用最流行的答案,因为Git 1.8.3(我必须使用)的——batch-check命令行开关不接受任何参数。下面的步骤已经在CentOS 6.5和Bash 4.1.2上进行了尝试
关键概念
在Git中,术语blob表示文件的内容。请注意,提交可能会更改文件或路径名的内容。因此,根据提交的不同,同一个文件可以引用不同的blob。在一次提交中,某个文件可能是目录层次结构中的最大文件,而在另一次提交中则不是。因此,寻找大提交而不是大文件的问题将问题置于正确的角度。
对于没有耐心的人
按大小降序打印blob列表的命令是:
git cat-file --batch-check < <(git rev-list --all --objects | \
awk '{print $1}') | grep blob | sort -n -r -k 3
样例输出:
3a51a45e12d4aedcad53d3a0d4cf42079c62958e blob 305971200
7c357f2c2a7b33f939f9b7125b155adbd7890be2 blob 289163620
要删除这样的斑点,使用BFG Repo Cleaner,如在其他答案中提到的。给定一个只包含blob哈希值的文件blobs.txt,例如:
3a51a45e12d4aedcad53d3a0d4cf42079c62958e
7c357f2c2a7b33f939f9b7125b155adbd7890be2
Do:
java -jar bfg.jar -bi blobs.txt <repo_dir>
这个问题是关于查找提交的,这比查找blob要复杂得多。要知道,请继续往下读。
进一步的工作
给定一个提交哈希值,打印与之相关的所有对象(包括blob)的哈希值的命令是:
git ls-tree -r --full-tree <commit_hash>
所以,如果我们在repo中所有提交都有这样的输出,那么给定一个blob哈希,一堆提交就是那些匹配任何输出的。这个想法被编码在下面的脚本中:
#!/bin/bash
DB_DIR='trees-db'
find_commit() {
cd ${DB_DIR}
for f in *; do
if grep -q $1 ${f}; then
echo ${f}
fi
done
cd - > /dev/null
}
create_db() {
local tfile='/tmp/commits.txt'
mkdir -p ${DB_DIR} && cd ${DB_DIR}
git rev-list --all > ${tfile}
while read commit_hash; do
if [[ ! -e ${commit_hash} ]]; then
git ls-tree -r --full-tree ${commit_hash} > ${commit_hash}
fi
done < ${tfile}
cd - > /dev/null
rm -f ${tfile}
}
create_db
while read id; do
find_commit ${id};
done
如果内容保存在一个名为find-commit .sh的文件中,那么典型的调用将如下所示:
cat blobs.txt | find-commits.sh
和前面一样,文件blobs.txt列出了blob哈希值,每行一个。create_db()函数将所有提交清单的缓存保存在当前目录的子目录中。
我在一个系统上做了一些实验,这个系统有两个Intel(R) Xeon(R) CPU E5-2620 2.00GHz处理器,由操作系统提供24个虚拟核:
在repo中提交的总数=近11000 文件创建速度= 126个文件/秒。该脚本每次提交创建一个文件。这只在第一次创建缓存时发生。 缓存创建开销= 87秒。 平均搜索速度= 522次提交/秒。缓存优化使运行时间减少了80%。
注意,脚本是单线程的。因此,在任何时候只能使用一个核心。