我有一个Git存储库,其中包含许多子目录。现在我发现其中一个子目录与另一个子目录无关,应该分离到一个单独的存储库中。

如何在保留子目录中文件的历史记录的同时执行此操作?

我想我可以制作一个克隆并删除每个克隆中不需要的部分,但我想这会在检查旧版本等时提供完整的树。这可能是可以接受的,但我更希望能够假装这两个存储库没有共享的历史。

为了清楚起见,我有以下结构:

XYZ/
    .git/
    XY1/
    ABC/
    XY2/

但我想改为:

XYZ/
    .git/
    XY1/
    XY2/
ABC/
    .git/
    ABC/

当前回答

当使用更新版本的git(2.22+可能?)运行gitfilter分支时,它表示要使用这个新工具gitfilter repo。这个工具确实简化了我的工作。

使用过滤器回购进行过滤

根据原始问题创建XYZ回购的命令:

# create local clone of original repo in directory XYZ
tmp $ git clone git@github.com:user/original.git XYZ

# switch to working in XYZ
tmp $ cd XYZ

# keep subdirectories XY1 and XY2 (dropping ABC)
XYZ $ git filter-repo --path XY1 --path XY2

# note: original remote origin was dropped
# (protecting against accidental pushes overwriting original repo data)

# XYZ $ ls -1
# XY1
# XY2

# XYZ $ git log --oneline
# last commit modifying ./XY1 or ./XY2
# first commit modifying ./XY1 or ./XY2

# point at new hosted, dedicated repo
XYZ $ git remote add origin git@github.com:user/XYZ.git

# push (and track) remote master
XYZ $ git push -u origin master

假设:*远程XYZ回购是新的,在推送之前是空的

过滤和移动

在我的例子中,我还想移动几个目录以获得更一致的结构。最初,我运行简单的filter repo命令,然后运行git mv dir进行重命名,但我发现使用--path重命名选项可以获得稍微“更好”的历史记录。我去年(在GitHub UI中)看到的新回购中移动文件的修改时间与原始回购中的修改时间相匹配,而不是5小时前的最后一次修改。

而不是

git filter-repo --path XY1 --path XY2 --path inconsistent
git mv inconsistent XY3  # which updates last modification time

我最终跑了。。。

git filter-repo --path XY1 --path XY2 --path inconsistent --path-rename inconsistent:XY3
Notes:

我认为Git Rev News博客文章很好地解释了创建另一个回购过滤工具的原因。我最初尝试的路径是在原始存储库中创建一个与目标回购名称匹配的子目录,然后进行过滤(使用gitfilter repo--匹配新回购名称的子目录过滤器dir)。该命令正确地将该子目录转换为复制的本地repo的根目录,但它也只生成了创建子目录所需的三次提交的历史记录。(我没有意识到--路径可以多次指定;因此,不需要在源repo中创建子目录。)由于在我注意到我未能继续执行历史记录时,有人已经提交了源repo,所以我只在subdir move之前使用了git reset commit,在clone命令之后使用了,并在filter repo命令中添加了-force,以使其在稍微修改过的本地克隆上运行。

git clone ...
git reset HEAD~7 --hard      # roll back before mistake
git filter-repo ... --force  # tell filter-repo the alterations are expected

由于我不知道git的扩展模式,我在安装过程中遇到了困难,但最终我克隆了gitfilter repo并将其符号链接到$(git-exec路径):

ln -s ~/github/newren/git-filter-repo/git-filter-repo $(git --exec-path)

其他回答

更新:这个过程非常常见,git团队用一个新工具git子树简化了这个过程。请参阅此处:将子目录分离(移动)到单独的Git存储库中


您希望克隆存储库,然后使用gitfilter分支标记除要在新存储库中进行垃圾收集的子目录之外的所有内容。

要克隆本地存储库,请执行以下操作:gitclone/XYZ/ABC(注意:将使用硬链接克隆存储库,但这不是问题,因为硬链接文件本身不会被修改-将创建新的文件。)现在,让我们保留我们想要重写的有趣分支,然后删除源,以避免推到那里,并确保源不会引用旧的提交:cd/ABC对于分支1 br2 br3中的i;do git branch-t$i原点/$i;完成git远程rm源或对于所有远程分支:cd/ABC对于$中的i(git branch-r|sed“s/.*origin\///”);do git branch-t$i原点/$i;完成git远程rm源现在,您可能还想删除与子项目无关的标记;你也可以稍后再做,但你可能需要再次修剪你的repo。我没有这样做,并得到一个警告:Ref‘refs/tags/v0.1‘对于所有标签都是不变的(因为它们都与子项目无关);此外,在移除这些标签之后,将回收更多的空间。显然,gitfilter分支应该能够重写其他标记,但我无法验证这一点。如果要删除所有标记,请使用git-tag-l|xargs-git-tag-d。然后使用过滤器分支和重置来排除其他文件,以便可以对它们进行修剪。还让我们添加--tag-namefilter-cat--pruneempty以删除空提交并重写标记(注意,这将不得不去掉它们的签名):gitfilter branch--标记名filter cat--修剪空--子目录筛选器ABC----全部或者替代地,只重写HEAD分支并忽略标记和其他分支:gitfilter branch--标记名filter cat--修剪空--子目录筛选器ABC HEAD然后删除备份回流,以便真正回收空间(尽管现在操作是破坏性的)git重置--硬git for each ref--format=“%(refname)”refs/original/| xargs-n 1 git update ref-dgit reflog expire--expire=现在--全部git-gc--aggressive--prune=现在现在您有了ABC子目录的本地git存储库,并保留了其所有历史记录。

注意:对于大多数用途,gitfilter分支确实应该添加参数--all。是的,那真的是——空间——全部。这需要是命令的最后一个参数。正如Matli所发现的,这会将项目分支和标记保留在新的回购中。

编辑:以下评论中的各种建议都被纳入其中,以确保存储库实际上已经缩小(以前并非如此)。

查看git_split项目https://github.com/vangorra/git_split

在自己的位置将git目录转换为自己的存储库。没有子树有趣的业务。该脚本将获取git存储库中的现有目录,并将该目录转换为独立的存储库。在此过程中,它将复制您提供的目录的整个更改历史记录。

./git_split.sh <src_repo> <src_branch> <relative_dir_path> <dest_repo>
        src_repo  - The source repo to pull from.
        src_branch - The branch of the source repo to pull from. (usually master)
        relative_dir_path   - Relative path of the directory in the source repo to split.
        dest_repo - The repo to push to.

我确实遇到了这个问题,但所有基于gitfilter分支的标准解决方案都非常缓慢。如果你有一个小的存储库,那么这可能不是问题,这是我的问题。我基于libgit2编写了另一个git过滤程序,作为第一步,它为主存储库的每个过滤创建分支,然后作为下一步将这些分支推送到清理存储库。在我的存储库中(500Mb100000次提交),标准的gitfilter分支方法花费了几天时间。我的程序需要几分钟来完成相同的过滤。

它有一个神话般的名字git_filter,住在这里:

https://github.com/slobobaby/git_filter

在GitHub上。

我希望它对某人有用。

这不再那么复杂,您只需在repo的克隆上使用gitfilter branch命令,即可选择不需要的子目录,然后推送到新的远程。

git filter-branch --prune-empty --subdirectory-filter <YOUR_SUBDIR_TO_KEEP> master
git push <MY_NEW_REMOTE_URL> -f .

这里是对CoolAJ86的“简单方法”的一个小修改™回答,以便将多个子文件夹(假设sub1和sub2)拆分为一个新的git存储库。

简单的方法™ (多个子文件夹)

准备旧回购推送<大回购>gitfilter分支--树过滤器“mkdir<文件夹名称>;mv<sub1><sub2><文件夹名称>/”HEADgit子树拆分-P<文件夹名称>-b<新分支名称>邻苯二胺注意:<文件夹名称>不能包含前导或尾随字符。例如,名为subject的文件夹必须作为子项目传递,而不是/子项目/windows用户注意:当文件夹深度>1时,<文件夹名称>必须具有*nix样式的文件夹分隔符(/)。例如,名为path1\path2\subject的文件夹必须作为path1/path2/subject传递。此外,不要使用mvcommand,而是移动。最后一点:与基本答案的最大区别是脚本“gitfilter分支…”的第二行创建新回购mkdir<新回购>推送<新回购>初始化git pull</path/to/big repo><新分支的名称>将新回购链接到Github或任何地方git远程添加原点<git@github.com:我的用户/new repo.git>git推送原点-u主清理(如果需要)popd#退出<新回购>推送<大回购>gitrm-rf<文件夹名称>注意:这会将所有历史引用保留在存储库中。如果您确实担心提交了密码或需要减小.git文件夹的文件大小,请参阅原始答案中的附录。