我的Git存储库在根目录下有两个子目录:
/finisht
/static
当这是在SVN中时,/finisht在一个地方签出,而/static在其他地方签出了,如下所示:
svn co svn+ssh://admin@domain.example/home/admin/repos/finisht/static static
有没有办法用Git做到这一点?
我的Git存储库在根目录下有两个子目录:
/finisht
/static
当这是在SVN中时,/finisht在一个地方签出,而/static在其他地方签出了,如下所示:
svn co svn+ssh://admin@domain.example/home/admin/repos/finisht/static static
有没有办法用Git做到这一点?
当前回答
@Chronial的anwser不再适用于最近的版本,但它是一个有用的Anwsr,因为它提出了一个脚本。
考虑到我收集的信息以及我只想签出分支的子目录这一事实,我创建了以下shell函数。它只获取分支中提供的目录的最新版本的浅拷贝。
function git_sparse_clone_branch() (
rurl="$1" localdir="$2" branch="$3" && shift 3
git clone "$rurl" --branch "$branch" --no-checkout "$localdir" --depth 1 # limit history
cd "$localdir"
# git sparse-checkout init --cone # fetch only root file
# Loops over remaining args
for i; do
git sparse-checkout set "$i"
done
git checkout "$branch"
)
因此,示例使用:
git_sparse_clone_branch git@github.com:user/repo.git localpath branch-to-clone path1_to_fetch path2_to_fetch
在我的案例中,克隆“仅”为23MB,而完整克隆为385MB。
使用git版本2.36.1进行测试。
其他回答
这里有很多很棒的回复,但我想补充一点,在Windows Sever 2016上,使用目录名周围的引号对我来说是失败的。这些文件根本没有被下载。
而不是
"mydir/myfolder"
我不得不使用
mydir/myfolder
此外,如果您想简单地下载所有子目录,只需使用
git sparse-checkout set *
仅使用Git是不可能克隆子目录的,但以下是一些解决方法。
过滤器分支
您可能希望重写存储库,使其看起来像trunk/public_html/是它的项目根,并放弃所有其他历史记录(使用过滤器分支),尝试已经签出的分支:
git filter-branch --subdirectory-filter trunk/public_html -- --all
注意:--将筛选器分支选项与修订选项分开,--all用于重写所有分支和标记。将保留所有信息,包括原始提交时间或合并信息。此命令接受refs/replace/namespace中的.git/info/places文件和ref,因此如果定义了任何移植或替换ref,运行此命令将使其永久化。
警告重写的历史将对所有对象具有不同的对象名称,并且不会与原始分支汇合。您将无法在原始分支的顶部轻松推送和分发重写的分支。如果您不知道完整的含义,请不要使用此命令,如果一次简单的提交就足以解决您的问题,请避免使用它。
稀疏校验
以下是稀疏签出方法的简单步骤,它将稀疏地填充工作目录,因此您可以告诉Git工作目录中的哪个文件夹或文件值得签出。
照常克隆存储库(--不选择签出):gitclone--不签出git@foo/巴.吉特cd条如果已经克隆了存储库,则可以跳过此步骤。提示:对于大型回购,请考虑浅层克隆(--depth 1)以仅签出最新版本或/和--仅签出单个分支。启用spareCheckout选项:git-config-core.sparseCheckout true指定用于稀疏签出的文件夹(末尾没有空格):echo“trunk/public_html/*”>.git/info/s稀疏签出或edit.git/info/s稀疏签出。签出分支(例如主分支):切换到主分支
现在,您应该在当前目录中选择了文件夹。
如果有太多级别的目录或过滤分支,可以考虑使用符号链接。
degit制作git存储库的副本。当您运行degit时一些用户/一些repo,它将在https://github.com/some-user/some-repo并下载相关的tar文件到~/.degit/some user/some repo/commithash.tar.gz(如果没有)已在本地存在。(这比使用git clone快得多,因为你没有下载整个git历史记录。)
degit <https://github.com/user/repo/subdirectory> <output folder>
了解更多信息https://www.npmjs.com/package/degit
gitclone--filter+git稀疏签出仅下载所需文件
例如,要仅克隆子目录small/中的文件,请执行以下操作:https://github.com/cirosantilli/test-git-partial-clone-big-small
git clone --depth 1 --filter=blob:none --sparse \
https://github.com/cirosantilli/test-git-partial-clone-big-small
cd test-git-partial-clone-big-small
git sparse-checkout set small
测试存储库包含:
包含10x 10MB文件的大/子目录一个小/子目录,包含1000个大小为1字节的文件
所有内容都是伪随机的,因此不可压缩。
36.4 Mbps互联网上的克隆时间:
满:24秒部分:“瞬时”
2021 1月在git 2.30.0上测试。可能适用于Git 2.25或2.19。
--filter选项是与远程协议的更新一起添加的,它确实防止了从服务器下载对象。
不幸的是,也需要稀疏的结账部分。您也只能下载更容易理解的某些文件:
git clone --depth 1 --filter=blob:none --no-checkout \
https://github.com/cirosantilli/test-git-partial-clone-big-small
cd test-git-partial-clone-big-small
git checkout master -- d1
但由于某些原因,该方法会非常缓慢地逐个下载文件,使其无法使用,除非目录中的文件非常少。
可以在以下位置看到更多的最小测试回购:https://github.com/cirosantilli/test-git-partial-clone
TODO:始终下载根目录上的文件
例如:
git clone --depth 1 --filter=blob:none --sparse \
https://github.com/cirosantilli/test-git-partial-clone-big-small
下载文件generate.sh,并将包含根目录中的任何其他文件。子目录是小/和大/,但不包括根目录。如何防止Git下载根目录中的文件?
问:如何防止gitclone--filter=blob:none--sparse下载根目录上的文件?
分析最小存储库中的对象
clone命令仅获得:
带有主分支尖端的单个提交对象存储库的所有4个树对象:提交的顶层目录三个目录d1、d2、master
然后,git稀疏签出集命令仅从服务器获取丢失的Blob(文件):
第1天/a第1天/b
更好的是,稍后GitHub可能会开始支持:
--filter=blob:none \
--filter=tree:0 \
其中,来自Git2.20的--filter=tree:0将防止对所有树对象进行不必要的克隆提取,并允许将其延迟到签出。但在我2020-09-18年的测试中,失败了:
fatal: invalid filter-spec 'combine:blob:none+tree:0'
可能是因为--filter=combine:composite过滤器(在Git 2.24中添加,由多个--filter暗示)尚未实现。
我观察了哪些对象是通过以下方式获取的:
git verify-pack -v .git/objects/pack/*.pack
如上所述:如何列出数据库中的所有git对象?它并没有给我一个非常清晰的指示,说明每个对象到底是什么,但它确实说明了每个对象的类型(commit、tree、blob),因为在这个最小的repo中对象太少,所以我可以明确地推断出每个对象是什么。
git-rev-list——对象——所有这些都产生了更清晰的树/blob路径输出,但不幸的是,当我运行它时,它获取了一些对象,这使得很难确定何时获取了什么,如果有人有更好的命令,请告诉我。
TODO发现GitHub的声明是在他们开始支持它的时候发布的。https://github.blog/2020-01-17-bring-your-monorepo-down-to-size-with-sparse-checkout/2020-01-17中已经提到了过滤器blob:none。
git稀疏校验
我认为这个命令是为了管理一个设置文件,该文件显示“我只关心这些子树”,这样以后的命令只会影响这些子树。但这有点难以确定,因为当前的文档有点。。。稀疏;-)
它本身并不阻止获取Blob。
如果这种理解是正确的,那么这将是对上面描述的gitclone过滤器的一个很好的补充,因为如果您打算在部分克隆的repo中执行git操作,它将防止无意中获取更多对象。
当我尝试Git 2.25.1时:
git clone \
--depth 1 \
--filter=blob:none \
--no-checkout \
https://github.com/cirosantilli/test-git-partial-clone \
;
cd test-git-partial-clone
git sparse-checkout init
它不起作用,因为init实际上提取了所有对象。
然而,在Git 2.28中,它没有按要求获取对象。但如果我这样做:
git sparse-checkout set d1
d1不被提取和检出,即使这明确表示它应该:https://github.blog/2020-01-17-bring-your-monorepo-down-to-size-with-sparse-checkout/#sparse-签出和部分克隆带有免责声明:
请注意部分克隆功能是否会普遍可用[1]。[1] :GitHub仍在内部评估这一功能,但它在少数几个存储库上启用(包括本文中使用的示例)。随着功能的稳定和成熟,我们将随时向您更新其进展。
所以,是的,现在很难确定,部分原因是GitHub是开源的。但让我们继续关注它。
命令分解
服务器应配置有:
git config --local uploadpack.allowfilter 1
git config --local uploadpack.allowanysha1inwant 1
命令分解:
--filter=blob:无跳过所有blob,但仍获取所有树对象--filter=树:0跳过不需要的树:https://www.spinics.net/lists/git/msg342006.html--深度1已经暗示了--单个分支,另请参见:如何在Git中克隆单个分支?file://$(path)是克服git克隆协议的必要条件:如何用相对路径浅层克隆本地git存储库?--filter=combine:FILTER1+FILTER2是同时使用多个过滤器的语法,试图通过--filter由于某些原因失败:“不能组合多个过滤器规格”。这是在Git 2.24的e987df5fe62b8b29be4cdcdeb3704681ada2b29e“列表对象过滤器:实现复合过滤器”中添加的编辑:在Git 2.28上,我通过实验发现--filter=FILTER1--filter FILTER2也有同样的效果,因为截至2020-09-18,GitHub还没有实现combine:,并抱怨致命:过滤器规范'combine:blob:none+tree:0'无效。TODO在哪个版本中引入?
--filter的格式记录在man git rev列表中。
Git树上的文档:
https://github.com/git/git/blob/v2.19.0/Documentation/technical/partial-clone.txthttps://github.com/git/git/blob/v2.19.0/Documentation/rev-list-options.txt#L720https://github.com/git/git/blob/v2.19.0/t/t5616-partial-clone.sh
在本地测试
以下脚本可复制地生成https://github.com/cirosantilli/test-git-partial-clone本地存储库,执行本地克隆,并观察克隆的内容:
#!/usr/bin/env bash
set -eu
list-objects() (
git rev-list --all --objects
echo "master commit SHA: $(git log -1 --format="%H")"
echo "mybranch commit SHA: $(git log -1 --format="%H")"
git ls-tree master
git ls-tree mybranch | grep mybranch
git ls-tree master~ | grep root
)
# Reproducibility.
export GIT_COMMITTER_NAME='a'
export GIT_COMMITTER_EMAIL='a'
export GIT_AUTHOR_NAME='a'
export GIT_AUTHOR_EMAIL='a'
export GIT_COMMITTER_DATE='2000-01-01T00:00:00+0000'
export GIT_AUTHOR_DATE='2000-01-01T00:00:00+0000'
rm -rf server_repo local_repo
mkdir server_repo
cd server_repo
# Create repo.
git init --quiet
git config --local uploadpack.allowfilter 1
git config --local uploadpack.allowanysha1inwant 1
# First commit.
# Directories present in all branches.
mkdir d1 d2
printf 'd1/a' > ./d1/a
printf 'd1/b' > ./d1/b
printf 'd2/a' > ./d2/a
printf 'd2/b' > ./d2/b
# Present only in root.
mkdir 'root'
printf 'root' > ./root/root
git add .
git commit -m 'root' --quiet
# Second commit only on master.
git rm --quiet -r ./root
mkdir 'master'
printf 'master' > ./master/master
git add .
git commit -m 'master commit' --quiet
# Second commit only on mybranch.
git checkout -b mybranch --quiet master~
git rm --quiet -r ./root
mkdir 'mybranch'
printf 'mybranch' > ./mybranch/mybranch
git add .
git commit -m 'mybranch commit' --quiet
echo "# List and identify all objects"
list-objects
echo
# Restore master.
git checkout --quiet master
cd ..
# Clone. Don't checkout for now, only .git/ dir.
git clone --depth 1 --quiet --no-checkout --filter=blob:none "file://$(pwd)/server_repo" local_repo
cd local_repo
# List missing objects from master.
echo "# Missing objects after --no-checkout"
git rev-list --all --quiet --objects --missing=print
echo
echo "# Git checkout fails without internet"
mv ../server_repo ../server_repo.off
! git checkout master
echo
echo "# Git checkout fetches the missing directory from internet"
mv ../server_repo.off ../server_repo
git checkout master -- d1/
echo
echo "# Missing objects after checking out d1"
git rev-list --all --quiet --objects --missing=print
GitHub上游。
Git v2.19.0中的输出:
# List and identify all objects
c6fcdfaf2b1462f809aecdad83a186eeec00f9c1
fc5e97944480982cfc180a6d6634699921ee63ec
7251a83be9a03161acde7b71a8fda9be19f47128
62d67bce3c672fe2b9065f372726a11e57bade7e
b64bf435a3e54c5208a1b70b7bcb0fc627463a75 d1
308150e8fddde043f3dbbb8573abb6af1df96e63 d1/a
f70a17f51b7b30fec48a32e4f19ac15e261fd1a4 d1/b
84de03c312dc741d0f2a66df7b2f168d823e122a d2
0975df9b39e23c15f63db194df7f45c76528bccb d2/a
41484c13520fcbb6e7243a26fdb1fc9405c08520 d2/b
7d5230379e4652f1b1da7ed1e78e0b8253e03ba3 master
8b25206ff90e9432f6f1a8600f87a7bd695a24af master/master
ef29f15c9a7c5417944cc09711b6a9ee51b01d89
19f7a4ca4a038aff89d803f017f76d2b66063043 mybranch
1b671b190e293aa091239b8b5e8c149411d00523 mybranch/mybranch
c3760bb1a0ece87cdbaf9a563c77a45e30a4e30e
a0234da53ec608b54813b4271fbf00ba5318b99f root
93ca1422a8da0a9effc465eccbcb17e23015542d root/root
master commit SHA: fc5e97944480982cfc180a6d6634699921ee63ec
mybranch commit SHA: fc5e97944480982cfc180a6d6634699921ee63ec
040000 tree b64bf435a3e54c5208a1b70b7bcb0fc627463a75 d1
040000 tree 84de03c312dc741d0f2a66df7b2f168d823e122a d2
040000 tree 7d5230379e4652f1b1da7ed1e78e0b8253e03ba3 master
040000 tree 19f7a4ca4a038aff89d803f017f76d2b66063043 mybranch
040000 tree a0234da53ec608b54813b4271fbf00ba5318b99f root
# Missing objects after --no-checkout
?f70a17f51b7b30fec48a32e4f19ac15e261fd1a4
?8b25206ff90e9432f6f1a8600f87a7bd695a24af
?41484c13520fcbb6e7243a26fdb1fc9405c08520
?0975df9b39e23c15f63db194df7f45c76528bccb
?308150e8fddde043f3dbbb8573abb6af1df96e63
# Git checkout fails without internet
fatal: '/home/ciro/bak/git/test-git-web-interface/other-test-repos/partial-clone.tmp/server_repo' does not appear to be a git repository
fatal: Could not read from remote repository.
Please make sure you have the correct access rights
and the repository exists.
# Git checkout fetches the missing directory from internet
remote: Enumerating objects: 1, done.
remote: Counting objects: 100% (1/1), done.
remote: Total 1 (delta 0), reused 0 (delta 0)
Receiving objects: 100% (1/1), 45 bytes | 45.00 KiB/s, done.
remote: Enumerating objects: 1, done.
remote: Counting objects: 100% (1/1), done.
remote: Total 1 (delta 0), reused 0 (delta 0)
Receiving objects: 100% (1/1), 45 bytes | 45.00 KiB/s, done.
# Missing objects after checking out d1
?8b25206ff90e9432f6f1a8600f87a7bd695a24af
?41484c13520fcbb6e7243a26fdb1fc9405c08520
?0975df9b39e23c15f63db194df7f45c76528bccb
结论:d1/以外的所有斑点均缺失。例如,0975df9b39e23c15f63db194df7f45c76528bccb,即d2/b,在签出d1/a后不存在。
注意,root/root和mybranch/mybranch也丢失了,但是--depth 1从丢失的文件列表中隐藏了它们。如果删除--depth 1,则它们将显示在丢失文件列表中。
我有一个梦想
这个功能可能会彻底改变Git。
想象一下,将企业的所有代码库放在一个单回购中,而没有像回购这样丑陋的第三方工具。
想象一下,在没有任何难看的第三方扩展的情况下,直接在回购中存储巨大的区块。
想象一下,如果GitHub允许每个文件/目录的元数据(如星星和权限),那么您可以将所有个人资料存储在一个存储库中。
想象一下,如果子模块被完全像常规目录一样对待:只需请求一个树SHA,类似DNS的机制就可以解决您的请求,首先查看您的本地~/.git,然后再查看更近的服务器(您企业的镜像/缓存),最后在GitHub上结束。
我有一个梦想。
它对我有用-(git版本2.35.1)
git init
git remote add origin <YourRepoUrl>
git config core.sparseCheckout true
git sparse-checkout set <YourSubfolderName>
git pull origin <YourBranchName>