在GitHub存储库中,你可以看到“语言统计”,它显示了用某种语言编写的项目的百分比。但是,它不显示项目由多少行代码组成。通常,我想快速了解项目的规模和复杂性,而代码行数可以给人留下良好的第一印象。500行代码意味着一个相对简单的项目,10万行代码意味着一个非常大/复杂的项目。

那么,是否有可能从GitHub存储库中获得以各种语言编写的代码行,最好不克隆它?


“计算git存储库中的行数”问题询问如何计算本地git存储库中的代码行数,但是:

你必须克隆这个项目,这可能是巨大的。例如,克隆Wine这样的项目需要很长时间。 你可以计算文件中不一定是代码的行数,比如i13n文件。 如果您只计算(例如)Ruby文件,那么您可能会错过大量其他语言的代码,比如JavaScript。您必须事先知道项目使用哪些语言。您还必须为项目使用的每种语言重复计数。

总而言之,这对于“快速检查项目规模”来说可能太费时了。


当前回答

你可以使用git clone—depth 1 <url>克隆最新的提交,然后使用Github使用的相同软件Linguist执行自己的分析。这是我知道你能得到代码行数的唯一方法。

另一种选择是使用API列出项目使用的语言。不是以行为单位,而是以字节为单位。例如……

$ curl https://api.github.com/repos/evalEmpire/perl5i/languages
{
  "Perl": 274835
}

虽然这是有保留地,但该项目包括YAML和JSON,这是网站承认的,但API不承认。

最后,您可以使用代码搜索来询问哪些文件与给定的语言匹配。这个例子询问perl5i中的哪些文件是Perl文件。https://api.github.com/search/code?q=language: perl +回购:evalEmpire / perl5i。它不会为您提供行,您必须使用每个文件返回的url分别询问文件大小。

其他回答

将每个文件中行数的输出通过管道进行排序,以按行数组织文件。 Git ls-files | xargs wc -l |sort -n

你可以使用git clone—depth 1 <url>克隆最新的提交,然后使用Github使用的相同软件Linguist执行自己的分析。这是我知道你能得到代码行数的唯一方法。

另一种选择是使用API列出项目使用的语言。不是以行为单位,而是以字节为单位。例如……

$ curl https://api.github.com/repos/evalEmpire/perl5i/languages
{
  "Perl": 274835
}

虽然这是有保留地,但该项目包括YAML和JSON,这是网站承认的,但API不承认。

最后,您可以使用代码搜索来询问哪些文件与给定的语言匹配。这个例子询问perl5i中的哪些文件是Perl文件。https://api.github.com/search/code?q=language: perl +回购:evalEmpire / perl5i。它不会为您提供行,您必须使用每个文件返回的url分别询问文件大小。

你可以使用GitHub API像下面的函数一样获得sloc

function getSloc(repo, tries) {

    //repo is the repo's path
    if (!repo) {
        return Promise.reject(new Error("No repo provided"));
    }

    //GitHub's API may return an empty object the first time it is accessed
    //We can try several times then stop
    if (tries === 0) {
        return Promise.reject(new Error("Too many tries"));
    }

    let url = "https://api.github.com/repos" + repo + "/stats/code_frequency";

    return fetch(url)
        .then(x => x.json())
        .then(x => x.reduce((total, changes) => total + changes[1] + changes[2], 0))
        .catch(err => getSloc(repo, tries - 1));
}

我个人做了一个chrome扩展,显示在github项目列表和项目详细页面SLOC的数量。您还可以设置您的个人访问令牌来访问私有存储库并绕过api速率限制。

你可以从这里下载https://chrome.google.com/webstore/detail/github-sloc/fkjjjamhihnjmihibcmdnianbcbccpnn

源代码可在这里https://github.com/martianyi/github-sloc

您可以使用sourcegraph,这是一个开放源代码的代码搜索引擎。它可以连接到你的GitHub帐户,索引内容,然后在管理部分,你会看到索引的代码行数。

如果您转到图表/贡献者页面,您可以看到回购的所有贡献者的列表,以及他们添加和删除了多少行。

除非我遗漏了什么,否则从所有贡献者中添加的总行数中减去删除的总行数应该得到repo中代码的总行数。(编辑:事实证明,我还是错过了一些东西。详情请看orbitbot的评论。)

更新:

这些数据也可以在GitHub的API中找到。所以我写了一个快速脚本来获取数据并进行计算:

'use strict'; async function countGithub(repo) { const response = await fetch(`https://api.github.com/repos/${repo}/stats/contributors`) const contributors = await response.json(); const lineCounts = contributors.map(contributor => ( contributor.weeks.reduce((lineCount, week) => lineCount + week.a - week.d, 0) )); const lines = lineCounts.reduce((lineTotal, lineCount) => lineTotal + lineCount); window.alert(lines); } countGithub('jquery/jquery'); // or count anything you like

只需将其粘贴到Chrome DevTools代码片段中,更改repo并单击运行。

免责声明(感谢lovasoa):

对这种方法的结果持保留态度,因为对于一些回购(sorich87/bootstrap-tour),它的结果是负值,这可能表明从GitHub的API返回的数据有问题。

更新:

看起来这种计算总行数的方法并不完全可靠。详情请看orbitbot的评论。