将IPython笔记本保持在版本控制下的好策略是什么?

笔记本格式非常适合版本控制:如果想对笔记本和输出进行版本控制,那么这种方法非常有效。当人们只想对输入进行版本控制,而不包括单元格输出时,就会出现烦恼。“构建产品”),可以是大的二进制blob,特别是电影和情节。特别是,我试图找到一个好的工作流程:

allows me to choose between including or excluding output, prevents me from accidentally committing output if I do not want it, allows me to keep output in my local version, allows me to see when I have changes in the inputs using my version control system (i.e. if I only version control the inputs but my local file has outputs, then I would like to be able to see if the inputs have changed (requiring a commit). Using the version control status command will always register a difference since the local file has outputs.) allows me to update my working notebook (which contains the output) from an updated clean notebook. (update)

如前所述,如果我选择包含输出(例如,在使用nbviewer时,这是可取的),那么一切都没问题。问题是当我不想对输出进行版本控制时。有一些工具和脚本可以剥离笔记本的输出,但我经常遇到以下问题:

I accidentally commit a version with the the output, thereby polluting my repository. I clear output to use version control, but would really rather keep the output in my local copy (sometimes it takes a while to reproduce for example). Some of the scripts that strip output change the format slightly compared to the Cell/All Output/Clear menu option, thereby creating unwanted noise in the diffs. This is resolved by some of the answers. When pulling changes to a clean version of the file, I need to find some way of incorporating those changes in my working notebook without having to rerun everything. (update)

我已经考虑了下面将要讨论的几个选项,但是还没有找到一个好的全面的解决方案。完整的解决方案可能需要对IPython进行一些更改,或者可能依赖于一些简单的外部脚本。我目前使用mercurial,但希望有一个解决方案也能与git一起工作:一个理想的解决方案是版本控制不可知的。

这个问题已经讨论过很多次了,但是从用户的角度来看,还没有明确的解决方案。这个问题的答案应该能提供明确的策略。如果它需要IPython的最新(甚至是开发版)版本或易于安装的扩展,那是没问题的。

更新:我一直在玩我修改过的笔记本版本,它可以选择保存一个.clean版本,每次保存都使用Gregory Crosswhite的建议。这满足了我的大部分约束条件,但留下了以下问题:

This is not yet a standard solution (requires a modification of the ipython source. Is there a way of achieving this behaviour with a simple extension? Needs some sort of on-save hook. A problem I have with the current workflow is pulling changes. These will come in to the .clean file, and then need to be integrated somehow into my working version. (Of course, I can always re-execute the notebook, but this can be a pain, especially if some of the results depend on long calculations, parallel computations, etc.) I do not have a good idea about how to resolve this yet. Perhaps a workflow involving an extension like ipycache might work, but that seems a little too complicated.

笔记

移除(剥离)输出

When the notebook is running, one can use the Cell/All Output/Clear menu option for removing the output. There are some scripts for removing output, such as the script nbstripout.py which remove the output, but does not produce the same output as using the notebook interface. This was eventually included in the ipython/nbconvert repo, but this has been closed stating that the changes are now included in ipython/ipython,but the corresponding functionality seems not to have been included yet. (update) That being said, Gregory Crosswhite's solution shows that this is pretty easy to do, even without invoking ipython/nbconvert, so this approach is probably workable if it can be properly hooked in. (Attaching it to each version control system, however, does not seem like a good idea — this should somehow hook in to the notebook mechanism.)

新闻组

关于版本控制的笔记本格式的思考。

问题

977:笔记本功能请求(打开)。 1280:清除-all保存选项(打开)。(从下面的讨论。) 3295:自动导出的笔记本:只导出显式标记的单元格(关闭)。扩展解决11添加写和执行魔法(合并)。

把请求

1621: clear In[] prompt numbers on "Clear All Output" (Merged). (See also 2519 (Merged).) 1563: clear_output improvements (Merged). 3065: diff-ability of notebooks (Closed). 3291: Add the option to skip output cells when saving. (Closed). This seems extremely relevant, however was closed with the suggestion to use a "clean/smudge" filter. A relevant question what can you use if you want to strip off output before running git diff? seems not to have been answered. 3312: WIP: Notebook save hooks (Closed). 3747: ipynb -> ipynb transformer (Closed). This is rebased in 4175. 4175: nbconvert: Jinjaless exporter base (Merged). 142: Use STDIN in nbstripout if no input is given (Open).


当前回答

这是我的解决方案与git。它允许你像往常一样添加和提交(和diff):这些操作不会改变你的工作树,同时(重新)运行一个笔记本不会改变你的git历史。

虽然这可能适用于其他VSC,但我知道它不能满足您的要求(至少VSC不可知)。不过,它对我来说是完美的,尽管它没有什么特别出色的地方,而且很多人可能已经在使用它了,但我没有通过谷歌找到关于如何实现它的明确说明。所以它可能对其他人有用。

将包含此内容的文件保存在某个位置(对于下面的内容,让我们假设~/bin/ipynb_output_filter.py) (chmod +x ~/bin/ipynb_output_filter.py) 创建文件~/。Gitattributes,包含以下内容 *。ipynb过滤器= dropoutput_ipynb 执行如下命令: Git配置——全局核心。attributesfile ~ / .gitattributes Git配置——global filter.dropoutput_ipynb。干净的~ / bin / ipynb_output_filter.py Git配置——global filter.dropoutput_ipynb。涂抹的猫

完成了!

限制:

it works only with git in git, if you are in branch somebranch and you do git checkout otherbranch; git checkout somebranch, you usually expect the working tree to be unchanged. Here instead you will have lost the output and cells numbering of notebooks whose source differs between the two branches. more in general, the output is not versioned at all, as with Gregory's solution. In order to not just throw it away every time you do anything involving a checkout, the approach could be changed by storing it in separate files (but notice that at the time the above code is run, the commit id is not known!), and possibly versioning them (but notice this would require something more than a git commit notebook_file.ipynb, although it would at least keep git diff notebook_file.ipynb free from base64 garbage). that said, incidentally if you do pull code (i.e. committed by someone else not using this approach) which contains some output, the output is checked out normally. Only the locally produced output is lost.

我的解决方案反映了这样一个事实:我个人不喜欢对生成的东西进行版本控制——注意,涉及输出的合并几乎肯定会使输出或您的生产力无效,或者两者都无效。

编辑:

如果你确实采用了我建议的解决方案——也就是全局的解决方案——你会遇到一些麻烦,比如你想要版本输出的git repo。因此,如果你想禁用特定git存储库的输出过滤,只需在其中创建一个文件.git/info/attributes,使用 **ipynb过滤器=

作为内容。显然,以同样的方式也可以做相反的事情:仅为特定的存储库启用筛选。

代码现在在它自己的git repo中维护 如果上面的指令导致ImportErrors,尝试在脚本路径之前添加"ipython": Git配置——global filter.dropoutput_ipynb。清除ipython ~/bin/ipynb_output_filter.py

编辑:2016年5月(更新于2017年2月):我的脚本有几个替代方案-为了完整性,这里是我知道的列表:nbstripout(其他变体),nbstrip, jq。

其他回答

这是我的解决方案与git。它允许你像往常一样添加和提交(和diff):这些操作不会改变你的工作树,同时(重新)运行一个笔记本不会改变你的git历史。

虽然这可能适用于其他VSC,但我知道它不能满足您的要求(至少VSC不可知)。不过,它对我来说是完美的,尽管它没有什么特别出色的地方,而且很多人可能已经在使用它了,但我没有通过谷歌找到关于如何实现它的明确说明。所以它可能对其他人有用。

将包含此内容的文件保存在某个位置(对于下面的内容,让我们假设~/bin/ipynb_output_filter.py) (chmod +x ~/bin/ipynb_output_filter.py) 创建文件~/。Gitattributes,包含以下内容 *。ipynb过滤器= dropoutput_ipynb 执行如下命令: Git配置——全局核心。attributesfile ~ / .gitattributes Git配置——global filter.dropoutput_ipynb。干净的~ / bin / ipynb_output_filter.py Git配置——global filter.dropoutput_ipynb。涂抹的猫

完成了!

限制:

it works only with git in git, if you are in branch somebranch and you do git checkout otherbranch; git checkout somebranch, you usually expect the working tree to be unchanged. Here instead you will have lost the output and cells numbering of notebooks whose source differs between the two branches. more in general, the output is not versioned at all, as with Gregory's solution. In order to not just throw it away every time you do anything involving a checkout, the approach could be changed by storing it in separate files (but notice that at the time the above code is run, the commit id is not known!), and possibly versioning them (but notice this would require something more than a git commit notebook_file.ipynb, although it would at least keep git diff notebook_file.ipynb free from base64 garbage). that said, incidentally if you do pull code (i.e. committed by someone else not using this approach) which contains some output, the output is checked out normally. Only the locally produced output is lost.

我的解决方案反映了这样一个事实:我个人不喜欢对生成的东西进行版本控制——注意,涉及输出的合并几乎肯定会使输出或您的生产力无效,或者两者都无效。

编辑:

如果你确实采用了我建议的解决方案——也就是全局的解决方案——你会遇到一些麻烦,比如你想要版本输出的git repo。因此,如果你想禁用特定git存储库的输出过滤,只需在其中创建一个文件.git/info/attributes,使用 **ipynb过滤器=

作为内容。显然,以同样的方式也可以做相反的事情:仅为特定的存储库启用筛选。

代码现在在它自己的git repo中维护 如果上面的指令导致ImportErrors,尝试在脚本路径之前添加"ipython": Git配置——global filter.dropoutput_ipynb。清除ipython ~/bin/ipynb_output_filter.py

编辑:2016年5月(更新于2017年2月):我的脚本有几个替代方案-为了完整性,这里是我知道的列表:nbstripout(其他变体),nbstrip, jq。

你可以使用这个jupyter扩展。它可以让你直接上传你的ipython笔记本到github。

https://github.com/sat28/githubcommit

我还制作了一个视频来演示这些步骤 youtube链接

在删除笔记本的输出数年之后,我试图提出一个更好的解决方案。我现在使用Jupytext,这是我设计的Jupyter Notebook和Jupyter Lab的扩展。

Jupytext可以转换Jupyter笔记本到各种文本格式(脚本,Markdown和R Markdown)。反之。它还提供了将笔记本与这些格式之一配对的选项,并自动同步笔记本的两种表示形式(.ipynb和.md/.py/)。R文件)。

让我来解释一下Jupytext是如何回答上述问题的:

允许我在包含或不包含输出之间进行选择,

。海事/ . py。R文件只包含输入单元格。您应该始终跟踪该文件。只有在希望跟踪输出时,才对.ipynb文件进行版本控制。

防止我不小心提交输出,如果我不想要它,

将 *.ipynb 添加到 .gitignore

允许我保持本地版本的输出,

输出保存在(local) .ipynb文件中

允许我看到当我使用我的版本控制系统在输入中有变化时(即,如果我只控制输入,但我的本地文件有输出,那么我希望能够看到输入是否发生了变化(需要提交)。使用版本控制状态命令将总是注册一个差异,因为本地文件有输出。)

.py/。R或。md文件是你要找的

允许我从更新的干净笔记本更新我的工作笔记本(其中包含输出)。(更新)

获取.py/. xml文件的最新修订版本。R或。md文件,并刷新你的笔记本在Jupyter (Ctrl+R)。您将从文本文件中获得最新的输入单元格,并从.ipynb文件中获得匹配的输出。内核不受影响,这意味着您的局部变量被保留-您可以继续在离开它的地方工作。

我喜欢Jupytext的地方是它的笔记本(以.py/。R或.md文件)可以在您喜欢的IDE中编辑。使用这种方法,重构笔记本变得很容易。一旦你完成了,你只需要在Jupyter刷新笔记本。

如果你想尝试一下:安装Jupytext与pip安装Jupytext并重新启动你的Jupyter笔记本或实验室编辑器。打开要进行版本控制的笔记本,并使用Jupyter notebook中的Jupytext菜单(或Jupyter Lab中的Jupytext命令)将其配对到Markdown文件(或脚本)。保存您的笔记本,您将得到两个文件:原始的.ipynb,加上承诺的笔记本文本表示,这非常适合版本控制!

对于那些可能感兴趣的人:在命令行上也可以使用Jupytext。

我们有一个合作项目,产品是Jupyter notebook,我们在过去六个月里使用了一种非常有效的方法:我们自动激活保存。py文件,并跟踪。ipynb文件和。py文件。

这样,如果有人想查看/下载最新的笔记本,他们可以通过github或nbviewer来完成,如果有人想查看笔记本代码是如何更改的,他们可以只查看.py文件的更改。

对于Jupyter笔记本服务器,可以通过添加这些行来实现

import os
from subprocess import check_call

def post_save(model, os_path, contents_manager):
    """post-save hook for converting notebooks to .py scripts"""
    if model['type'] != 'notebook':
        return # only do this for notebooks
    d, fname = os.path.split(os_path)
    check_call(['jupyter', 'nbconvert', '--to', 'script', fname], cwd=d)

c.FileContentsManager.post_save_hook = post_save

到jupyter_notebook_config.py文件并重新启动笔记本服务器。

如果你不确定在哪个目录中找到你的jupyter_notebook_config.py文件,你可以输入jupyter——config-dir,如果你没有找到这个文件,你可以输入jupyter notebook——generate-config来创建它。

对于Ipython 3笔记本服务器,可以通过添加这些行来实现

import os
from subprocess import check_call

def post_save(model, os_path, contents_manager):
    """post-save hook for converting notebooks to .py scripts"""
    if model['type'] != 'notebook':
        return # only do this for notebooks
    d, fname = os.path.split(os_path)
    check_call(['ipython', 'nbconvert', '--to', 'script', fname], cwd=d)

c.FileContentsManager.post_save_hook = post_save

到ipython_notebook_config.py文件并重新启动笔记本服务器。这些句子来自github问题的答案@minrk提供和@dror包括他们在他的SO回答以及。

对于Ipython 2笔记本服务器,可以通过使用以下命令启动服务器来完成:

ipython notebook --script

或者加上这条直线

c.FileNotebookManager.save_script = True

到ipython_notebook_config.py文件并重新启动笔记本服务器。

如果您不确定在哪个目录中找到您的ipython_notebook_config.py文件,您可以键入ipython locate profile default,如果您在那里没有找到该文件,您可以键入ipython profile create来创建它。

这是我们在github上使用这种方法的项目:这是一个github上探索笔记本电脑最近变化的例子。

我们对此非常满意。

好吧,所以看起来目前最好的解决方案,根据这里的讨论,是使一个git过滤器自动剥离ipynb文件提交的输出。

以下是我让它工作的方法(摘自讨论):

我稍微修改了cfriedline的nbstripout文件,当你不能导入最新的IPython时,会给出一个提示性错误: https://github.com/petered/plato/blob/fb2f4e252f50c79768920d0e47b870a8d799e92b/notebooks/config/strip_notebook_output 并将它添加到我的repo中,比如在。/relative/path/to/strip_notebook_output中

还添加了文件.gitattributes文件到repo的根目录,包含:

*.ipynb filter=stripoutput

并创建了setup_git_filters.sh,其中包含

git config filter.stripoutput.clean "$(git rev-parse --show-toplevel)/relative/path/to/strip_notebook_output" 
git config filter.stripoutput.smudge cat
git config filter.stripoutput.required true

并运行source setup_git_filters.sh。花哨的$(git rev-parse…)事情是找到你的回购在任何(Unix)机器上的本地路径。