熊猫操作期间的进度指标

我经常在超过1500万行左右的数据帧上执行pandas操作，我希望能够访问特定操作的进度指示器。

是否存在基于文本的熊猫分裂-应用-组合操作进度指示器?

例如:

df_users.groupby(['userID', 'requestDate']).apply(feature_rollup)

其中feature_rollup是一个有点复杂的函数，它采用许多DF列，并通过各种方法创建新的用户列。对于大数据帧，这些操作可能需要一段时间，所以我想知道是否有可能在iPython笔记本中有基于文本的输出，以更新我的进度。

到目前为止，我已经尝试了Python的规范循环进度指示器，但它们没有以任何有意义的方式与pandas交互。

我希望在pandas库/文档中有一些我忽略了的东西，可以让人们了解分裂-应用-组合的进展。一个简单的实现可能会查看apply函数正在处理的数据帧子集的总数，并将进度报告为这些子集的完成部分。

这可能是需要添加到库中的东西吗?

当前回答

你可以很容易地用装饰器做到这一点

from functools import wraps 

def logging_decorator(func):

    @wraps
    def wrapper(*args, **kwargs):
        wrapper.count += 1
        print "The function I modify has been called {0} times(s).".format(
              wrapper.count)
        func(*args, **kwargs)
    wrapper.count = 0
    return wrapper

modified_function = logging_decorator(feature_rollup)

然后使用modified_function(当你想打印它时更改)

2013-09-04 00:26:42

其他回答

concat操作:

df = pd.concat(
    [
        get_data(f)
        for f in tqdm(files, total=len(files))
    ]
)

TQDM只返回一个可迭代对象。

2021-11-30 01:56:10

你可以很容易地用装饰器做到这一点

from functools import wraps 

def logging_decorator(func):

    @wraps
    def wrapper(*args, **kwargs):
        wrapper.count += 1
        print "The function I modify has been called {0} times(s).".format(
              wrapper.count)
        func(*args, **kwargs)
    wrapper.count = 0
    return wrapper

modified_function = logging_decorator(feature_rollup)

然后使用modified_function(当你想打印它时更改)

2013-09-04 00:26:42

调整Jeff的答案(并将其作为一个可重用的函数)。

def logged_apply(g, func, *args, **kwargs):
    step_percentage = 100. / len(g)
    import sys
    sys.stdout.write('apply progress:   0%')
    sys.stdout.flush()

    def logging_decorator(func):
        def wrapper(*args, **kwargs):
            progress = wrapper.count * step_percentage
            sys.stdout.write('\033[D \033[D' * 4 + format(progress, '3.0f') + '%')
            sys.stdout.flush()
            wrapper.count += 1
            return func(*args, **kwargs)
        wrapper.count = 0
        return wrapper

    logged_func = logging_decorator(func)
    res = g.apply(logged_func, *args, **kwargs)
    sys.stdout.write('\033[D \033[D' * 4 + format(100., '3.0f') + '%' + '\n')
    sys.stdout.flush()
    return res

注意:应用进度百分比内联更新。如果你的函数stout，那么这将不起作用。

In [11]: g = df_users.groupby(['userID', 'requestDate'])

In [12]: f = feature_rollup

In [13]: logged_apply(g, f)
apply progress: 100%
Out[13]: 
...

像往常一样，你可以把它添加到你的groupby对象作为一个方法:

from pandas.core.groupby import DataFrameGroupBy
DataFrameGroupBy.logged_apply = logged_apply

In [21]: g.logged_apply(f)
apply progress: 100%
Out[21]: 
...

正如评论中提到的，这不是core pandas感兴趣的功能。但是python允许你为许多pandas对象/方法创建这些(这样做会有相当多的工作…尽管你应该能够概括这种方法)。

2013-09-04 10:37:32

我已经改变了Jeff的答案，以包括一个总数，这样您就可以跟踪进度和一个变量，只打印每个X次迭代(这实际上提高了很多性能，如果“print_at”相当高)

def count_wrapper(func,total, print_at):

    def wrapper(*args):
        wrapper.count += 1
        if wrapper.count % wrapper.print_at == 0:
            clear_output()
            sys.stdout.write( "%d / %d"%(calc_time.count,calc_time.total) )
            sys.stdout.flush()
        return func(*args)
    wrapper.count = 0
    wrapper.total = total
    wrapper.print_at = print_at

    return wrapper

clear_output()函数来自

from IPython.core.display import clear_output

如果不是在IPython，安迪·海登的答案是没有它的

2017-11-21 17:40:03

这里的每个答案都使用了pandas.DataFrame.groupby。如果你想在pandas.Series.apply上创建一个没有groupby的进度条，你可以在jupyter-notebook中这样做:

from tqdm.notebook import tqdm
tqdm.pandas()


df['<applied-col-name>'] = df['<col-name>'].progress_apply(<your-manipulation-function>)

2021-10-01 11:09:06

熊猫操作期间的进度指标

推荐文章

最新文章

标签