从列中的字符串中删除不需要的部分

我正在寻找一种有效的方法，从DataFrame列中的字符串中删除不需要的部分。

数据如下所示:

    time    result
1    09:00   +52A
2    10:00   +62B
3    11:00   +44a
4    12:00   +30b
5    13:00   -110a

我需要修剪这些数据:

    time    result
1    09:00   52
2    10:00   62
3    11:00   44
4    12:00   30
5    13:00   110

我尝试了.str.lstrip('+-')和.str.rstrip('aAbBcC')，但得到一个错误:

TypeError: wrapper() takes exactly 1 argument (2 given)

任何建议都将非常感激!

当前回答

data['result'] = data['result'].map(lambda x: x.lstrip('+-').rstrip('aAbBcC'))

2012-12-03 11:33:51

其他回答

一个非常简单的方法是使用提取方法来选择所有的数字。只需为它提供正则表达式“\d+”，它可以提取任意数量的数字。

df['result'] = df.result.str.extract(r'(\d+)', expand=True).astype(int)
df

    time  result
1  09:00      52
2  10:00      62
3  11:00      44
4  12:00      30
5  13:00     110

2017-11-04 04:00:33

对于这些类型的任务，我经常使用列表推导式，因为它们通常更快。

在做这样的事情(即修改DataFrame中一个系列的每个元素)的各种方法之间，性能可能会有很大的差异。通常，列表理解是最快的——参见下面的代码竞赛:

import pandas as pd
#Map
data = pd.DataFrame({'time':['09:00','10:00','11:00','12:00','13:00'], 'result':['+52A','+62B','+44a','+30b','-110a']})
%timeit data['result'] = data['result'].map(lambda x: x.lstrip('+-').rstrip('aAbBcC'))
10000 loops, best of 3: 187 µs per loop
#List comprehension
data = pd.DataFrame({'time':['09:00','10:00','11:00','12:00','13:00'], 'result':['+52A','+62B','+44a','+30b','-110a']})
%timeit data['result'] = [x.lstrip('+-').rstrip('aAbBcC') for x in data['result']]
10000 loops, best of 3: 117 µs per loop
#.str
data = pd.DataFrame({'time':['09:00','10:00','11:00','12:00','13:00'], 'result':['+52A','+62B','+44a','+30b','-110a']})
%timeit data['result'] = data['result'].str.lstrip('+-').str.rstrip('aAbBcC')
1000 loops, best of 3: 336 µs per loop

2015-04-24 09:34:21

我会使用pandas替换函数，非常简单和强大，就像你可以使用regex一样。下面我将使用regex \D删除任何非数字字符，但显然你可以使用regex获得相当有创意的效果。

data['result'].replace(regex=True,inplace=True,to_replace=r'\D',value=r'')

2015-01-31 14:57:04

在特定的情况下，你知道你想要从dataframe列中删除的位置的数量，你可以在lambda函数中使用字符串索引来摆脱这些部分:

最后一个字符:

data['result'] = data['result'].map(lambda x: str(x)[:-1])

前两个字符:

data['result'] = data['result'].map(lambda x: str(x)[2:])

2014-03-06 23:27:54

当你的数据维数很大时，使用"str.replace"比lambda和map更快:

your_data["result"]=your_data["result"].str.replace("+","")
your_data["result"]=your_data["result"].str.replace("-","")

2022-05-04 14:11:02

从列中的字符串中删除不需要的部分

推荐文章

最新文章

标签