在Pandas中重命名列名

我想从

['$a', '$b', '$c', '$d', '$e']

['a', 'b', 'c', 'd', 'e']

当前回答

这真的很简单。只需使用：

df.columns = ['Name1', 'Name2', 'Name3'...]

它将按照您输入的顺序分配列名。

2015-11-29 19:22:47

其他回答

可以将lstrip或strip方法与索引一起使用：

df.columns = df.columns.str.lstrip('$')

cols = ['$a', '$b', '$c', '$d', '$e']
pd.Series(cols).str.lstrip('$').tolist()

输出：

['a', 'b', 'c', 'd', 'e']

2022-07-17 09:23:08

由于您只想删除所有列名中的$符号，因此只需执行以下操作：

df = df.rename(columns=lambda x: x.replace('$', ''))

df.rename(columns=lambda x: x.replace('$', ''), inplace=True)

2014-03-26 10:20:45

另一种替换原始列标签的方法是从原始列标签中删除不需要的字符（此处为“$”）。

这可以通过在df.columns上运行for循环并将剥离的列附加到df.column来完成。

相反，我们可以通过使用下面的列表理解在一个语句中巧妙地做到这一点：

df.columns = [col.strip('$') for col in df.columns]

（Python中的strip方法会从字符串的开头和结尾剥离给定的字符。）

2015-11-23 13:56:10

单线或管道解决方案

我将关注两件事：

OP明确规定我将编辑后的列名存储在列表中，但我不知道如何替换列名。我不想解决如何替换“$”或删除每个列标题的第一个字符的问题。OP已完成此步骤。相反，我希望集中精力在给定替换列名列表的情况下，用一个新的列对象替换现有的列对象。df.columns=new其中new是新列名称的列表，非常简单。这种方法的缺点是它需要编辑现有数据帧的columns属性，而且它不是内联的。我将展示一些通过流水线执行此操作的方法，而无需编辑现有的数据帧。

设置1为了关注用预先存在的列表重命名或替换列名的需要，我将创建一个新的示例dataframe df，其中包含初始列名和不相关的新列名。

df = pd.DataFrame({'Jack': [1, 2], 'Mahesh': [3, 4], 'Xin': [5, 6]})
new = ['x098', 'y765', 'z432']

df

   Jack  Mahesh  Xin
0     1       3    5
1     2       4    6

解决方案1pd.DataFrame.rename文件

已经说过，如果您有一个将旧列名映射到新列名的字典，可以使用pd.DataFrame.rename。

d = {'Jack': 'x098', 'Mahesh': 'y765', 'Xin': 'z432'}
df.rename(columns=d)

   x098  y765  z432
0     1     3     5
1     2     4     6

但是，您可以轻松地创建该字典并将其包含在重命名调用中。下面的内容利用了这样一个事实，即在对df进行迭代时，我们会对每个列名进行迭代。

# Given just a list of new column names
df.rename(columns=dict(zip(df, new)))

   x098  y765  z432
0     1     3     5
1     2     4     6

如果您的原始列名是唯一的，这将非常有用。但如果他们不是，那么这就失败了。

设置2非唯一列

df = pd.DataFrame(
    [[1, 3, 5], [2, 4, 6]],
    columns=['Mahesh', 'Mahesh', 'Xin']
)
new = ['x098', 'y765', 'z432']

df

   Mahesh  Mahesh  Xin
0       1       3    5
1       2       4    6

解决方案2pd.concat使用keys参数

首先，注意当我们尝试使用解决方案1时会发生什么：

df.rename(columns=dict(zip(df, new)))

   y765  y765  z432
0     1     3     5
1     2     4     6

我们没有将新列表映射为列名。我们最终重复了y765。相反，我们可以在遍历df列时使用pd.concat函数的keys参数。

pd.concat([c for _, c in df.items()], axis=1, keys=new) 

   x098  y765  z432
0     1     3     5
1     2     4     6

解决方案3修复只有当所有列都有一个dtype时，才应使用此选项。否则，您将得到所有列的dtype对象，并且将它们转换回需要更多的字典工作。

单个数据类型

pd.DataFrame(df.values, df.index, new)

   x098  y765  z432
0     1     3     5
1     2     4     6

混合数据类型

pd.DataFrame(df.values, df.index, new).astype(dict(zip(new, df.dtypes)))

   x098  y765  z432
0     1     3     5
1     2     4     6

解决方案4这是一个带有转置和set_index的噱头。pd.DataFrame.set_index允许我们内联设置索引，但没有相应的set_columns。所以我们可以转置，然后设置索引，然后转置回去。然而，解决方案3中的单个数据类型与混合数据类型的警告同样适用于此。

单个数据类型

df.T.set_index(np.asarray(new)).T

   x098  y765  z432
0     1     3     5
1     2     4     6

混合数据类型

df.T.set_index(np.asarray(new)).T.astype(dict(zip(new, df.dtypes)))

   x098  y765  z432
0     1     3     5
1     2     4     6

解决方案5在pd.DataFrame.rename中使用循环遍历每个新元素的lambda。在这个解决方案中，我们传递一个lambda，它接受x，但忽略它。它也接受y，但不期望它。相反，迭代器被指定为默认值，然后我可以使用它一次循环一个，而不考虑x的值。

df.rename(columns=lambda x, y=iter(new): next(y))

   x098  y765  z432
0     1     3     5
1     2     4     6

正如sopyson聊天中的人向我指出的那样，如果我在x和y之间添加一个*，我可以保护y变量。不过，在这种情况下，我不认为它需要保护。这仍然值得一提。

df.rename(columns=lambda x, *, y=iter(new): next(y))

   x098  y765  z432
0     1     3     5
1     2     4     6

2017-09-13 08:09:23

如果您已经获得了数据帧，df.columns将所有内容转储到您可以操作的列表中，然后作为列的名称重新分配到数据帧中。。。

columns = df.columns
columns = [row.replace("$", "") for row in columns]
df.rename(columns=dict(zip(columns, things)), inplace=True)
df.head() # To validate the output

最佳方式？我不知道。一种方式——是的。

评估问题答案中提出的所有主要技术的更好方法如下：使用cProfile测量内存和执行时间@kadee、@kaitlyn和@eumiro拥有执行时间最快的函数-尽管这些函数非常快，但我们比较了所有答案的0.000和0.001秒舍入。寓意：我上面的答案可能不是“最好”的方式。

import pandas as pd
import cProfile, pstats, re

old_names = ['$a', '$b', '$c', '$d', '$e']
new_names = ['a', 'b', 'c', 'd', 'e']
col_dict = {'$a': 'a', '$b': 'b', '$c': 'c', '$d': 'd', '$e': 'e'}

df = pd.DataFrame({'$a':[1, 2], '$b': [10, 20], '$c': ['bleep', 'blorp'], '$d': [1, 2], '$e': ['texa$', '']})

df.head()

def eumiro(df, nn):
    df.columns = nn
    # This direct renaming approach is duplicated in methodology in several other answers:
    return df

def lexual1(df):
    return df.rename(columns=col_dict)

def lexual2(df, col_dict):
    return df.rename(columns=col_dict, inplace=True)

def Panda_Master_Hayden(df):
    return df.rename(columns=lambda x: x[1:], inplace=True)

def paulo1(df):
    return df.rename(columns=lambda x: x.replace('$', ''))

def paulo2(df):
    return df.rename(columns=lambda x: x.replace('$', ''), inplace=True)

def migloo(df, on, nn):
    return df.rename(columns=dict(zip(on, nn)), inplace=True)

def kadee(df):
    return df.columns.str.replace('$', '')

def awo(df):
    columns = df.columns
    columns = [row.replace("$", "") for row in columns]
    return df.rename(columns=dict(zip(columns, '')), inplace=True)

def kaitlyn(df):
    df.columns = [col.strip('$') for col in df.columns]
    return df

print 'eumiro'
cProfile.run('eumiro(df, new_names)')
print 'lexual1'
cProfile.run('lexual1(df)')
print 'lexual2'
cProfile.run('lexual2(df, col_dict)')
print 'andy hayden'
cProfile.run('Panda_Master_Hayden(df)')
print 'paulo1'
cProfile.run('paulo1(df)')
print 'paulo2'
cProfile.run('paulo2(df)')
print 'migloo'
cProfile.run('migloo(df, old_names, new_names)')
print 'kadee'
cProfile.run('kadee(df)')
print 'awo'
cProfile.run('awo(df)')
print 'kaitlyn'
cProfile.run('kaitlyn(df)')

2015-09-01 02:24:17

在Pandas中重命名列名

推荐文章

最新文章

标签