用熊猫绘制相关矩阵

我有一个具有大量特征的数据集，因此分析相关矩阵变得非常困难。我想绘制一个相关矩阵，我们使用dataframe.corr()函数从pandas库中获得。pandas库是否提供了任何内置函数来绘制这个矩阵?

当前回答

可以使用matplotlib中的imshow()方法

import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('ggplot')

plt.imshow(X.corr(), cmap=plt.cm.Reds, interpolation='nearest')
plt.colorbar()
tick_marks = [i for i in range(len(X.columns))]
plt.xticks(tick_marks, X.columns, rotation='vertical')
plt.yticks(tick_marks, X.columns)
plt.show()

2018-06-28 16:02:41

其他回答

可以使用matplotlib中的imshow()方法

import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('ggplot')

plt.imshow(X.corr(), cmap=plt.cm.Reds, interpolation='nearest')
plt.colorbar()
tick_marks = [i for i in range(len(X.columns))]
plt.xticks(tick_marks, X.columns, rotation='vertical')
plt.yticks(tick_marks, X.columns)
plt.show()

2018-06-28 16:02:41

我更喜欢用Plotly，因为它的图表更具交互性，也更容易理解。可以使用下面的代码片段。

import plotly.express as px

def plotly_corr_plot(df,w,h):
    fig = px.imshow(df.corr())
    fig.update_layout(
        autosize=False,
        width=w,
        height=h,)
    fig.show()

2022-09-20 10:21:43

你可以通过绘制海洋出生的热图或熊猫的散射矩阵来观察特征之间的关系。

散射矩阵:

pd.scatter_matrix(dataframe, alpha = 0.3, figsize = (14,8), diagonal = 'kde');

如果你想可视化每个特征的偏度，也可以使用海运配对图。

sns.pairplot(dataframe)

党Heatmap:

import seaborn as sns

f, ax = pl.subplots(figsize=(10, 8))
corr = dataframe.corr()
sns.heatmap(corr,
    cmap=sns.diverging_palette(220, 10, as_cmap=True),
    vmin=-1.0, vmax=1.0,
    square=True, ax=ax)

输出将是特征的相关映射。参见下面的例子。

杂货店和洗涤剂之间的相关性很高。类似的:

高相关性产品:

杂货和洗涤剂。

相关性中等的产品:

牛奶和杂货牛奶和洗涤剂。纸

低相关性产品:

牛奶和熟食冷冻和新鲜。冷冻熟食店。

从配对图中:你可以从配对图或散射矩阵中观察到相同的一组关系。但从这些可以判断数据是否正态分布。

注:上图为取自数据的同一张图，用于绘制热图。

2017-03-23 13:48:20

Statmodels图形也提供了一个很好的相关矩阵视图

import statsmodels.api as sm
import matplotlib.pyplot as plt

corr = dataframe.corr()
sm.graphics.plot_corr(corr, xnames=list(corr.columns))
plt.show()

2019-10-18 05:07:05

你可以使用matplotlib中的pyplot.matshow():

import matplotlib.pyplot as plt

plt.matshow(dataframe.corr())
plt.show()

编辑:

在评论中有一个关于如何更改轴勾标签的请求。这是一个豪华版，它画在一个更大的图形尺寸上，有轴标签来匹配数据框架，还有一个颜色条图例来解释颜色尺度。

我包括如何调整标签的大小和旋转，我正在使用一个图形比例，使颜色条和主要图形出来的高度相同。

编辑2: 由于df.corr()方法忽略非数值列，在定义x和y标签时应该使用.select_dtypes(['number'])，以避免不必要的标签移位(包括在下面的代码中)。

f = plt.figure(figsize=(19, 15))
plt.matshow(df.corr(), fignum=f.number)
plt.xticks(range(df.select_dtypes(['number']).shape[1]), df.select_dtypes(['number']).columns, fontsize=14, rotation=45)
plt.yticks(range(df.select_dtypes(['number']).shape[1]), df.select_dtypes(['number']).columns, fontsize=14)
cb = plt.colorbar()
cb.ax.tick_params(labelsize=14)
plt.title('Correlation Matrix', fontsize=16);

2015-04-03 13:04:18

用熊猫绘制相关矩阵

推荐文章

最新文章

标签