【相关性分析】11.3  用皮尔逊系数生成相关值矩阵

XILEJUN 喜乐君 Tableau Visionary ✦ 5 📊 业务数据分析「专家」· 敏捷 BI 布… 阅读更多 »【相关性分析】11.3 用皮尔逊系数生成相关值矩阵

喜乐君著作

🎬 B 站课程:数据可视化分析:Tableau/SQL 原理与实践 — https://www.bilibili.com/cheese/play/ss8093

本文摘自《业务可视化分析:从问题到图形的 Tableau 方法》

11.3 高级:用皮尔逊系数生成相关值矩阵

散点图用于衡量两个变量的关系。随着统计学和机器学习的快速发展,科学家为此设置了很多精确衡量相似或者相关性的指标。比较典型的如皮尔逊相关系数(Pearson correlation coefficient)、欧氏距离(Euclidean distance)、余弦相似度(cosine similarity)等。它们之于相关性,如同标准差之于离散程度。

本书介绍Tableau中自带的皮尔逊相关系数指标。

皮尔逊相关系数用于衡量两个变量X和Y之间的相关性(线性相关),其值介于−1与1之间。1代表完全正相关,−1则为完全负相关。两个变量之间的皮尔逊相关系数为两个变量之间的协方差和标准差的商。

使用皮尔逊相关系数,可查看所有子类别之间的相关性。如图11-11所示,这里使用内连接(inner join)构建多对多匹配的数据源,之后使用CORR()函数构建二者的皮尔逊系数。不过,这里要使用LOD表达式确保在客户详细级别计算二者的相关系数。

图11-11 用皮尔逊系数衡量不同子类别的相关性[1]

以“器具”(appliances)为例,系数最高的子类别是“收纳具”(storage,0.3222),其次是“纸张”(paper,0.2781),最接近0值(不相关系数)的是“信封”(envelopes)。

当然,这里的数据在内连接多对多匹配后发生了大量重复,图11-11中仅排除了完全相同的子类别的对应,因此以中间空白格为分界,两侧是完全对称的。可以根据需要修改筛选条件,只保留一侧,如图11-12所示。

图11-12 仅保留一侧的系数,并切换为圆点形式突出正相关

如果重点关注哪些类别的客户购买具有高度正相关,则可以将文本矩阵改为圆点等其他样式。由于形状无法有效表达负值,负相关相当于被隐藏了。

同时,还有一个认知关键:高度正相关性并不意味着对应类别订单数量多、卖得多,反之亦然。可以把皮尔逊系数视为散点图中两个变量的线性方程关系描述,它与多少无关,如图11-13所示。

对业务用户而言,这里的皮尔逊系数显然过于抽象了,那有没有简化的办法,只关注绝对值和比率,而不关注需要额外计算的概率呢?

与皮尔逊系数最相关的是“购物篮的连带购买问题”,对应《数据可视化分析(第2版)》书中最重要的案例“购物篮分析”,如图11-14所示,这里用“连带购买率”量化品类之间的相关关系。详见本书第13.4节。

图11-13 皮尔逊系数背后的散点图矩阵(注:数据点的密集度与相关性系数大小无相关性)

比较之下,购物篮分析是从“订单详细级别”做的连带购买,无须提前准备数据,适合业务分析师使用;而皮尔逊系数需要额外准备数据(比如单独引用SQL聚合),更接近机器学习的算法(比如线上商城的购物篮自动关联推荐),对应更高的认知成本,因此不推荐业务用户使用。

图11-14 购物篮分析实例

[1] 数据文件来自Tableau官方知识库,搜索“创建相关值矩阵tableau”可得,源文件使用了英文超市数据。需要注意的是,数据源做了内连接(inner join)处理。

• 🌐 XILEJUN.com 全球 → https://xilejun.com

• 🌐 VIZWISE.cn 国内 → https://vizwise.cn

• 产品分析高级专题:购物篮分析的多个角度 (上) → https://xilejun.com/tableau/basket-analysis-new/

• 【Tableau高级】LOD实例:基于订单的购物篮分析(下) → https://xilejun.com/tableau/basket_analysis_lod/

No comments yet