怎样用图表分析数据_服务器知识

怎样用图表分析数据

本文会给大家讲解：从入门到精通：如何用图表做好数据分析？

随着精益化运营的概念不断深入人心，数据分析已经成为了互联网人的必修课。相比于高深的概率统计、算法模型，简单、直观的图表工具得到了更为广泛的应用。

那么图表都有哪些类型？不同类型的图表又该怎么用？在这篇文章中我们结合互联网产品和运营的业务需求，由浅入深地给大家解答这些问题。

Part 1 | 初阶：维度和指标

初阶的图表简单易懂，能满足简单的数据分析需求，具体包括趋势、频数、比重、表格等类型。图表数据分析的前提就是将自己需要呈现的指标，以一定的维度拆分，在坐标系中以可视化的方式呈现出来。

1. 趋势图

趋势分析是最基础的图表分析，包括线图、柱状图、堆积图等多种形式。

线图可以观察一个或者多个数据指标连续变化的趋势，也可以根据需要与之前的周期进行同比分析。柱状图可以观察某一事件的变化趋势；如果将整体拆分可以做成堆积图，同时观察到部分所占比重及变化趋势。

图 1 - GrowingIO 周期对比线图：

图 2 - GrowingIO （堆积）柱状图：

产品经理和运营人员通过趋势图分析流量的实时走向，如每日 pv、uv、DAU 等基本数量指标以及停留时长、平均访问页面数等质量指标，可以及时把握产品的变化趋势。一旦趋势周期对比发生异常（异常高和异常低），我们需要及时介入排查原因、解决问题。

2. 频数图

根据业务需求对指标按照一定维度拆分，对比不同组别的频数，便于分清轻重缓急。

图 3 - GrowingIO 条形图：

条形图清晰展示了用户在不同类别上的频数，并且按照数量从大到小排序。上图展示的是某产品用户使用浏览器的频数分布，在资源有限的情况下产品可以先适配 Chrome 和 IE 浏览器以提升绝大部分用户体验。

图 4 - GrowingIO 双向条形图：

上面的双向条形图展示了某 B 端产品的客户平均停留时长极端情况（非常高和非常低），企业 1-5 非常活跃，可以让运营人员促进客户增购、续约，而企业 6-10 活跃度非常低，即将流失，需要运营人员立刻介入干预。

3. 比重图

比重分析主要是用来了解不同部分占总体的比例。横向比较，扇形图、环形图可以满足这类需求；纵向比较，百分比堆积图可以显示不同部分所占比例的趋势变化。

图 5 - GrowingIO 访问用户来源环形图：

图 6 - GrowingIO 百分比堆积图：

环形图（图 5）显示了某节点访问用户来源渠道比例，百分比堆积图（图 6）则动态显示了不同渠道比例的变化趋势，市场或者运营人员可以据此动态优化我们的资源投放。

4. 表格

表格信息密集，可以同时分析多维度、多指标数据，适合对数据敏感的人群使用。虽然表格能看到具体的数值，但是不能直观看到趋势、比重。

图 7 - GrowingIO 表格提供三十多个维度供指标拆解：

通过表格（图7）不难发现，移动端访问用户占了非常大的比例，但是跳出率非常高。这样的表格数据启示我们有必要优化移动端产品，提升整体访问深度。

5. 其他图表

下面介绍的是气泡图，气泡图用来展示一个事件与多个维度之间的关系，如分析B端产品客户成单周期与客户活跃度、登录账号数量之间的关系。

图 8 - GrowingIO 「客户温度 - 健康度」气泡图：

除了上述常见的图表，还有散点图、箱线图、股价图、雷达图等图表，在此不一一赘述。

Part 2 | 进阶：用户行为洞察

正如前面所言，初阶图表能满足简单的业务需求。但要想深入洞察用户行为，还需要紧密结合业务实践，用更加专业的图表辅助数据分析。在这里，我和大家分享三个实用的工具：漏斗图、留存图和热（力）图。

1. 漏斗图

漏斗图主要用于转化过程，例如注册流程、商品购买流程，分析用户在不同阶段的转化或者流失情况。

图 9 - GrowingIO 漏斗图：

产品运营应该关注重点转化路径的转化率，对于转化率非常低的环节、或者转化率突然下降的情况，都需要及时排查原因。

2. 留存图

留存是指用户首次访问你的网站，多少天后又重新回访的情况。利用留存曲线可以对留存进行深入分析。

图 10 - GrowingIO 留存曲线:

某问答社区通过留存曲线（图 10）发现，通过搜索引擎来源的新用户（红色）留存度和活跃度远远高于一般新用户（绿色），这启示社区运营者：搜索引擎可能成为社区的下一个增长点。

3. 热（力）图

热图，又称热力图，显示的是用户在你产品页面上的点击、停留偏好。借助热图产品经理可以优化产品页面布局，运营可以优化内容，确实是一个好工具。

图 11 - GrowingIO 热图：

Part 3 | 高阶：用数据驱动增长

随着数据可视化技术的不断发展，图表的类型越来越丰富，我们不可能在一篇文章中将其穷尽。但是图表数据分析的本质不会变，其最终目还是要辅助人们的决策。

1. 搭建属于自己的数据看板

人们的工作在不断细分，需要分析和决策的内容也不太一样。同样都是市场部门的同事，负责内容营销的与负责 SEM 的需要关注的数据差异很大，而这就需要搭建属于自己的数据看板。

图 12 - GrowingIO 数据看板：

例如 SEM 主管根据工作需要搭建数据看板，将广告投放（表格）、访客来源（百分比堆积图）、访问用户量（线图）、登录用户量（柱状图）和注册转化率（漏斗）等重要数据集中在一个看板中。数据看板能帮助我们以合适的方式展示数据，集中精力做好业务决策。

2. 在实践中践行 MVP

用图表做好数据分析并非易事，它绝非一朝一日之功，但也并不是无规律可循。

首先是对业务的理解，能洞察数字背后的商业意义。其次是灵活选择维度拆分指标，在图表坐标系中以合适的形式进行可视化展示。最后一定要从图表数据分析中发现问题，并指导业务决策。在这样不断反复的过程中，不断优化我们的图表数据分析过程，用数据来驱动业务增长。

本文作者：GrowingIO 增长团队，集工程、产品、市场、分析多重角色于一身，负责拉新和用户活跃，用数据驱动业务增长。

分析与地图的显示是两会儿事，空间分析可以简单的分为两块：第一

是：空间统计分析，即空间数据的探索性分析，一般用到地图，主要

是为了直观显示其属性值的空间分布情况，另外就是全局空间自相关

分析（全局Morans'I

系数）和局部空间自相关分析（LISA）及Morans

散点图（HH，HL，LH，LL）；第二是：空间计量分析，主要包括：

空间滞后模型（SLM）和空间误差模型（SEM），使用的前提是，自

变量和因变量都存在空间自相关性，因此导致经典的计量模型估计有

偏或失效，因此自然而然将空间因素考虑到模型中进行分析，空间因

素的引进涉及最核心的表达空间的权重矩阵。这是空间计量模型和软

究区域的地图的制作；地图和属性数据的链接等。具体如下：首先可

以借助

Mapinfo

和

Arcgis

软件制作

shape

格式的地图文件，并设置

唯一代码，接着制作属性值文件，其格式为dbf，然后，将上述制

作完成的

shape

格式文件和

dbf

格式属性值通过

OpenGoda

软件的

Table

菜单下的Merge

TableDate

进行合并，形成一个完整的包含分

析需要的所有属性值的shape

格式文件。这样我们所有准备工作完成

了，接下来就可以进行各种各样的分析了。

其次、无法获取地图的shape

文件，或者你主要进行的空间回

归分析，那么此时你完全不用费心思去制作地图，这时候仅需要你生

成一个空间权重矩阵，具体做法是：1、生成一个

OpenGoeda

能识

别的

shape

格式文件（直接用

txt

做就

了，还可以通过

dbf

格式

做，也比较容易）步骤，tools/shape/Point

from

ASCII(txt)，2、建

立

dbf

格式的属性数文件，3、利用软件里的

Merge

TableDate

将

步建的shape

文件数据表和2

步建的dbf

格式数据进行合并，并保存，

保存后的文件我们命名为“sample”，3，则可以用sample.shp

格式文

件进行空间面板数据分析了。

某一值的离均程度。

什么是误差线?

误差线通常用于统计或科学数据，显示潜在的误差或相对于系列中每个数据标志的不确定程度。误差线可以用标准差（平均偏差）或标准误差，一般通用的是这两个。

（1）平均值±标准差（Mean±SD）：

（2）平均值±标准误（Mean±SEM）：

（北大博士教你如何添加误差线 (sohu.com) ）

误差线是通常用于统计或科学数据，显示潜在的误差或相对于系列中每个数据标志的不确定程度。误差线可以用标准差（平均偏差）或标准误差，一般通用的是这两个，如果是发英文文章，在caption中加以上bars donate S.D.（标准差）or S.E.(标准误差)，中文文章可以不用说明。二两种误差区别做误差线的话，标准差（std. deviation）和标准误（std.error）都可以，两者的侧重点不一样，一般用标准差（std. deviation）。

tips：两者区别

①概念不同；标准差是离均差平方和平均后的方根，标准误差定义为各测量值误差的平方和的平均值的平方根；

②用途不同；标准差与均数结合估计参考值范围，计算变异系数，计算标准误等。标准误用于估计参数的可信区间，进行假设检验等；

③它们与样本含量的关系不同: 当样本含量 n 足够大时，标准差趋向稳定；而标准误随n的增大而减小，甚至趋于0 。

（来自百度）

误差线用于指明度量中的估计误差；换而言之，误差线指明值中的不确定性。

在 Spotfire 中，可以在条形图、折线图和散点图中使用误差线。如果您可以通过 TIBCO Spotfire Business Author 许可证访问编写模式，则可以添加误差线；但如果分析是在 TIBCO Spotfire Professional 中创建的，则其中的图表可能已添加了误差线。条形图和折线图可以显示垂直误差。散点图可以显示垂直误差和水平误差。下图呈现了散点图标记上可能显示的四种误差。但是，上限误差和下限误差是指基础数据。这意味着如果您在图表中使用反转刻度，或更改条形图中条形的方向，那么误差线也将分别反转或更改方向。例如，对于使用反转 Y 轴的散点图，上限垂直误差将显示在标记下方，而不是标记上方。对于具有水平条形和非反转刻度的条形图，水平上限误差将显示在条形的右侧。

您可以选择仅显示其中一个误差线，或显示任意几个误差线。

误差线的长度表明值的不确定性。例如，对于平均值，长误差线表示对其计算平均值的集中度较低，因此平均值不确定。相反，短误差线表示值的集中度高，因此平均值更加确定。

在 Spotfire 中设置误差线的不同方法有两种。对于聚合值，您可以使用某一个现有度量值，例如标准误差或标准偏差。然后将在 Spotfire 中计算误差线的长度。在以下示例中，条形图显示了一年中每个月的平均销售额。统计测量标准误差用于计算上限误差线的长度。此图中未定义任何下限误差线。

定义误差线的另一种方法是使用现有数据表列中的值。例如，如下表所示，您可能拥有已计算平均值和误差值的数据表。然后，您可以使用这些列来设置误差线。在下面的散点图中，Y 轴表示“平均值”列，上限误差和下限误差分别表示“上限误差”和“下限误差”两列。

默认情况下，误差线相对于图表中的标记位置绘制，但对于某些度量值，这可能不是您要显示的内容。在这些情况下，自定义表达式可能很有帮助。

例如，如果标记表示聚合值（例如平均销售额），您可能希望显示最大值和最小值作为误差线。但是，如果您为下限误差选择度量值“最小值”，为上限误差选择度量值“最大值”，则误差线将不会显示最小值和最大值，因为误差线相对于标记位置显示。与此相反，上限误差会显示平均值加最大值，下限误差会显示平均值减最小值。要显示绝对最小值和绝对最大值，您需要使用自定义表达式。在这种情况下，上限误差的自定义表达式应为 Max([Sales])-Avg([Sales])，下限误差的自定义表达式应为 Avg([Sales])- Min([Sales])。

（误差线 (tibco.com)

误差线并没有严格的定义，所以你需要看作图的作者是如何定义上下限的，也许是均值的标准差，也许是整个样本的标准差，也许是1倍，也许是1.96倍。总之，它们都是某种置信区间，要小心的是它到底是谁的置信区间。

假如实验设计了重复（至少3次以上），那么统计数据肯定需要以平均值 +/- 标准误差或者标准偏差表示

使用误差线要注明种类

要注明样本数n

误差线与显著性只用在独立重复实验上，代表性的实验结果不应该包含误差线与P值，因为这相当于n=1

推断性实验的误差线最好使用标准误或置信区间，对于n为3的实验，可直接列出3次的结果，不标注误差线

95%置信区间表示有95%信心里面有总体的均值，n为3时，标准误的4倍为这个区间

n为3，两倍标准误不重复覆盖，P <0.05, 刚好覆盖，P接近0.05；n大于10，间距1倍标准误，P接近0.05，两倍就是0.01

置信范围表示误差线时，n为3，重叠一臂，P为0.05；重叠半臂，P为0.01

同一组内的重复实验，标准误与置信区间不能用来表示组内差异

科学网—简析条形图（bar plot）上的误差线 - 于淼的博文 (sciencenet.cn)

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/121113.html

怎样用图表分析数据

发表评论

评论列表（0条）