本文会给大家讲解:从入门到精通:如何用图表做好数据分析?
随着精益化运营的概念不断深入人心,数据分析已经成为了互联网人的必修课。相比于高深的概率统计、算法模型,简单、直观的图表工具得到了更为广泛的应用。
那么图表都有哪些类型?不同类型的图表又该怎么用?在这篇文章中我们结合互联网产品和运营的业务需求,由浅入深地给大家解答这些问题。
Part 1 | 初阶:维度和指标
初阶的图表简单易懂,能满足简单的数据分析需求,具体包括趋势、频数、比重、表格等类型。图表数据分析的前提就是将自己需要呈现的指标,以一定的维度拆分,在坐标系中以可视化的方式呈现出来。
1. 趋势图
趋势分析是最基础的图表分析,包括线图、柱状图、堆积图等多种形式。
线图可以观察一个或者多个数据指标连续变化的趋势,也可以根据需要与之前的周期进行同比分析。柱状图可以观察某一事件的变化趋势;如果将整体拆分可以做成堆积图,同时观察到部分所占比重及变化趋势。
图 1 - GrowingIO 周期对比线图:
图 2 - GrowingIO (堆积)柱状图:
产品经理和运营人员通过趋势图分析流量的实时走向,如每日 pv、uv、DAU 等基本数量指标以及停留时长、平均访问页面数等质量指标,可以及时把握产品的变化趋势。一旦趋势周期对比发生异常(异常高和异常低),我们需要及时介入排查原因、解决问题。
2. 频数图
根据业务需求对指标按照一定维度拆分,对比不同组别的频数,便于分清轻重缓急。
图 3 - GrowingIO 条形图:
条形图清晰展示了用户在不同类别上的频数,并且按照数量从大到小排序。上图展示的是某产品用户使用浏览器的频数分布,在资源有限的情况下产品可以先适配 Chrome 和 IE 浏览器以提升绝大部分用户体验。
图 4 - GrowingIO 双向条形图:
上面的双向条形图展示了某 B 端产品的客户平均停留时长极端情况(非常高和非常低),企业 1-5 非常活跃,可以让运营人员促进客户增购、续约,而企业 6-10 活跃度非常低,即将流失,需要运营人员立刻介入干预。
3. 比重图
比重分析主要是用来了解不同部分占总体的比例。横向比较,扇形图、环形图可以满足这类需求;纵向比较,百分比堆积图可以显示不同部分所占比例的趋势变化。
图 5 - GrowingIO 访问用户来源环形图:
图 6 - GrowingIO 百分比堆积图:
环形图(图 5)显示了某节点访问用户来源渠道比例,百分比堆积图(图 6)则动态显示了不同渠道比例的变化趋势,市场或者运营人员可以据此动态优化我们的资源投放。
4. 表格
表格信息密集,可以同时分析多维度、多指标数据,适合对数据敏感的人群使用。虽然表格能看到具体的数值,但是不能直观看到趋势、比重。
图 7 - GrowingIO 表格提供三十多个维度供指标拆解:
通过表格(图7)不难发现,移动端访问用户占了非常大的比例,但是跳出率非常高。这样的表格数据启示我们有必要优化移动端产品,提升整体访问深度。
5. 其他图表
下面介绍的是气泡图,气泡图用来展示一个事件与多个维度之间的关系,如分析B端产品客户成单周期与客户活跃度、登录账号数量之间的关系。
图 8 - GrowingIO 「客户温度 - 健康度」气泡图:
除了上述常见的图表,还有散点图、箱线图、股价图、雷达图等图表,在此不一一赘述。
Part 2 | 进阶:用户行为洞察
正如前面所言,初阶图表能满足简单的业务需求。但要想深入洞察用户行为,还需要紧密结合业务实践,用更加专业的图表辅助数据分析。在这里,我和大家分享三个实用的工具:漏斗图、留存图和热(力)图。
1. 漏斗图
漏斗图主要用于转化过程,例如注册流程、商品购买流程,分析用户在不同阶段的转化或者流失情况。
图 9 - GrowingIO 漏斗图:
产品运营应该关注重点转化路径的转化率,对于转化率非常低的环节、或者转化率突然下降的情况,都需要及时排查原因。
2. 留存图
留存是指用户首次访问你的网站,多少天后又重新回访的情况。利用留存曲线可以对留存进行深入分析。
图 10 - GrowingIO 留存曲线:
某问答社区通过留存曲线(图 10)发现,通过搜索引擎来源的新用户(红色)留存度和活跃度远远高于一般新用户(绿色),这启示社区运营者:搜索引擎可能成为社区的下一个增长点。
3. 热(力)图
热图,又称热力图,显示的是用户在你产品页面上的点击、停留偏好。借助热图产品经理可以优化产品页面布局,运营可以优化内容,确实是一个好工具。
图 11 - GrowingIO 热图:
Part 3 | 高阶:用数据驱动增长
随着数据可视化技术的不断发展,图表的类型越来越丰富,我们不可能在一篇文章中将其穷尽。但是图表数据分析的本质不会变,其最终目还是要辅助人们的决策。
1. 搭建属于自己的数据看板
人们的工作在不断细分,需要分析和决策的内容也不太一样。同样都是市场部门的同事,负责内容营销的与负责 SEM 的需要关注的数据差异很大,而这就需要搭建属于自己的数据看板。
图 12 - GrowingIO 数据看板:
例如 SEM 主管根据工作需要搭建数据看板,将广告投放(表格)、访客来源(百分比堆积图)、访问用户量(线图)、登录用户量(柱状图)和注册转化率(漏斗)等重要数据集中在一个看板中。数据看板能帮助我们以合适的方式展示数据,集中精力做好业务决策。
2. 在实践中践行 MVP
用图表做好数据分析并非易事,它绝非一朝一日之功,但也并不是无规律可循。
首先是对业务的理解,能洞察数字背后的商业意义。其次是灵活选择维度拆分指标,在图表坐标系中以合适的形式进行可视化展示。最后一定要从图表数据分析中发现问题,并指导业务决策。在这样不断反复的过程中,不断优化我们的图表数据分析过程,用数据来驱动业务增长。
本文作者:GrowingIO 增长团队,集工程、产品、市场、分析多重角色于一身,负责拉新和用户活跃,用数据驱动业务增长。
分析与地图的显示是两会儿事,空间分析可以简单的分为两块:第一是:空间统计分析,即空间数据的探索性分析,一般用到地图,主要
是为了直观显示其属性值的空间分布情况,另外就是全局空间自相关
分析(全局Morans'I
系数)和局部空间自相关分析(LISA)及Morans
散点图(HH,HL,LH,LL);第二是:空间计量分析,主要包括:
空间滞后模型(SLM)和空间误差模型(SEM),使用的前提是,自
变量和因变量都存在空间自相关性,因此导致经典的计量模型估计有
偏或失效,因此自然而然将空间因素考虑到模型中进行分析,空间因
素的引进涉及最核心的表达空间的权重矩阵。这是空间计量模型和软
究区域的地图的制作;地图和属性数据的链接等。具体如下:首先可
以借助
Mapinfo
和
Arcgis
软件制作
shape
格式的地图文件,并设置
ID
唯一代码,接着制作属性值文件,其格式为dbf,然后,将上述制
作完成的
shape
格式文件和
dbf
格式属性值通过
OpenGoda
软件的
Table
菜单下的Merge
TableDate
进行合并,形成一个完整的包含分
析需要的所有属性值的shape
格式文件。这样我们所有准备工作完成
了,接下来就可以进行各种各样的分析了。
其次、无法获取地图的shape
文件,或者你主要进行的空间回
归分析,那么此时你完全不用费心思去制作地图,这时候仅需要你生
成一个空间权重矩阵,具体做法是:1、生成一个
OpenGoeda
能识
别的
shape
格式文件(直接用
txt
做就
ok
了,还可以通过
dbf
格式
做,也比较容易)步骤,tools/shape/Point
from
ASCII(txt),2、建
立
dbf
格式的属性数文件,3、利用软件里的
Merge
TableDate
将
1
步建的shape
文件数据表和2
步建的dbf
格式数据进行合并,并保存,
保存后的文件我们命名为“sample”,3,则可以用sample.shp
格式文
件进行空间面板数据分析了。
某一值的离均程度。
什么是误差线?
误差线通常用于统计或科学数据,显示潜在的误差或相对于系列中每个数据标志的不确定程度。误差线可以用标准差(平均偏差)或标准误差,一般通用的是这两个。
(1)平均值±标准差(Mean±SD):
(2)平均值±标准误(Mean±SEM):
( 北大博士教你如何添加误差线 (sohu.com) )
误差线是通常用于统计或科学数据,显示潜在的误差或相对于系列中每个数据标志的不确定程度。误差线可以用 标准差 ( 平均偏差 )或 标准误差 ,一般通用的是这两个,如果是发英文文章,在caption中加以上bars donate S.D.(标准差)or S.E.(标准误差),中文文章可以不用说明。二 两种误差区别做误差线的话,标准差(std. deviation)和标准误(std.error)都可以,两者的侧重点不一样,一般用标准差(std. deviation)。
tips:两者区别
①概念不同;标准差是离均差平方和平均后的方根,标准误差定义为各测量值误差的平方和的平均值的平方根;
②用途不同;标准差与均数结合估计参考值范围,计算变异系数,计算标准误等。标准误用于估计参数的可信区间,进行假设检验等;
③它们与样本含量的关系不同: 当样本含量 n 足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0 。
(来自百度)
误差线用于指明度量中的估计误差;换而言之,误差线指明值中的不确定性。
在 Spotfire 中,可以在条形图、折线图和散点图中使用误差线。如果您可以通过 TIBCO Spotfire Business Author 许可证访问编写模式,则可以添加误差线;但如果分析是在 TIBCO Spotfire Professional 中创建的,则其中的图表可能已添加了误差线。条形图和折线图可以显示垂直误差。散点图可以显示垂直误差和水平误差。下图呈现了散点图标记上可能显示的四种误差。但是,上限误差和下限误差是指基础数据。这意味着如果您在图表中使用反转刻度,或更改条形图中条形的方向,那么误差线也将分别反转或更改方向。例如,对于使用反转 Y 轴的散点图,上限垂直误差将显示在标记下方,而不是标记上方。对于具有水平条形和非反转刻度的条形图,水平上限误差将显示在条形的右侧。
您可以选择仅显示其中一个误差线,或显示任意几个误差线。
误差线的长度表明值的不确定性。例如,对于平均值,长误差线表示对其计算平均值的集中度较低,因此平均值不确定。相反,短误差线表示值的集中度高,因此平均值更加确定。
在 Spotfire 中设置误差线的不同方法有两种。对于聚合值,您可以使用某一个现有度量值,例如 标准误差 或 标准偏差 。然后将在 Spotfire 中计算误差线的长度。在以下示例中,条形图显示了一年中每个月的平均销售额。统计测量标准误差用于计算上限误差线的长度。此图中未定义任何下限误差线。
定义误差线的另一种方法是使用现有数据表列中的值。例如,如下表所示,您可能拥有已计算平均值和误差值的数据表。然后,您可以使用这些列来设置误差线。在下面的散点图中,Y 轴表示“平均值”列,上限误差和下限误差分别表示“上限误差”和“下限误差”两列。
默认情况下,误差线相对于图表中的标记位置绘制,但对于某些度量值,这可能不是您要显示的内容。在这些情况下,自定义表达式可能很有帮助。
例如,如果标记表示聚合值(例如平均销售额),您可能希望显示最大值和最小值作为误差线。但是,如果您为下限误差选择度量值“最小值”,为上限误差选择度量值“最大值”,则误差线将不会显示最小值和最大值,因为误差线相对于标记位置显示。与此相反,上限误差会显示平均值加最大值,下限误差会显示平均值减最小值。要显示绝对最小值和绝对最大值,您需要使用自定义表达式。在这种情况下,上限误差的自定义表达式应为 Max([Sales])-Avg([Sales]),下限误差的自定义表达式应为 Avg([Sales])- Min([Sales])。
( 误差线 (tibco.com)
误差线并没有严格的定义,所以你需要看作图的作者是如何定义上下限的,也许是均值的标准差,也许是整个样本的标准差,也许是1倍,也许是1.96倍。总之,它们都是某种置信区间,要小心的是它到底是谁的置信区间。
假如实验设计了重复(至少3次以上),那么统计数据肯定需要以平均值 +/- 标准误差或者标准偏差表示
使用误差线要注明种类
要注明样本数n
误差线与显著性只用在独立重复实验上,代表性的实验结果不应该包含误差线与P值,因为这相当于n=1
推断性实验的误差线最好使用标准误或置信区间,对于n为3的实验,可直接列出3次的结果,不标注误差线
95%置信区间表示有95%信心里面有总体的均值,n为3时,标准误的4倍为这个区间
n为3,两倍标准误不重复覆盖,P <0.05, 刚好覆盖,P接近0.05;n大于10,间距1倍标准误,P接近0.05,两倍就是0.01
置信范围表示误差线时,n为3,重叠一臂,P为0.05;重叠半臂,P为0.01
同一组内的重复实验,标准误与置信区间不能用来表示组内差异
科学网—简析条形图(bar plot)上的误差线 - 于淼的博文 (sciencenet.cn)
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)