例如看到一些研究生的论文,只发了几十份问卷调查表,就根据统计到的百分比写下十分肯定的结论。其实,是有问题的。
例如:调查“你对××活动喜欢的程度”,调查了45人。调查结果:非常喜欢2人,喜欢5人,一般10人,不太喜欢13人,不喜欢15人。作者统计出:喜欢和非常喜欢的共7人占调查人数45人的15.5%,不太喜欢和不喜欢的共28人,占62.2%。并根据15.5%和62.2%来进一步写结论。
但是,他忽略了调查的样本计算出率以后,还应该计算率的标准误和置信区间。如本例喜欢率为15.5%。还应该计算率的标准误Sp。
__________________________
本例,喜欢率的标准误 Sp =√P(1-P)/n = √15.5(100-15.5)/45 = 5.39 %
按样本量n,查t值表上, n-1的t0.01和t0.05 的值,查得t0.05=2.02 , t0.01=2.69, 根据喜欢率15.5 %、标准误5.39 % 和t0.05的值,可计算出:
95% 置信区间:15.5±2.02×5.39=4.6%~26.4%。(置信区间上下限的差值高达21.8%)。
95% 置信区间的含义是,如果用样本的喜欢率15.5%来估计总体的喜欢率时,有95%的可能是在4.6%~26.4%的区间之间。这样高达21.8%的区间意味着15.5%是不太可信的。
但是,如果扩大样本量到450人,4500人,而统计出的喜欢率也是15.5%。由于调查的样本量扩大了,标准误 Sp会缩小,计算出的95% 置信区间也就缩小为12.2%~18.8%和14.4%~16.6%。这时用样本率估计总体率时,上下限的差值很接近15.5%,才是可信的。
2. 调查数据的统计分析过于简单。
目前看到的调查数据统计分析大都比较简单。只是计算各个问卷指标的百分比,如上面举例的喜欢率15.5%等等。
要避免统计分析过于简单,首先,在做调查表设计时,就事先要考虑好调查数据的统计分析方法。例如同样是调查“你对××活动喜欢的程度”,除了要扩大调查样本量外,在调查表中增加调查性别和年龄。这样就可以采用一种较为复杂的方法——交叉分析。交叉分析是分析“年龄”、 “性别”和“对××活动喜欢程度”三个变量之间的关系。假设不分类统计时,喜欢率是15.5%。交叉分析后就会发现由于性别的不同,年龄段的不同喜欢率是不同的。
例如:2005年国民体质监测问卷调查中,对“睡眠时间”的统计分析,如果只是简单地计算某市成年男子2473人的问卷,只能统计出:睡眠6小时以下的人为13.4%,睡眠6~9小时的73.6%,睡眠9小时以上的13%。但是,如果增加年龄因素,分年龄段进行统计就可以看到,各年龄段的百分比是不同的(统计表略)。利用分年龄段的百分比还可以画出折线图(图略)。从图上更可以清楚的显示出:随着年龄增加,睡眠时间逐渐减少的趋势。
上述统计分析方法比较简单。但是,仅靠简单的统计方法来处理问卷调查数据是十分可惜的,因为大量的数据信息还没有充分利用。所以,设计问卷时,就应该注意到,让收集到的调查数据能做多因素统计分析(如:回归分析,因子分析等)。下面是我帮助或指导有关单位做过的统计分析实例:
例1:2005年国民体质监测的调查问卷内容中,包括了各人的文化程度,职业,工作、生活和体育锻炼等方面的许多问题。为了分析这些调查内容和各人的体质有什么关系,找出哪些因素对体质的好坏特别有关?在进行统计分析时,就需要把体质监测的指标和问卷调查的内容联系起来进行统计。
在成年组调查问卷内容中可进行计算的12个问题是:受教育程度,职业,平均每周工作时间,平均每天睡眠时间,睡眠质量,平均每天步行时间,平均每天坐姿活动时间,吸烟状况,运动感受,平均每周锻炼次数,平均每次锻炼时间,坚持锻炼时间。把这些作为X1, X2, ……X12,再把每个人体质监测中的体质总分作为Y,就可以进行逐步回归分析计算。
某省成年男甲组4242人的数据用逐步回归分析计算结果是:从12个指标中依次选出了X 1 (受教育程度),X12 (坚持锻炼时间), X10(平均每周锻炼次数),X7(平均每天坐姿活动时间) 4个指标。得到回归方程:
Y = 21.85+ 1.02 X 1 -0.20 X7+ 0.34 X10 + 0.28 X12F=101.92 (P<0.01)
复相关系数 R= 0.296
根据回归方程的系数就可以知道:受教育程度高,平均每周锻炼次数多,坚持锻炼时间长,平均每天坐姿活动时间少的人体质总分就高。反之就低。而这个结论只做一般的调查表百分比统计,是得不到的。
例2:某市开展《超重与肥胖人群运动与营养综合干预实验研究》12周后,对参加者进行了问卷调查,内容有:每天进餐情况(分为:五分饱,八分饱,十分饱),每周快走次数(分为:3次以下,3次,4次,5次及以上),每次快走时间(分为:30分钟以内,30~60分钟,60~90分钟,90分钟以上),每次快走距离(分为:3公里以下,3~4公里,5公里及以上)等。
如果仅统计各个问卷内容的百分比,只能计算出如:每次快走时间30分钟以内的29人占22.1%,30~60分钟的47人占35.9%,60~90分钟的19人占14.5%,90分钟以上的36人占27.5% 等等,这样的统计结果并不能说明什么问题。更无法分析出哪些是对减肥有效果的因素。
但是,把问卷调查的内容与参加12周实验后各人体重下降值联系起来统计,情况就不同了。如可以分别计算出:每周快走次数、每次快走时间等指标与体重下降值的相关系数。当计算出以上指标都和体重下降值呈中度或低度相关时,还可以进一步用回归分析的方法计算出标准回归系数或偏回归平方和来分析各指标对体重下降的作用大小。
本例有131人参加实验,为了用数学表达式来描述:饮食、运动量和降体重的关系。把调查表内容转换成数字后,选择了X1(每天进餐情况)、X2(每周快走次数)、X3(每次快走距离)与Y(体重下降值)计算出三元回归方程:
Y= 1.26-1.30 X1 +0.59 X2 +1.70 X3 F =13.855 (P<0.01)
复相关系数 R = 0.4966
从回归方程可以看到,在吃八分饱的情况下,增加每周快走次数和每次快走距离,降体重的效果更好。
可见,当采用了多元回归分析方法后,可以充分利用调查表里的信息从而获得比简单的统计百分比更多的研究结果。
例3:某市对学生体质下降原因进行调研时,设计的调查表内容包括:学生、家长、学校等方面30多项指标。为了分析调查的各指标对学生身体素质影响的主次关系,从调查表中选出可进行因子分析计算的26个指标进行了R型因子分析计算。
R型因子分析通过计算,可找出控制着所有指标的几个主要因素。计算后,原来的许多指标重新组合成较少的几个新的综合指标──公因子。这些公因子相互独立而且反映了原来指标的绝大部分信息。通过R型因子分析的结果,可以看出哪些指标是同一类的,每一个指标以哪一公因子为主,其他公因子所占比例如何,从而分析该指标的特点。还可根据贡献率较大的几个公因子中所包括的指标,来分析出各指标的主次关系。
对3699名中学生的调查数据作R型因子分析计算后,从贡献率最大的5个公因子所包括的调查指标看,归入第1公因子的7个指标,都和参加体育活动有关,因此把第一公因子命名为体育活动因子,归入第2公因子的2个指标,是反映学生家长文化水平的学历,归入第3公因子的2个指标,是反映学生是否关心自己体质、健康的指标,归入第4公因子的2个指标,是反映学校是否关心和组织学生体育活动的指标,归入第5公因子的2个指标,是反映学生家长对体育运动的态度的指标。
从而可以分析出,对学生体质影响最大的第一因素是学生参加体育活动的情况,第二因素是家长的文化水平高低,第三因素是学生自己是否关心自己的体质、健康情况。第四因素是学校是否关心和组织学生参加体育活动,第五因素是家长是否喜爱体育活动是否支持学生参加体育活动。
因子分析的优点在于用一个或少数几个综合指标概括原始数据中尽量多的信息,它能够实现对问题的高度概括,并揭示出一般的特征和规律。本例通过因子分析的统计方法,从学生填在26个调查问卷中的信息,分析出了对学生体质影响的几个主要因素。
之前跟一个之前在国内最大的数字商品交易平台的同事大哥在一起好好地聊了下,很有收获。 对于数据,有一个共识就要会看数据,通过合理及透彻的分析来驱动产品,运营及市场策略的调整。但是这些知识看数据的中级阶段,高级阶段则是通过庞大的多维度的数据分析,能够预测到未来一个季度,半年甚至一年的业务走势,当然预测可以有一定的偏差在里面。还有的就是如果要进入到新业务的扩张上,那么能够计算出未来的一定周期内需要有多大的资金投入量,人员投入量,市场及运营资源投入等达到一个什么样的规模,或者说反推,我想达到这样的规模那么需要多少投入,多长时间。这个是最高阶段,在一般情况下也许根本不会触及到这个方面,少部分能够做到中级阶段基本上已经算是极限了。 互联网的有诸多领域,每个领域关注的点都不一样。我这边先从熟悉的社区和电子商务两个领域来说起。说到数据首先就是要去了解统计数据、分析数据的维度是有哪些。个人认为一般是有用户的维度,运营的维度,在社区来说还有内容的维度,在电子商务内部有运营的维度,我把推荐的单拎出来作为一个维度。 一、用户的维度 从用户的维度来看网站数据,其实就是通常所说的网站分析层面。这个维度主要来看用户是通过什么渠道来到网站,在网站用户的行为是什么,主要的目地为市场人员提供推广效果依据,以及帮助产品人员来分析指南各个网站上哪些页面,哪些区域及模块最能够吸引用户并及时进行策略调整。 网站分析的第一个数据点用户来源渠道,用户是从哪些渠道来到我们的网站上。是直接输入网站地址,是从收藏夹中打开收藏链接,还是在搜索引擎上搜索过来(那么前二十的搜索关键词都有哪些)。抑或是从微博、各个论坛等一些新媒体上点击我们网站链接进来的。如果网站现阶段也在做市场推广,最好的就是每一个放出去的链接都应该带有独立统计标识,这样能够清楚地看到不同的媒体上不同的广告位置的流量怎么样。这样市场人员可以通过这些数据来发现能够为网站带来稳定流程的渠道,同时剔除掉效果不好的渠道。上面说的前二十的搜索关键词也是做SEM确定关键词的一个重要来源。 第二个数据点是用户在网页上行为,就是用户通过各种不同的方式来到我们网站上后,常有的着陆页面是哪些,这些页面都有什么特点需要好好分析一下。重点关注用户在页面上的点击行为,一般用户会看几屏,点击哪些按钮或者链接的概率大,在各个页面上的停留时间是怎么样的。这些数据产品人员需要多关注,通过分析用户在各个网页上的行为,能为我们做产品决策提供很大的依据。 第三个点在用户访问路径上,主要是用户从进入着陆页上之后,陆续会到哪些页面上,最后在哪些页面上进行注册登录操作,在哪些页面上跳出。由这些数据可以清晰地勾勒出典型用户的访问路径图,在结合用户来源渠道一起来分析,就能找到那些渠道上的用户来到网站之后,访问深度最高,转化率从最高,这样市场人员也可以及时调整策略,对这些流量大,效果好的渠道加大推广力度。 第四个点是注册流程,一般来说很多网站的注册流程并不是很短,都需要至少两步,有的能到三四步,重点关注这个是因为注册流程繁琐,那么你的推广做到再好网站各个模块再易用,最后的转化率照样惨不忍睹。通过对这个流程的监测,可以看到有意愿注册的用户到底在哪些环节流失了,是不是填写信息太多,是不是发送确认信息失败等等。 最后总括起来就是,用户来源渠道,UV,PV,停留时间,网页点击热图,一跳率,二跳率,访问路径,转化率,市场推广还应该关注你的CPM,CPC,以及用户转化成本等。 二、运营的维度 运营的维度就是用户到了网站上后续行为,这个方面上社区和电子商务都有自己要去关注的点。 对于电子商务网站来说,用户的维度的分析是分析用户来源,运营的维度那就分析收入情况了。第一个数据点是每日的订单数,这个是要看电商网站整体的销售情况也是最重要的一个数据指标。第二个就是客单价了,每笔订单的金额,基本上订单数和客单价的乘积差不多就是电商网站的整体销量,与实际情况的差别不是很大。接下来就是要去看订单支付成功率,很多人都有这样的经历在电子商务网站上,我们可能会把很多商品放在了购物车上,但是最后肯那个会删掉购物车上某些商品,或者说很多订单最后并没有被支付。电商的运营人员非常关注这个数据,如果说大量的未支付订单,就需要去分析问题是出现哪里。是注册环节出了问题,还是说支付环节出问题导致用户支付失败。 第四个数据点在退货率,这个数据很重要,如果有大量的退货对于网站来说损失非常大,同时还要分析退货的原因是什么。 第五个就是订单交付周期,每个订单从用户支付成功到送达用户签收的时间,当然不同的区域,一线城市和二线城市的交付周期都有差别,但是这是考验了电商整体的物流水平。 还有一个不为人注意的数据点就是投诉率,电子商务的用户体验是一个从线上到线下的全过程,重在服务某一个环节出现差错都是致命。用户投诉,往往就是在某个环节出现了问题,留给用户的印象非常之差。投诉率是电商整体服务水平的体验,建立一个品牌很难,但是毁掉一个品牌则是非常的容易。 对于电商来说,最后一个重点数据则在用户的重复购买率或者二次购买率,这个则是考验了用户的忠诚度。某个用户第一次购买体验非常好,对商品很满意,那么产生二次购买行为的概率就非常大。用户多次购买的时间周期也是一个需要关注的数据点。 对于社区来说,需要关注的运营数据跟电商就有很多差别。以优质内容分享社区为例,每天的新注册用户数,登录的老用户数,人均PV数是社区整体数据。再下来,社区每天产生的内容有多少,具体到文字,图片,视频等各种不同类型的内容各是多少,上前日的增长率是多少,相对于上周或者上月的增长率又是多少。同时,么天新增关注,新增评论,转发等等,这几个数据,都是整个社区互动氛围的整体表现。当然还要考虑流失情况,两周未登录,一月未登录,两月未登录各占到社区总注册人数的比率,比率越高对于社区产品及运营人员来说是非常危险的,更要好好地去关注。 当然对于社区来说,优质活跃用户是营造社区氛围的关键。那么对于这些优质用户来说,是需要重点来关注的。通过数据来分析,达到优质标准的用户每周增长多少,每个人本周发布的内容,各个类型的内容以及互动的数量,有多少人是处于濒临流失状态。这些数据都会帮助运营人员调整自己的策略,例如看到很多用户很活跃,但是发布内容并不好,那么应该怎么去引导用户还有用户濒临流失,那么就需要考虑用什么方法挽回这些用户。 三、商品及内容的维度 这个维度其实也应该放在运营的维度里面年,但是这一块确实很多人都会忽略掉的,所以把这个维度也单拎出来。 在电商中,出了关注网站整体的用户及销售数据,还要关注单一品类及单一商品的数据。某一品类的销量,平均每次购买量,金额,以及退换货率。对于单一商品也是同样的数据分析,来看此商品在一定时期内的销量,订单数,金额,以及退换货率。通过这样的分析就能看到热门品类和热门商品的趋势,后续的运营,营销或者促销的选择就很清晰了。 对于社区来说也是如此,我们要看社区整体的数据情况,但是社区中内容的重要性与人的重要性同等重要。对于优质内容分享的社区来说显得尤为重要。除了内容的文字,图片,视频的不同类型,还有内容本身的分类。包括是摄影,旅行,美食,时尚,动漫,电影等不同标签的内容。在社区中内容的标签是用户自己添加的。那么需要关注的第一个数据点就是用户自己添加的标签有多少是本周内新增的。这样就可以看到社区每周会要多少新鲜的内容产生。第二就是各个标签下用户的发布内容量,每天是多少,每周是多少。最这样就看出哪些标签下的内容最活跃,后续相关的运营活动就可以从这里面找到方向。第三个数据点就是各个标签下用户的互动数,包括评论、转发、收藏抑或喜欢等不同行为操作的数量,这个数据很清晰地显示了用户在不同标签内容中的活跃程度,这是社区氛围运营及活跃必不可少的数据。因子分析的用处是:因子分析是将多个实测变量转换为少数几个综合指标(或称潜变量),它反映一种降维的思想。通过降维将相关性高的变量聚在一起,从而减少需要分析的变量的数量,而减少问题分析的复杂性。用来确定维度数量,对标体系的维度由主观来做判断。
因子分析的内容:
因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。
他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。
将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)