27 - 标准差(Standard Deviation) 与标准误差(Standard Error)

27 - 标准差(Standard Deviation) 与标准误差(Standard Error),第1张

本文摘自

Streiner DL.Maintaining standards: differences between the standard deviation and standarderror, and when to use each. Can J Psychiatry 199641: 498–502.

标准差,缩写为S.D., SD, 或者 s (就是为了把人给弄晕?),是描述数据点在均值(mean)周围聚集程度的指标。

如果把单个数据点称为“ X i ,” 因此 “ X 1 ” 是第一个值,“ X 2 ” 是第二个值,以此类推。均值称为“ M ”。初看上去Σ( X i - M )就可以作为描述数据点散布情况的指标,也就是把每个 X i 与 M 的偏差求和。换句话讲,是(单个数据点—数据点的平均)的总和。

看上去挺有逻辑性的,但是它有两个缺点。

第一个困难是:上述定义的结果永远是0。根据定义,高出均值的和永远等于低于均值的和,因此它们相互抵消。可以取差值的绝对值来解决(也就是说,忽略负值的符号),但是由于各种神秘兮兮的原因,统计学家不喜欢绝对值。另外一个剔除负号的方法是取平方,因为任何数的平方肯定是正的。所以,我们就有Σ( X i - M ) 2 。

另外一个问题是当我们增加数据点后此等式的结果会随之增大。比如我们手头有25个值的样本,根据前面公式计算出SD是10。如果再加25个一模一样的样本,直觉上50个大样本的数据点分布情况应该不变。但是我们的公式会产生更大的SD值。好在我们可以通过除以数据点数量 N 来弥补这个漏洞。所以等式就变成Σ( X i - M ) 2 / N .

根据墨菲定律,我们解决了两个问题,就会随之产生两个新问题。

第一个问题(或者我们应该称为第三个问题,这样能与前面的相衔接)是用平方表达偏差。假设我们测量自闭症儿童的IQ。也许会发现IQ均值是75, 散布程度是100 个IQ点平方。这IQ点平方又是什么东西?不过这容易处理:用结果的平方根替代,这样结果就与原来的测量单位一致。所以上面的例子中的散布程度就是10个IQ点,变得更加容易理解。

最后一个问题是目前的公式是一个有偏估计,也就是说,结果总是高于或者低于真实的值。解释稍微有点复杂,先要绕个弯。在多数情况下,我们做研究的时候,更感兴趣样本来自的总体(population)。比如,我们探查有年轻男性精神分裂症患者的家庭中的外现情绪(expressed emotion,EE)水平时,我们的兴趣点是所有满足此条件的家庭(总体),而不单单是哪些受研究的家庭。我们的工作便是从样本中估计出总体的均值(mean)和SD。因为研究使用的只是样本,所以这些估计会与总体的值未知程度的偏差。理想情况下,计算SD的时候我们应当知道每个家庭的分值(score)偏离总体均值的程度,但是我们手头只有样本的均值。

根据定义,分值样本偏离样本均值的程度要小于偏离其他值,因此使用样本均值减去分值得到的结果总是比用总体均值(还不知道)减去分值要小,公式产生的结果也就偏小(当然N很大的时候,这个偏差就可以忽略)。为了纠正这个问题,我们会用N-1除,而不是N。总之,最后我们得到了修正的标准差的(估计)公式(称为样本标准差):

顺带一下,不要直接使用此公式计算SD,会产生很多舍入误差(rounding error)。统计学书一般会提供另外一个等同的公式,能获得更加精确的值。

现在我们完成了所有推导工作,这意味着什么呢?

假设数据是正态分布的,一旦知道了均值和SD,我们便知道了分值分布的所有情况。对于任一个正态分布,大概2/3(精确的是68.2%)的分值会落在均值-1 SD和均值+1 SD之间,95.4%的在均值-2 SD 和均值+2 SD之间。比如,大部分研究生或者职业院校的入学考试(GRE,MCAT,LSAT和其他折磨人的手段)的分数分布(正态)就设计成均值500,SD 100。这意味68%的人得分在400到600之间,略超过95%的人在300到700之间。使用正态曲线的概率表,我们就能准确指出低于或者高于某个分数的比例是多少。相反的,如果我们想让5%的人淘汰掉,如果知道当年测试的均值和SD,依靠概率表,我们就能准确划出最低分数线。

总结一下,SD告诉我们分值围绕均值的分布情况。现在我们转向标准误差(standard error)。

前面我提到过大部分研究的目的是估计某个总体(population)的参数,比如均值和SD(标准方差)。一旦有了估计值,另外一个问题随之而来:这个估计的精确程度如何?这问题看上去无解。我们实际上不知道确切的总体参数值,所以怎么能评价估计值的接近程度呢?挺符合逻辑的推理。但是以前的统计学家们没有被吓倒,我们也不会。我们可以求助于概率:(问题转化成)真实总体均值处于某个范围内的概率有多大?(格言:统计意味着你不需要把话给说绝了。)

回答这个疑问的一种方法重复研究(实验)几百次,获得很多均值估计。然后取这些均值估计的均值,同时也得出它的标准方差(估计)。然后用前面提到的概率表,我们可估计出一个范围,包括90%或者95%的这些均值估计。如果每个样本是随机的,我们就可以安心地说真实的(总体)均值90%或者95%会落在这个范围内。我们给这些均值估计的标准差取一个新名字:均值的标准误差(the standard error of the mean),缩写是SEM,或者,如果不存在混淆,直接用 SE 代表。

但是首先得处理一个小纰漏:重复研究(实验)几百次。现今做一次研究已经很困难了,不要说几百次了(即使你能花费整个余生来做这些实验)。好在一向给力的统计学家们已经想出了基于单项研究(实验)确定 SE 的方法。让我们先从直观的角度来讲:是哪些因素影响了我们对估计精确性的判断?一个明显的因素是研究的规模。样本规模 N 越大,反常数据对结果的影响就越小,我们的估计就越接近总体的均值。所以, N 应该出现在计算 SE 公式的分母中:因为 N 越大, SE 越小。类似的,第二因素是:数据的波动越小,我们越相信均值估计能精确反映它们。所以, SD 应该出现在计算公式的分子上: SD 越大, SE 越大。因此我们得出以下公式:

(为什么不是 N ? 因为实际是我们是在用 N 除方差 SD 2 ,我们实际不想再用平方值,所以就又采用平方根了。)

所以, SD 实际上反映的是数据点的波动情况,而 SE 则是均值的波动情况。

前面一节,针对 SE ,我们提到了某个值范围。我们有95%或者99%的信心认为真实值就处在当中。我们称这个值范围为“置信区间”,缩写是CI。让我们看看它是如何计算的。看正态分布表,你会发现95%的区域处在-1.96 SD 和+1.96 SD 之间。回顾到前面的GRE和MCAT的例子,分数均值是500, SD是100,这样95%的分数处在304和696之间。如何得到这两个值呢?首先,我们把 S D乘上1.96,然后从均值中减去这部分,便得到下限304。如果加到均值上我们便得到上限696。CI也是这样计算的,不同的地方是我们用 SE 替代 SD 。所以计算95%的CI的公式是: 95%CI= 均值± ( 1.96 x SE )。

好了,现在我们有 SD , SE 和CI。问题也随之而来:什么时候用?选择哪个指标呢?很明显,当我们描述研究结果时, SD 是必须报告的。根据 SD 和样本大小,读者很快就能获知 SE 和任意的 CI 。如果我们再添加上SE和CI,是不是有重复之嫌?回答是:“YES”和“NO”兼有。

本质上,我们是想告之读者通常数据在不同样本上是存在波动的。某一次研究上获得的数据不会与另外一次重复研究的结果一模一样。我们想告之的是期望的差异到底有多大:可能波动存在,但是没有大到会修改结论,或者波动足够大,下次重复研究可能会得出相反的结论。

某种程度上来讲,这就是检验的显著程度,P level 越低,结果的偶然性就越低,下次能重复出类似结果的可能性越高。但是显著性检验,通常是黑白分明的:结果要么是显著的,要么不是。如果两个实验组的均值差别只是勉强通过了P <0.05的红线,也经常被当成一个很稳定的结果。如果我们在图表中加上CI,读者就很容易确定样本和样本间的数据波动会有多大,但是我们选择哪个CI呢?

我们会在图表上加上error bar(误差条,很难听),通常等同于1个 SE 。好处是不用选择SE或者CI了(它们指向的是一样的东西),也无过多的计算。不幸的这种方法传递了很少有用信息。一个error bar (-1 SE,+1 SE )等同于68%的CI;代表我们有68%的信心真的均值(或者2个实验组的均值的差别)会落在这个范围内。糟糕的是,我们习惯用95%,99% 而不是68%。所以让忘记加上 SE 吧,传递的信息量太少了,它的主要用途是计算CI。

那么把error bar加长吧,用2个 SE 如何?这好像有点意思,2是1.96的不错估计。有两方面的好处。首先这个方法能显示95%的CI,比68%更有意义。其次能让我们用眼睛检验差别的显著性(至少在2个实验组的情况下是如此)。如果下面bar的顶部和上面bar的底部没有重叠,两个实验组的差异必定是显著的(5%的显著水平)。因此我们会说,这2个组间存在显著差别。如果我们做t-test,结果会验证这个发现。这种方法对超过2个组的情况就不那么精确了。因为需要多次比较(比如,组1和组2,组2和组3,组1和组3),但是至少能给出差别的粗略指示。在表格中展示CI的时候,你应该给出确切的数值(乘以1.96而不是2)。

SD 反映的是数据点围绕均值的分布状况,是数据报告中必须有的指标。 SE 则反映了均值波动的情况,是研究重复多次后,期望得到的差异程度。 SE 自身不传递很多有用的信息,主要功能是计算95%和99%的CI。 CI是显著性检验的补充,反映的是真实的均值或者均值差别的范围。

一些期刊已把显著性检验抛弃了,CI取而代之。这可能走过头了。因为这两种方法各有优点,也均会被误用。比如,一项小样本研究可能发现控制组和实验组间的差别显著(0.05的显著水平)。如果在结果展示加上CI,读者会很容易看到CI十分宽,说明对差别的估计是很粗糙的。与之相反,大量鼓吹的被二手烟影响的人数,实际上不是一个均值估计。最好的估计是0,它有很宽的CI,报道的却只是CI的上限。

总之, SD 、显著性检验,95%或者99% 的CI,均应该加在报告中 ,有利于读者理解研究结果。它们均有信息量,能相互补充,而不是替代。相反,“ 裸”的 SE 的并不能告诉我们什么信息**,多占据了一些篇幅和空间而已。

https://blog.csdn.net/zzminer/article/details/8939244?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control&dist_request_id=1331302.267.16182420970660717&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control

什么是SEM

‍SEM是Search Engine Marketing的缩写,中文意思是搜索引擎营销。SEM是一种新的网络营销形式。SEM所做的就是全面而有效的利用搜索引擎来进行网络营销和推广。SEM追求最高的性价比,以最小的投入,获最大的来自搜索引擎的访问量,并产生商业价值。

现在随着互联网的深入生活,SEM也是随之而来,方便人们的生活,例如现在大家都普遍使用的B2C网站,还有网上缴费等等,这些都是属于SEM。

搜索引擎(SEM)的目标层次原理

搜索引擎营销可分为四个层次,可分别简单描述为:存在层、表现层、关注层和转化层。

第一层是搜索引擎营销的存在层,其目标是在主要的搜索引擎/分类目录中获得被收录的机会,这是搜索引擎营销的基础,离开这个层次,搜索引擎营销的其他目标也就不可能实现。搜索引擎登录包括免费登录、付费登录、搜索引擎关键词广告等形式。存在层的含义就是让网站中尽可能多的网页获得被搜索引擎收录(而不仅仅是网站首页),也就是为增加网页的搜索引擎可见性。

第二层的目标则是在被搜索引擎收录的基础上尽可能获得好的排名,即在搜索结果中有良好的表现,因而可称为表现层。因为用户关心的只是搜索结果中靠前的少量内容,如果利用主要的关键词检索时网站在搜索结果中的排名靠后,那么还有必要利用关键词广告、竞价广告等形式作为补充手段来实现这一目标。同样,如果在分类目录中的位置不理想,则需要同时考虑在分类目录中利用付费等方式获得排名靠前。

搜索引擎营销的第三个目标则直接表现为网站访问量指标方面,也就是通过搜索结果点击率的增加来达到提高网站访问量的目的。由于只有受到用户关注,经过用户选择后的信息才可能被点击,因此可称为关注层。从搜索引擎的实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前是不够的,这样并不一定能增加用户的点击率,更不能保证将访问者转化为顾客。要通过搜索引擎营销实现访问量增加的目标,则需要从整体上进行网站优化设计,并充分利用关键词广告等有价值的搜索引擎营销专业服务。

搜索引擎营销的第四个目标,即通过访问量的增加转化为企业最终实现收益的提高,可称为转化层。转化层是前面三个目标层次的进一步提升,是各种搜索引擎方法所实现效果的集中体现,但并不是搜索引擎营销的直接效果。从各种搜索引擎策略到产生收益,期间的中间效果表现为网站访问量的增加,网站的收益是由访问量转化所形成的,从访问量转化为收益则是由网站的功能、服务、产品等多种因素共同作用而决定的。因此,第四个目标在搜索引擎营销中属于战略层次的目标。其他三个层次的目标则属于策略范畴,具有可操作性和可控制性的特征,实现这些基本目标是搜索引擎营销的主要任务。

详细参见如下内容:

http://hi.baidu.com/%B8%DF%BC%B6sem%B9%CB%CE%CA/blog/item/d63cc743eb27c82e86947361.html

http://hi.baidu.com/531758291/blog/item/5745d94794528537cefca3f5.html

这个回答够满意了吧

您好,亲 总结如下

1 PR

全称Public Relation,公共关系,就是企业公关。

2 KA

全称KeyAccount,就是大客户。

3 SWOT

S (strengths)是优势、W (weaknesses)是劣势,O (opportunities)是机会、T (threats)是威胁,一般企业在做市场营销方案时,会根据这几点进行分析。

4 DSP

主要指通过网络精准数据投放广告的方式,主要的DSP平台包括百度的竞价搜索、头条的信息流、广点通的广告平台等。

5 SEO

全名是Search Engine Optimization,搜索引擎优化的意思,这是10年前最经典、最有效的网络营销形式,现在也仍然有一定的影响力。

6 SEM

全名是Search Engine Marketing ,就是付费的搜索营销,最早做这个的就是百度,通过购买用户搜索的关键词,在首页展示商家的广告,从而获得客户,比较快速直接,缺点是烧钱。

7 Feeds

现在主要是指信息流,类似于头条这种,用户通过不断刷新,获取系统推荐的资讯。软件方会在信息流中插入广告,获得收入。

8 KOL

全名是Key Opinion Leader,关键意见领袖的意思,俗语就是网红,商家想做推广,直接找KOL,这样做的就是粉丝经济,往往见效快,但是广告费也高。李嘉琪和薇娅应该是目前顶级的KOL

9 H5

全称HTML5,其实是一种网页制作标准,普通营销人员说的H5其实是前几年流行的移动端炫酷页面,可以有各种类似于动画的效果,还能有互动,可以滑动观看,让人耳目一新。目前来看,有些过时了。

10 UGC

全程User Generated Content,指用户产生内容,比如现在的抖音和快手。

11 MCN

全称Multi-Channel Network,现在主要指那些有专业团队,同时可以进行多维度网络内容产出的机构,比如抖音上的MCN,可以同时打造十几个网红,通过一个专业团队,对多个网红提供全面的打造。

12 KPI

全称Key Performance Indicator,简单说就是工作的绩效考核指标,评判工作好坏的一个衡量标准,每个工作岗位都有属于自己的一套KPI标准。

13 SKU

全称Standard Product Unit,标准产品单位,大概就是产品种类的意思,比如京东说有5万多sku,那就是有5万多种商品,平台越大,sku越多

14 GMV

全称Gross Merchandise Volume,网站成交金额,一般在电商平台企业报道中常见,主要指拍下订单的总金额,包含付款和未付款两部分。比如拼多多年GMV800亿元,但是这个GMV并不是特别有参考性,里面包含了大量未付款、退款等因素在内。

15 ROI

全称Return on Investment,投资回报率的意思,在投资界比较常见,投资500万,上市转回5000万,ROI就是10倍。

16 CPA

全称Cost Per Action,每次动作成本,一般是在APP领域常用,这个动作可能是注册一个手机号、下载一个APP、在APP上注册、在APP上消费等。动作流程越深入,需要的广告费用越高。

17 CPM

全称Cost Per Mille,即每千人成本。如果你的广告在抖音上浏览了一千次花费10元,那这个所花的费用10元就是CPM。

18 CPC

全称Cost Per Click,比如百度竞价广告,每点击一次8块钱,就是cpc的成本

19 PV

就是网站有多少页面被浏览。

20 UV

有多少设备访问了网站,这里的设备包括电脑、手机、平板电脑等。

21 IP

是一种互联网协议,我们平时常说的是IP地址,每一个办公室或家庭等,计入网络都有IP地址。即使某人匿名在网上发布了一些非法信息,网警叔叔也能根据IP地址找到他。

现在常说的IP还有一种具有强大影响力的人物或形象的意思,如papi酱,盲盒这些。

22 SNS

全称Social Networking Services,社交网络服务,一般指的是微信、陌陌、Facebook等这样的社交平台。

23 Banner

一般是网站或APP等,进入首页看到的那个可以左右滑动的横幅。

24 ASO

全称App store Optimization,就是APP应用市场的排名优化,通过各种手段,如刷单,让用户更容易看到你的APP,类似于SEO。

25 DAU

全称Daily Active User,日活跃用户数量,是衡量一个平台是否具有价值的非常重要的指标,比如头条日活1.5亿,微信日活5亿,这就显示了平台的价值。

26 MAU

全称Monthly Active Users,月活跃用户量。

27 PUSH

简单说就是给用户发送消息,可以通过APP、小程序、公众号模板消息、短信等给用户发消息,以达到刺激用户做出某些行为的目的,比如发送优惠券信息。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/131694.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-03-16
下一篇2023-03-16

发表评论

登录后才能评论

评论列表(0条)

    保存