统计学中的基本概念和重要公式（一）_服务器知识

统计学中的基本概念和重要公式

1、描述统计学

2、推断统计学

3、数据的几种尺度和类型

4、条形图

5、直方图

6、茎叶图

7、箱线图

8、累积频数

9、累积百分比

10、众数

11、中数（中位数）

12、百分位数

13、均值（平均数）

简单平均数

加权平均数

调和平均数

几何平均数

14、异众比率

15、范围（全距）

16、四分位差

17、方差（总体、样本）

18、标准差（总体、样本）

19、离散系数（变异系数）

20、偏度

21、峰度

22、样本

23、样本点（基本事件）

24、样本空间

25、样本容量

26、随机事件

27、相容事件、互斥事件

28、相关事件、独立事件

29、事件的概率：

（1）概率的古典定义

（2）概率的统计定义

（3）主观概率的定义

30、条件概率

31、事件的补、并、交运算

32、概率的加法公式

33、概率的乘法公式

34、条件概率公式

35、全概率公式

36、贝叶斯公式

37、随机变量

38、离散型随机变量

39、连续型随机变量

40、概率分布

42、概率密度函数

43、概率分布的数学期望和方差

44、二项试验

45、二项分布

46、泊松分布

47、均匀分布

48、指数分布

49、正态分布

50、标准正态分布

51、标准分数（Z分数）

52、统计量

53、总体参数

54、中心极限定理

55、样本均值的分布

56、标准误

57、卡方分布

58、t分布

59、F分布

60、点估计（有效性、无偏性、一致性、充分性）

61、区间估计（显著性水平、置信度、置信区间）

62、假设检验

63、a错误（第一类错误）

64、β错误（第二类错误）

65、单侧检验

66、双侧检验

67、假设检验中的p值

68、独立样本

69、相关样本

70、因素

71、因素的水平

72、主效应

73、交互作用

74、多重比较

75、简单效应

76、离差平方和

77、自由度

78、均方（平均平方）

79、变异的分解

80、F值

81、临界值

82、零假设（虚无假设、原假设、无差异假设）

83、备择假设（研究假设、替换假设）

84、相关、相关系数

（1）积差相关系数（皮尔逊相关）

（2）等级相关（斯皮尔曼等级相关、和谐系数）

（3）点二列相关

（4）二列相关

（5）多列相关

（6）四分相关

85、因变量

86、自变量

87、简单线性回归

88、回归模型

89、回归方程

90、散点图

91、残差

92、最小二乘估计

93、决定系数

94、复相关系数

95、回归系数

96、标准化回归系数

97、列联表

98、拟合度检验

99、独立性检验

100、期望频数（理论频数）

101、观察频数（实际频数）

102、相关系数

103、列联系数

统计学中“SEM”的意思是误差。

统计【tǒng jì】

释义：大量数据的收集、分析、解释和表述。

造句：

主持和进行,由总干事指定的统计调查的有关单位进行协调。

从制药行业的立场来看，患病人口统计也令其不得不加快进程。

分析了太阳活动21周冕洞和日珥之间的一些统计关系。

统计数字表明,至少有百分之三十的农村学龄儿童没有入学。

本年报内的统计数字以历年计算。

我一直向往的一些统计数字已经积累了一些重要盟员。

1.总体：总体（population）是根据研究目的确定的同质的观察单位的全体，更确切的说，是同质的所有观察单位某种观察值（变量值）的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体，反之为无限总体。

样本：从总体中随机抽取部分观察单位，其测量结果的集合称为样本（sample）。样本应具有代表性。所谓有代表性的样本，是指用随机抽样方法获得的样本。

2.随机抽样：随机抽样（random sampling）是指按照随机化的原则（总体中每一个观察单位都有同等的机会被选入到样本中），从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。

3.变异：在自然状态下，个体间测量结果的差异称为变异（variation）。变异是生物医学研究领域普遍存在的现象。严格的说，在自然状态下，任何两个患者或研究群体间都存在差异，其表现为各种生理测量值的参差不齐。

4.计量资料：对每个观察单位用定量的方法测定某项指标量的大小，所得的资料称为计量资料（measurement data）。计量资料亦称定量资料、测量资料。.其变量值是定量的，表现为数值大小，一般有度量衡单位。如某一患者的身高（cm）、体重(kg)、红细胞计数(1012/L)、脉搏（次/分）、血压（KPa）等

计数资料：将观察单位按某种属性或类别分组，所得的观察单位数称为计数资料（count data）。计数资料亦称定性资料或分类资料。其观察值是定性的，表现为互不相容的类别或属性。如调查某地某时的男、女性人口数；治疗一批患者，其治疗效果为有效、无效的人数；调查一批少数民族居民的A、B、AB、O 四种血型的人数等。

等级资料：将观察单位按测量结果的某种属性的不同程度分组，所得各组的观察单位数，称为等级资料（ordinal data）。等级资料又称有序变量。如患者的治疗结果可分为治愈、好转、有效、无效或死亡，各种结果既是分类结果，又有顺序和等级差别，但这种差别却不能准确测量；一批肾病患者尿蛋白含量的测定结果分为 +、++、+++等。

等级资料与计数资料不同：属性分组有程度差别，各组按大小顺序排列。

等级资料与计量资料不同：每个观察单位未确切定量，故亦称为半计量资料。

5．概率：概率(probability)又称几率，是度量某一随机事件A发生可能性大小的一个数值，记为P（A），P（A）越大，说明A事件发生的可能性越大。0﹤P（A）﹤1。频率：在相同的条件下，独立重复做n 次试验，事件A 出现了m 次，则比值m/n 称为随机事件A 在n 次试验中出现的频率(freqency)。当试验重复很多次时P（A）= m/n。

6. 随机误差：随机误差（random error）又称偶然误差，是指排除了系统误差后尚存的差。它受多种因素的影响，使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。

抽样误差（sampling error ）是指样本统计量与总体参数的差别。在总体确定的情况下，总体参数是固定的常数，统计量是在总体参数附近波动的随机变量。

7．系统误差：系统误差(systematic error)是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因，使观察值不是分散在真值的两侧，而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。

8．随机变量：随机变量（random variable）是指取指不能事先确定的观察结果。随机量的具体内容虽然是各式各样的，但共同的特点是不能用一个常数来表示，而且，理论上讲，每个变量的取值服从特定的概率分布。

9．参数：参数（paramater）是指总体的统计指标，如总体均数、总体率等。总体参数是固定的常数。多数情况下，总体参数是不易知道的，但可通过随机抽样抽取有代表性的样本，用算得的样本统计量估计未知的总体参数。

10．统计量：统计量（statistic）是指样本的统计指标，如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数是固定的常数，统计量是在总体参数附近波动的随机变量。

11.频数表（frequency table）用来表示一批数据各观察值或在不同取值区间的出现的频繁程度（频数）。对于离散数据，每一个观察值即对应一个频数，如某医院某年度一日内死亡0，1，2…个病人的天数。对于散布区间很大的离散数据和连续型数据，数据散布区间由若干组段组成，每个组段对应一个频数。

12.算术均数（arithmetic mean）描述一组数据在数量上的平均水平。总体均数用μ表示，样本均数用X 表示。

13.几何均数（geometric mean）用以描述对数正态分布或数据呈倍数变化资料的水平。记为G。

14.中位数（median）Md将一组观察值由小到大排列，n 为奇数时取位次居中的变量值；为偶数时，取位次居中的两个变量的平均值。反映一批观察值在位次上的平均水平。

15.极差（range）亦称全距，即最大值与最小值之差，用于资料的粗略分析，其计算简便但稳定性较差。

16.百分位数（percentile）是将n 个观察值从小到大依次排列，再把它们的位次依次转化为百分位。百分位数的另一个重要用途是确定医学参考值范围。

17.四分位数间距（inter-quartile range）是由第3 四分位数和第1 四分位数相减计算而得，常与中位数一起使用，描述偏态分布资料的分布特征，较极差稳定。

18.方差（variance）：方差表示一组数据的平均离散情况，由离均差的平方和除以样本个数得到。

19.标准差（standard deviation）是方差的正平方根，使用的量纲与原量纲相同，适用于近似正态分布的资料，大样本、小样本均可，最为常用。

20.变异系数（coefficient of variation）用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。用CV 表示。计算：标准差/均数*100%

21.统计推断：通过样本指标来说明总体特征，这种从样本获取有关总体信息的过程称为统计推断（statistical inference）。

22.抽样误差：由个体变异产生的，抽样造成的样本统计量与总体参数的差异，称为抽样误差（sampling error）。

23.标准误及X s ：通常将样本统计量的标准差称为标准误。许多样本均数的标准差X s称为均数的标准误（standard error of mean，SEM ），它反映了样本均数间的离散程度，也反映了样本均数与总体均数的差异，说明均数抽样误差的大小。

24.可信区间：按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间（confidence interval，CI）。它的确切含义是：可信区间包含总体参数的可能性是1- α ，而不是总体参数落在该范围的可能性为1-α 。

25.参数估计：指用样本指标值（统计量）估计总体指标值（参数）。参数估计有两种方法：点估计和区间估计。

26.假设检验中P 的含义：指从H0 规定的总体随机抽得等于及大于（或等于及小于）现有样本获得的检验统计量值的概率。

27.I 型和II 型错误：I 型错误（type I error ），指拒绝了实际上成立的H0，这类“弃真”的错误称为I 型错误，其概率大小用α表示；II 型错误（type II error），指接受了实际上不成立的H0，这类“存伪”的误称为II 型错误，其概率大小用β表示。

28.检验效能：1- β称为检验效能（power of test），它是指当两总体确有差别，按规定的检验水准a 所能发现该差异的能力。

29.检验水准：是预先规定的，当假设检验结果拒绝H0，接受H1，下“有差别”的结论时犯错误的概率称为检验水准（level of a test），记为α 。

30..率（rate）又称频率指标，说明一定时期内某现象发生的频率或强度。计算公式为：发生某现象的观察单位数/可能发生某现象的观察单位总数*100%，表示方式有：百分率（%）、千分率（‰）等。

31.构成比（proportion）又称构成指标，说明某一事物内部各组成部分所占的比重或分布。计算公式为：某一组成部分的观察单位数/同一事物各组成部分的观察单位总数*100%，表示方式有：百分数等。

32.比（ratio）又称相对比，是A、B 两个有关指标之比，说明A 是B 的若干倍或百分之几。计算公式为：A/B ，表示方式有：倍数或分数等。

33.非参数统计：针对某些资料的总体分布难以用某种函数式来表达，或者资料的总体分布的函数式是未知的，只知道总体分布是连续型的或离散型的，用于解决这类问题的一种不依赖总体分布的具体形式的统计分析方法。由于这类方法不受总体参数的限制，故称非参数统计法（non-parametric statistics），或称为不拘分布（distribution-free statistics）的统计分析方法，又称为无分布型式假定（assumption free statistics）的统计分析方法。

34.参数统计：通常要求样本来自总体分布型是已知的（如正态分布），在这种假设的基础上，对总体参数（如总体均数）进行估计和检验，称为参数统计(parametric statistics)

35.秩次：变量值按照从小到大顺序所编的秩序号称为秩次（rank）。

36.秩和：各组秩次的合计称为秩和（rank sum），是非参数检验的基本统计量。

37.直线回归（linear regression）建立一个描述应变量依自变量变化而变化的直线方程，并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种，故又称简单回归（simple regression）。

38.回归系数（regression coefficient ）即直线的斜率(slope)，在直线回归方程中用b 表示，b 的统计意义为X每增（减）一个单位时，Y平均改变b 个单位。

39.相关系数r：用以描述两个随机变量之间线性相关关系的密切程度与相关方向的统计指标。

欢迎分享，转载请注明来源：夏雨云

原文地址:https://www.xiayuyun.com/zonghe/404293.html

统计学中的基本概念和重要公式（一）

发表评论

评论列表（0条）