统计分析

最近在做一份薪酬绩效分析报告,用Power pivot处理数据,所以找到了一些数据分析的理论知识。当我真正做分析的时候,我发现我已经完全忘记的统计学在描述统计分析中起着重要的作用,于是我打开百度,从输入“离散度”开始。(以下概念均来自百度,我只是知识的搬运工,为了方便自己学习)

1分散度

通过测量随机变量的值之间的离散程度,可以反映被观察个体之间的差异,从而反映分布中心的指标对被观察变量的值的代表性。

通过测量随机变量的值之间的分散程度,我们可以反映随机变量的密度曲线的瘦或胖的程度。

1.1分散程度的衡量指标

有许多指标可以用来衡量观察变量值之间的差异,在统计分析和推断中最常用的是极差、平均差和标准差。

1.1.1极限范围

极差,又称满量程,是被观测变量的最大值和最小值之间的偏差,即被观测变量的最大值和最小值之间的区间跨度。范围的计算公式为:

R=?最大(xi)最小(xi)

平均差1.1.2

平均差是每个单位符号与其算术平均值的偏差绝对值的算术平均值。它综合反映了整体单位标志值的变化程度。平均差值越大,符号变化越大,反之亦然。

1.1.3标准差

标准差是随机变量离差平方平均值的算术平方根,是最常用的反映随机变量离散程度的指标。标准差可以从样本数据和观察变量的理论分布中计算出来,分别称为样本标准差和总体标准差。

标准差是对一组值偏离平均值的程度的度量。标准差大意味着大部分数值与其平均值相差很大;较小的标准差意味着这些值更接近平均值。

例如,两组数字{0,5,9,14}和{5,6,8,9}的平均值为7,但第二组的标准差较小。

标准偏差可以用来衡量不确定性。例如,在物理科学中,当进行重复测量时,测量值集合的标准偏差代表这些测量的准确度。在确定测量值是否符合预测值时,测量值的标准差起着决定性的作用:如果测量平均值与预测值相差太远(同时与标准偏差值相比较),则认为测量值与预测值矛盾。这个很好理解,因为数值都落在某个数值范围之外,可以合理推断预测值是否正确。

2配送中心

随机变量的分布中心是随机变量所有值的代表,可以用来反映其值的大致水平。

随机变量的分布中心可以揭示随机变量所有值在直角坐标系中的集中位置,可以用来反映随机变量分布密度曲线的中心位置,即对称中心或峰值位置。

衡量随机变量分布中心的指标有很多,统计分析和推断中常用的有算术平均值、中位数和众数。

2.1算术平均值

算术平均值,也称为算术平均值,是随机变量的所有观测值之和与观测值个数的比值。

2.2中位数

中位数是指按大小顺序排列形成一个数列的数据,位于数列的中间。中位数由我来表达。

从中位数的定义可以看出,研究的数据有一半小于中位数,一半大于中位数。中位数的作用类似于算术平均值,也是所研究数据的代表值。在等差数列或正态分布数列中,中位数等于算术平均数。

当数列中出现极值变量值时,用中位数作为代表值比算术平均值好,因为中位数不受极值变量值的影响;如果研究的目的是反映中间水平,当然也要用中位数。中位数可以用于统计数据的处理和分析。

2.3模式

众数指的是在一组数据中出现频率最高的数据。一组数据可能有也可能没有多种模式。

三度分布

发行系列(发行?Series)是在统计分组的基础上,将总体中的所有单元按照一定的标志进行分组和分类,将每组中的单元总数进行汇总,并按照一定的顺序进行排列,形成每组中单元总数的分布,也称为频数分布。

Logo: Logo是用来描述整体单元特征的名称。比如研究工人的情况,所有工人是一个整体,每个工人是一个整体单位。如果一个工人的性别是男,年龄是32岁,月薪是100元,工种是车工,那就叫签。性别、年龄、工种、月薪是招牌的名称;男,32岁,100元,车工就是这些迹象的具体体现。标志的名称及其具体表现可以反映各整体单位的具体情况。

分布在每组中的单元数称为频率或频率,用f表示,每组中的次数与总次数的比值称为频率,用f/f表示,频率分布可以显示群体中所有单元在每组中的分布特征,研究一个符号在群体中的平均水平及其变化规律。比如按性别进行人口分组所形成的各组内人口分布的数列;将学生按年龄分组形成的每组学生人数分布的数列都是频数分布数列。

数量分布序列直观地显示了整体单位的分布特征和结构,在此基础上可以进一步研究其构成、平均水平及其变化规律,是统计分析的重要手段。

表1是数字分布系列的一个例子。

3.1分布序列的分类

根据分组标志的不同特征,分布序列可分为属性分布序列和变量分布序列。

3.1.1属性分布系列

按质量标志分组形成的数分布系列称为属性分布系列,一般称为质量系列,由组名和每组数两个要素组成。对于质量系列,如果分组标志选择得当,分组标准设置得当,事物性质的差异就会更加清晰,群体在人群中的划分也就容易解决,从而准确反映现象人群的分布特征。

3.1.2变量分布系列

按数量符号分组形成的数分布数列称为变量分布数列,一般称为变量数列,由变量值和每组数两个要素组成。每组的次数反映了每组变量值在整体中的作用。

表2是一系列素质,反映某一地区人口的民族构成。表3是一系列变量,反映了某一地区人口的年龄结构。

根据是否连续,分布序列可分为不连续分布序列和连续分布序列。

3.1.3不连续分布系列

也称为不连续分布序列。它是一种只能以整数形式出现而不能以小数形式出现的分布序列,例如,年龄分布序列、员工人数分布序列、设备人数分布序列等等。

3.1.4连续分布系列

是指可以用小数形式表示的分布数列,如工资分布数列、产值分布数列、商品销售分布数列等。

表4是一个不连续分布序列的例子。

表5是一个连续分布系列的例子。

3.2累积频率分布

分布序列本身不仅可以反映总体的频数分布,而且可以在统计分析中频数分布的基础上进一步研究频数和频数分布。累积频数分布,分别累加频数和频数,表示总体中某一标志值低于某一特定值的观测值的个数和比例,概括了总体中所有单位的分布特征。

累积频率分布有两种形式:向上累积和向下累积。

3.2.1向上累计频率或比率

向上累计频率分布是从变量值低的组到变量值高的组累计每组的次数或比率。向上累计频率,表示低于某个上限的单位之和;向上累计频率,表示低于某组上限的每组单位之和占总单位的比例。

3.2.2向下累计频率或比率

向下累计频率分布是从变量值高的组到变量值低的组累计每组的次数或比率。向下累计频率,表示某个下限以上的单位之和;向下累计频率表示某组下限以上的每组单位之和占总单位数的比例。

表6显示了累积频率分布的具体形式。

根据表6,有4名学生不及格,占所有学生的5.0%。70分以下的有18人,占全部学生的22.5%。80分以上学生40人,占全体学生的50.0%;成绩优秀(90分)的有16人,占全体学生的20.0%。

累积频率分布的特点是:第一,第一组的累积频率等于第一组的频率;第二,最后一组的累计频率等于单位总数。

累积频率分布的特点是:第一,第一组的累积频率就是第一组的频率;第二,最后一组的累计频率等于1(或100%)。

3.3频率分布的主要类型

3.3.1正态分布

正态分布又称钟形分布,特点是“中间大两端小”,即靠近中间的变量值分布次数多,靠近两端的变量值分布次数少,如图1所示。

许多社会经济现象都是钟形分布。比如人的身高体重、学生成绩、农作物产量、市场价格、零件公差等现象都属于正态分布。

3.3.2U型分布

U型分布的特点是靠近中间的变量值个数较少,靠近两端的变量值个数较多,形成“两头大中间小”的分布特点。按年龄分组的人口死亡率分布图和按使用时间分组的机器产品故障率分布图都显示了这种模式(见图2)。

图2中的曲线表明,婴幼儿和老年人死亡率较高,中青年死亡率较低,或者机器投入使用时故障率较高,然后急剧下降,维修相当一段时间后故障率急剧上升。这条分布曲线的中间部分占据了整条曲线的大部分。

j形分布

j型分布的特点是“一边小一边大”,即大部分变量值分布在一端。有正J型曲线和反J型曲线两种。前者表现为次数随变量值的增加而增加,如投资额与利润率的相互变化关系,如图3(a)所示;后者表现为次数随着可变价值的增加而减少,如商品的销售量与其价格的增减关系,如图3(b)所示。

频率分布的类型主要取决于社会经济现象本身的性质。编制出来的数分布数列和图形,由于整体的客观条件不同,有时可能会有不同的表现,但其形状应该还是符合这种现象的分布特征的。

4正态分布

正态分布,也叫“正态分布”,也叫高斯分布。正常曲线呈钟形,两端低中间高,左右对称,所以人们常称之为钟形曲线。

如果随机变量X服从数学期望为μ、方差为σ 2的正态分布,则记为N(μ,σ 2)。概率密度函数为正态分布的期望值μ决定其位置,其标定差σ决定分布幅度。当μ = 0,σ = 1时,正态分布为标准正态分布。

4.1参数含义

正态分布有两个参数,即期望(均值)μ和标准差σ,其中σ2是方差。

正态分布具有两个参数μ和σ 2的连续随机变量的分布。第一个参数μ是服从正态分布的随机变量的均值,第二个参数σ 2是这个随机变量的方差,所以正态分布记为N(μ,σ2)。

μ是正态分布的位置参数,描述了正态分布的集中趋势位置。概率定律是,取接近μ的值的概率大,取离μ较远的值的概率小。正态分布以X=μ为对称轴,左右两侧完全对称。正态分布的期望、均值、中位数、众数都一样,都等于μ。

σ描述了正态分布数据的离散程度。σ越大,数据分布越分散,σ越小,数据分布越集中。σ也称为正态分布的形状参数。σ越大,曲线越平坦;反之,σ越小,曲线越细。

4.2图形特征

浓度:正态曲线的峰值位于中心,也就是均值所在的位置。

对称性:正态曲线以均值为中心,左右对称,曲线两端从不与横轴相交。

均匀变异:正态曲线从均值所在的地方开始,分别向左右两侧逐渐均匀递减。

曲线与横轴之间的面积始终等于1,等价于概率密度函数从正无穷向负无穷积分的函数的概率为1。即频率之和为100%。

关于μ对称性,在μ取最大值,在正(负)无穷远处取值,在μ σ处有拐点,形状中间高两边低。正态分布的概率密度函数曲线呈钟形,所以人们常称之为钟形曲线。

4.3标准积极态度分布表

(吐槽:微积分好像学过这种形式,都还给老师了。。)

表头水平方向表示小数点后第二位,表头垂直方向为整数部分和小数点后第一位;两者组合成一个完整的X,比如X=1.15,左列找到标准正态分布表1.1,上一行找到0.05,1.1,0.05对应的值为0.8749。