摘要:平均差和标准差是反映变量离散程度的两大重要指标。标准差存在着准确性低、误差大的致命性缺陷,且缺乏解构性功能。以平均差的原型计量公式为基点,推导出其新的计量模型,从中发现和揭示其所具有的12条数学性质;从产生和发展的逻辑关系、数量关系以及数学性质的相通和差异关系等三个维度深入研讨平均差与标准差的内在关系;平均差在全面性、准确性和简便性上远胜于标准差,而且在所均有的数学性质和所涵盖的反映变量离散程度的信息量上也远超标准差。
关键词: 标准差;平均差;数学性质;内在关系
0 引言
平均差和标准差是反映变量离散程度的两大重要指标。平均差是总体各单位标志值对其算术平均数的离差的绝对值的算术平均数,它反映变量离散程度最全面、最直接、最简单、最准确。由于在那没有计算机的年代里,离差的绝对值计算很不方便,因而在很大程度上限制了平均差的应用推广。为了解决这一问题,于是采用了对离差先平方再取其算术平均数的平方根的方法,即标准差,来反映变量离散程度。基于标准差避开了绝对值这一不便于数学运算的缺陷,又具有许多可以广泛应用于统计理论研究与实务分析的数学性质,是以所有教科书上都称标准差为“最常用、最重要的指标”。
其实,标准差存在着准确性低、误差大的致命性缺陷,且缺乏解构性功能,而平均差因运用绝对值计算的数学运算缺陷在当今发达计算机时代已不复存在,消除离差的正负号已经是一个非常简单的问题,利用Excel就可以快速计算平均值AD;其应用范围不大的原因不在于标准差本身,而在于我们对平均差的数学性质的挖掘和拓展研究不够,未能发现平均差所具有的数学性质的外延的多样性和应用的广泛性。同时,平均差与标准差之间所存在的内在关系,不单单是数量关系,还有它们产生、发展的逻辑关系,以及数学性质的异同或近似关系。所有这些,都需要我们认真搞清楚平均差究竟具有哪些数学性质。本文在以平均差的原型计量公式为基点,推导出其新的计量模型,从中发现和揭示其所具有的若干数学性质的基础上,深入研讨平均差与标准差的内在关系,为科学、合理、公正地比较两者之优越性提供新的视点、思路和方法。
1 文献述评
1.1 平均差及其原型算法的优缺点
教科书上都表明平均差的优点是反映比较全面,计算方法简单明了;其缺点是不便于数学运算,应用范围不大。近些年来,理论界对平均值的优点进行了重新认识,它不仅反映比较全面、计算方法简单明了,而且更重要的是其反映标志变异程度在数据上准确无误。赵海燕等(2002)指出,由平均差计算出的数值在反映总体各单位离差的一般水平时,既不夸大离差,也不缩小离差,能够准确反映总体各单位对应标志值相对于平均数的离中趋势,从这一关键点上讲,平均差应是最基本、最重要和最科学的变异指标。⑴
其实,人们看到了平均值AD在反映标志变异程度上的全面性、简明性和准确性优点,也看到了它的利用绝对值消除离差的正负号而不便于数学运算和应用范围不大之缺点,但是没有注意到其不便于数学运算的特定环境条件。在当今科学技术非常发达的计算机时代,消除离差的正负号已经是一个非常简单的问题,利用Excel就可以快速计算平均值AD。然而,其应用范围还是难以明显扩大,更重要的是平均值AD缺乏解构功能,无法解释标志变异程度的构成现状和结构运动变化规律。
1.2 标准差的优缺点
教科书上都表明标准差所具有的诸多优点,而不论及缺陷。称标准差在数学上具有很多优越之处,是最常用、最重要、最理想的反映标志变异程度的计量方法。令人欣喜的是,有些学者对标准差存在的缺陷进行了一些初步研究,并将研究成果发表于杂志进行交流。龚承刚(2000)⑵、赵海燕等(2002)⑶和韩兆洲等(2008)⑷指出,标准差由于经过平方和开方过程,这种平方放大后的离差并没有通过开平方根被完全消除平均掉,夸大了标志值的分散程度,无形中人为地降低了平均指标的代表性,甚至产生与平均差截然相反的错误结论,从而导致对总体标志变异程度的误判。对于标准差在反映标志变异程度上的准确性低、误差大问题,樊顺厚、刘树琪(1994)曾指出,正态分布的标准差比平均差大25.33%,均匀分布的标准差比平均差大15.47%,指数分布的标准差比平均差大35.91%。⑸
我们认为,标准差不仅在反映标志变异程度上的准确性低、误差大之致命性缺点,而且其应用最小平方原理计算标准差也并不能表明标准差是最理想的标志变异程度的计量方法,同时尤为重要的是标准差也同样缺乏解构功能,无法解释标志变异程度的构成现状和结构运动变化规律。
1.3 平均差与标准差的内在关系
关于平均差与标准差的内在关系,教科书上介绍几乎空白,研究文章倒有一些,但都是仅仅从数量关系上进行讨论,并且还有一些结论是明显错误的。桂文林、伍超标(2005)指出,平均差在数量上一般不会超过标准差,方差超过平均差平方的部分是离差的平方,反映的是离差间的变异程度;在正态分布的情况下,标准差和平均差之间是简单的倍数关系;对于一般的分布,平均差和标准差是描述离散空间的两个指标,前者反映了离散空间的最大垂直距离;后者度量了离散空间的面积。⑹
我们认为,这一结论存在着明显的错误。首先,方差超过平均差平方的部分并非离差的平方;其次,在正态分布的情况下,标准差和平均差之间并不存在简单的倍数关系;再次,对于一般的分布,前者反映的并非离散空间的最大垂直距离;后者度量的也并非离散空间的面积。基于本文的重点并非与桂文林等文商権,故这里仅就“方差超过平均差平方的部分是离差的平方”的错误性从两个维度进行证明。
1.3.1 举一个实例数据足以证明其错误性。
例1,某机械制造有限责任公司共有员工30人,2009年度每一员工的工资总额如下表所示:
员工代号 |
工资总额 |
员工代号 |
工资总额 |
1 |
46982 |
6 |
54768 |
2 |
38564 |
7 |
33956 |
3 |
64359 |
8 |
45434 |
4 |
49812 |
9 |
38692 |
5 |
33675 |
10 |
29565 |
根据上表中所列的数据,按照方差、平均差的计算公式,就可以计算出:
=104699035-(8690.3)2
≈29177721
按照桂文林等文的的计算公式计算,有
≈103993408
显然,29177721≠103993408
故有,,
。
1.3.2 从其推导过程的失误来证明其错误性。
产生“方差超过平均差平方的部分是离差的平方”的这一错误结论的成因在于计量公式推导过程中出现了失误,亦即公式误导。桂文林、伍超标(2005)的“方差超过平均差平方的部分是离差的平方”其数学表达式为⑹:
在连续的随机变量情况下,表示变量X的标准差,AD表示变量X的平均差,
表示离差Y的标准差,则有
———————————————⑴
在样本数据的条件下,则上式可以推广到一般情形,令,于是有
————————————⑵
由于公式⑵是一般情形,而公式⑴是特殊情形,其公式⑴是未经推导证明的,公式⑵是经过桂文林等文推导证明的,因此下面仅就公式⑵的推导过程错误做些揭示。
桂文林等文对公式⑵推导证明如下:
令 得到:
(第一步)
(第二步)
(第三步)
(第四步)
(第五步)
上述推导证明过程中,第一步、第二部正确无误,但是,第三步开始就出现了明显的误导。
众所周知,,
显然第三步:是错误的,从而第四步也是错误的,进而第五步所得到的结论也是误导的结果。
2 平均差新算法的数学推导和数学性质
我们认为标志变异程度计量公式的构造,应当体现4条准则:①计量公式的可导性,它不是通过人为假设是什么来计算的,而是推导出来的,或者是可以通过科学推导证明的;②计量结果的准确性,用其计量出来的结果与实际均差相一致;③计量模型的解构性,可以解读标志变异程度是由哪几部分组成的,以及各部分对整体的影响程度。④计量运算的可行性,在当今计算机时代能够进行代数运算。
按照上述绝对标志变异程度计量公式的构造四准则,我们认为标志值绝对变异程度可以通过平均差来衡量与反映。平均差反映的是标志值变异的绝对程度,以绝对量表示,它是有名量纲。
2.1 平均差新算法的数学推导
设总体标志值数列为X1,X2,…Xn,总体标志值的平均值为,各标志值与平均值的偏离程度为
,
,…
,平均差为AD, 则其数学表达式为(平均差的原型计算公式):
上式的两边同时平方,得
——————————⑶
因为,所以⑶式可变形为
—————————⑷
⑷式的两边同时开方,得
—————————⑸
我们将⑸式称为新的平均差计量公式,它是由平均差的原型计算公式推导出来的,运用⑸式计算所得的平均差,不仅在数值上与原型方法计算出来的平均差等价,反映标志变异程度的数据与原型平均差同样准确,而且它所具有的数学性质和解构功能却大大拓展了,并且与标准差相比,它兼具反映标志变异程度的准确性和解构性优势。为了下文进一步研究和表述方便,同时避免与原型平均差AD相混淆,我们将AD以δ替代,δ2就表示均差方(或平均差方,指离差的绝对值的算术平均数的平方)。于是⑶式、⑷式依次可以变型为⑸式、⑹式:
—————————⑹
————————⑺
2.2 平均差的数学性质及其证明
我们的研究发现,平均差δ和均差方具有12条数学性质,基于这一研究成果及其证明将于近期发表,故在这里仅简单描述这些数学性质,以助于更加深入和更加全面地探讨平均差与标准差之间的内在关系。
性质1 若总体各标志值均为常数C,则反映标志变异程度的平均差为0。
设总体各标志值均为常数C,即。
则有。
性质2 平均差δ与平均差AD等价,反映标志变异程度的数据与平均差AD同样准确。
δ=AD。
性质3 平均差的平方等于离差平方的二次算术平均数加上协差方绝对值的二次算术平均数,即平均差的平方是由离差平方的二次算术平均数、协差方绝对值的二次算术平均数等两部分构成的,这两部分之和的平方开平方后则为平均差。因而,这一数学性质使得平均差δ具有解构性功能。
——————————⑻
⑻式表明,把平均差δ看成一个整体,那么这一整体由两个部分构成,第一部分是离差因素在平均差δ中的影响程度,它反映的是各变量离中作用对整体平均值的影响程度;第二部分是协差方因素在平均差δ中的影响程度,它反映的是各离差之间差距的协同作用对整体平均值的影响程度。
平均差所具有的这一数学性质,尤其是协差方因素作用生成比重较大的平均差,揭示了时间序列上存在着强烈而重要的数据信息遗传作用,它在股市投资预测和定价分析中有着显著的解释功能与重大的应用价值。
性质4 变量对算术平均数的均差方小于对任意常数的均差方。
设X0为任一变量值(任意常数),且≠X0,则应有
,
,则有
————————————————————⑼
性质5 N个同质独立变量和的均差方等于各个变量的均差方之和。
设有N个独立变量,其差方分别为
。则有
—————————————⑽
性质6 若各个变量的平均差中有两个及以上的数值为非零,则N个同质独立变量的平均差小于各个变量的平均差之和。
————————————————⑾
性质7 N个同质独立变量平均数的均差方等于各个变量均差方的平均数的。
设有N个独立变量,其差方分别为
,则有
—————————————————————⑿
⒁式中,为变量平均数的差方,
变量差方的平均数。
性质8 每个变量同时增加(或减少)同样数值,均差方和平均差的数值不变。或者说,每个变量发生平移,均差方和平均差的数值不变。
性质9 每个变量都扩大(或缩小)同样幅度,均差方扩大(或缩小)幅度是每个变量变幅的平方数,平均差扩大(或缩小)的幅度与每个变量变幅相同。
性质10 变量线性变换的均差方等于变量的均差方乘以变量系数的平方。换言之,如果自变量X与因变量Y之间的关系为线性相关,且有,a、b为常数,则:
—————————————————————⒀
性质11 均值左边变量偏离均值的均差方与均值右边变量偏离均值的均差方始终等价,两者的平均差也等价。即:
,
。
性质12 左平均差与右平均差之和等于总体平均差,两者均差方以及协差方三项之和等于总体均差方。
————————————————————⒁
本条数学性质具有非常大的理论与实际应用价值,这不仅将总体差方与平均差划分为左差方和右差方、左平均差和右平均差,而且很重要的一点是将左差方和右差方、左平均差和右平均差计量的自由度均定位于总体标志变量阶数N。这一数学性质,在投资风险分析、气候气温预测中具有非常重要的应用价值。
3 平均差与标准差的内在关系之推证
平均差与标准差之间是否存在内在关系,存在什么样的内在关系?我们将从它们产生和发展的逻辑关系、数量关系以及数学性质的相通和差异关系等三个维度开展分析与探讨。
3.1 从产生和发展的逻辑关系维度剖析
平均差是总体各单位标志值对其算术平均数的离差的绝对值的算术平均数,它反映变量离散程度最全面、最直接、最简单、最准确。然而,由于受“算术平均数有一条数学性质即各标志值与其算术平均数离差之和等于零”的影响,以致无法直接通过对离差进行求和来计算平均差,因而需要通过离差取绝对值进而计算平均差,但是,苦于在那没有计算机的年代里,离差的绝对值计算很不方便,因而在很大程度上限制了平均差的应用推广。为了解决这一问题,以增强反映变量离散程度指标的应用推广能力,于是采用了对离差先平方再取其算术平均数的平方根的方法,亦即产生了标准差指标。所以,从产生和发展的逻辑关系看,是先有平均差,后有标准差;标准差是为了避开平均差因绝对值不便于数学运算之缺陷而产生和发展的;若撇开数学运算不变之缺陷,则平均差在全面性、准确性和简便性上远胜于标准差;标准差只是在那没有计算机的年代里,衡量和反映变量离散程度指标的次优选择。随着计算机的诞生与高速发展、平均差所具有的若干数学性质的发现与证实,标准差在统计学理论与实务分析中的重要地位必将逐步由平均差所取代。
3.2 从数量关系维度剖析
标准差与平均差之间所存在的内在关系在数量关系上的表现,可以从标准差与平均差之间的差量关系、标准差与平均差之间的商量关系两个维度来反映。
设总体标志值数列为X1,X2,…Xn,总体标志值的平均值为,各标志值与平均值的偏离程度为
,
,…
,平均差为δ,标准差为σ。根据公式则有
令,
,于是,上述两式可以变型为:
3.2.1 标准差与平均差之间的差量关系。
标准差与平均差之间的差量关系可以通过来推演,这样可以使分析论证过程变得更加简洁。
————————————⒂
因为
所以,公式又可以变型为
——————⒃
在公式所表达的标准差的平方与平均差的平方之差量关系中,我们还可以意
外的发现:
3.2.1.1 标准差通过对变量离差取平方值的算术平均数,它比原型对变量离差取绝对值的算术平均数,相应地人为扩大变量离散程度,亦即;同时,为了使前面对变量离差取平方值的算术平均数而人为扩大了的数值恢复到
原型的水平,于是对方差进行开方,相应地又人为缩小变量离散程度。
3.2.1.2 标准差通过对变量离差取平方值的算术平均数的平方根,在扩大了某
些信息量的同时,人为地丢失了大量具有非常重要价值的信息量。从公式中不难看出,标准差丢失了或
,并且还丢失了
之信息量,而伴随这些重要信息量的被丢失,导致了许多数学性质未能被发现。
3.2.2 标准差与平均差之间的商量关系。
标准差与平均差之间的商量关系可以通过来推演,这样可以使分析论证过程变得更加简洁。
————————————⒄
3.3 从数学性质维度剖析
标准差与平均差两者都具有许多数学性质,它们之间有的数学性质具有相通性,在反映变量离散程度的某一部分时可以相互替代;但是,它们之间有些数学性质却是根本不同的,尤其是在反映变量离散程度的数学性质信息量具有本质的差异,往往是平均差涵盖了标准差所能反映变量离散程度的数学性质信息量,但是标准差却涵盖不了平均差所能反映变量离散程度的数学性质信息量,亦即在所能反映变量离散程度的数学性质信息量上平均差比标准差要广阔得多。主要表现在:
3.3.1 从两者数学性质信息量相通性层面看,主要有:①若总体各标志值均为常数C,则反映标志变异程度的平均差和标准差都为0。②平均差数学性质中的“变量对算术平均数的均差方小于对任意常数的均差方”,与标准差数学性质中的“变量对算术平均数的方差小于对任意常数的方差”相通。③平均差数学性质中的“N个同质独立变量和的均差方等于各个变量的均差方之和”,与标准差数学性质中的“N个同质独立变量和的方差等于各个变量的方差之和”相通。④平均差数学性质中的“若各个变量的平均差中有两个及以上的数值为非零,则N个同质独立变量的平均差小于各个变量的平均差之和”,与标准差数学性质中的“若各个变量的标准差中有两个及以上的数值为非零,则N个同质独立变量的标准差小于各个变量的标准差之和”相通。⑤平均差数学性质中的“N个同质独立变量平均数的均差方等于各个变量均差方的平均数的1/n”,标准差数学性质中的“N个同质独立变量平均数的方差等于各个变量方差的平均数的1/n”相通。⑥平均差数学性质中的“每个变量同时增加(或减少)同样数值,均差方和平均差的数值不变。或者说,每个变量发生平移,均差方和平均差的数值不变”,与标准差数学性质中的“每个变量同时增加(或减少)同样数值,方差和标准差的数值不变。或者说,每个变量发生平移,方差和标准差的数值不变”相通。⑦平均差数学性质中的“每个变量都扩大(或缩小)同样幅度,均差方扩大(或缩小)幅度是每个变量变幅的平方数,平均差扩大(或缩小)的幅度与每个变量变幅相同”,与标准差数学性质中的“每个变量都扩大(或缩小)同样幅度,方差扩大(或缩小)幅度是每个变量变幅的平方数,标准差扩大(或缩小)的幅度与每个变量变幅相同”相通。⑧平均差数学性质中的“变量线性变换的均差方等于变量的均差方乘以变量系数的平方”,与标准差数学性质中的“变量线性变换的均差方等于变量的均差方乘以变量系数的平方”相通。
3.3.2 从两者数学性质信息量差异性层面看,主要有:①平均差具有的反映标志变异程度的最准确之数学性质,表明了其信息准确无误,这是标准差无法比拟的。②平均差所具有的解构性功能,尤其是“协差方因素作用生成比重较大的平均差,揭示了时间序列上存在着强烈而重要的数据信息遗传作用,它在股市投资预测和定价分析中有着显著的解释功能与重大的应用价值”,这更是标准差不可能产生和提供的重要信息。③平均差所具有的“均值左边变量偏离均值的均差方与均值右边变量偏离均值的均差方始终等价,两者的平均差也等价”,尤其是“左平均差与右平均差之和等于总体平均差,两者均差方以及协差方三项之和等于总体均差方”之数学性质信息量,它在投资风险分析、气候气温预测中具有非常重要的应用价值,在这一方面标准差所提供的却往往是错误的信息量。
综合上述平均差与标准差的内在关系之推证,我们认为从产生和发展的逻辑关系、数量关系以及数学性质的相通和差异关系等三个维度看,平均差先于标准差产生,标准差在那没有计算机的年代里为解决平均差之离差绝对值计算不变问题而产生,是衡量和反映变量离散程度指标的次优选择;平均差与标准差在数量上不存在决定与被决定之关系,标准差在数量上大于平均差(单点、两点则为定价关系);平均差在全面性、准确性和简便性上远胜于标准差,而且在所具有的数学性质和所涵盖的反映变量离散程度的信息量上也远超标准差。随着计算机的诞生与高速发展、平均差所具有的若干数学性质的发现与证实,标准差在统计学理论与实务分析中的重要地位必将逐步由平均差所取代。
4 结语
本文进一步评述了标准差在反映标志变异程度上的准确性低、误差大的致命性缺陷,首次提出了标准差缺乏解构性功能之观点。以平均差的原型计量公式为基点,推导出新的计量模型;从中发现和揭示了平均差所具有的12条数学性质。
从产生和发展的逻辑关系、数量关系以及数学性质的相通和差异关系等三个维度深入研讨平均差与标准差的内在关系,即平均差先于标准差产生,标准差在那没有计算机的年代里为解决平均差之离差绝对值计算不变问题而产生,是衡量和反映变量离散程度指标的次优选择;平均差与标准差在数量上不存在决定与被决定之关系,标准差在数量上大于平均差(单点、两点则为定价关系),平均差在全面性、准确性和简便性上远胜于标准差;平均差在所具有的数学性质和所涵盖的反映变量离散程度的信息量上也远超标准差。
同时,提出并论证了“方差超过平均差平方的部分是离差的平方”是错误的。
随着计算机的诞生与高速发展,更重要的是平均差所具有的若干数学性质的发现与证实,标准差在统计学理论与实务分析中的重要地位必将逐步由平均差所取代。
参考文献:
⑴、⑶ 赵海燕,陈立秋,张晓方.平均差和标准差在变异指标中的代表性浅议[J].统计与咨询,2002(4):27.
⑵ 龚承刚.对标志变异指标的重新认识[J].浙江统计,2000(6):8-9.
⑷ 韩兆洲,杨林涛.极差、平均差和标准差之间测度关系研究[J].统计与信息论坛,2008(4):5-8.
⑸ 樊顺厚,刘树琪.概率统计中标准差与平均差的关系[J].天津纺织工学院学报,1994(2):117-120.
⑹ 桂文林,伍超标.标准差和平均差的内在关系及应用研究[J].数理统计与管理,2005(2):50-54.