关于数据离散程度的讨论


 

关于数据离散程度的讨论

西安理工大学

熊义杰

 

我们知道,对于多个样本,数据的离散程度可以通过标准误差的比较来判断,标准误差大的比标准误差小的更离散,标准误差小的比标准误差大的更集中。进一步,我们还可以通过标志变动度系数或变异系数,即标准误差与平均数的比值来判断,变异系数大的比变异系数小的更离散。但是对于一个样本来说,往往就难说了,标准误差多大算大,多小算小,都很难确定。当然,也可以结合平均数计算标志变动度系数亦即变异系数进行判断。然而,问题是在这里变异系数的大小仍然是没有标准的。在这里,笔者根据统计学原理,提出一个判断标准,可供研究时参考。

我们知道,根据中心极限定理,一个随机变量不管它服从什么样的分布,当样本容量趋于无穷大时,其分布都会趋于正态分布。也就是说,可以认为不管是个什么样的随机变量,服从正态分布是随机变量遵从的普遍规律,即在均值左右两旁,距离均值越近,分布的随机变量就越多,距离均值越远,分布的随机变量就越少。极端值即过大或过小几乎可以认为是不可能的。对于一个正态分布的随机变量来说,不管其标准误差和均值是多大,通过如下面(1)式所示的正态分布的标准化函数,都可以转化成标准化的正态分布。