榆树范文网

数据的概括性度量总结(热门5篇)

99

数据的概括性度量总结 第1篇

集中趋势(central tendency):指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。

A、分类数据:众数

众数(mode):一组数据中出现次数最多的变量值,用 M_0 表示;主要用于测度分类数据的集中趋势,也适用于顺序数据和数值型数据;在数据量较大的情况下,众数才有意义。

众数是一个位置代表值,它不受数据中极端值的影响,是具有明显集中趋势点的数值,是一组数据分布的最高峰点所对应的数值;众数可能不存在,也可能有两个(双众数)或多个众数。

B、顺序数据:中位数和分位数

中位数(median):一组数据排序后处于中间位置上的变量值,用 M_e 表示;主要用于测度顺序数据的集中趋势,也适用于数值型数据,但不适用于分类数据;它是一个位置代表值,不受数据中极端值的影响。

中位数位置的确定公式:中位数位置=(n+1)/2,n为数据个数。

中位数为:

四分位数(quartile):也称四分位点,是一组数据排序后处于25%和75%位置上的值。

设下四分位数为 Q_L ,上四分位数为 Q_U ,Q_L位置=n/4, Q_U位置=3n/4 。

四分位数还有其他三种计算方法:

1、一种较为准确的算法是按下列公式确定位置:Q_L位置=(n+1)/4, Q_U位置=3(n+1)/4 。

2、以中位数为中心,从两端再计算出中位数,确定位置的公式为:((n+1)/2表示中位数的位置取整。)

3、Excel给出的四分位数位置的确定方法为:Q_L位置=(n+3)/4, Q_U位置=(3n+1)/4 。

类似还有十分位数(decile)和百分位数(percentile)等。

C、数值型数据:平均数

均值(mean):也称为平均数,是一组数据相加后除以数据的个数得到的结果,是集中趋势的最主要测度值,主要适用于数值型数据,不适用于分类数据和顺序数据;反映事物必然性的数量特征。

简单平均数(sample mean):根据未经分组数据计算的平均数,即

加权平均数(weighted mean):根据分组数据计算的平均数,即

几何平均数(geometric mean):n个变量值乘积的n次方根,用G表示,主要用于计算平均比率,即

D、众数、中位数和平均数之间的关系

如果数据的分布是对称的,众数=中位数=平均数;

如果数据是左偏分布,说明数据存在极小值,必然拉动平均值向极小值一方靠,平均值<中位数<众数;

如果数据是右偏分布,说明数据存在极大值,必然拉动平均值向极大值一方靠, 众数<中位数<平均值。

E、众数、中位数和平均数的特点与应用场合

众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不唯一性,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据较多的时才有意义,当数据量较少时,不宜使用众数。众数主要适合作为分类数据的集中趋势测度值。

中位数是一组数据中间位置上的代表值,不受数据极端值的影响。当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择。中位数主要适合作为顺序数据的集中趋势测度值。

平均数是针对数值型数据计算的,而且利用了全部数据信息,它是实际应用中最广泛的集中趋势测度值。当数据是对称分布或接近对称分布时,3个代表值相等或接近相等,这时则应选择平均数作为集中趋势的代表值。但平均数的主要缺点是易受数据极端值影响,对于偏态分布的数据,平均数的代表性较差。因此,当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数或众数。

数据的概括性度量总结 第2篇

众数:众数(Mode),是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。用M表示。

中位数:中位数(Median)是指将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据。中位数用Me表示。计算公式:

四分位数:四分位数(Quartile)把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。QL=下四分位数,即第25百分位数( n / 4);QU=上四分位数,即第75百分位数( 3n / 4)。

平均数:算术平均数(arithmetic mean)算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数。

数据的概括性度量总结 第3篇

四分位差:四分位差(quartile deviation),也称为内距或四分间距(inter-quartile range),它是上四分位数(QU,即位于75%)与下四分位数(QL,即位于25%)的差。

极差:全距(Range),又称极差,是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距

方差:方差(variance)(样本方差)是各个数据分别与其平均数之差的平方的和的平均数,通常以σ2表示,方差的计算公式为:

标准差:标准差 (Standard Deviation),也称均方差(Mean square error), 。

离散系数:离散系数又称变异系数,CV(Coefficient of Variance)表示。CV(Coefficient of Variance):标准差与均值的比值。离散系数越小,数据的离散程度就越小,反之,亦然。

数据的概括性度量总结 第4篇

统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。统计学主要又分为描述统计学和推断统计学。给定一组数据,统计学可以摘要并且描述这份数据,这个用法称作为描述统计学。另外,观察者以数据的形态建立出一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体,这种用法被称做推论统计学。

数据的概括性度量总结 第5篇

偏态系数:偏度(Skewness)亦称偏态、偏态系数,偏度是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。Sk>0时,分布呈正偏态(右偏),Sk<0时,分布呈负偏态(左偏)。

峰态系数:(Kurtosis)峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标。在正态分布情况下,峰度系数值是3。>3的峰度系数说明观察量更集中,有比正态分布更短的尾部;<3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部,类似于矩形的均匀分布。峰度系数的标准误用来判断分布的正态性。峰度系数与其标准误的比值用来检验正态性。如果该比值绝对值大于2,将拒绝正态性。