1、在描述統計中,可以通過統計量描述數據的分布特征。
對數據分布特征的測度:①分布的集中趨勢(反應向中心值的聚集程度);②分布的離散程度(反應各數據的差異程度,和中心數據的代表程度);③分布的偏態(反應數據分布的不對稱性)。
2、集中趨勢的測度
集中趨勢,是指一組數據向某一中心值靠攏的傾向,測度集中趨勢也就是尋找數據一般水平的代表值或中心值。
集中趨勢的測度 | 概念 | 優點 | 缺點 | 適用范圍 |
均值(數值平均數) | 平均數,集中趨勢最主要的測度值,數據的重心,解釋了數據的平均水平。 | 能充分利用數據全部信息,受到每個觀測值的影響,較穩定 | 易受極端值的影響。 | 適用于定量變量,數值型數據,不適用與分類和順序數據。 |
中位數(位置平均數) | 把一組數據按從小到大的順序進行排列,位置居中的數值叫做中位數。 | 不受極值個影響,抗干擾性強。 | 沒有充分利用數據的全部信息,穩定性差于均值,優于眾數。 | 適用于順序數據和數值型數據,不適用于分類數據。尤其適用分布不對稱的數值型數據。 |
眾數(位置平均數) | 一組數據中出現次數或頻數最多的變量值。 | 不受極值影響。 | 沒有充分利用數據的全部信息,缺乏穩定性,而且可能不唯一。 | 適用于分類和順序變量,不適用于定量變量。 |
3、離散程度的測度
離散程度,是指數據之間的差異程度或頻數分布的分散程度。離散程度的測度,主要包括極差、方差和標準差、離散系數等。適用于數值型數據。
①極差,極差是最簡單的變異指標,是總體或分布中最大的標志值與最小的標志值之差,又稱全距,用R表示。
②方差:數據組中各數值與其均值離差平方的平均數,是實際中用的最廣泛的離散程度測度值,越小則均值代表性越好。
③標準差,總體所有單位標志值與其平均數離差之平方的平均數的平方根。
④離散系數
極差、標準差和方差等都是反映數據分散程度的絕對值。為消除變量值水平高低和計量單位不同對離散程度測定值的影響,需要計算離散系數。
4、分布形態的測度
①偏態系數
②標準分數
5、變量間的相關分析
①變量間相關關系的分類:
按相關程度分:完全相關,不完全相關,不相關。
按相關方向分:正相關,負相關。
按相關形式分:線性相關(不一定是直線,曲線也可以),非線性相關。
相關關系并不等同于因果關系,即有相關關系的變量之間,并不一定一方由另一方引起。
②散點圖:可以表示兩個變量之間的關系。
6、相關系數
相關系數是度量兩個變量間相關關系的統計量。最常用的相關系數是Pearson相關系數,度量的兩個變量間的線性相關關系。