第四部分 統計
一、統計與統計數據
(一) 統計的含義
統計一詞包含三種含義:統計工作;統計數據;統計學
(二) 統計數據的計量尺度
定類尺度(最粗略、計量層次最低)、定序尺度(反映等級差、順序差)、定距尺度(確切的數據反映量的差異)、定比尺度(相對數或平均數)。
(三) 類型
1.統計數據的類型:分類數據;順序數據;數值型數據(通常我們處理的大多為數值型數據),其中分類數據和順序數據是定性數據或品質數據;數值型數據是定量數據或數量數據。
對不同類型的數據應采用不同的統計方法來處理和分析。品質數據可計算各組的頻數或頻率,而數值型數據可以采取更多計算方法。
2.變量及其類型:統計中把說明現象某種特征的概念稱為變量,變量的具體表現為變量值,統計數據就是統計變量的具體表現。
可分為:分類變量、順序變量、數值型變量。
數值型變量又分為:離散變量和連續變量。
(四) 統計指標及其類型
分類:總量指標(絕對數形式)、相對指標和平均指標
總量指標按其所反映的時間狀況不同可分為時期指標和時點指標。
相對數的形式有比例和比率兩種。
(五) 統計數據的來源
主要來源于兩種渠道:直接來源,稱第一手或直接的統計數據;間接來源,稱第二手或間接的統計數據。
1.直接來源
方式:普查、抽樣調查、統計報表
(1)普查:為某一特定目的而專門組織的一次性全面調查。
普查的特點:通常是一次性的或周期性的;一般需要規定統一的標準調查時間;數據一般比較準確,規范化程度也較高;使用范圍比較狹窄。
普查的適用范圍:它主要用于收集處于某一時點狀態上的社會經濟現象的數量。
(2)抽樣調查(實際中應用最廣泛的一種調查方式和方法)
特點:經濟性;實效性強;適應面廣;準確性高
(3)統計報表
統計報表是按照國家有關法規的規定,自上而下的統一布置、自下而上的逐級提供基本統計數據的一種調查方式。統計報表要以一定的原始數據為基礎,按照統一的表式、統一的指標、統一的報送時間和報送程序進行填報。
類型:全面報表和非全面報表
其他方式:重點調查和典型調查。
重點調查是從調查對象的全部單位中選擇少數重點單位進行調查。其中重點單位是指在所要調查的數量特征上占有較大比重的單位。
典型調查是從調查對象的全部單位中選擇一個或幾個有代表性的單位進行全面深入的調查。
2.間接來源:公開的出版物、未公開的內部調查等。
(六) 統計數據的質量
1. 統計數據的誤差、誤差的來源
誤差來源主要有:登記性誤差(從理論上講可以消除)和代表性誤差(通常無法消除,但可以事先進行控制或計算)。
2. 統計數據的質量要求及檢查
精度、準確性、關聯性、及時性、一致性、最低成本
二、統計數據的整理和顯示
(一) 品質數據的整理與顯示
1. 分類數據的整理與顯示
(1)頻數與頻數分布(頻數分布表),比例(一個總體中各個部分的數量占總體數量的比重),百分比(比例乘以100),比率(各個不同類別的數量的比值)
把數據的各個類別及其相應的頻數全部列出來就是頻數分布或稱次數分布,將其用表格的形式表現出來就是頻數分布表。
(2)分類數據的圖示:條形圖和圓形圖
2.順序數據的整理與顯示
除了可以用分類數據的整理及圖示方法外,還有累積頻數和累計頻率。
(1)累積頻數:將各類別的頻數逐級累加起來,一種方法是從類別順序的開始一方向類別順序的最后一方累加頻數,向上累積;另一種方法是從類別順序的最后一方向類別
順序的開始一方累加頻數,向下累積。
累計頻率:將各類別的百分比逐級累加起來。
(2)圖示:累計頻數或頻率分布圖
(二) 數值型數據的整理與顯示
1. 數據的分組
方法:單變量分組(離散變量且變量值較少)和組距分組(連續變量或變量值教多)
組距分組的步驟:
(1)確定分組組數,經驗公式:K= 1+ log10N / log102;
(2)對原始資料進行排序;
(3)求極差:最大觀察值減去最小觀察值。
(4)確定各組組距:組距=極差/組數=某組的上限值-該組的下限值
(5)確定組限:組中值=(上限+下限)/ 2
a. 第一組的下限值應比最小的觀察值小,最后一組的上限值應比最大的觀察值大。
b. 不要使用開口組
c. 組限值應能被5除盡,且一般使用整數。
(6)確定各組觀察值出現的頻數:組距分組遵循“不重不漏”的原則;分組時“上組限不在內”以防止重復。
(7)制作頻數分布表
2. 數值型數據的圖示:直方圖、折線圖
直方圖與條形圖的區別:前者用面積而后者用條形的長度來表示各類別頻數的多少,前者高度與寬度均有意義,前者的各矩形通常是連續排列而后者通常是分開排列。