1、基本概念
①總體與樣本
②總體參數與樣本統計量
總體參數是抽樣調查中想要了解的,是未知常數;
樣本統計量又稱估計量,是一個隨機變量,與樣本選取及設計有關,是對總體參數的估計。
③抽樣框
是供抽樣所用的所有抽樣單元的名單,是抽樣總體的具體表現。常用有名錄框,如企業名錄、電話簿、人員名冊。抽樣中的單位必須有序,高質量的抽樣框應當提供被調查單位更多的信息,并且沒有重復和遺漏。
2、概率抽樣和非概率抽樣
①概率抽樣:又稱隨機抽樣,依據隨機原則,按照事先設計的程序,從總體中抽取部分單元;
特點:按一定的概率以隨機原則抽取樣本;抽中概率可計算;考慮每個樣本單元被抽中的概率。
②非概率抽樣:調查者根據自己的方便或主管判斷抽取樣本的方法,不依隨機原則。如判斷抽樣(主觀判斷),方便抽樣(如攔截式),自愿樣本(如網上調查),配額抽樣。
3、抽樣調查的一般步驟
確定調查問題→調查方案設計→實施調查過程→數據處理分析→撰寫調查報告。
4、抽樣調查中的誤差
①抽樣誤差:由于抽樣的隨機性造成的,樣本不同,對總體的估計也會不同;
②非抽樣誤差:抽樣框誤差,無回答誤差,計量誤差。
抽樣框誤差:抽樣框不完整造成數據的遺漏,抽樣框更新不及時產生無效數據等等;
無回答誤差:隨機因素如恰好不在,造成方差增大;非隨機因素如不愿意回答,造成方差增大、估計偏差。
計量誤差:數據與真值不一致造成的誤差。
5、抽樣的種類:簡單隨機抽樣、分層抽樣、系統抽樣、整群抽樣、多階段抽樣
6、簡單隨機抽樣
分類:不放回簡單隨機抽樣;放回簡單隨機抽樣。
最基本的隨機抽樣方法。問題:效率不高,分布分散。
適用條件:抽樣框中沒有更多的可利用輔助信息;調查對象的分布范圍不廣;個體間的差異不是很大。
7、分層抽樣
先把總體分為不同的層,再在不同層內獨立、隨機地抽取樣本。要有足夠的輔助信息,使得同一層差異小,不同層差異大。
特點:不僅可以估計總體參數,也可估計各層參數;便于抽樣工作的組織;降低抽樣誤差。
樣本量在各層的分配方法:等比例分配,不等比例分配。
8、系統抽樣
按序排列,確定初始單元,等間隔抽取數據。分為按無關標識排列和按有關標識排列,后者精度更高。
方差估計比較復雜,給抽樣誤差帶來一定困難。
9、整群抽樣
步驟:劃分為互不重疊的群體,抽樣時直接抽取群,抽中的群調查全部,未抽中的群不調查。
如果群內差異小,群間差異大,抽樣誤差會比較大;如果群內差異大,群間差異小,誤差低于簡單隨機抽樣,適合此類群體的抽樣調查。
10、多階段抽樣
是指將抽樣過程分階段進行,每個階段使用的抽樣方法往往不同,即將各種抽樣方法結合使用,在大規模調查中常用。
其實施過程為,先從總體中抽取范圍較大的單元,稱為一級抽樣單元,再從每個抽得的一級單元中抽取范圍更小的二級單元,依此類推,最后抽取其中范圍更小的單元作為調查單位。
多階段抽樣與分層抽樣、整群抽樣的關系:將總體分為若干個一階單元,如果在每一個一階單元中,都隨機抽取部分二階單元,由這些二階單元中的總體基本單元組成的樣本,在抽樣的方式上,就相當于分層抽樣;如果在全部的一階單元中,只抽取了部分一階單元,并對抽中的一階單元中的所有的基本單元都做全面調查,這就是整群抽樣。
分層抽樣實際是第一階抽樣比為100%時的一種特殊的兩階抽樣;而整群抽樣實際上是第二階抽樣比為100%時的一種特殊的兩階抽樣,故也稱單級整群抽樣。
11、估計量
①估計量的性質:無偏性(對不放回簡單隨機抽樣,所有可能樣本均值取值的平均值等于總體均值),有效性(方差越小越有效),一致性(隨著樣本量的增大,估計量穩定于總體參數的真值,則有一致性)。
12、抽樣誤差的估計
不放回簡單隨機抽樣的估計量方差公式:
(因實踐中S2未知,公式以s2替代S2)
公式的意義:①樣本差異越大,s2越大,則誤差越大;②樣本量n越大,則誤差越小。
13、樣本量的影響因素
①調查的精度:精度越大,樣本量越大;
②總體的離散程度:離散程度越大,樣本量越大;
③總體的規模:對小規模總體而言,總體規模越大, 樣本量越大,大規模不受影響;
④無回答的情況:無回答率越高,樣本量越大;
⑤經費的制約:樣本量是調查經費與調查精度之間的折中和平衡。