三、基礎統計分析
(一)描述統計分析
在市場調研中,廣泛應用描述統計分析方法。
1.集中趨勢的測度
集中趨勢是指一組數據向其中心值靠攏的傾向,測度集中趨勢就是確定數據一般水平的代表值或中心值,常用三個指標:
(1)眾數,是一組數據中出現次數最多的變量值。有些情況下數據分布可能表現為雙眾數,甚至多眾數,也可能沒有眾數(比如均勻分布)。眾數的基本思想,是用來反映一組數據若存在聚中趨勢,則在數據的中心,變量值出現的頻數較高,眾數就是這一位置的代表值。眾數的一個突出特點是它不受極端數值的影響。
(2)中位數,是一組數據排序后處于中間位置的變量值,是一組數據的中點,即高于和低于它的數據各占一半。如49,58,56,60,63,89,78,
(3)均值,是集中趨勢的主要測度值,用于反映一組數值型數據的一般水平。主要包括算術平均數、調和平均數和幾何平均數。
例:反映一組數據的一般水平應用( )指標。
A.眾數
B.中位數
C.均值
D.方差
或一組數據中出現次數最多的變量值是( )。
2.離散程度的測度
數據的離散程度是數據分布的另一重要特征,它是指各變量值遠離其中心值的程度,所以也叫離中趨勢。
離中趨勢經過綜合與抽象后對數據一般水平的概括性描述,它對數據的代表性取決于數據的離散程度,離散程度小代表性就好,反之代表性就差。離中趨勢的測度有三種方法:
(1) 極差,也稱全距,是一組數據中最大值與最小值之差。這是描述數據離散程度的最簡單的方法,表明數據的分布范圍。
(2)平均差,也叫平均離差,是各變量值(Xi)與其均值( )離差絕對值的平均數。公式見P93。反映了所有數據與均值的平均距離。平均差越小,說明數據離散程度越小。
(3)方差和標準差。方差是一組數據中各變量值與均值離差平方的平均數,方差的平方根叫標準差。方差與標準差是反映數值型數據離散程度最主要、最常用的方法。
公式見P93
根據總體數據和樣本數據計算方差及標準差時,計算公式略有不同。統計上對估計量要求滿足一些條件(一致性,無偏性、有效性),為滿足無偏性,樣本方差計算時;分母要用n-1,而不是n。
3.相關分析
所謂相關分析,是研究現象之間是否存在某種依存關系,變量之間的相關關系主要有線性相關和非線性相關、正相關和負相關等幾種形式。對兩個變量間線性相關程度的測量稱為簡單相關系數。樣本相關系數r定義公式為:(94頁)
r越近于±1,變量間相關程度越高,越接近于0,相關程度越低。
由于存在樣本抽樣的隨機性,樣本相關系數對總體相關系數的替代在多大程度上值得信賴,需要進行檢驗。
r|<自由度為(n-2)的t統計量t(n-2)、顯著性為α(10%;5%)的相關系數(查相關系數表),其相關性是顯著的。
在實際中,比較常用的相關分析有二元定距變量的相關分析、二元定序變量的相關分析、偏相關分析和距離分析等。推論統計分析
(二)推論統計分析
推論統計利用樣本資料對抽出樣本的總體作出推論的方法。在市場調研中,,除了對樣本數據的水平或特征進行描述之外,還經常需要根據樣本的信息,對總體的分布以及分布的數字特征進行統計推斷。
1.單個樣本的參數估計
參數估計是根據樣本統計量對總體未知參數進行某種估計推斷。
(1)點估計。用樣本對總體未知參數作一個數值點的估計,稱為參數的點估計。有多種方法,如矩法、最大似然法、最小二乘法等。根據矩法,為滿足估計無偏性的要求,就是用樣本矩去估計總體矩,即。
(2)區間估計。區間估計是用一個區間估計總體未知參數。
①總體方差s2已知時,建立總體均值μ的置信區間的統計量是Z統計量(0,1),置信度(置信概率)為1-α時,總體均值μ的置信區間的為
Za/2 是一定信度下的臨界值,稱可靠性系數,信度越高,可靠性系數越大。
是區間估計時已知n和s,對應一定的信度的置信區間的徑,也就是估計時的最大允許誤差。
②總體方差未知時,可用樣本標準差S代替s建立置信區間,但此時應該用服從自由度為n-1的t分布統計量此時總體均值μ在置信度為1-a下的置信區間為
例:當總體方差未知,置信度為1-a時,總體均值的置信區間為( )。
例:當總體方差已知時,建立總體均值μ的置信區間的統計量服從( )。
A.正態分布
B.t(n-1)分布
C.x2分布
D.t(n-2)分布
2.單個樣本的假設檢驗
假設檢驗是先對總體參數的值提出一個假設,然后利用樣本信息,去檢驗原先提出的假設是否成立。通常經過以下步驟:
(1)提出原假設和替換假設。統計假設檢驗是用統計方法對預先設的某—假設的成立與否進行檢驗判斷。預先所設的這一假設稱為原假設,用H0表示:與原假設相對的假設是替換(備擇)假設,它是原假設經檢驗不成立被拒絕接受時,所應接受的與原假設相對立的情況,用H1表示。
(2)確定并計算檢驗統計量。是根據抽樣分布的原理,總體呈正態分布,用樣本均值檢驗總體均值,總體方差s2已知時,應用Z統計量,計算公式為:
總體方差未知時,應用t統計量,計算公式為:
在不同的情況下應該選用不同的統計量。
(3)規定顯著性水平α(通常可取0.05或0.01),并確定接受域與拒絕域的臨界值。在用檢驗統計量對原假進行檢驗時可能會出現一種錯誤,即原假設正確(為真)卻被當作錯誤的加以拒絕(“棄真”)。犯這種“棄真”錯誤的概率用a表示,稱為假設檢驗的顯著性水平,也就是“接受H1(替換假設)”時所要承擔的決策錯誤的風險。
(4)作出統計決策。根據檢驗統計量的值位于接受域或拒絕域,接受原假設或拒絕原假設。若拒絕原假設,則意味著接受替換假設。
一般來說,用樣本均值估計總體均值,如果總體方差已知,用Z統計量檢驗;如果總體方差未知,用t統計量檢驗。
例:單個樣本的假設檢驗中,犯“棄真”錯誤的概率一般為( )。
A.0.05
B.0.1
C.0.02
D.0.005