百科首页 > 正文

卡方检验（一种假设检验方法）

138次浏览 | 更新时间：2022-11-16

来源：网络整理

精选百科

本文由作者推荐

卡方检验

一种假设检验方法

卡方检验是用途非常广的一种假设检验方法，它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

中文名

卡方检验

外文名

chi-square test ；X,2-test

定义

观测值与理论值之间的偏离程度

电子产品类别

假设检验方法

应用

分类资料统计推断

作用

资料分析

基本原理

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合，若两个值完全相等时，卡方值就为0，表明理论值完全符合。

注意：卡方检验针对分类变量。

步骤

（1）提出原假设：

H0：总体X的分布函数为F(x).

如果总体分布为离散型，则假设具体为

H0：总体X的分布律为P{X=xi}=pi， i=1，2，...

（2）将总体X的取值范围分成k个互不相交的小区间A1，A2，A3，…，Ak，如可取

A1=（a0，a1]，A2=(a1，a2]，...，Ak=(ak-1,ak)，

其中a0可取-∞，ak可取+∞，区间的划分视具体情况而定，但要使每个小区间所含的样本值个数不小于5，而区间个数k不要太大也不要太小。

（3）把落入第i个小区间的Ai的样本值的个数记作fi，成为

组频数（真实值）

，所有组频数之和f1+f2+...+fk等于样本容量n。

（4）当H0为真时，根据所假设的总体理论分布，可算出总体X的值落入第i 个小区间Ai的概率pi，于是，npi就是落入第i个小区间Ai的样本值的理论频数

（理论值）

。

(5)当H0为真时，n次试验中样本值落入第i个小区间Ai的频率fi/n与概率pi应很接近，当H0不真时，则fi/n与pi相差很大。基于这种思想，皮尔逊引进如下检验统计量，在0假设成立的情况下服从自由度为k-1的卡方分布。

卡方检验

检验方法

自由度为1

假设有两个分类变量X和Y，它们的值域分别为{x1, x2}和{y1, y2}，其样本频数列联表为：

	y1	y2	总计
x1	a	b	a+b
x2	c	d	c+d
总计	a+c	b+d	a+b+c+d

若要推断的论述为H1：“X与Y有关系”，可以利用独立性检验来考察两个变量是否有关系，并且能较精确地给出这种判断的可靠程度。具体的做法是，由表中的数据算出统计变量K^2的值（即K的平方）

K^2的值越大，说明“X与Y有关系”成立的可能性越小。

当表中数据a，b，c，d都不小于5时，可以查阅下表来确定结论“X与Y有关系”的可信程度：

P(K^2≥k)	0.50	0.40	0.25	0.15	0.10
k	0.455	0.708	1.323	2.072	2.706
P(K^2≥k)	0.05	0.025	0.010	0.005	0.001
k	3.841	5.024	6.635	7.879	10.828

例如，当“X与Y有关系”的K^2变量的值为6.109，根据表格，因为5.024≤6.109<6.635，所以“X与Y有关系”成立的概率为0.025，即2.5%。

	男	女
化妆	15（55）	95（55）	110
不化妆	85（45）	5（45）	90
	100	100	200

如果性别和化妆与否没有关系，四个格子应该是括号里的数（期望值，用极大似然估计55=100*110/200，其中110/200可理解为化妆的概率，乘以男人数100，得到男人化妆概率的似然估计），这和实际值（括号外的数）有差距，理论和实际的差距说明这不是随机的组合。

应用

拟合度公式

= 129.3>10.828

卡方检验

显著不相关，作此推论犯错的概率p>0.999,即99.9%。

注：独立四格表的拟合度公式可以写成n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d)

总结：独立四格表资料检验

四格表资料的卡方检验用于进行两个率或两个构成比的比较。

1. 专用公式：

若四格表资料四个格子的频数分别为a，b，c，d，则四格表资料卡方检验的卡方值=n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d)，（或者使用拟合度公式）

自由度v=（行数-1）（列数-1）=1

2. 应用条件：

要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但有1=<理论频数<5时，卡方值需要校正，当样本含量小于40或理论频数小于1时只能用确切概率法计算概率。

卡方检验

资料检验

（自由度df=(C-1)(R-1)）

行×列表资料的卡方检验用于多个率或多个构成比的比较。

1. 专用公式：

r行c列表资料卡方检验的卡方值=n[(A11/n1n1+A12/n1n2+...+Arc/nrnc)-1]

2. 应用条件：

要求每个格子中的理论频数T均大于5或1

列联表资料检验

同一组对象，观察每一个个体对两种分类方法的表现，结果构成双向交叉排列的统计表就是列联表。

1. R*C 列联表的卡方检验：

R*C 列联表的卡方检验用于R*C列联表的相关分析，卡方值的计算和检验过程与行×列表资料的卡方检验相同。

2. 2*2列联表的卡方检验：

2*2列联表的卡方检验又称配对记数资料或配对四格表资料的卡方检验，根据卡方值计算公式的不同，可以达到不同的目的。当用一般四格表的卡方检验计算时，卡方值=n（ad-bc)^2/[(a+b)(c+d)(a+c)(b+d)]，此时用于进行配对四格表的相关分析，如考察两种检验方法的结果有无关系；当卡方值=（|b-c|-1）2/(b+c)时，此时卡方检验用来进行四格表的差异检验，如考察两种检验方法的检出率有无差别。

列联表卡方检验应用中的注意事项同R*C表的卡方检验相同。

代码实验

在分类资料统计分析中我们常会遇到这样的资料，如两组大白鼠在不同致癌剂作用下的发癌率如下表，问两组发癌率有无差别？

处理	发癌数	未发癌数	合计	发癌率%
甲组	52	19	71	73.24
乙组	39	3	42	92.86
合计	91	22	113	80.53

52 19

39 3

这是表中最基本的数据，因此上表资料又被称之为四格表资料。卡方检验的统计量是卡方值，它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。每个格子中的理论频数T是在假定两组的发癌率相等（均等于两组合计的发癌率）的情况下计算出来的，如第一行第一列的理论频数为71*(91/113)=57.18，故卡方值越大，说明实际频数与理论频数的差别越明显，两组发癌率不同的可能性越大。

卡方检验要求：最好是大样本数据。一般每个个案最好出现一次，四分之一的个案至少出现五次。如果数据不符合要求，就要应用校正卡方。

利用统计学软件分析结果如下：

data kafang;

input row column number @@;

cards;

1 1 52

1 2 19

2 1 39

2 2 3

;

run;

proc freq;

tables row*column/chisq;

weight number;

run;

统计量	自由度	值	概率
卡方	1	6.4777	0.0109（显著）
似然比卡方	1	7.3101	0.0069
连续校正卡方	1	5.2868	0.0215
Mantel-Haenszel 卡方	1	6.4203	0.0113
Phi 系数		-0.2394

展开表格

卡方检验相关的文章

智能障碍

智能障碍是一组临床综合征，可有记忆、认知(概括、计算、判断等)、语言、视空间功能和人格等至少3项受损。智能障碍常由神经系统疾病、精神疾病和躯体疾病引起。智能障碍的主要症状包括记忆障碍、认知与判断障碍、人格改变、情感障碍。智能障碍的治疗主要是针对脑部原发病的治疗及康复治疗。智能障碍给患者的正常生活、学

克伦威尔皇家空军学院

克伦威尔皇家空军学院是世界历史上最悠久的军事飞行学院，其下辖第3飞行训练学校、中央飞行学校、基础飞行训练司令部、特别地面训练系等教育机构，还管理着4个训练基地和遍布于全国的16个大学航空训练中队。

西罗马帝国（现在一些欧洲国家的前身）

西罗马帝国是罗马帝国在286年被戴克里先分为两部分后建立的四帝共治制的产物。395年，最后一位统一罗马帝国的皇帝狄奥多西一世驾崩，将罗马帝国分给两个儿子分别继承，从此罗马帝国正式分裂为东西罗马帝国。西罗马帝国的正式名称与东罗马帝国相同，均用罗马共和时代的国名“元老院与罗马人民”。在410年，西哥特人

准噶尔盆地（中国第二大的内陆盆地）

准噶尔盆地（英文Junggar Basin；“噶”为gá），位于中国新疆的北部，是中国第二大的内陆盆地。准噶尔盆地位于阿尔泰山与天山之间，西侧为准噶尔西部山地，东至北塔山麓。盆地呈不规则三角形，地势向西倾斜，北部略高于南部，北部的乌伦古湖（布伦托海）湖面高程479.1米，中部的玛纳斯湖湖面270米，

元科幻（元科幻）

元科幻元科幻作品的主要事件来自其他人的科幻作品，或者以现实中存在的科幻作家为事件发起者。它们显然是一种文学游戏，是科幻界人士向前辈和朋友致敬的方式。但这类作品又完全是科幻文学，而不是一般的传记：它们的情节是超现实的。元科幻小说数量和影响都更小，但在逻辑上必须要把它们划分出来。因为它们无法归入其它类型

西辽（契丹族在新疆和中亚建立的政权）

西辽（1124年~1218年）是中国历史上由契丹族在中国新疆和中亚地区建立的政权，历三世三帝二后，享国八十八年。西辽的建立者耶律大石是辽朝开国皇帝耶律阿保机的八世孙。耶律大石原本效力于天祚帝，在辽朝即将灭亡之际出奔。1124年，耶律大石称王，到达可敦城（今蒙古国布尔干省青托罗盖古回鹘城）建立根据地。1132年，耶律大石在叶密立城登基称帝，号“菊儿汗”，群臣又尊汉号为“天祐皇帝”，建元延庆，西辽正式建立。随后耶律大石向西域、漠北、中亚等地区扩张，建都于虎思斡鲁朵（今吉尔吉斯斯坦托克玛克东南布拉纳）。在114