SPSS_建模分析
作者:YXN 阅读量:107 发布日期:2021-08-10
SPSS分析与建模
1、单因素分析:(单个的影响因素对单个的结果)
2、差异分析: 分类对连续 二分类对连续:T检验 多分类对连续:方差分析 分类对分类:卡方检验
3、相关分析: 连续对连续:相关分析
4、多因素分析:(多个的影响因素对单个的结果)
5、回归与分类 回归:一元线性回归/多重线性回归 分类:Logistic回归
1、T检验
T检验,亦称student t检验(Student‘s t test),主要用于样本含量较小,总体标准差σ未知的正态分布连续变量。 T检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
T检验可分为单样本T检验、独立样本T检验以及配对样本T检验。
T检验最早由威廉·希利·戈斯特于1908年以”The Student”为笔名发表,因此也被称为”Student‘s t test”。
1.1、单样本T检验
比较一个已知总体和一个从未知总体中抽取的样本之间的关系(差异性) 前置条件: (1)要有一个已知的总体均数 (2)可以获得样本的均数和标准差(数据是连续性变量) (3)样本来自正态或近似正态的总体
案例描述:假定大学生的平均体重是50KG,现在某高校随机抽取590名大学生并测量其体重,问该校大学生的体重与一般大学生是否有所差异?
步骤:分析——描述统计——探索——比较平均值——单样本T检验
注意点:先探索,后T检验
1.2、独立样本t检验
从两个不同的总体中分别取得一个样本,然后比较两个总体之间是否存在差异 前置条件: (1)两组变量都要是连续变量 (2)独立性(随机分组/按属性分组) (3)观测变量中不能有显著的异常值 (4)观测变量要符合或近似符合正态分布 (5)两组观测变量方差要对齐(方差不齐时要进行校正)
A -2,-1,0,1,2 均值为0,距离为2
B -10,-5,0,5,10 均值为0,距离为10
案例:某研究者在某高校随机抽取了590名大学生,按照性别分为男生组和女生组,现想知道男生与女生的肺活量是否有差异
操作步骤
(1) 通过探索过程观察异常值和检查正态性
(2) 分析--比较均值--独立样本t检验,注意组的设定
1.3、配对样本t检验
针对配对前后的总体获取样本,比较两个样本之间的差异是否显著
前置条件
(1) 连续变量
(2) 自变量要是二分类变量,并且要具有相关性
(3) 两组之间的因变量差值没有显著的异常值
(4) 两组之间的因变量差值要符合或近似符合正态分布
案例:某研究者想了解摄入蛋白质对跑者成绩是否有影响,记录了20名运动员仅摄入碳水化合物和既摄入碳水化合物,又摄入蛋白质的运动成绩,问两者是否存在显著差异
操作步骤
(1) 通过计算变量获得差值
(2) 检查差值的异常值情况和正态拟合(同独立样本t检验)
没有就不清洗
(3) 分析--比较均值--成对样本t检验
2、方差分析
当样本种类超过两类之后,就无法使用T检验来进行均值比较,此时可以利用方差分析进行多类别的均值比较。 表面上看,方差分析(analysis of variance,ANOVA)是检验多个总体均值是否相等的统计方法,但本质上它所研究的是分类型自变量对数值型因变量的影响。
方差分析是用变异的思想,将总的变异分为组间变异和组内变异,组内变异往往是个体变异导致,一般不会太大;而组间变异除了个体变异外,还有组间干预措施导致的变异,R.A. Fisher认为,如果组间的变异除以组内的变异,结果远远大于1,就有理由认为,组间的干预措施在发挥着作用,为了纪念Fisher,这种方法简称F检验。
前置条件: (1)有1个多分类的自变量和1个连续型的因变量 (2)各组间和组内的观测值相互独立 (3)每组内的观测值不能有明显的异常值 (4)每组内的观测值要符合或者近似符合正态分布 (5)每组的方差齐
方差分析的三个重要前置条件为:独立、正态和方差齐。本组组间为随机 分组接受不同的处理,故是独立的;正态性可以通过探索过程观察;方差齐是必须的,因此需要进行齐性的验证。
案例:某学校教务处,欲研究传统教学、PBL教学和翻转课堂的教学效果是否有差异,选择了某班级95名同学, 按照学号随机分成3组,分别接受三种教学方法进行统 计学课程教学,期末采用同样的试卷进行了考试,获得 学生成绩数据(单因素方差分析.sav),请采用合适的 方法进行统计分析,并进行解释。
操作步骤:
1)通过探索过程进行正太性/异常值的检查
2)分析-比较均值-单因素ANOVA分析
3、卡方检验
T检验与方差分析,是关注不同类别之间连续变量之间的差异情况。当我们要考察不同类别之间分类变量的差异情况时,就需要用到卡方检验。 卡方检验是本质上研究的是分类型变量之间的相互影响。
卡方值 = (实际值-预期值)^2/预期值
研究的是实际情况与预期情况的差异大小
前置条件: (1)存在两个分类变量(二分类/多分类) (2)观测值要相互独立(独立性) (3)样本量要足够大,最小的样本量要求为分析中的任一单元格期望频数大于5
A 当前薪水:5000 ——》15000 (5000-15000)^2/15000 = 卡方值
B 当前薪水:10000 ——》20000 (10000-20000)^2/20000 = 卡方值
案例:某医院针对病人的胆固醇状态进行药物治疗和生活干预,一段时间后,病人的胆固醇状态有所改变,采集到的数据见*2*2卡方检验.sav,问这两种干预措施对病人的胆固醇状态改变是否有所差异?
操作步骤:
1)分析——描述统计——交叉表
4、相关分析
相关分析是基础统计分析方法之一,它是研究两个或两个以上随机变量之间相互依存关系的方向和密切程度的方法。相关分析的目的是研究变量之间的相关关系。
相关关系可分为线性相关和非线性相关,线性相关也称为直线相关,是相关关系中最常用的一种。即当一个 连续变量发生变动时,另一个连续变量相应地呈线性关系变动,用皮尔逊(Pearson)相关系数r进行度量。
Pearson相关系数:取值在[-1,1],绝对值表示相关程度,0代表完全不相关,1代表完全相关,正负号表示相关方向。
在说明变量之间线性相关程度时,根据经验可将相关程度分为以下几种情况:
若|r|≥0.8 时,视为高度相关;若0.5≤|r|<0.8 时,视为中度相关;
当0.3≤|r|<0.5时,视为低度相关;当|r|<0.3时,可视为不相关。
此外,在进行相关分析判定时,还需要关注Sig值(检验水准),该值表明相关判定的最大允许误差概率,通 常取值为0.1/0.05/0.01,其判定方式与r类似(Sig>=0.1,0.1>Sig>=0.05,0.05>Sig>=0.01,Sig<0.01)。
相关分析的一般步骤:
1)绘制两个变量的散点图,观察变量之间的关系
2)计算变量之间的相关系数
3)相关系数的显著性检验
范例:范例:针对“超市销售数据.SAV”,利用相关分析考察销售额和广告费用之间的相关性
操作步骤:
1)分析——相关——双变量
2)结果分析:随着广告费用的增加,销售额呈现上升的趋势
5、回归分析
回归分析是研究因变量对自变量的依赖关系的一种统计分析方法,目的是通过自变量的给定值来估计或预测因变量的均值。它可用于预测、时间序列建模以及发现各种变量之间的因果关系。通过建立因变量与自变量之间的回归模型,衡量自变量对因变量的影响能力,进而可以用来预测因变量的发展趋势。
回归分析和相关分析的关系:
回归分析和相关分析都是研究及预测两个或两个以上变量之间关系的方法。实际工作中,一般先进行相关分析,再建立回归模型,最后用回归模型进行推算或预测。
回归分析模型主要包括线性回归及非线性回归两种,线性回归又分为一元、多重等不同的回归。
y = ax + b
5.1 线性回归分析
线性回归分析的一般步骤:
1)根据预测目标,确定自变量与因变量
2)绘制散点图,确定回归模型类型
3)估计模型参数,建立回归模型
4)对回归模型进行检验
5)利用回归模型进行预测
5.1.1一元线性回归分析
研究一个连续性变量(因变量)的取值随着其它变量(自变量)的数值变化而变化的趋势除了描述两变量的关系以外,通过回归方程还可以进行预测和控制,这在实际工作中尤为重要
前置条件:
(1)因变量和自变量都是连续变量
直接确定
(2)因变量和自变量之间存在线性关系
散点图观察
(3)各观测值之间相互独立(个案的独立性)
独立性检验,在回归分析中处理
(4)因变量没有显著的异常值
散点图观察
(5)残差要符合正态分布且方差齐(预测值-实际值)
正态性检验,回归分析中处理
一元线性回归模型的基本结构:
5.2 进行预测
预测的结果是一个平均水平的值,但不是一个靳准的预测值
自变量的设置要根据项目的情况和实际的情况而定
2)在线性回归中使用未标准化
6、多重线性回归分析
多重线性回归是指包含一个因变量及两个或两个以上自变量的线性回归模型
多重线性回归模型的建模过程和一元线性回归建模过程基本一致,但要考虑多重共线性的影响。
多重共线性:自变量和自变量之间存在相关关系
前置条件
(1)因变量是连续变量
(2)自变量不少于2个(连续变量或分类变量均可,但至少有一个连续变量)
(3)因变量和连续自变量之间存在线性关系
(4)各观测值之间相互独立
(5)残差符合正态分布且方差齐
(6)自变量之间没有严重的多重共线性
(7)没有显著的异常值
基本操作
和一元线性回归基本类似,但要注意增加多重共线性(自变量之间存在较强的相关关系)检查,另外要注意回归使用的方法(逐步筛选策略,常用输入与步进法)
(1)线性趋势观察(散点图或散点图矩阵)
(2)相关分析(连续变量)
(3)线性回归分析
输入:一种变量选择过程,其中一个块中的所有变量在一个步骤中输入
步进 : 在每一步,不在方程中的具有 F 的概率最小的自变量被选入(如果该概率足够小)。对于已在回归方程中的变量,如果它们的 F 概率变得足够大,那么移去这些变量。如果不再有变量符合包含或移去的条件,那么该方法终止。
案例:对 ttest1.sav 建立线性回归模型,用身高、体重、血型、年龄、胸围、BMI等预测肺呼量
操作步骤:
1)线性趋势观察(散点图或散点图矩阵)
2)相关分析(连续变量)
3)多重性线性回归分析
4)多重线性回归解读
通常VIF<5可以共线性接受,5<=VIF<10共线性属于比较严重,VIF>10共线性非常严重
如果存在比较严重的多重共线性问题,可以考虑将回归方法改为步进(将BMI手动剔除)也可以考虑用主成分回归等方法:SPSS没有专门的主成分分析模块,是通过因子分析模块来实现的。
YXN
2021-08-10