spss复习资料整理1

第一章

1.SPSS是软件英文名称的首字母缩写，其最初为Statistical Package for the Social Sciences的缩写，即“社会科学统计软件包”。

2.SPSS系统运行管理方式（SPSS的几种基本运行方式）有：

（1）完全窗口菜单运行方式

（2）程序运行管理方式

（3）混合运行管理方式

3.SPSS的界面提供的五个窗口：数据编辑窗口、结果管理窗口、结果编辑窗口、语法编辑窗口、脚本窗口。

第二章

1.SPSS的文件类型：语法文件（*.sps）、数据文件（*.sav）、结果输出文件（*.spv）。

2.SPSS数据编辑器的每一行数据称为一个个案（Case），每一个数据代表个体的属性，即变量（V ar

iable）。

3.SPSS变量名的命名规则：

1）必须以英文字母开头，其他部分可以含有字母、数字、下划线（即“-”）；

2）变量名尽量避免和SPSS已有的关键字重复，例如sum、compute、anova等；

3）SPSS13及以后版本支持变量名最长为64Byte，即变量名最长为64个英文字符，或者32个中文字符；

4）SPSS变量名不区分大小写，即SPSS认为Name、name、nAme这三个变量名没有区别。

4.变量度量类型：定量（个数、高度、温度等）、定序（“十分重要”、“重要”、“一般”、“不重要”）、定类（名字、地址、电话等）。

5.列和宽度的区别：

变量宽度：对字符型变量，该数值决定了你能输入的字符串的长度；

列：设定该变量数据视图中列的宽度。

6.变量的值标签：即对数值含义的解释。例如：

值标签

1 2 男女

7.默认的缺失值类型：数值型类型（.）、字符串类型（空格）。

8.数据文件的合并包括：纵向合并和横向合并（合并个案和合并变量），合并变量包括一对一合并和一对多合并。

9.SPSS用“（*）”表示变量来自于当前活动数据文件中的变量，而用“（+）”表示将要和当前数据文件进行合并的数据文件中的变量。

10.在合并数据文件之前，所有需要合并的数据文件必须预先按照关键变量进行升序排列。否则，合并文件程序将失败。

11.（选择题）一对一合并变量时，两个文件都要提供个案；一对多合并时，活动的和非活动的文件都可以作为关键字。

课后练习题：

6.下列可以作为SPSS变量名的是

A).PRENTS12 B).1Name C).NOT TRUE D).@result

7.SPSS中可以设置工作目录，具体设置可以按照以下菜单：

A).【选项】→【设置】

B).【编辑】→【选项】→【设置】

C).【编辑】→【选项】→【文件位置】

D).【文件】→【选项】→【设置】

8.当合并Student-Infor.sav（参见表2-1）和Student-Scores.sav（参见表2-2）两个数据文件为一个数据集Student-Records.sav时，是增加记录还是增加变量？（表略，参见P67）

A).增加记录B).增加变量C).都不是D).都正确

9.对上题的文件合并中，那个变量是关键变量：（对应知识点11）

A)学生ID B).性别C).年龄和班级D).科目E).成绩

10.在合并两个SPSS文件时，正确的说法是：

A).如果是添加变量，SPSS可以显示变量是来源于那个数据文件

B).如果是添加个案，SPSS可以显示变量是来源于那个数据文件

C).合并两个SPSS文件后，将无法辨别个案来自于哪一个文件

D).以上都不正确

第三章

1.可是离散化的作用以及两类方法

作用：可视离散化用于为定量变量创建分类变量，从而实现连续变量的离散化。在统计分析中，有时候需要了解总体的大致分布状况，而不需要了解属性的具体信息。

两类方法：直接输入分割点和根据条件自动生成分割点。

2.数据缺失的可能原因，缺失值的定义以及如何处理缺失值？

1）原因：○1在数据收集阶段，收集者没有收集到相应数据；

○2应答着拒绝回答该问题，比如该问题涉及个人隐私；

○3该问题对该应答者不适用，比如该问题是针对女性的，而应答者为男性。

2）定义：缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类，分组，删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。

3）如何处理：首先应该想到重新回到数据收集阶段尽量收集到该数据，如果实在收集不到该数据，再考虑怎么处理缺失值，如果缺失数据不影响到具体的统计分析，则不对缺失值作任何处理（即缺失数据还是作为缺失数据处理），如果缺失数据影响到了具体的统计分析，则必须考虑采取适当方法来填补缺失数据。

3.SPSS提供的填补缺失值的方法有哪些？（作简要说明）

1）序列均值为取整列数据的均值；

2）临近点均值为去该缺失值临近的几个点的均值，具体几个点由附近点的跨度来设定；3）临近点的中位数为取该缺失值邻近的几个点的中位数，具体几个点由附近点的跨度来设定；

4）线性插值法应用线性插值法填补缺失值。用该列数据缺失值前一个数据和后一个数据建立插值直线，然后用缺失点在线性插值函数的函数值填充该缺失值；

5）点处的线性趋势法应用缺失值所在的整个序列建立线性回归方程，然后用该回归方程在缺失点的预测值填充缺失值。

4.什么叫数据校验，作用是什么？

数据校验即查错误数据或者不一致数据的过程。

作用：如果数据没有收集到则尽量想办法补全；如果是录入错误则重新录入；如果数据确实错误，则可将这些数据设置成缺失值（即丢弃这些数据不进行分析）。

5.在选择个案If对话框中，构建选择“‘男性1’、‘黑种人2’、‘东北地区1’”的表达式：性别=1&种族=2&地区=1

第四章

1.统计分析的目的，描述性统计分析方法与推断性统计分析方法有什么不同？

目的：是研究观察对象总体的特点。

区别：描述性统计分析方法是指应用分类、制表、图形以及概括性数据指标（如均值、方差）来概括

数据分布特征的方法。儿推断性统计分析方法则是通过随机抽样，应用统计方法把从样本数据得到的结论推广到总体的数据分析方法。

2.描述数据特征的统计量的两大类：一类表示数据的中心位置，另一类表示数据的离散程度。

3.比较均值、中位数、众数的区别与联系。

均值：○1用于数值型的数据，不能用于定类、定序型数据；○2易受极端值的影响；

中位数：○1主要用于定序数据，不能用于定类数据；○2不受极端值影响；

众数：○1主要用于定类数据；○2不受极端值影响；○3可能没有众数或多个众数。

对于数据变量和定序变量，可以用均值、中位数、众数；对于定类数据，只有众数。

4.对极差、方差、标准差作解释。

极差反映了变量的变异范围或离散幅度，在相同样本容量的两组数据中，全距大的一组数据比全距小的一组数据要分散。

方差和标准差越大，变量值之间的差异越大，距离平均数这个“中心”离散越大；越小，则这些数据更接怎么显示文件的扩展名

近平均值。

5.分位数的类型，各自的含义。四分位差是什么，大小说明什么？

百分位数：一百等份，即P1.P2.P100；四分位数将观测数值按从小到大进行排序，然后分成四等份，出于三个分割点位置的观测值就是四分位数，即Q1.Q2.Q3；十分位数将观测数值按从小到大进行排序，然后分成十等份，出于九个分割点位置的观测值就是十分位数，即D1.D2.D3. (9)

四分位差通常为Q3和Q1的差，用来衡量观测值的离散程度，四分位差越大则说明所观测的数据越分散，越小则说明所观测数据越集中。

6.分布的形状有偏度和峰度。偏度是用来描述变量取值分布的偏斜方向，它衡量分布对称与否、分布不对称的方向和程度，取值一般在-3和3之间；峰度是用来描述变量取值分布形态陡缓程度的统计量，是指分布图形的尖峭程度或峰凸程度，取值范围可正可负可为零。

7.标准化分数也叫标准化值或Z分数，用于对变量的标准化处理。意义：变量值X，Z分数表示大于或小于平均数几个标准差，可用来比较从两个不同单位抽取出来的两值。

8.统计图

定类型：饼图、条形图（【分析】→【描述统计】→【频率】下），帕累托图（【分析】→【质量控制】→【排列图】）。

数值型：茎叶图、箱图、直方图（在【分析】→【描述统计】→【探索】下）。

9.对茎叶图、箱图的解释。

茎叶图是描述定量变量的一种图形方式，它除了能够给出直方图所给出的分布的信息外，还能够还原大部分原始数据的信息。箱图是总结五数（最小值、第一四分位数、中位数、第三个四分位数、最大值）的图形表现。（用‘o’表示离值，用‘*’表示极端值，一般极端值会大一些。）（要求会读图，P132-133）。

课后练习

3.说明茎叶图和直方图区别。如果想尽可能展现原始数据的信息，应该采用哪一种图形？

茎叶图：茎叶图是描述定量变量的一种图形方式，它除了能够给出直方图所给出的分布的信息外，还能够还原大部分原始数据的信息。优点：变量取值较多，不影响其显示效果；缺点：如果观测值较大，显示效果不好。

直方图：应用于连续型数据，表现在图形上直方图的各个正方条形之间没有任何间隔。优点：变量值较多，观测值较多不影响显示效果，概括性好，反映次数分布直观；缺点：有信息损失，组数的确定带有一定的主观性。

如果想尽可能展现原始数据的信息，应该采用茎叶图。

4.说明帕累托图和直方图的区别。

帕累托图：

直方图：

8.为了生成某个给定变量的总和（即“total”），应该选用哪一个汇总统计量：

A)mean B).sum C).median D).mode

补充：

1.（填空）单因素方差分析中，除基本分析外，一般还应做方差齐性检验和多重比较。

2. 中心趋势的描述：均值、中位数、众数、5%截尾均值；

离散趋势的描述：极差、方差、标准差、分位数和变异指标。

3.P262。会读图。

1、“文件”“打开”可以打开数据文件、语法文件、输出文件和脚本文件。

2、SPSS的内部文件？

数据文件的扩展名为：“*.SA V”；

语法文件的扩展名为：“*.SPS”；

输出文件的扩展名为：“*.SPV”（以前的版本为“*.SPO”）；

脚本文件的扩展名为：“*.SBS”；

生产工作文件：“*.SPJ”。

3、“文件”“新建”可以创建数据文件、语法文件、输出文件和脚本文件。

4、“文件”“显示数据文件信息”“工作文件”：可显示变量信息和变量值信息。

变量信息（V ariable Information）包括：变量名（V ariable）、位置（Position）、变量标签（Label）、度量标准(Measurement level)、角(Role)、宽度(Column Width)、对齐(Alignment)、打印格式（Print Format）、书写格式(Write Format)。

变量值（V ariable V alues）包括：变量值(V alue)、值标签（Label）。

5、“文件”“显示数据文件信息”“外部文件”：可显示文件信息和变量信息。

其中文件信息（File Information）包括：来源（Source）、类型（Type）、创造日期（Creation Date）、标签（Label）、字符编码（Character Encoding）、文件内容（File Contents）、数据信息（Data Information）。

变量信息（V ariable Information）包括：变量名称(Name)、位置（Position）、变量标签（Label）、度量标准(Measurement level)、格式(Format)、宽度(Column Width)、对齐(Alignment)。

*在“工作文件”中，不能直接看到记录数，如果想看到记录数，只有在浏览器中直接向下拖直到最后。但是，在“外部文件”中，不打开文件，但是可以直接在浏览器中看到记录数。

*“文件”“另存为”“变量”，在对话框中可以选择“保留”或“不保留”某些变量。

6、点击“文件”“将文件标识为只读”状态下可以对数据修改，但不会保存。只有在点击“将文件标识为读写”后可以修改并保存。“将文件标识为只读”和“将文件标识为读

写”两种状态会相互切换。

7、数据编辑器、语法编辑器、输出查看器、脚本编辑器都可以同时打开多个。

8、关闭所有的输出查看器后，并不退出SPSS系统。数据编辑器都退出后将关闭SPSS系统。关闭所有的数据文件时并不一定退出SPSS系统。说明：仅新建一个数据文件，并没有保存，即没有生成数据文件。此时关闭其它所有已保存的数据文件时，不退出SPSS系统（但仍有一个数据编辑器窗口，即新建的数据文件，即使还没有定义仅仅是新建）。

9、可以在不同的数据编辑器窗口打开同一个数据文件。对话框中提示“恢复为已保存”或“在新窗口中打开”选项。

10、测量尺度（度量标准）的修改包括两种方法：临时修改和永久修改。

临时修改，如做图做表时在对话框中修改，可以满足当时的需要，但退出对话框之后，仍恢复为之前的状态。

永久修改，在变量视图中修改。

*变量的数据类型不可以进行临时修改，只能在变量视图中进行永久修改。

11、度量标准包括三种：度量（Scale）、序号(Ordinal)和名义(Nominal)。在选择度量标准时，一般情况下只考虑变量的类型，即变量应该作为连续变量（度量）还是分类变量（序号和名义），也就是说，没有必要细分名义和序号，这对之后的统计分析没有影响。

12、分类变量又称为定性变量，其变量值是定性的，表现为互不相容的类别或属性，如血型、性别、职业等。其可分为标记变量（二分类变量），集合变量（名义变量）和排序变量（等级变量、等级变量）。作图时横坐标选择分类变量或名义变量（变量的唯一值较少者）。

13、变量名的定义。

1）、变量名最长不超过64个字节（32个汉字）。

2）、首字符必须为字母或汉字，不能是数字。变量名不能以下划线“_”或小数点“.”

或减号“—”结尾。变量名尽量不用汉字，因为在语法文件中当引用变量时输入

汉字会比较复杂，如果变量名用字母则比较简单。小数点可以包含在变量名中，

但是不允许放在最后。

3）、变量名中不能有空格或某些特殊符号，如“？”，“*”，“!”和“’”。

4）、变量名不能与SPSS的关键字相同，即不能用ALL、AND、BY、EQ、GE（大于等于）、GT（大于）、LE（小于等于）、LT（小于）、NE、NOT、OR、TO、WITH

等作变量名。

5）、对变量名英文字母的大小写不做区分。

6）、在同一数据文件内，变量名不能重复。

7）、长名字如果在输出显示时需要折行，系统会自动按名字中的下划线“_”或者“.”

位置折行。

8）、首字符为“$”是系统变量名。

14、变量标签的定义。

1）变量标签最多可长达256个字符（128个汉字）。

spss复习资料整理1

发布评论取消回复

最近发表

热门文章

标签列表