2 T
2 i S 基于主成分分析的全国主要城市空气质量评价
毛 宁1 李益禛2
(1〃北京林业大学林学院 ,北 京 100083;2〃北京林业大学经济管理学院 ,北 京 100083)
摘 要 :随着城市化的进程 ,空气污染问题越来越严重 。针对全国31个 主要城市的空气质量问题
,基于主成分分析方 法 ,借 助 R 软件
,利用全国主要城市的空气质量环境影响因素数据进行主成分分析 ,得出影响空气质量的主要因素 。 关键词 :主 成分分析 ;空 气质量 ;R 软件
中图分类号 :F2
文献标识码 :A 文章编号 :1672-3198(2014)10-0049-02
1  引言
xi
金童卢比奥
( 2
随着城市化进程的不断推 进 ,近 年 来 ,全国各大城市均  其中 xj =  i=1 n j ,sj
Xij-Xj i=1 n-1
,得标准化样本阵  频频出现“雾 霾 ”天 气 ,空气质量问题愈发严重 。 而 影 响 空 气质量的因素又是复杂的 ,只有到最主要的因素 ,才 可 以 较好的解决空气质量问题。随着多元统计分析的普及和应  用 ,主 成分分析法(PCA)已成为一种新兴的评价方法 ,在 环
Z=(Zij
)。 2〃2〃2 相关系数矩阵计算
熿r11      r12        …  r1p
r21 r22
…  r2p
Z Z 境质量综合评价方面应用广 泛。 主 成 分 分 析 (Prin]ipl_
R=
-1
Compon_ntAn[ly
sis,简 称 PCA)方法是一种把原来多 个 指 标化为少数几个 互 不 相关的综合指标的多元统计方法 ,可
燀rp1  rp2 …  rpp燅 n  (xki-珔x n
xkj-珔x i)( j)
以达到数据化简 、揭 示 变量之间关系和进行统计解释的目
其中 rij i,j=1,2,… ,p 的。在实际应用中主要用来对数据集的属性去进行相关分  析和降维。而其实判定一个区域的空气质量需考虑的因素
为相关系数。
十分复杂 ,进 行主 成 分 分析需要抓住其各因素之间的内在 关系 ,寻影响环境质量的最大因素 。 2    主成分分析方法
2〃1 基本原理 主成分分析方法是建立一种从高维空间到低维空间的  2〃2〃3 特征值和特征向量计算
解特征方 程|λI-R|=0,常 用 雅 可 比 法 (J[]o\i杭州市民卡网上办理
)求 出 特 征值 ,并使其按大小顺序排列 λ1 ≥λ2 ≥… ≥λp≥0。 分别求出对 应 于 特 征 值 λi  的 特 征 向 量 _i(i=1,2,… , p
p),要 求 ‖_i‖ =1,即  _j=1,其 中 _ij表 示 向 量 _i 的 第j个 映射 ,即 把多个指 标 转 化为少数几个综合指标的一种统计 分量。
j=1
分析方法 ,其目的是在保证 信息损失量最小的前提下 ,尽 可 能提取问题的主 要 方 面 ,从而对多变量数据进行最佳综合  简化。通常数学上的处理就是将原来 m 个指标作线性组
计算主成分贡献率及累计贡献率: 贡献率: 累计贡献率: i
λk
合 ,得 到一个新的综合指标。 选取第一个线性组合 Y1(即  λi
(i=1,2,
… ,) k=1            (i=1,2
,… ,) 第一个综合指标)的方差来表示含有信息的多少 ,若 Y1 越 p
λk
k=1
p  λk
k=1 大 ,则 表示 Y1包含的信息量就越多 。 如果在所有的线性组 合中选取的 Y1方 差最大 ,则 称 Y1为 第一主成分 ,其 方差在 总方差中所占比率称之为解 释 方 差 ,其 方 差 越 大 ,它 的 贡 献 越大 ,其 代表原始数据的能力就愈强。 如果第一主成分不 足以代表原来 m 个指标 的 信 息 ,再 考 虑 选 取 第 2 个 线 性 组 合 Y2,与 Y1共同反映原始信息 ,通 常当前 n个主成分的方 差占总方差的85% 以上即可认为这 n个主成分能代表该数 据的大部分信息。 2〃2 方法步骤 2〃2〃1 数据标准化
为了排除数量级和量纲不同带来的影响 ,首 先 对 原 始 数据进行 标 准 化 处 理。 设 p 维 随 机 向 量 x= (x1 ,x2 ,… , xp)T ,n个 样品 x=(x  ,x ,… ,x )T ,i=1,2,… ,n,n ,构
一般取累计贡 献 率 达 85% ~95% 的 特 征 值 λ1 ,λ
2 ,… , λm ,所 对应的第1、第2、… 、第 m(m≤p)个 主成分。 计算主成分载荷:
lij=p(zi,xj)= 槡λi_ij(i,j=1,2,… ,p) 各主成分的得分:
熿z11      z12        …  z1m
z21      z22        …  z2m
Z=
zn1      zn2        …  znm燅 3    实验分析 3〃1 实验数据介绍
实验分析选 取 了 2009 年 北 京 、天 津 、石 家 庄 、长 春 、哈 尔滨 、太 原和银川等31个 中国主要城市的空气质量指标数  i i1 i2 ip
>p 造样本阵
,对样本阵元素进行如下标准化变换 : Xij-珚X
据 ,其 中包括的污染因子为二氧化硫 、二 氧 化 氮 、可 吸 入 颗 粒物三个变量 (单 位 :毫 克/立 方 米 ),应用上述主成分分析  Zij= j
,i=1,2,…p 方法 ,借 助 R 软件按上述的步骤进行计算。
—  49
— =
表 1  主要城市空气质量指标(2009年)
可吸入
可吸入
X2均
有较强 的 负 相 关。 从第一主成分的特征向量 构 成 特 征来看 ,X1、X2即 可吸 入 颗 粒 物 和 SO2 在整个空气质量中  序号  区域 SO2 NO2 序号  区域 SO2 NO2  颗 粒 物 颗 粒 物
1 北京  0〃034 0〃053 0〃121 17            武汉  0〃044 0〃054 0〃105 占有较重的地 位。 所 以 说 ,造成空气质量较差的原因中可
吸入颗粒物和 SO NO
2  占
据 主 要 地 位, 2  相 对 较 少。 第 一 主 2 天津  0〃056 0〃04 0〃101 18            长沙  0〃039 0〃042 0〃092 成分中,  、 的 系 数 都 很 大 ,且 相 差 不 多, 虽 相 比 较
3  石 家 庄 0〃045 0〃035 0〃104 19            广州  0〃039 0〃056 0〃07 4
太原  0〃075 0〃022 0〃106 20            南宁  0〃032 0〃028 0〃05 5  呼和浩特 0〃049 0〃04 0〃074 21            海口  0〃007 0〃016 0〃038 6 沈阳  0〃059 0〃037 0〃11 22            重庆  0〃053 0〃037 0〃105 7 长春  0〃034 0〃043 0〃085 23            成都  0〃038 0〃055 0〃111 8  哈 尔 滨 0〃046 0〃054 0〃101 24            贵阳  0〃058 0〃026 0〃074 9
上海  0〃035 0〃053 0〃081 25            昆明  0〃041 0〃046 0〃067
10            南京  0〃035 0〃048 0〃1 26            拉萨  0〃008 0〃021 0〃05 11            杭州  0〃041 0〃052 0〃097 27            西安  0〃048 0〃046 0〃113
12            合肥  0〃023 0〃027 0〃111 28            兰州  0〃059 0〃043 0〃15 X1  X2 X3 少 ,但 基本相当。第二 主 成 分 中 ,X3 系
数 最 大 ,它 主 要 反 应 了 NO2 的影响。第三 主 成 分 中 ,X1、X2 的 系 数 都 很 大 ,X3 的系数很小 ,基 本上 没 有 反 应 NO2 的
影 响。 从 因 子 载 荷 矩 阵可以看出第一主成分和第二主成分可以包含空气质量的
全部 ,从 累计贡献 率 中 也可以看出前两个全局主成分的累 计贡献率为86〃61% ,它基本上概括了 环境空气质量污染的 绝大部分信息。环境空气质量污染的主要因素依次为可吸
入颗粒物 、SO NO
2 、  2 。 这说明环境空气质量污染主要还是 13            福州  0〃014 0〃04 0〃064 29            西宁  0〃042 0〃032 0〃141 14            南昌  0〃054 0〃037 0〃079 30            银川  0〃044 0〃031 0〃09 15            济南
0〃05 0〃025 0〃123 31  乌鲁木齐 0〃093 0〃068 0〃14
16            郑 州  0〃053 0〃046 0〃099
3〃2 实验流程
(1)首先计算三种指标的相关 系数矩阵 ,运 用 R 软件中 的]or(x
)语 句 ,计 算结果如下: 表 2 三项指标相关系数表
x1(可 吸入颗粒物)
x2(SO2) x3(NO2) x1 1〃0000000 0〃5963110 0〃3533283 x2 0〃5963110 1〃0000000 0〃3118395    x3
0〃3533283
0〃3118395
1〃0000000
(2)由 特 征 方 程|λI-R|=0,解 出 表 2 中
的 矩 阵 特 征 值。在 R 软件中输入 _ig_n(]or(x
))语 句 ,即可得到相关系 数矩阵的特征值和特征向量。 得 出 3 个特征值的精确近似 值从大 到 小 排 列 为 :1〃8551782、0〃7432156、0〃4016063
。 特征向量见表3。
表 3 全局主成分对应特征向量
主 成 分
Z1  Z2  Z3
X1 -0〃6263407 -0〃2870790  0〃72476403 X2 -0〃6125592 -0〃3937833  -0〃68535095
X3
-0〃4821499
0〃8732241 -0〃07078966    特 征 值 λ
i    1〃8551782 0〃7432156
0〃4016063
(3)对 于贡 献 率 和 累 计 贡 献 率 ,在 R 软 件 中 输 入 sum-
m[ry(p][)
实 现 ,其 结果见下表4。 表 4 特征值及主成分贡献率
主 成 分 Z1 Z2 Z3
特征值 1〃8551782 0〃7432156 0〃4016063 贡献率 0〃6183927 0〃2477385 0〃1338688
累计贡献率
0〃6183927
0〃8661312
(4)计 算初始因子载荷矩阵 ,在 R 软件中输入语句 p][
$lo[^ings
即 可得到结果 ,见 表5。  表 5  因 子 载 荷 矩 阵
主 成 分  Z1  Z2  Z3
X1 -0〃626 -0〃287 0〃725  X2
-0〃613 -0〃394 -0〃685
X3
-0〃482
0〃873
可 以 得 出 第 1 主成分与各个变 量的线性组合为 F=
两拨
-0〃636可 吸入颗粒物 -0〃613SO2 —0〃482NO2 。 3〃3 实验结果分析
从表4 可 以 看 出 ,第 一 主 成 分 Z1  的贡献率最大为  61〃84% ,3个变量系数均为负 ,可以得出第一主 成 分 与 X1、
煤燃烧 、工业排放的废气 、粉 尘 等 、生活排放的烟尘 、机 动 车 尾气等
,所以还是要加大对这方面的检测和治理工作 。 4  结论
针对全国空气 质 量 问 题
,本文介绍了一种主成分分析 的方法 ,利 用 R 软 件 对 2009 年 的 我 国 31 个主要城市的空 气质量进行试验 ,解 决 了空气质量评价需参考因素复杂问
题。得出空气质量污染主要来自于可吸入颗粒物和 SO2 的
结论
,可以为控制大气污染提供支持 。 在进行实验时 ,利 用 了 R 语言在主成分分析 中 的 思 路 清晰 、步 骤简单且可以直接得出载荷系数的优点。 应 用 主
成分分析法 ,经 相关变换 ,可 以用少量综合变量取代原有的 多维变量 ,使数据结构得到 简 化
,并能从整体上对区域环境 质量进行把握 ,与 实际拟合度 较 好
,因而是环境质量综合评 价中一种简单易行的有效方
法。 可以实现将多个影响因素  进行处理 ,集中到少量的具 有重要影响的因素来进行分析。 但是需要结合很多的相关知 识 ,以实现全面的问题分析 ,且 不同的分析方法有不同的特 点 ,分析的结果只能做为参考 。 且本文应用主成分分析方法在此只是进行了一年的数据分
析 ,如 果要进行多 年 的 空气质量对比评价和建立评价模型
或预测模型
,需要建立更优化的算法 ,但由于个人能力有 限 ,只 是实现了最基本平面意义上的分析。 其 实 主 成 分 分 析在我们的进行很多项的复杂问题时提取重要信息有很大 的贡献 ,尤 其可以使原本具有复杂变量的问题简单化。 尤 其是在当今这样 的 大 数 据 时 代
,用最少的变量去包含尽可 能多的信息必成 为 大 势 所 趋 ,所以主成分分析在综合分析 中将会应用的越 来 越 多
,因此对算法的优化又成为首要的 任务。 参考文献贾冰李丽丽什么关系
[1]冯  利华 〃环境质量的主成分分析[J]〃数学的实践与认识 ,2003〃 [2]贾 文利 〃北 京市能源需求影响因素的主成分分析 [J]〃城 市 探 索, 2011,(08)〃 [3]苏 木亚 〃基于主成分分析的单变量时间序 列聚 类 方法 [J]〃
卫衣怎么搭配外套运 筹与 管理 ,2011〃
[4]李洁美〃辽宁省水资源承载力研究[D]〃辽宁师范大学,2007〃 [5]李 玉珍 ,王 玉怀 〃主
成分分析及算法[J]〃苏 州大学 学 报 :自 然科学 版 ,2005〃
[6]国 家统计局 〃中 国统计年鉴[M]〃北 京 :中国统计出版社 ,2010〃 [7]商 博 〃基 于 PCA 的区域环境质量综合评价及应用
实 例 研 究 [J]〃 中国环境监测 ,2013〃
[8]王 丹 〃主成分分析法在大气环境质量评价 中的应用 [J]〃
平 顶山学 院学报 ,2011〃 [9]顾  斌 〃地理信息系统及其应用[J]〃应 用科技 ,2010〃
—  50
关于月亮的神话