第30卷第8期计算机辅助设计与图形学学报Vol.30No.8 2018年8月Journal of Computer-Aided Design & Computer Graphics Aug. 2018影响触觉图像识别因素的量化分析
龚江涛1), 於文苑2,3), 曲同1), 刘烨2,3), 傅小兰2,3), 徐迎庆1,4)*
1) (清华大学美术学院信息艺术设计系北京  100084)
2) (中国科学院心理研究所脑与认知科学国家重点实验室北京  100101)
3) (中国科学院大学心理学系北京  100049)
4) (清华大学未来实验室北京  100084)
(yqxu@tsinghua.edu)
摘要: 为了使更多盲人能受益于盲文书籍所伴随的插图, 区别于传统的V图像(视觉图像), 对设计适合触觉认知的T图像(触觉图像)提出新的设计原则. 首先将242张常见物品的V图像制作为线条凸起的可触摸图片; 然后邀请10位盲人被试和10位蒙眼明眼人被试通过触摸来尽量准确地命名这些线条图, 并要求被试在触摸的过程中进行“出声思维”; 再根据被试对线条图的描述, 提取22个可能影响二维线条图触觉识别的特征; 最后以识别正确率作为图片识别难易程度的指标, 使用随机森林算法进行了特征建模, 并对所有特征进行
单因素和多因素的回归分析. 实验结果表明, 通过随机森林算法建立的模型, 可以基于图片中这些特征预测图片触觉识别的难易程度; 通过多因素回归分析, 提取出对触觉识别有显著影响力的几个重要特征,并用于指导T图像的设计.
关键词: 触觉图像; 触觉用户体验; 随机森林; 逐步回归分析
中图法分类号: TP391      DOI: 10.3724/SP.J.1089.2018.16799
Multi-factor Analysis Assisting T-Image Design for Tactile Cognition
Gong Jiangtao1), Yu Wenyuan2,3), Qu Tong1), Liu Ye2,3), Fu Xiaolan2,3), and Xu Yingqing1,4)*
1) (Department of Information Art and Design, Academy of Arts and Design, Tsinghua University, Beijing 100084)
2) (State Key Laboratory of Brain and Cognitive Science, Institute of Psychology, Chinese Academy of Sciences, Beijing 100101)
3) (Department of Psychology, University of Chinese Academy of Sciences, Beijing 100049)
4) (The Future Lab, Tsinghua University, Beijing 100084)
Abstract: In order to help more blind people to benefit from accompanying illustrations while reading, we study how to design a T-image (tactile image) suitable for tactile cognition, which is different from the tradi-tional V-image (visual image). Firstly, 242 V images of common objects were made as raise-line tactile im-ages; then, 10 blind subjects and 10 blindfolded sighted subjects were asked to name these raise-line images by touching as accurately as possible and to make “Thinking Aloud” during the touching process; after that, according to the subjects’ description, 22 features were extracted which may affect the difficulty of tactile recognition of raise-line images; finally, we used the random forest algorithm to build a machine learning model of the 22 features with the naming accuracy as the index of the tactile recognition difficulty and Sin-gle-factor and multi-factor regression analysis were used to compare the importance of the features. The re-sults show that the model based random forest algorithm can be used to predict the difficulty of tactile rec-
收稿日期: 2017-07-25; 修回日期: 2017-12-28. 基金项目: 国家重点研发计划(2016YFB1001402); 国家自然科学基金(61232013, 61375009, 61632004, 61773379); 中国国家自然科学基金委和德国基金会中德合作项目(NSFC61621136008/DFG TRR-169).龚江涛(1990—), 女, 博士研究生, 主要研究方向为人机交互、触觉认知与交互、用户体验设计; 於文苑(1992—), 女, 博士研究生, CCF学生会员, 主要研究方向为认知心理学、物体识别; 曲同(1993—), 女, 学士; 刘烨(1979—), 女, 博士, 副研究员, 硕士生导
师, CCF会员, 主要研究方向为认知心理学、人机交互; 傅小兰(1963—), 女, 博士, 博士生导师, CCF高级会员, 主要研究方向为认知心理学、人机交互; 徐迎庆(1959—), 男, 博士, 教授, 博士生导师, CCF杰出会员, 论文通讯作者, 主要研究方向为触觉认知与交互.
第8期龚江涛,等: 影响触觉图像识别因素的量化分析 1439
ognition based on these features of a raise-line image; The multi-factor regression analysis find some fea-tures that have significant influence on the tactile recognition, which can guide the T-image design.
Key words: tactile image; haptic user experience; random forest algorithm; step regression analysis
1 盲人需要适合触觉认知的T图像
如何辅助视觉受损人更好地认知、学习, 一直是残障教育和辅助领域非常关注的问题. 视觉是人类认知环境最大的信息源, 而视觉受损人主要依赖其他感官信息补偿, 尤其是触觉和听觉. 根据本文的走访调查, 在中国特殊教育的学校中, 盲人课本与明眼人课本的内容完全一样, 只是将普通文字转变成可以通过触觉阅读的布莱尔盲文; 但是, 课本中的图片却很少被转成可触摸图片供盲人学习. 无独有偶, 法国科学家Hatwell等[1]也指出了相同的问题. 图片对盲人来说不重要么? 答案是否定的. 研究表明, 即使
是早期盲人儿童也能够受益于文字伴随的插图. Pring等[2]在1985年的研究报告中指出, 给14岁的早期盲人儿童和后期盲人儿童一些简短的文字, 包括一些插图(使用热塑浮雕制成触觉图片), 保留插图时的认知绩效显著高于未保留时. 但是, 识别触觉图片的确是一件非常困难的事情: 在关于识别常见物品的图画的研究中, Magee等[3]在1980年观察到, 早期盲人只有12%的识别的正确率; 而Kennedy等[4]在1986年的研究中指出, 蒙眼明眼人在类似的任务中的识别正确率也仅有30%.
显然, 直接将适用于视觉认知的V图像(visual image)制作成有形图像是不够的. 盲人需要适合触觉认知的T图像(tactile image). 究竟是什么因素影响了触觉图像的识别? 应该给盲人提供什么样的T图像? 盲人应该如何认知触觉图片? 这些都是亟待解决的问题.
2触觉图像认知相关工作
在触觉识别二维图片方面, 已经有了一些心理学方面的探索, 其中有很多关于常见物体线条图识别的研究(如钥匙、香蕉、伞等).
已有研究显示, 触觉识别凸点二维线条图是非常困难的. 早期盲人通过触觉识别凸点二维线条图的正确率只有12%[3], 蒙眼明眼人的正确率约30%[4]. 已有的研究也总结了一些触觉识别二维线条图的任务绩效低的原因: (1) 相对于视觉, 触觉的最大感受野更小[5]; (2) 已有的视觉经验并不能辅助触觉图片的识别[6]; (3) 早期盲人很难将图画储存在工作记忆中[7]; (4) 已有研究中采用二维浮雕图画, 在物理特性上
并没有真实地表达物体的触感, 因此也无法判断图画中物体的类别, 而类别信息对于触觉识别图片具有重要的作用[8].
特别地, Heller等[9-11]针对使用二维线条图表达三维物体时的透视问题进行了很多研究, 如在1990−1996年一系列的研究结果为: 即使是早期盲人, 也可以在非常简化的实验室情况下理解表达某视角的二维线条图. 但是, 当二维线条图的复杂程度增加时, 识别的难度也会相应地增加.
从上述盲人与触觉认知的研究方法可以看出, 其中大多数都是使用少量、简单、可控制的实验材料和严格的实验条件来探索触觉认知的特点, 这样的研究大多是实验室性质的, 得到的结论很难直接应用于真实、复杂的触觉图片设计. 随着可触摸图片的制作技术的发展, 触摸图片的成本越来越低廉(如Viewplus公司的Tiger点阵图打印机), 能够显示大画幅触摸图片的电子设备[12]的相关技术也逐渐成熟. 在国内, 也有关于低成本大幅面点阵触摸显示器的相关研究[13]. 因此, 迫切地需要能够指导可触摸图片设计的方法原则, 并生产出大量适合盲人触觉认知的图片素材. 在这样的需求驱动下, 相对于控制实验, 大范围的田野调查是更合适的研究方法.
3 建立触觉图库
在视觉认知中, 已有很多用于心理学研究的标准化图库. Snodgrass等[14]在1980年对260张黑白线条绘制的视觉图片进行标准化, 从命名一致性、熟悉度、表象一致性和视觉复杂度4个维度进行评定.
然而在触觉认知的研究中, 还没有这样的标准化触觉图库. 为了对触觉认知进行多因素的量化分析, 得到可以广泛应用的设计原则, 本文基于
1440 计算机辅助设计与图形学学报第30卷
大量可触觉识别的二维线条图图片, 对影响触觉认知的二维线条图的特征进行系统性地分析计算, 评判这些特征的影响力, 为触觉图片的设计提出指导原则.
本文选取242张常见三维物体的二维线条图[15], 并将它们制作成与盲文书籍同等大小、同样触感的可触摸凸点线条图. 这些图片涵盖了28个类别的物体, 在图像表达中使用不同的透视方法和视角, 且随机使用不同的比例放大和缩小. 本文共采集20位被试(10位蒙眼明眼人和10位盲人)的识别情况, 并以识别正确率作为该图片识别难易程度的指标, 对根据被试描述抽取出的二维线条图的特征使用随机森林算法进行建模, 并对这些特征进行单因素和多因素的回归分析. 结果表明, 这些特征对于甄别图片识别难易程度是有效的, 通过触摸图片自带的特征(透视方式、比例、复杂度等), 该模型可以预测触摸图片的识别难易程度, 对比实际的实验结果, 正确率超过70%.
通过对所有触摸图片的特征进行回归分析发现, 一部分特征会显著影响二维线条图的可识别度; 还发现了影响盲人和明眼人识别率的二维线条图的特征是存在区别的. 通过这些结果, 可以得到设计可触摸图形的原则, 提高触觉图片的可识别度.
4 基于图库的T图像设计方法
本文使用基于图库的田野调查方法获得触摸图片识别难易程度, 使用量化认知的方法对触摸图片的非结构化信息进行编码及数据分析.
4.1实验材料
本文实验中, 选取了242张用盲文打印机打印出的真实三维物体的二维凸点线条图片; 用来生成二维凸点线条图的物体原图选自Snodgrass等[14]研发, 由张清芳等[15]进行中文标准化的视觉图集; 每张图片的长为27.94cm, 宽为24.89cm. 在这些线条图中, 有的图像几乎充满整个图片, 有的图像只占图片的一部分; 图片中图像的大小和尺寸在不同的图片间存在差异.
4.2触摸图片识别率的田野调查
4.2.1  被试情况
10位盲人和10位明眼人大学生有偿参与了本文实验, 所有被试对实验目的不了解, 且所有被试的母语均为汉语, 表1所示为10位盲人被试的详细情况.
表1盲人被试的详细情况
目前比较好的奶粉编号性别
失明
年龄/岁
孙浩个人资料视力状况光感失明原因
1 男7 全盲无青光眼
2 男15 低视力有视神经萎缩
3 男0 低视力有不明
4 男0 全盲无不明
5 男15 全盲无眼球震颤
6 男12 全盲有视网膜脱落
7 男12 低视力有视网膜脱落
8 男  2 全盲无外伤
9 女15 全盲有
视网膜素
变性
10 男0 低视力有不明
梦见耳屎4.2.2  实验过程
所有被试均被要求在蒙眼的情况下, 依次对242张凸点二维线条图进行触摸, 并在30s内对图中的物体进行命名, 如果不能准确命名, 也可以说出物体所属的类别. 在触摸过程中, 鼓励被试采用“出声思维”的方法对触摸到的图片的特征以及感受到的信息进行描述. 主试将被试的识别结果以及对图片的描述进行记录, 并用GoPro摄像机记录被试触摸时的手部动作. 整个实验持续时间4~5h, 被试每进行1h的实验后会休息5min.
4.3编码方案设计
4.3.1  命名和分类准确性的编码
2位编码者分别从命名准确性和分类准确性上判断被试是否准确地获取到凸点二维线条图上的物体信息. 2位编码者独立编码并且在编码过程结束前不进行讨论.
命名准确性是基于张清芳等[15]标准化的物体名称来评判的. 如果被试的命名与标准化的名字相同或是同义词, 该图片在命名准确性的维度中被标为“1”; 否则, 被标为“0”. 分类准确性包含人造物和自然物. 其中命名准确性被标为“1”的物体的分类准确性编码中应被标为“1”.
4.3.2  触摸图片非结构化数据编码
根据被试对线条图的描述, 本文提取了22个可能影响二维线条图触觉识别的特征, 并请2位编码者从这22个维度对二维线条图的视觉特征进行编码. 如果图片具有某个特定的视觉特征, 则该图片在此视觉特征维度中被编为“1”, 否则被编为“0”. 2位编码者独立工作并且在编码过程结束前不进行讨论. 表2所示为每一个特征维度的定义, 图1中呈现了其中部分典型示例.
第8期龚江涛, 等: 影响触觉图像识别因素的量化分析 1441
表2特征维度的定义
特征维度
定义
特征维度
赵忠祥近期情况
定义
可操作性
可以用单手抓握并移动的人造物(仅限人造物
) 多余线条
图像中有一些去除后不影响物体理解的线条
长条形物体图像的轮廓为长条形
多余线条表
达纹理
中国女演员图像中多余的线条
表示物
表面
的纹
质地
(如图1i)
圆形物体图像的轮廓为圆形
多余线条表
达光线
图像中多余的线条表示物体表面因光线的反射产
生的高光(如图1j)
三维透视
物体的呈现方式具有明显的立体感(如图1a和图
1b无三维透视, 图1c和图1d有三维透视
)
多余线条表
达动效
图像中多余的线条表示物体在运动(
如图
1k)
对称物体
图像中表达的物体本身是对称的
(如图
1e
为不对
称物体, 图
1f~
图1h
均为对称物体
)
因光线省略
的线条
因物体表面的光线反射导致的原有连续线条的断
裂和缺失
单面对称
物体
图像中表达的物体只有一个对称面(如图
1f为单
面对称物体)
因遮挡省略
的线条
因物体的呈现方式或者物体姿态而导致的原有连
续线条的断裂和缺失
双面对称
物体
图像中表达的物体有2个对称面(如图1g为双面
对称物体)
尺寸过大
图像中呈现的物体的尺寸明显大于实际的物体尺
寸(如图1m, 其中外方框代表图纸边缘)
轴对称物体
图像中表达的物体是轴对称物体(如图1h为轴
对称物体)
尺寸过小
图像中呈现的物体的尺寸明显小于实际的物体尺
寸(如图1n, 其中外方框代表图纸边缘)
斜对称物体
图像中的物体是对称的, 且物体的对称轴与图
片边缘成约45°夹角
空白区域存
在二义性
图像中有至少2处面积较大的空白区域, 且一些
空白区域表示空心, 而另外一些空白区域表达实
心(如图1l)
对称图形物体图像是对称的
刚性(仅限
人造物)
图像中表达的物体的可变性低, 不易变形, 变形
后难以恢复原状(仅限人造物)
倾斜图形
物体图像是对称的, 且图像的长轴与图片边缘
约成45°夹角
柔性(仅限
人造物)
图像中表达的物体的可变性高, 易变形, 变形后
容易恢复原状(仅限人造物)
a. 算盘
b.
婴儿车 c.
床 d.
螺丝帽
e. 钢琴
f.
鹅 g.
桌子 h.
南瓜
i. 背心 j.
镜子 k.
火箭 l.
水壶
m. 钥匙 n.
拐杖
图1  图片特征提取典型示例
5实验结果与分析
5.1实验结果
花英t ara5.1.1  识别率编码结果
本文根据每个维度中2位编码者的编码结果
计算编码者一致性(Kappa系数). 当编码者一致性
超过80%之后, 2位编码者就每一张图片的每个命
名或分类结果进行讨论并达成了统一.
表3所示为盲人和明眼人被试的命名和分类
准确率. 结果表明, 整体的命名准确性非常低, 约
为20%, 而整体的类别准确性(一级分类准确率)高
达60%.
表4所示为触觉图片被准确识别的被试频数
表, 可以看出, 有53张图片没有一个被试能够正
确命名, 大量图片的命名准确率都非常低. 为了进
一步分析盲人和明眼人识别图片的准确率, 本文
将可以被2~3位被试(包括盲人和明眼人)正确识别
的图片归为低可识别度图片组, 共64张; 将可以
被5位及以上的被试(包括盲人和明眼人)正确识别
的图片归为高可识别度图片组, 共64张; 并对盲
人与明眼人在这2组图片上能够正确命名的人数
和能够正确分类的人数进行对比分析.
命名准确性的配对样本T检验结果表明, 识别
所有128张低可识别度和高可识别度图片时, 盲人
的命名准确性(  2.98)
M 显著高于明眼人(M=2.48),
1442 计算机辅助设计与图形学学报第30卷
表3盲人和明眼人被试的命名及分类准确率被试类型被试编号命名准确率分类准确率
1 0.33 0.83
2 0.14 0.38
3 0.09 0.47
4 0.28 0.64
5 0.10 0.50
6 0.26 0.67
7 0.16 0.69
8 0.02 0.71
9 0.20 0.83
10 0.30 0.83
盲人
平均准确率0.19 0.66
1 0.14 0.51
2 0.12 0.51
3 0.11 0.32
4 0.26 0.70
5 0.2
6 0.56
6 0.19 0.51
7 0.14 0.73
8 0.13 0.57
9 0.05 0.68
10 0.17 0.69
明眼人
平均准确率0.16 0.58 表4触觉图片被准确识别的被试频数表
识别人数频数百分数/% 累计百分数/%
0 53 21.9 21.9
1 36 14.9 36.8
2 35 14.5 51.2
3 29 12.0 63.2
4 2
5 10.3 73.6
5 10 4.1 77.7
6 1
7 7.0 84.7
7 2 0.8 85.5
8 4 1.7 87.2
9 11 4.5 91.7
10 4 1.7 93.4
11 4 1.7 95.0
12 3 1.2 96.3
13 5 2.1 98.3
14 2 0.8 99.2
16 1 0.4 99.6
17 1 0.4 100.0
合计242 100.0
(1,127)  2.633
t=, 0.01
p=. 对于低可识别度组的图
片, 盲人(  1.41)
M=与明眼人(  1.05)
M=的命名准确性没有显著差异, (1,63)
t=1.579, p=0.119. 而对于高可识别度组的图片, 盲人的命名准确性(M= 4.56)显著高于明眼人(  3.92)
M=,(1,63)
t=2.101, p<0.05.
分类准确性的配对样本T检验结果表明, 对于低可识别度组的图片, 盲人(M=6.50)与明眼人(M=5.42)的分类准确性有显著差异, t(1, 63)=3.667,
0.001
p=; 同样, 对于高可识别度组的图片, 盲人(M=7.83)与明眼人(M=7.03)的分类准确性有显著差异,(1,63)  3.124,
t=0.003
p=.
5.1.2  触摸图片特征编码结果
根据2位编码者的编码结果, 对每一个视觉特征维度进行了Kappa系数的计算(检验编码一致性的指标). 基于每个维度中2位编码人的编码结果计算编码者一致性(Kappa系数). 当编码者一致性超过80%之后, 2位编码人应对每一张图片的每一个视觉特征维度的编码进行讨论并达成共识.
5.2数据分析
5.2.1  识别率编码结果
预测分类的算法有很多种, 如支持向量机、逻辑回归、朴素贝叶斯、决策树等. 由于在本文中, 特征的数据类型是1/0的Bool类型, 而且多个特征从定义上有明显的相关关系, 如物体对称、单面对称、双面对称、轴对称、对称轴倾斜等, 彼此相关度较高, 所以, 相较于对特征的均一化、独立性比较敏感的支持向量机、逻辑回归以及朴素贝叶斯等分类器, 树形的分类器则更合适. 不仅如此, 树形的分类器具有容易展示、可对特征进行可视分析的优点, 所以本文优先考虑使用树形分类器.
随机森林是一种基于分类和回归决策树的组合分类器算法, 它采用Bagging方法创建N tree棵具有差异的决策树, 并在构建这些决策树时采用随机子空间方法, 即随机地选择M feature个特征作为每个节点处的候选特征个数. 一般来说, 最终使用投票法得到随机森林算法的结果. 随机森林的随机性造成了决策树之间巨大的差异度, 使随机森林模型具有很好的分类性能. 这种算法具有决策树的模型可解释性的优点, 又通过组合模型解决了决策树容易过拟合的问题.
在分类模型训练中, 本文将样本分为2类:难识别组(总识别率小等于0.1)和易识别组(总识别率大于0.1), 难识别组和易识别组的样本数分别为124和118; 使用22个特征作为总特征空间.
在每次调整模型参数时, 本文都将样本数据随机分为5组, 使用交叉验证的方法(每次交叉