人类视觉计算机视觉的比较
孔 斌 (中国科学技术大学自动化系,中国科学院合肥智能机械研究所)
关键词 知觉 视错觉 计算机视觉
  从视错觉等视觉生理现象以及知觉的特性出发,对人类视觉与计算机视觉进行比较,并根据目前对人类知觉活动(特别是视知觉活动)的认识程度讨论计算机视觉目前的状况和今后的发展.
  人类自古以来一直在进行着认识自然和改造自然的活动,创造和发展了各种科学技术.随着对自然(包括人本身)的认识的不断加深,人们发明和制造了许多工具和机器,用来提高自己各种活动的效率以及代替自己的部分活动.人们甚至希望能用机器来代替自己的思维活动,从简单、机械的数值运算到复杂、多变的知觉和思考、判断.公元前6
世纪中国人发明了算盘[1],20世纪40年代在美国诞生了第一台电子计算机.计算机视觉和人工智能的研究于20世纪60年代初露端倪.目前,机器人和计算机已能执行有一定复杂程度的知觉任务和推理判断.比如机器人足球赛、计算机下国际象棋等.有不少科幻小说和电影描写了在未来某个时候,计算机已经拥有了人类的全部智能,并且控制奴役着人类;而人类的精英分子则为了反抗计算机、拯救人类,进
行了艰难的斗争.这里,我们不去讨论未来的计算机是否真的能拥有人类的全部知觉和思维能力从而代替人脑,本文仅从视错觉、视觉两义性等一些视觉生理现象以及知觉的特性出发,对目前计算机所能拥有的能力视觉与人类的视觉进行比较,并根据目前对人类知觉活动(特别是视知觉活动)的认识程度,讨论计算机视觉目前的状况和今后的发展.
一、视错觉现象
  一般来说,在人类的五种基本感觉中,
视觉提供了人类对周围世界了解的大部分信息.常言道
:“
眼见为实.”果真如此吗
一亩多少平方?有很多情况下“眼见”的并不一定都是“实”的.原因在于,通过我们的眼睛(以及其他感觉器官)而感觉到的外界事物的形象和特性,需要经过大脑的加工处理才能形成相应的知觉和判断.在一定的条件下,大脑会对所看到的形象形成不正确的知觉和判断,即产生视错觉.较为大家熟知的几种视错觉现象包括长短错觉(图1)、大小错觉(图2)、平行错觉(图3)、弯曲错觉(图4)等[1-3].
图1 长短错觉
图2 大小错觉
图3 平行错觉
图4 弯曲错觉
  视错觉有很多实际用途.例如肥胖的人穿直条图案的衣服会使身材显得比实际瘦一些;在房间的墙壁上装几面镜子就会产生空间变大了的感觉.
  那么,像上述的各种视错觉现象在计算机视觉中会不会发生呢?答案是否定的.这是因为,在上述的知觉过程中,所求的仅仅是平面形状几何参数的比较或是几何特性,如长短、大小、方向、曲直等.人类
在执行这类视知觉任务时并没有明显的计算过程,而且对各个形状也不是单独地进行感知.人类视觉所发生的错觉,都是因为受到其他线条(有时也加上在其他情况下得来的经验)的影响而产生的.在计算机视觉中,平面形状的几何参数和特性通过数值的计算便能获得.一旦出了某个形状,对其参数的测量就将单独地进行,因而可以不受图中其他形状的影响.所以,计算机在到两个形状并计算出其对应的参数之后,经过简单的比较便能给出正确的结论.
  但是,我们是生活在一个三维的空间中,仅涉及平面形状,而且大量涉及的是立体形状.因此,计算机视觉不仅研究平面形状的识别,也研究立体形状的识别.而它的形状参数测量的独立性特点应用于平面形状时是优点,应用于立体形状时却有可能出现问题.举一个立方体辨认的例子.机器人可以根据立方体的数学模型学会认识立方体的各种透视变形并判断其相应的方位,并进行拾起立方体放到指定地方的操作.
这在目前已经不是难事了.
如果呈现给它的是一个从某个角度看很像立方体但实际不是的物体,只有一个固定视觉传感器
(即摄像机)的机器人在加工其视觉信号时就会把这个处于特定角度的物体当成立方体.由于对物体形状的错误判断,机器人有可能不能拾起该物体;或者虽然拾起了也放到了指定的地方,但在执行下一步的任务时就会有很大可能导致系统性的错误(例如在进行装配任务时).从这个意义上讲,计算机视觉比人的视觉更容易受到干扰,错觉更为严重.计算机双眼视觉和多视图视觉的发展解决了这个问题.
二、视觉两义性现象
  另一类有趣的视觉生理现象是视觉两义性.在一般情况下,对物体或图形的视觉感知只有一个惟一的答案.然而有的时候,作用于眼睛的同一幅刺激图像在不同时刻或不同的条件下可以产生不同的知觉.最常见的视觉两义性有两种类型:一种是形象和背景的交替;另一种是图形本身“自发地”改变着它们的意义.
  请看图5[2,3],注意黑白两部分在不同的观察下发生了怎样的变化.当你的眼睛盯住白部分时,杯子呈现在眼前;而当你的眼睛盯住黑部分时,两张左右对称的面孔便突现出来.在图6[2,3]中你是看到了一个背朝着你向外张望的少妇,还是看到了一个老得掉了牙、下巴垂到了皮领子里的老妪?(提示:老妪的右眼、鼻尖、嘴巴分别是少妇的耳朵、下巴、项链.)图7[4]被称作“威尔
图5 彼得-保尔高脚杯
图6 老妪?少妇?
图7 印地安人或爱斯基摩人
逊图形”
(W ilson figure ):它是一个爱斯基摩人,右边的黑部分是圆顶屋的门,爱斯基摩人面向内而立;同时它又是一幅印第安人的头像,黑部分是印第安人的头饰.印第安人的耳朵是爱斯基摩人的胳膊,而爱斯基摩人的腿是印第安人的脖子.
  在图5中,白和黑交替地成为形象和背景.但是,自然界中本不存在形象Π背景关系,而是由大脑选择、组织起了这种关系[3].任何事物都有可能成为形象,只要你加以注意.有时候形象和背景似乎在两个完全同等的可能性中交换产生,就像这个杯子和面孔的例子,形象和背景在一定的条件下发生了互相转换.从知觉的背景中分出形象或图形,要受许多条件的影响.有许多学者在这方面进行过研究,最初专门研究这个问题的是鲁宾[2].他确定了图形从背景分出的一些原则:  (1)图形有形状,而背景相对来说没有形状;  (2)背景似乎总在图形之后,没有分界的轮廓线;  (3)图形具有一般物体的性质,而背景看起来像是一种无形的东西;
  (4)图形似乎是向前突出,而背景似乎是向后退;  (5)图形可以引起更深刻的印象,也比较容易记住.但是,这些原则在应用于图5时仍然会产生歧义.那么,在计算机视觉中的情形又是怎样的呢?对于什么是“形象”、什么是“背景”的知觉决策,是任何一种能够处理视觉信息的系统的基础.计算机视觉系统也
不例外.在目前的计算机视觉系统中,
这一决策一般是根据所要执行的视觉任务事先定义好的.对于黑白二图像,要么定义黑为形象,要么定义黑为背景.在这种情况下,所得到的知觉判断便是惟一的.也可以让计算机视觉系统具有自适应性,只要设立一个简单规则就可以做到,即:规定面积小的(或象素数少的)那种颜作为形象;当二者面积差不多时,则分别进行两种形象Π背景的知觉和判断.如果是这样,计算机视觉系统也有可能识别出这一类两义图形.
  而在图6和图7中,当给图形的不同组成部分赋予不同的含义时,整个图形便具有了不同的意义.尽管给予视觉器官的刺激是一个固定的图案,由于知觉系统试图对它进行解释,不同的人往往得出不同的结论,甚至同一个人在不同时候对于同样对象的知觉也可能是不同的.因此有一种说法称:除非经头脑
关注,本无含义存在[3].当图7第一次展现在人们面前时,美国人认为这是一幅印地安人的侧面头像,而俄罗斯人则说这是一幅爱斯基摩人穿着羽绒服正要走进屋子的背面形象.这里,观察者的经验和他所熟悉的事物对他的知觉判断产
生重大影响.这一点对计算机视觉的研究也有重大影响.因为到目前为止对知觉机理还没有完全的统一的认识,所以每一个研究者都是根据自己有限的认识来设计计算机的知觉处理方式和方法.在这种情况下,不同的计算机视觉系统对于同样对象的知觉可能是不同的;但是目前,同一个计算机视觉系统一般不会试图对同样对象进行不同的知觉.
  对于这些人为造出的两义性视觉图形的识别,在目前的计算机视觉研究中似乎没有什么实际的意义,而且也未见有这方面的报道.然而,我们不要忘记,在自然界中有许多生物有拟态行为,例如作物害虫有时会模仿成枯叶;人们出于安全等目的会对一些物体(如武器装备)进行伪装;还有许多艺术家在他们的作品中,匠心独具地利用了形象交替的作用来产生艺术效果.如果想让计算机能够自动识别作物虫害,如果想让计算机在军事行动中能够自动识别敌我武器装备,如果想让计算机能够像人一样欣赏画面,那么就必须进行这方面的计算机视觉研究.
三、知觉的特性
  还有一些其他的视觉现象,由于篇幅有限,不可能在此一一加以介绍.下面我们从人类知觉特性的角
度来比较人类视觉和计算机视觉.
1.知觉的整体性
[2]
  当知觉对象由许多部分组成时,我们并不把对象感知为多个孤立的部分,而总是把它看作一个整体,即使有时候这些组成部分相距比较远.如在图8中,我们并不把它感知为不构成整体的四条直线、虚线的组合及三个圆圈,而是一开始就把它看成是正方形、圆形、三角形.
  在计算机视觉中,可以把相距较近的几个部分当作一个整体,例如它可以认出图8中的正方形和圆形.但当这些组成部分相距比较远时,它就显得无能为力了.一般它不会把图中的三个圆圈组合成三角形.
图8 知觉的整体性
2.知觉的简单性
  当头脑在判断含义时,它的活动遵循一个基本的原理,即简单法则.心理学和感觉领域的理论认为,头脑会得出一个最简单的可能含义与事物配合[3].例如,尽管在图8中的四条线的位置并不符合,每条都有一端超出了另一条,人们还是倾向于把它看成是正方形.此外,知觉系统具有将事物组合成简单单元的倾向.这种看法可以用点子图来说明[1].尽管图9中的点子彼此分离,人们仍然倾向于把它们看成由横行和竖列组成的点阵
.
图9 点子图
  在计算机视觉中,对于这个图形的知觉似乎是不定的,取决于你想要让机器看到什么.
3.知觉的完美性
  图10是一张未完成的图画[2].由于人类的知觉具有完美性,图中缺少的线条可以从我们头脑中的知识和经验得到补充,因此每个人可以很容易地给这幅图画命名
蜂蜜有什么功效.大脑有时也会虚构出一些相当可能、但实际上并不存在的东西[1,3].
仅仅凭着阴影你就能看到那些无形的物体,图11中阴影形成的字母就是一例.但是目前的计算机视觉要做到这一点还相当困难.
图10 知觉的完美性
图11 从阴影看到字
4.知觉的理解性
[2]
  在感知过程中,人根据以往所获得的知识和经验对感觉的信息进行解释,即知觉具有理解性.知觉不是简单地被刺激模式决定的,而是在有效的资料中寻最好的解释.知觉超出了感觉所直接给予的根据之外.  知觉的理解性不是单独存在的.它与知觉的整体性、简单性、完美性是相互依赖,密不可分的.虽然目前对眼睛的光学机制已经完全清楚[1],对人类知觉的一些现象有了一定的了解,但是对知觉的感知机制还不了解,所以对计算机视觉的研究和发展从根本上受到了阻碍.总的来讲,目前计算机对知觉的理解性还只能做到很少的一点点.
四、讨 论
  知觉是对事物的各种属性、各个部分及其相互关系的综合的整体的反映.人的知觉总是受到社会实践的制约.一个人的知识、兴趣、情绪等都直接影响着知觉过程.因而,才会出现各种各样的视觉心理现象.
  制造一部能看见和识别东西的机器,比制造一部解决数学和逻辑问题的机器要难得多.后者只需要按照规则来处理符号,而前者涉及对人类知觉系统的认识和理解.虽然D ・马尔提出的视觉计算理论和视觉计算模型目前在计算机视觉界为大多数人所接受[5],在实际的应用中也能解决一些问题,例如计算机识别图形的问题在有限的图形范围内已经用不同的方式获得解决,但是,机器在任何地方都还没有接近人类知觉系统所能达到的范围和速度.对人类视知觉认识和理解的程度,直接影响着计算机视觉的研究和发展.
  另一方面,对物体的视觉包含了许多信息来源[1].这些信息来源超出了当我们注视一个物体时眼睛所接受的信息.它通常包括由过去的经验所产生的对物体的知识.这种经验不限于视觉,还可能包括其他感觉,如触觉、听觉、味觉等.因此,对人类其他知觉认识和理解的程度,也影响着计算机视觉的研究和发展.
  总之,只有在人类对自身的知觉研究取得突破性进
展之后,对计算机视觉的研究才能取得相应的进展.这需要我们和心理学家、生物学家等共同努力.
  致谢:本文的灵感来自徐飞老师的课堂讲演,在此表示感谢.(2001年10月10日收到)
孔 斌 博士生,副研究员,中国科学院合肥智能机械研究所,合肥230031
电脑打不了字
1 R.L.格列高里(彭聃龄,杨 译).视觉心理学.北京:北京师范大学出版社,1986
2 叶奕乾等著.图解心理学.南昌:江西人民出版社,1982
3 C.M.布鲁墨(张功钤译).视觉原理.北京:北京大学出版社,1987 4 J.R.布洛克,H.E.尤克尔(初景利,吴冬曼译).奇妙的视错觉:欣
赏与应用.北京:世界图书出版公司,1992:9
5 吴立德.计算机视觉.上海:复旦大学出版社,1993
Comparison B etw een H um an Vision and Computer Vision
K ong Bin
Ph.D.Candidate,Associate Pro fessor,H e fei Institute o f Intelligent Ma2 chines,Chinese Academy o f Sciences,H e fei230031
K ey w ords perception,optical illusion,com puter vision
自然信息
深入探索早期宇宙中的黑暗
时代
  天文学家们最终会见到宇宙发生大爆炸后形成的第一个原子的影像.这一发现将使科学家们能够测定“宇宙黑暗时代”结束和第一批恒星,第一批星系开始照亮空间的时刻.
  按照标准宇宙模型,宇宙黑暗时代大概从宇宙创生大爆炸后的30万年开始,一直延续到90万年.当初生的宇宙冷却到3000K时,电子和质子便能够“粘在一起”形成吸收光线的氢原子,这时宇宙开始暗下来;几十万年后,当由氢形成的恒星、由恒星组成的星系所发光的强度足以使宇宙内剩下的氢电离,使其又分解为稀薄的电子和质子的半透明的等离子体时,宇宙黑暗时代便结束了.
  30年前,天文学家就预见到可利用类星体光谱中的一些所谓“赖曼α森林”的吸收线探测到位于所测类星体与地球视线间的氢云.现在,美国加州大学戴维斯分校的天体物理学家贝克尔(R.Becker)领导的小组从一颗距地球140亿光年之远类星体的光谱中窥测到原初氢的影像.贝克尔说,该类星体已燃烧到了宇宙黑暗时代的末期.由于此类星体发出的光到达地球时已
非常暗淡,观测起来极困难,观测小组
用了三台望远镜;首先用的是斯隆数
字巡天工作位于美国新墨西哥州峨帕
怎么发表文章旗峰天文台的2.5米望远镜,然后用该
台3.5米和夏威夷岛莫纳克亚峰的10
米K eck望远镜研究该类星体的光谱.
  要进一步验证已观测到的影像就
必须利用更遥远的类星体,但由于宇
宙膨胀,来自更远天体的光的波长延
伸到了近红外波段或更长的波长,即
使是一般的地基红外望远镜,由于温
和地球大气对红外光的吸收使得原本
就暗淡的天体的光更加暗淡.因此,发
现宇宙内出现的极早的第一批恒星和
第一批星系的工作可能要寄希望于美
国宇航局计划2009年发射的下一代空
间望远镜(Next G eneration S pace T ele2
scope,NG ST)了.
[许梅据New Scientist,2001;171(2304):14]
使癌细胞窒息死亡
  你会通过切断邻近所有的供水来
控制厨房漏水吗?可能不会.然而,在
朱迅老公近照曝光医学上这不失为用实验性抗癌药物来
抑制血管生长的一种方式.
  这类药物对全身血管的形成都有
抑制作用,并不仅仅作用于肿瘤.但
Napoleone Ferrara和他在加利福尼亚
G enetech的实验小组已发现了一种蛋
白质,这种蛋白质仅仅对性腺血管的
形成有刺激作用.尽管它只是一种刺
激作用而不是抑制作用,但是这一发
现同样令人振奋.因为它表明:有可能
到抑制某一特定的癌变组织的血管
形成和生长的方法.
  “人体也许对此类药物反应良
好.”比利时Leuven大学的Peter Carme2
liet说,“我们也许会发现一种专门作用
于心脏的因子,此因子可以促进心脏
病病患者的血管再生.”他还说:“这是
关于血管形成学的一种新思维,它将
会有很好的意义.”
  在G enentech,Ferrara实验组已将这
种蛋白质提纯,并将它分别注入老鼠
体内的不同部位,结果发现它并不起
作用.但是将它注射入老鼠的卵巢(这
是一个内分泌腺),结果显示卵巢内出
现大量的血管生长.
  Ferrara实验组将该蛋白质命名为痞幼吹笛6分钟
“EG-VEG F”,即内分泌腺血管内皮生
长因子.它是最先发现的一种作用于
特定组织的血管生长因子.Ferrara说:
“它也是迄今惟一被证实有此作用的
蛋白质.”
  但是,从迄今为止所进行的一些
实验来看,尚未发现针对此类因子的
专门拮抗药.这有待于进一步研究.
[黄纯海据New Scientist,2001;(2306):13]