多媒体的概念: 以数字化为基础,能够对多种媒体信息进行采集、编码、存储、传输、处理和表现,综合处理多种媒体信息并使之建立起有机的逻辑联系,集成为一个系统并能具有良好交互性的技术。
多媒体的关键特性:
多样性—适应了信息载体的多样性
信息载体的多样性是相对于计算机而言的,指的就是信息媒体的多样化,有人称之为信息多维化。
交互性—易于人和计算机的交互
交互可以增加对信息的注意力和理解力,延长信息保留的时间。
当交互性引入时,“活动”本身作为一种媒体便介入到了数据转变为信息、信息转变为知识的过程之中。
当我们完全地进入到一个与信息环境一体化的虚拟信息空间自由遨游时,这才是交互式应用的高级阶段,这就是虚拟现实(Virtual Reality)。
交互性—易于人和计算机的交互
集成性:实现了信息处理的集成性
多媒体信息媒体的集成
处理这些媒体的设备与设施的集成
图形与图象的区别
图形是矢量概念,图元;图象是位图概念,象素;
图形显示图元顺序;图象显示象素顺序;
图形变换无失真;图象变换有失真;
图形以图元为单位修改属性、编辑;图象只能对象素或图块处理;
图形是对图象的抽象,但在屏幕上两者无异
屏幕分辨率
计算机显示器屏幕显示图像的最大显示区
图像分辨率
数字化图像的大小
像素分辨率
像素的宽高比,一般为1∶1
图像灰度
每个图像的最大颜数
图像文件大小
(高×宽×灰度位数)/8 = 字节
(高×宽×灰度位数)/(8*1024*1024) = MB
视频数据量
帧速×每幅图像的数据量(不计压缩 )
P17 听觉心理变量和物理变量表
听觉心理变量 人们可以感觉到声音的强弱,可以感觉到歌唱家音调的高低。
物理变量 频率(变化的速度)、幅度(产生的压力)、相位(何时开始)。
数字声音是一个数据序列。它是由外界声音经过采样、量化和编码后得到的。
对声音进行采样用奈奎斯特采样定理来决定采样的频率。根据该定理,只要采样频率高于信号中最高频率的两倍,就可以从采样中完全恢复原始信号的波形。
声音数据量=(采样频率×每点采样位数×声道数)/8 字节/秒
看看 P18 图下面的那一段
视差的种类大致分为四种:零视差、正视差、负视差和发散视差。
为什么要对多媒体数据进行压缩?
压缩的必要性: 音频、视频的数据量很大,如果不进行处理,计算机系统几乎无法对它进行存取和交换。
压缩的可能性:经研究发现,与音频数据一样,图像数据中存在大量的冗余,通过取出那些冗余数据可以极大地降低原始图像数据量,从而解决图像数据量巨大的问题。
P38数据冗余的类型:空间冗余、时间冗余、信息熵冗余、视觉冗余、听觉冗余、其它冗余
压缩方法 :无损(无失真)压缩和有损(有失真)压缩
编码主要分为:预测编码、变换编码、统计编码、分析-合成编码、混合编码等
有失真压缩:大多数图像、声音、动态视频等数据的压缩,ADPCM编码、混合编码
无失真压缩 :文本、数据、非线性编辑系统为了保证视频质量,有些高档系统,LZW编码、行程编码、霍夫曼(Huffman)编码。
有三个关键参数评价一个压缩系统:压缩比、图象质量、压缩和解压的速度
P43 3.2.2掌握思想
变换编码的思想:(可逆过程)
将初始数据从时间域或者空间域变换到另一个更适合于压缩的抽象域,通常为频域。
将初始数据从时间域或者空间域变换到另一个更适合于压缩的抽象域,通常为频域。
变换编码系统压缩数据的三个步骤:变换,变换域采样,量化编码
P45 Huffman编码
编码时,首先将信源符号按概率递减顺序排列,把两个最小的概率加起来,作为新符号的概率,重复此过程,直到概率和达到1为止。然后在每次合并消息时,将被合并的消息赋以1和0或0和1,寻从每一信源符号到概率为1处的路径,记录下路径上的1和0,对每一符号写出“1”、“0”序列(从码树的右边到左边)。
编码有等长编码和不等长编码
静止图像压缩标准JPEG:离散小波变换算法为主的多解析编码方式
动态图像压缩标准MPEG :P58 了解
屏幕尺寸:分为物理尺寸(屏幕的实际大小)和显示分辨率(把多媒体LCD格数(单位是点[dot] )除以屏幕面积)
CRT显示系统有3种常用的尺寸概念:显像管尺寸、可视尺寸和光栅尺寸。
消除闪烁方法:提高刷新频率、延长荧光粉的余辉时间、减少亮度。
多媒体视频卡/盒根据其自身用途分为:视频采集卡、DV卡、电视卡/盒、非线性编辑卡、视频监控卡、视频信号转换器、压缩卡/压缩盒、字幕卡 等
P94 数码相机工作原理:数字照相机不用胶片,而使用CCD阵列,把来自CCD阵列的电压信号送到模数转换器后,变换成图像的像素值
多媒体创作模式:
幻灯表现模式 :一种线性表现模式,使用这种模式的工具假定表现过程可以分成一序列“幻灯片”,即顺序表现的分离屏幕。
层次模式:这种模式假定目标程序可以按一个树形结构组织。
书页模式:这种模式中应用程序组织成一本或更多的“书”,书又按照称为“页”的分离屏幕来组织。
窗口模式:目标程序按分离的屏幕对象组织成为“窗口”的一个序列。
时基模式:主要由动画、声音以及视频组成的应用程序或表现过程,可以按时间轴顺序制
作。
网络模式:这种模式允许程序组成一个“从任何地方到另外任意地方”的自由形式结构。没有已建好的表现顺序或结构。
语言模式:使用一种语言来建立应用程序的结构与内容,它本身就是一种模式。
图标模式:图标用来标识对应的内容、动作或交互控制,在制作过程中,它们通过一张显示一系列有不同对象连接的流程图来表示
超媒体的组成要素:节点,链,热标,宏节点
多媒体数据库的一般结构形式 :联邦型结构、集中统一型结构、客户/服务器结构、超媒体型结构
1.多媒体数据库的主要问题是什么?在哪些地方与传统的数据库系统是相同的?哪些地方是不同的?有了多媒体数据库后,关系数据库会怎样?
多媒体数据库的主要问题有如下几点:① 数据量巨大且媒体之间量的差异也极大,从而影
响数据库的组织和存储方法。② 媒体种类的增多增加了数据处理的困难。每一种多媒体数据类型都要有自己的一组最基本的概念(操作和功能)、适当的数据结构和存取方法以及高性能的实现。③ 数据库的多解查询。传统的数据库查询只处理精确的概念和查询。④ 用户接口的支持。多媒体数据库的用户接口肯定不能用一个表格来描述,对于媒体的公共性质和每一种媒体的特殊性质,都要在用户的接口上、在查询的过程中加以体现。⑤ 多媒体信息的分布对多媒体数据库体系带来了巨大的影响。⑥ 传统的事务一般都是短小精悍,在多媒体数据库管理系统中也应尽可能采用短事务。⑦ 服务质量的要求。许多应用对多媒体数据的传输、表现和存储的质量要求是不一样的,系统所能提供的资源也要根据系统运行的情况进行控制。⑧ 多媒体数据管理还有考虑版本控制的问题。
多媒体数据库与传统的数据库系统的相同之处表现在其功能上,他们都统一实施对数据的管理,包括存储、查询、处理和故障恢复等,同时也保证在不同用户之间进行数据共享。不同之处在于,传统数据库模型主要针对的是整数、实数、定长字符等规范数据,当图像、声音和动态视频等多媒体信息引入计算机之后,大大扩展了可以表达的信息范围,因为多媒体数据不规则,没有一致的取值范围,没有相同的数据量级,也没有相似的属性集,另一方面,传统数据库可以在用户给出查询条件后迅速地检索到正确的信息,但那是
针对使用字符数值型数据的,多媒体数据库里的基本数据不再是字符数值型,而是图像、声音,甚至视频数据,那将如何表达多媒体信息的内容及如何组织这些数据。
在传统的关系数据库基本关系理论中,所有的关系数据库中的关系必须满足最低的要求,这个要求就是第一范式,简称1NF。这个要求通俗地说来就是在表中不能有表。但由于多媒体数据库中具有各种各样的媒体数据,这些媒体数据又要统一地在关系表中加以表现和处理,就不能不打破关系数据库中关于范式的要求。
颜直方图是在许多图像检索系统中被广泛采用的颜特征。它所描述的是不同彩在整幅图像中所占的比例,而并不关心每种彩所处的空间位置,即无法描述图像中的对象或物体。颜直方图特别适于描述那些难以进行自动分割的图像。
P193 颜直方图原理及性质 : 1、直方图中的值都是统计而来,描述了该图像关于颜的数量特性,可以反映图像的部分内容;2、直方图丢失了颜的位置特征;如果将图像划分为若干子区域,这所有子区域的直方图之和等于全图直方图;4、一般情况下,由于图像上的背景和前景物体颜分布明显不同,从而在直方图是上会出现双峰特性,但前景和背景较为接近的图像不具备该性质。
1.什么是基于内容检索?基于内容检索与模式识别、图像理解等技术的主要区别在哪些地方?它们各自的目的是什么?
(1)所谓多媒体基于内容的分析与检索,是指对多媒体数据(如视频、图像和音频等)所蕴含的物理的和语义的内容进行计算机分析理解,其本质是对无序的多媒体数据结构化,进而提取语义信息,这些物理特征和语义信息有助于用户从大量存储在数据库中的媒体中检索出具有相似特征的媒体数据。
(2) 基于内容检索最重要的方面是对内容进行识别和匹配,而非去理解它和将其分类,这是基于内容检索与图像理解和模式识别等技术的区别。
(3)基于内容检索的目的是将查询到的与用户提供的查询条件具有相似特征的媒体数据返回给用户;图像理解的目的是由图像推导出给定任务执行中的可用信息;模式识别的目的在于面对某一具体事物时将其正确地归入某一类别。
流媒体指在Internet/Intranet中使用流式传输技术的连续时基媒体,如:音频、视频或多媒体文件。流式媒体在播放前并不下载整个文件,只将开始部分内容存入内存,流式媒体的
数据流随时传送随时播放,只是在开始时有一些延迟。流媒体实现的关键技术就是流式传输。在网络上传输音/视频等多媒体信息目前主要有下载和流式传输两种方案。
发布评论