*CJK统一汉字编码字符集
国家标准 GB13000.1中最重要的也经常被采用的是其双字节形式的基本多文种平面。在这 65536个码位(为什么是65536个码位)的空间中,定义了几乎所有国家的语言文字和符号。其中从 4E00H 到 9FA5H 的连续区域包含了 20902 个来自中国(包括)、日本、韩国的汉字,称为 CJK (Chinese Japanese Korean) 汉字。CJK 是《GB2312-80》、《BIG5》等字符集的超集。
*BIG5
BIG5是计算机界实行的汉字编码字符集。它包含了 420 个图形符号和 13070 个汉字(不包含简化汉字)。
*GBK
汉字扩充内码规范;一共收录了20902个汉字;GB2312-80的6763个常用汉字;BIG5码(繁体中文)13000多个汉字。
*GB 18030/2000
GB18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,是我国政府于2000年3月17日发布的新的汉字编码国家标准。
共收录27484个汉字,技术上是GBK的超集,并与其兼容,最终将结束GBK历史使命。
*ANSI编码方式
ASCII字符集定义了128个字符,扩展后的ASCII字符集定义了256个字符,后来每个国家定义了自己的MBCS(多字节字符系统),被统称为ANSI字符集。
ANSI编码方式与操作系统默认的编码方式一致。
中文Windows记事本的ANSI编码方式实际上采用的GBK编码(代码页936),英文Windows 记事本的ANSI编码方式实际上采用的Latin 1(代码页1252)编码。
*Unicode
由统一编码组织于 20世纪90年代初制定的一种16位字符编码标准。 双字节码 。 理论编码空间65536个。39000个字符编码已经做出了规定。 其中21000个编码用于表示汉字。 Un
icode编码中尚未定义的编码留待以后使用 。
◎汉字输入码(外码)
为了将汉字输入计算机而编制的代码,又称为外码。
该码直接与汉字输入法相关,即每种汉字输入法对应一种外码,因此,通常情况下一个汉字的外码不唯一。
分类:键盘输入方式; 非键盘输入方式。
● 键盘输入方式
音码、形码、音形码(形音码)、顺序码(流水码)。
*音码
按汉语拼音方案对汉字进行编码。
优点:简单易学
缺点:重码较多;输入速度较慢。
典型编码:全拼、双拼等。
*形码
将汉字分解为一些笔画、部首或字根进行编码,再由笔画、部首或字根组成单个汉字。
优点:重码率低、输入速度较快。
缺点:要记的字根较多,所以比较难学;学会后,长时间不用,容易忘。
典型编码:五笔字型
*音形码(形音码)
采用音形结合方式进行编码。 以音为主,形为辅的,叫做音形码。 以形为主,以音为辅的,叫做形音码。
特点:难易程度,重码率,输入速度与音码、形码比较起来,比较适中
*顺序码(流水码)
根据汉字在国标码中出现的顺序对汉字进行编码,每个汉字对应一个唯一的序号。
优点:无重码 缺点:最难记 典型编码:区位码
*区位码
一般情况下,国标码是以十六进制的形式来表示,一共有两个字节,高低字节的取值范围都是从21H到7EH,共94种取值,如果我们用十进制的从1到94来表示这94种状态,就形成了区位码。
区位码共四位十进制数字,前两位数字对应国标码的高字节,取值为1~94,我们称之为“区号(区码)”;后两位数字对应国标码的低字节,取值为1~94,我们称之为“位号(位码)”。
区位码与国标码是一种一一对应关系。
注意:区位码的区号和位号都是两位的,即便实际上一位数,也要写成两位数(一位数前面补“0”)。 例如,如果某个汉字的位号是3,我们在书写时,也要写成“03” 。
*区位码与国标码之间转换关系
区位码: 国标码:
1 = 01H 21H对应区码或位码的1,即01H
94 = 5EH 7EH对应区码或位码的94,即5EH
结论:每个字节相差20H
已知“啊”的国标码是3021H,求它的区位码
首先,将国标码分成两个字节G1和G2
G1=30H G2=21H
G1=30H G2=21H
代入公式,求出区位码的前后两组数字Q1和Q2,并将它们分别转换为十进制数字
Q1=G1-20H=30H-20H=10H=16
Q2=G2-20H=21H-20H=01H=01
Q1=G1-20H=30H-20H=10H=16
Q2=G2-20H=21H-20H=01H=01
注意:要写成两位的形式; 排列Q1和Q2,写出区位码;区位码=Q1Q2=160
● 非键盘输入方式
笔、语音、扫描……
◎汉字字形码
汉字在屏幕上显示或在打印机上输出时,为了能被人们理解和接受,必须以汉字字形输出,这种编码称为汉字字形码。 汉字字形一般是以点阵方式表示汉字的。
用点阵方式表示汉字,即每个汉字分解成若干点,一个点对应一位(bit)。
点阵中的每个点可以有明、暗两种状态,如果该处有笔划,则为亮,否则为暗。
● 汉字点阵占存储空间计算
100个汉字存储在内存中,每个汉字存储在32 ×32 的点阵中,所需的存储空间是多少KB?
解:32*32/8=128 Byte 128*100/1024=12.5KB
● 点阵字库的最大缺点
不能放大,一旦放大后就会发现文字边缘的锯齿。 解决方法:矢量字库。
● 矢量字库
矢量字库保存的是对每一个汉字的描述信息,比如一个笔划的起始、终止坐标,半径、弧度等等。
在显示、打印这一类字库时,经过一系列的数学运算,可以被无限地放大。
Windows使用的字库也为以上两类
FONTS目录下:
扩展名为FON,图标为红的“A”——点阵字库
扩展名为TTF,图标是两个“T”——矢量字库
● 补充——OpenType字库
对TrueType字体的扩展;融合了PostScript字体技术;使用Unicode编码;可处理大的字符集;更好地支持国际化处理;具有跨平台特性。
● 计算机汉字处理总结:
(1)通过某种汉字输入法,由输入设备输入汉字的外码(汉字输入码);
(2)由汉字输入系统将汉字外码转换为内码并存储、处理;
(3)如果要进行汉字通信,将内码转换为汉字交换码实现不同汉字系统之间的传输;
(4)将汉字内码转换为相应汉字字形码; (5)通过输出设备把汉字字形码输出为汉字。
计算机是如何处理多媒体信息的?
◎多媒体技术的发展及其产生环境
*发展: 1984年,美国Apple(苹果)公司开创了使用计算机进行图像处理的先河,在世界上首次使用Bitmap(位图)概念对图像进行描述。 1985年,美国Commodore公司将世界上首台多媒体计算机系统展示在世人面前。 1986年3月,荷兰PHILIPS(菲利浦)公司和日本SONY(索尼)公司共同制定了CD-I交互式激光盘系统标准,使多媒体信息的存储规范化和标准化。 1990年11月,美国Microsoft(微软)公司和包括荷兰PHILIPS(菲利浦公司在内的一些计算机技术公司成立“多媒体个人计算机市场协会”。 1991年,多媒体个人计算机市场协会提出MPC1标准。 1993年5月,多媒体个人计算机市场协会公布了MPC2标准。 1995年6月,多媒体个人计算机工作组公布了MPC3标准。
*发生环境: 技术条件:多媒体计算机的硬件条件、数据压缩技术、多媒体的软件条件、相关技术支持。、
社会需要:图形和图像处理的需要、大容量数据存储的需要、音频喜好和视频信号处理的需要、界面设计的需要、信息交换的需要、高科技研究的需要、 娱乐与社会活动的需要。
◎多媒体对象
*多媒体定义
“多媒体”一词源自“Multimedia”
多媒体技术是利用计算机对文字、图像、图形、动画、音频、视频等多种信息进行综合处理、建立逻辑关系和人机交互作用的产物。
*对象种类:文字;图形(如:通过计算而描述的矢量图形);位图图像;动画;音频;视频;控制。
◎什么是MPC? Multimedia Personal Computer
多媒体个人计算机;符合MPC标准的具有多媒体功能的个人计算机。
● MPC的基本结构
硬件系统: 软件系统:目前的操作系统都支持多媒体技
主机:配置较高。 术,另外还有多媒体存储、管理、压
输入设备:扫描仪、手写笔、话筒等。 缩、通信、开发等工具。
输出设备:绘图仪、音箱等。
存储设备:磁盘、DVD、光盘、磁带等。
功能板卡:声卡、显卡、电视卡等。
操纵控制设备:触摸屏、游戏杆等。
什么是计算机病毒?
近年来,由于计算机病毒的泛滥,全世界平均不到20分钟就会产生一个新的病毒。
这些病毒通过Internet传向世界各个角落,这意味着连入Internet 的计算机平均20 分钟就有可能被感染一次。
按每天开机联网2小时,一年内可能被全世界所有最新病毒感染2190次。
继传统方式感染可执行文件病毒以后,新病毒以其较强的隐蔽性和相当强的传染性在Internet 上广泛散播开来。
据统计,在我国企业、公司级的网络系统中,有90%的计算机都曾受到过病毒的感染。
60% 以上的计算机都曾因病毒而丢失过文件、数据等。计算机病毒的侵犯已成为计算机安全的最大问题,它带来的人力和经济损失是巨大的。
目前,病毒在设计上越来越复杂,在数量上呈指数增长,并在功能和形态等方面都发生了很大的变化,病毒的概念己逐渐为人们所熟悉。
计算机病毒的定义计算机病毒从其产生至今,世界上病毒的数量目前已经发展到近五万种,病毒的种类和编制技术也经历了几代的发展。在我国曾经广泛流行的计算机病毒有近千种,并且有些病毒给我国的计算机信息系统造成很大破坏,影响我国信息化的发展和应用。公安部作为我国计算机安全的主管机关,从八十年代初就建立了专门的机构从事计算机病毒的。最新的病毒如QQ病毒、熊猫烧香病毒、灰鸽子病毒。
◎计算机病毒的起源
20世纪60年代初期 | “磁芯大战”的游戏程序 |
1975年 | 《Shock Wave Rider》(震荡波骑士) |
1977年 | 《Adolescence of P1》(P1的青春) |
1983年11月 | 国际计算机安全学术研讨会上的实验 |
20世纪80年代后期 | “巴基斯坦智囊”的病毒 |
20世纪60年代初,美国贝尔实验室里,三个年轻的程序员编写了一个名为“磁芯大战”的游戏程序,游戏中通过复制自身来摆脱对方的控制,同时“吃掉”对方程序,这就是所谓“病毒”的第一个雏形。
发布评论