XML基本格式以及DTD规范

XML⽂件格式语法及DTD （转）

XML⽂件和HTML⽂件⼀样，实际上是⼀个⽂本⽂件。显然⼤家⽴刻就会明⽩，创建XML⽂件最普通的⼯具和HTML⼀样，就是“记事本”了。除了“记事本”之外，当然还有⼀些更加⽅便的⼯具，如XML Notepad、XML Pro、CLIP！XML Editor等，这些⼯具的⼀⼤特点是：能够检查你所建⽴的XML⽂件是否符合XML规范。不过，现在这些⼯具都只有英⽂版的，并且需要付费使⽤。当然，你仍然能够使⽤FrontPage、DreamWeaver等⼯具，不过使⽤起来不是很⽅便。随着XML的逐渐普及，相信在不久后，也会出现⾮常好⽤的创建XML ⽂件的⼯具。

　现在我们暂且使⽤“记事本”来创建我们的XML⽂件吧。先看⼀个XML⽂件：

例1

〈?xml version="1.0" encoding="gb2312" ?〉

〈参考资料〉

〈书籍〉

〈名称〉XML⼊门精解〈/名称〉

〈作者〉张三〈/作者〉

〈价格货币单位="⼈民币"〉20.00〈/价格〉

〈/书籍〉

〈书籍〉

〈名称〉XML语法〈/名称〉

〈!--此书即将出版--〉

〈作者〉李四〈/作者〉

〈价格货币单位="⼈民币"〉18.00〈/价格〉

〈/书籍〉

〈/参考资料〉

这是⼀个典型的XML⽂件，编辑好后保存为⼀个以.xml为后缀的⽂件。我们可以将此⽂件分为⽂件序⾔（Prolog）和⽂件主体两个⼤的部分。在此⽂件中的第⼀⾏即是⽂件序⾔。该⾏是⼀个XML⽂件必须要声明的东西，⽽且也必须位于XML⽂件的第⼀⾏，它主要是告诉XML解析器如何⼯作。其中，version是标明此XML⽂件所⽤的标准的版本号，必须要有；encoding指明了此XML⽂件中所使⽤的字符类型，可以省略，在你省略此声明的时候，后⾯的字符码必须是Unicode字符码（建议不要省略）。因为我们在这个例⼦中使⽤的是GB2312字符码，所以encoding这个声明也不能省略。在⽂件序⾔部分还有⼀些声明语句，我们在后⾯给予介绍。

⽂件的其余部分都是属于⽂件主体，XML⽂件的内容信息存放在此。我们可以看到，⽂件主体是由开始的〈参考资料〉和结束的〈/参考资料〉控制标记组成，这个称为XML⽂件的“根元素”；〈书籍〉是作为直属于根元素下的“⼦元素”；在〈书籍〉下⼜有〈名称〉、〈作者〉、〈价格〉这些⼦元素。货币单位是〈价格〉元素中的⼀个“属性”，“⼈民币”则是“属性值”。

〈!--此书即将出版--〉这⼀句同HTML⼀样，是注释，在XML⽂件⾥，注释部分是放在“〈!--”与“--〉”标记之间的部分。

⼤家可以看到，XML⽂件是相当简单的。同HTML⼀样，XML⽂件也是由⼀系列的标记组成，不过，XML⽂件中的标记是我们⾃定义的标记，具有明确的含义，我们可以对标记中的内容的含义作出说明。

对XML⽂件有了初步的印象之后，我们就来详细地谈⼀谈XML⽂件的语法。在讲语法之前，我们必须要了解⼀个重要的概念，就是XML解析器（XML Parse）。

1.XML解析器

解析器的主要功能就是检查XML⽂件是否有结构上的错误，剥离XML⽂件中的标记，读出正确的内容，以交给下⼀步的应⽤程序处理。XML是⼀种⽤来结构化⽂件信息的标记语⾔，XML规范中对于如何标记⽂件的结构性有⼀个详细的法则，解析器就是根据这些法则写出来的软件（多⽤Java写成）。同HTML⼀样，在浏览器中，必须有HTML的解析器，这样浏览器才能够“读懂”各种⽤HTML标记所组成的⽹页，将它们显⽰在我们⾯前。如果有浏览器的HTML解析器读不懂的标记，将会返回给我们错误信息。

由于现在的HTML标记实际上相当混乱，存在⼤量不规范的标记（有的⽹页⽤IE能正常显⽰，⽽⽤Netscape Navigator则不⾏），所以从⼀开始，XML的设计者就严格规定了XML的语法和结构，我们编写的XML⽂件必须遵循这些规定，否则XML解析器将毫不留情地给你显⽰错误信息。

有两种XML⽂件，⼀种是Well-Formed XML⽂件，⼀种是Validating XML⽂件。

如果⼀个XML⽂件满⾜XML规范中的某些相关法则，且没有使⽤DTD（⽂件格式定义——后详述）

时，可称这份⽂件是Well-Formed。⽽如果⼀个XML⽂件是Well-Formed，且正确地使⽤了DTD，DTD中的语法⼜是正确的，那么这个⽂件就是Validating。对应两种XML⽂件，有两种XML解析器，⼀种是Well-Formed 解析器，⼀种是Validating解析器。IE 5中就内含Validating解析

器，Validating解析器也可⽤来解析Well-Formed XML⽂件。

检查它是否满⾜了Well-Formed的条件。我们可以将刚才编辑的第⼀个XML ⽂件⽤IE 5以上版本的浏览器打开。

⼤家可能要问为什么在浏览器中的显⽰和我的源⽂件⼀样？没错，因为对于XML⽂件，我们鼋龉匦乃的内容，⽽它的显⽰形式是交给CSS或XSL来完成的。这⾥，我们并没有给这个XML⽂件定义它的CSS或XSL⽂件，所以它按照原来的形式来显⽰。实际上，对于电⼦数据交换，仅仅需要⼀个XML⽂件即可，如果要将它以某种形式显⽰出来，我们就必须编辑CSS或XSL⽂件（这个问题会在以后讨论）。

2.Well-Formed的XML⽂件

我们知道，XML必须是Well-Formed的，才能够被解析器正确地解析出来，显⽰在浏览器中。那么什么是Well-Formed的XML⽂件呢？主要有下⾯⼏个准则，我们在创建XML⽂件的时候，必须满⾜它们。

⾸先，XML⽂件的第⼀⾏必须是声明该⽂件是XML⽂件以及它所使⽤的XML规范版本。在⽂件的前⾯不能够有其它元素或者注释。

第⼆，在XML⽂件中有且只能够有⼀个根元素。我们的第⼀个例⼦中，〈参考资料〉... 〈/参考资料〉就是此XML⽂件的根元素。

第三，在XML⽂件中的标记必须正确地关闭，也就是说，在XML⽂件中，控制标记必须有与之对应的结束标记。如：〈名称〉标记必须有对应的〈/名称〉结束标记，不像HTML，某些标记的结束标记可有可⽆。如果在XML⽂件中遇到⾃成⼀个单元的标记，就是类似于HTML 中的〈img src=.....〉的这些没有结束标记的时候，XML把它称为“空元素”，必须⽤这样的写法：〈空元素名/〉，如果元素中含有属性时写法则为：〈空元素名属性名=“属性值”/〉。

第四，标记之间不得交叉。在以前的HTML⽂件中，可以这样写：

〈B〉〈H〉XXXXXXX〈/B〉〈/H〉,〈B〉和〈H〉

标记之间有相互重叠的区域，⽽在XML中，是严格禁⽌这样标记交错的写法，标记必须以规则性的次序来出现。

第五，属性值必须要⽤“ ”号括起来。如第⼀个例⼦中的“1.0”、“gb2312”、“⼈民币”。都是⽤“ ”号括起

来了的，不能漏掉。

第六，控制标记、指令和属性名称等英⽂要区分⼤⼩写。与HTML不同的是，在HTML中，类似〈B〉和〈b〉的标记含义是⼀样的，⽽在XML中，类似〈name〉、〈NAME〉或〈Name〉这样的标记是不同的

第七，我们知道，在HTML⽂件中，如果我们要浏览器原封不动地将我们所输⼊的东西显⽰出来，可以将这些东西放到〈pre〉

〈/pre〉或者〈xmp〉〈/xmp〉标记中间。这对于我们创建HTML教学的⽹页是必不可少的，因为⽹页中要显⽰HTML的源代码。⽽在XML中，要实现这样的功能，就必须使⽤CDATA标记。在CDATA标记中的信息被解析器原封不动地传给应⽤程序，并且不解析该段信息中的任何控制标记。CDATA区域是由：“〈![CDATA[”为开始标记，以“>〉”为结束标记。例如：例2中的源码，除了“〈!

[CDATA[”和“>〉”符号，其余的内容解析器将原封不动地交给下游的应⽤程序，即使CDATA区域中的开始和结尾的空⽩以及换⾏字符等，都同样会被转交（注意CDATA是⼤写的字符）。

例2

〈![CDATA[飞翔的xml〉〉〉〉〉,:-)

oooo〈〈〈〈〈〈〈

>〉

第⼋，XML处理空⽩字符和HTML不⼀样。HTML标准规定，不管有多少个空⽩，都当作⼀个空⽩来处理；⽽在XML中规定，所有标记以外的空⽩，解析器都要忠实地交给下游的应⽤程序处理。这样，我们有时必须摒弃编写HTML⽂件时的缩排习惯，因为缩排的空格，解析器也要处理。如：

〈作者〉张三〈/作者〉

和

〈作者〉

张三

〈/作者〉

上述内容对于解析器来说是不同的（后者在〈作者〉〈/作者〉标记之内除了张三这个字符以外，还包括两个换⾏记号以及“张三”前的⽂字缩排符号）。所以解析器在去掉标记后将信息传给应⽤程序将有不同的处理结果。

如果我们想明确地告诉XML程序，标记中的空⽩有明确的含义，不要随便去掉（如在⼀些诗中，空格有它具体的意义），则可在标记中加⼊⼀个XML内置的属性——xml:space 。如（注意属性名称和值的⼤⼩写）：　

〈诗歌 xml:space="preserver"〉

祖国啊！祖国！

我的祖国！

〈/诗歌〉

另外，在XML⽂件中，如果要⽤到表1的特殊字符，必须⽤相应符号代替。

表1

特殊字符替代符号

&& &

< ⁢

> >

" "

' '

在此做个⼩结：符合上述规定的XML⽂件就是Well-Formed的XML⽂件。这是编写XML⽂件的最基本要求。可以看到XML⽂件的语法规定⽐HTML要严格多了。由于有这样的严格规定，软件⼯程师编写XML的解析器就容易多了，不像编写HTML语⾔的解析器，必须费尽⼼思去适应不同的⽹页写法，提⾼⾃⼰浏览器的适应能⼒。实际上，这对于我们初学者来说，也是⼀件好事。该怎样就怎样，不必像原来那样去疑惑各种HTML的写法。

我们看到，在XML⽂件中，⽤的⼤多都是⾃定义的标记。但是⼤家考虑⼀下，如果两个同⾏业的公司A和B要⽤XML⽂件相互交换数据，A公司⽤〈价格〉标记来表⽰他们产品的价格信息，⽽B公司可能⽤〈售价〉来表⽰价格信息。如果⼀个XML应⽤程序来读取他们各⾃的XML⽂件中的信息时，如果它只知道〈价格〉标记⾥表⽰的是价格信息，那么B公司的价格信息就读不出来，必将产⽣错误。显然，对于想利⽤XML⽂件来交换信息的实体来说，他们之间必须有⼀个约定——即编写XML⽂件可以⽤哪些标记，母元素中能够包括哪些⼦元素，各个元素出现的顺序，元素中的属性怎样定义等。这样他们在⽤XML交换数据时才能够畅通⽆阻。这种约定称为DTD（Document Type Definition，⽂档格式定义）

。可以把DTD看作编写XML⽂件的模板。对于同⾏业之间的XML数据交换，有⼀个固定的DTD将会⽅便很多。⽐如说，如果⽹上的各⼤电⼦商场的XML⽹页都遵循同⼀个DTD时，那么我们就可以轻松地依据这个DTD 编写⼀个应⽤程序，去⽹上将我们感兴趣的东西⾃动抓回来。事实上已经有了好⼏个定义好的DTD，如前⾯所说的MathML、SMIL等。

如果⼀个XML⽂件是Well-Formed的，并且它是正确的依据某个DTD建⽴的，那么，这个XML⽂件就被称为：Validating XML⽂件。相应的解析器就称为：Validating Parser。

DTD实际上可以看作⼀个或多个XML⽂件的模板，这些XML⽂件中的元素、元素的属性、元素的排列⽅式/顺序、元素能够包含的内容等，都必须符合DTD中的定义。XML⽂件中的元素，即我们所创建的标记，是根据我们应⽤的实际情况来创建的。想要创建⼀份完整性⾼、适应性⼴的DTD是⾮常困难的，因为各⾏各业都有他们⾃⼰的⾏业特点，所以DTD通常是以某种应⽤领域为定义的范围，如：医学、建筑、⼯商、⾏政。DTD定义的元素含盖范围越⼴泛，那么就越复杂。

DTD可以是⼀个完全独⽴的⽂件，也可以在XML⽂件中直接设定。所以，DTD分为外部DTD（在XML⽂件中调⽤另外已经编辑好的DTD）和内部DTD（在XML⽂件中直接设定DTD）两种。⽐如，有⼏⼗家相互联系的、合作伙伴关系的公司、⼚商，他们相互之间的交换电⼦⽂档都是⽤XML⽂档。那么我们可以将这些XML⽂档的DTD放在某个地⽅，让所有交换的XML⽂档都使⽤此DTD，这是最⽅便的做法，同时也适⽤于公司内部的XML⽂件使⽤。

内部DTD

内部DTD是在XML⽂件的⽂件序⾔区域中定义的。语法：

〈!DOCTYPE element-name[........

]〉

〈!DOCTYPE ：表⽰开始设定DTD，注意DOCUTYPE是⼤写。

xml文件怎么打开

Element-name ：指定此DTD的根元素的名称，⼀个XML⽂件只能有⼀个根元素。注意，如果 XML⽂件使⽤了DTD，那么⽂件中的根元素就在这⾥指定。

[.........]〉：在[ ]标记⾥⾯定义XML⽂件使⽤元素，然后⽤〉结束DTD的定义。

下⾯，我们来看⼀下怎样给XML⽂件定义DTD，请见例1。

例1中的DTD定义区可以看作是⼀个DTD定义的⼤概框架，为其他XML⽂件定义DTD，结构和例1的DTD差不多，只是可能需要添加、删除或者更改⼀些东西⽽已。在DTD定义的中间是元素设定，这是⼀个DTD的最主要部分，其主要语法如下：

〈!ELEMENT element-name element-definition〉

〈!ELEMENT：表⽰开始元素设置，注意此处ELEMENT关键字是⼤写。

element-name：表⽰要设置的元素的名称。

element-definition：指明要对此元素进⾏怎样的定义，就是说〈元素〉...〈/元素〉之间能够包含什么内容，是其他元素还是⼀般性的⽂字。

在例1中，⼤家可以看到，〈!ELEMENT 参考资料 (书籍)〉这个元素设定是声明了“参考资料”这个元素，并且它是作为“书籍”这个元素的⽗元素。〈!ELEMENT 书籍 (名称，作者，价格)〉这个元素设定声明了“书籍”这个元素，并且它是作为“名称”、“作者”、“价格”这三个元素的⽗元素。⽽〈!ELEMENT 名称 (#PCDATA)〉这个元素设定声明了“名称”这个元素，但是此元素仅仅包含⼀般⽂字，是基本元素，这是由#PCDATA关键字定义的。

在元素设置中，如果元素包含多个⼦元素，如：〈!ELEMENT 书籍 (名称，作者，价格)〉这种含多个⼦元素的声明，那么“名称”、“作者”、“价格”这些标记在XML⽂件中必须以上⾯排列的顺序出现，每个标记必须⽽且只能够出现⼀次。如果在设定元素时，按照

〈!ELEMENT 书籍ANY〉，这样在元素下就可以包含任意被设定过的元素，出现的次数和顺序也不受

限制，并且在该元素下，除了可以包含⼦元素以外，还能够包含⼀般的⽂字。有时候，在XML⽂件中，⼀个标记可能多次出现（或者不出现），那么我们除了在它们的⽗元素中⽤ANY关键字之外，还可以在元素的旁边加上特定的符号来控制标记出现的次数。这些符号见表1。

表1

符号代表标记出现的次数

不出现或只出现⼀次

*不出现或可出现多次

+必须出现⼀次以上

⽆符号只能出现⼀次

例如：〈!ELEMENT 参考资料(书籍，报纸+，杂志?,⽹站)〉这个元素设定，“书籍”标记在XML⽂件中可以不出现或者出现多次；“报

纸”标记必须出现⼀次以上；“杂志”标记可以不出现或只出现⼀次；⽽“⽹站”标记必须出现⽽且只能出现⼀次。

在⼀些⽗元素的声明中，有可能它包含的⼦元素是在多个⼦元素中选择⼀个来使⽤，那么我们声明此⽗元素时，就可以把它声明成选择性元素，例如：〈!ELEMENT 配偶 (妻⼦|丈夫)〉。可供选择的⼦元素⽤“|”分隔，这样，我们在XML⽂件中可以这样写：

〈配偶〉

〈丈夫〉张三〈/丈夫〉

〈/配偶〉

XML基本格式以及DTD规范

发布评论取消回复

最近发表

热门文章

标签列表