XML基本格式以及DTD规范
XML⽂件格式语法及DTD (转)
XML⽂件和HTML⽂件⼀样,实际上是⼀个⽂本⽂件。显然⼤家⽴刻就会明⽩,创建XML⽂件最普通的⼯具和HTML⼀样,就是“记事本”了。除了“记事本”之外,当然还有⼀些更加⽅便的⼯具,如XML Notepad、XML Pro、CLIP!XML Editor等,这些⼯具的⼀⼤特点是:能够检查你所建⽴的XML⽂件是否符合XML规范。不过,现在这些⼯具都只有英⽂版的,并且需要付费使⽤。当然,你仍然能够使⽤FrontPage、DreamWeaver等⼯具,不过使⽤起来不是很⽅便。随着XML的逐渐普及,相信在不久后,也会出现⾮常好⽤的创建XML ⽂件的⼯具。
 现在我们暂且使⽤“记事本”来创建我们的XML⽂件吧。先看⼀个XML⽂件:
  例1
  〈?xml version="1.0" encoding="gb2312" ?〉
  〈参考资料〉
  〈书籍〉
  〈名称〉XML⼊门精解〈/名称〉
  〈作者〉张三〈/作者〉
  〈价格 货币单位="⼈民币"〉20.00〈/价格〉
  〈/书籍〉
  〈书籍〉
  〈名称〉XML语法〈/名称〉
  〈!--此书即将出版--〉
  〈作者〉李四〈/作者〉
  〈价格 货币单位="⼈民币"〉18.00〈/价格〉
  〈/书籍〉
  〈/参考资料〉
  这是⼀个典型的XML⽂件,编辑好后保存为⼀个以.xml为后缀的⽂件。我们可以将此⽂件分为⽂件序⾔(Prolog)和⽂件主体两个⼤的部分。在此⽂件中的第⼀⾏即是⽂件序⾔。该⾏是⼀个XML⽂件必须要声明的东西,⽽且也必须位于XML⽂件的第⼀⾏,它主要是告诉XML解析器如何⼯作。其中,version是标明此XML⽂件所⽤的标准的版本号,必须要有;encoding指明了此XML⽂件中所使⽤的字符类型,可以省略,在你省略此声明的时候,后⾯的字符码必须是Unicode字符码(建议不要省略)。因为我们在这个例⼦中使⽤的是GB2312字符码,所以encoding这个声明也不能省略。在⽂件序⾔部分还有⼀些声明语句,我们在后⾯给予介绍。
  ⽂件的其余部分都是属于⽂件主体,XML⽂件的内容信息存放在此。我们可以看到,⽂件主体是由开始的〈参考资料〉和结束的〈/参考资料〉控制标记组成,这个称为XML⽂件的“根元素”;〈书籍〉是作为直属于根元素下的“⼦元素”;在〈书籍〉下⼜有〈名称〉、〈作者〉、〈价格〉这些⼦元素。货币单位是〈价格〉元素中的⼀个“属性”,“⼈民币”则是“属性值”。
  〈!--此书即将出版--〉这⼀句同HTML⼀样,是注释,在XML⽂件⾥,注释部分是放在“〈!--”与“--〉”标记之间的部分。
  ⼤家可以看到,XML⽂件是相当简单的。同HTML⼀样,XML⽂件也是由⼀系列的标记组成,不过,XML⽂件中的标记是我们⾃定义的标记,具有明确的含义,我们可以对标记中的内容的含义作出说明。
  对XML⽂件有了初步的印象之后,我们就来详细地谈⼀谈XML⽂件的语法。在讲语法之前,我们必须要了解⼀个重要的概念,就是XML解析器(XML Parse)。
  1.XML解析器
  解析器的主要功能就是检查XML⽂件是否有结构上的错误,剥离XML⽂件中的标记,读出正确的内容,以交给下⼀步的应⽤程序处理。XML是⼀种⽤来结构化⽂件信息的标记语⾔,XML规范中对于如何标记⽂件的结构性有⼀个详细的法则,解析器就是根据这些法则写出来的软件(多⽤Java写成)。同HTML⼀样,在浏览器中,必须有HTML的解析器,这样浏览器才能够“读懂”各种⽤HTML标记所组成的⽹页,将它们显⽰在我们⾯前。如果有浏览器的HTML解析器读不懂的标记,将会返回给我们错误信息。
  由于现在的HTML标记实际上相当混乱,存在⼤量不规范的标记(有的⽹页⽤IE能正常显⽰,⽽⽤Netscape Navigator则不⾏),所以从⼀开始,XML的设计者就严格规定了XML的语法和结构,我们编写的XML⽂件必须遵循这些规定,否则XML解析器将毫不留情地给你显⽰错误信息。
  有两种XML⽂件,⼀种是Well-Formed XML⽂件,⼀种是Validating XML⽂件。
  如果⼀个XML⽂件满⾜XML规范中的某些相关法则,且没有使⽤DTD(⽂件格式定义——后详述)
时,可称这份⽂件是Well-Formed。⽽如果⼀个XML⽂件是Well-Formed,且正确地使⽤了DTD,DTD中的语法⼜是正确的,那么这个⽂件就是Validating。对应两种XML⽂件,有两种XML解析器,⼀种是Well-Formed 解析器,⼀种是Validating解析器。IE 5中就内含Validating解析
器,Validating解析器也可⽤来解析Well-Formed XML⽂件。
  检查它是否满⾜了Well-Formed的条件。我们可以将刚才编辑的第⼀个XML ⽂件⽤IE 5以上版本的浏览器打开。
  ⼤家可能要问为什么在浏览器中的显⽰和我的源⽂件⼀样?没错,因为对于XML⽂件,我们鼋龉匦乃 的内容,⽽它的显⽰形式是交给CSS或XSL来完成的。这⾥,我们并没有给这个XML⽂件定义它的CSS或XSL⽂件,所以它按照原来的形式来显⽰。实际上,对于电⼦数据交换,仅仅需要⼀个XML⽂件即可,如果要将它以某种形式显⽰出来,我们就必须编辑CSS或XSL⽂件(这个问题会在以后讨论)。
  2.Well-Formed的XML⽂件
  我们知道,XML必须是Well-Formed的,才能够被解析器正确地解析出来,显⽰在浏览器中。那么什么是Well-Formed的XML⽂件呢?主要有下⾯⼏个准则,我们在创建XML⽂件的时候,必须满⾜它们。
  ⾸先,XML⽂件的第⼀⾏必须是声明该⽂件是XML⽂件以及它所使⽤的XML规范版本。在⽂件的前⾯不能够有其它元素或者注释。
  第⼆,在XML⽂件中有且只能够有⼀个根元素。我们的第⼀个例⼦中,〈参考资料〉... 〈/参考资料〉就是此XML⽂件的根元素。
  第三,在XML⽂件中的标记必须正确地关闭,也就是说,在XML⽂件中,控制标记必 须有与之对应的结束标记。如:〈名称〉标记必须有对应的〈/名称〉结束标记,不像HTML,某些标记的结束标记可有可⽆。如果在XML⽂件中遇到⾃成⼀个单元的标记,就是类似于HTML 中的〈img src=.....〉的这些没有结束标记的时候,XML把它称为“空元素”,必须⽤这样的写法:〈空元素名/〉,如果元素中含有属性时写法则为:〈空元素名 属性名=“属性值”/〉。
  第四,标记之间不得交叉。在以前的HTML⽂件中,可以这样写:
  〈B〉〈H〉XXXXXXX〈/B〉〈/H〉,〈B〉和〈H〉
  标记之间有相互重叠的区域,⽽在XML中,是严格禁⽌这样标记交错的写法,标记必须以规则性的次序来出现。
  第五,属性值必须要⽤“ ”号括起来。如第⼀个例⼦中的“1.0”、“gb2312”、“⼈民币”。都是⽤“ ”号括起
来了的,不能漏掉。
  第六,控制标记、指令和属性名称等英⽂要区分⼤⼩写。与HTML不同的是,在HTML中, 类似〈B〉和〈b〉的标记含义是⼀样的,⽽在XML中,类似〈name〉、〈NAME〉或〈Name〉这样的标记是不同的
  第七,我们知道,在HTML⽂件中,如果我们要浏览器原封不动地将我们所输⼊的东西显⽰出来,可以将这些东西放到〈pre〉
〈/pre〉或者〈xmp〉〈/xmp〉标记中间。这对于我们创建HTML教学的⽹页是必不可少的,因为⽹页中要显⽰HTML的源代码。⽽在XML中,要实现这样的功能,就必须使⽤CDATA标记。在CDATA标记中的信息被解析器原封不动地传给应⽤程序,并且不解析该段信息中的任何控制标记。CDATA区域是由:“〈![CDATA[”为开始标记,以“>〉”为结束标记。例如:例2中的源码,除了“〈!
[CDATA[”和“>〉”符号,其余的内容解析器将原封不动地交给下游的应⽤程序,即使CDATA区域中的开始和结尾的空⽩以及换⾏字符等,都同样会被转交(注意CDATA是⼤写的字符)。
  例2
  〈![CDATA[飞翔的xml〉〉〉〉〉,:-)
  oooo〈〈〈〈〈〈〈
  >〉
  第⼋,XML处理空⽩字符和HTML不⼀样。HTML标准规定,不管有多少个空⽩,都当作⼀个空⽩来处理;⽽在XML中规定,所有标记以外的空⽩,解析器都要忠实地交给下游的应⽤程序处理。这样,我们有时必须摒弃编写HTML⽂件时的缩排习惯,因为缩排的空格,解析器也要处理。如:
  〈作者〉张三〈/作者〉
  和
  〈作者〉
  张三
  〈/作者〉
  上述内容对于解析器来说是不同的(后者在〈作者〉〈/作者〉标记之内除了张三这个字符以外,还包括两个换⾏记号以及“张三”前的⽂字缩排符号)。所以解析器在去掉标记后将信息传给应⽤程序将有不同的处理结果。
  如果我们想明确地告诉XML程序,标记中的空⽩有明确的含义,不要随便去掉(如在⼀些诗中,空格有它具体的意义),则可在标记中加⼊⼀个XML内置的属性——xml:space 。如(注意属性名称和值的⼤⼩写):   
  〈诗歌 xml:space="preserver"〉
  祖国啊! 祖国!
  我的祖国!
  〈/诗歌〉
  另外,在XML⽂件中,如果要⽤到表1的特殊字符,必须⽤相应符号代替。
  表1
  特殊字符 替代符号
  && &
  < ⁢
  > >
  " "
  ' '
  在此做个⼩结:符合上述规定的XML⽂件就是Well-Formed的XML⽂件。这是编写XML⽂件的最基本要求。可以看到XML⽂件的语法规定⽐HTML要严格多了。由于有这样的严格规定,软件⼯程师编写XML的解析器就容易多了,不像编写HTML语⾔的解析器,必须费尽⼼思去适应不同的⽹页写法,提⾼⾃⼰浏览器的适应能⼒。实际上,这对于我们初学者来说,也是⼀件好事。该怎样就怎样,不必像原来那样去疑惑各种HTML的写法。
  我们看到,在XML⽂件中,⽤的⼤多都是⾃定义的标记。但是⼤家考虑⼀下,如果两个同⾏业的公司A和B要⽤XML⽂件相互交换数据,A公司⽤〈价格〉标记来表⽰他们产品的价格信息,⽽B公司可能⽤〈售价〉来表⽰价格信息。如果⼀个XML应⽤程序来读取他们各⾃的XML⽂件中的信息时,如果它只知道〈价格〉标记⾥表⽰的是价格信息,那么B公司的价格信息就读不出来,必将产⽣错误。显然,对于想利⽤XML⽂件来交换信息的实体来说,他们之间必须有⼀个约定——即编写XML⽂件可以⽤哪些标记,母元素中能够包括哪些⼦元素,各个元素出现的顺序,元素中的属性怎样定义等。这样他们在⽤XML交换数据时才能够畅通⽆阻。这种约定称为DTD(Document Type Definition,⽂档格式定义)
。可以把DTD看作编写XML⽂件的模板。对于同⾏业之间的XML数据交换,有⼀个固定的DTD将会⽅便很多。⽐如说,如果⽹上的各⼤电⼦商场的XML⽹页都遵循同⼀个DTD时,那么我们就可以轻松地依据这个DTD 编写⼀个应⽤程序,去⽹上将我们感兴趣的东西⾃动抓回来。事实上已经有了好⼏个定义好的DTD,如前⾯所说的MathML、SMIL等。
  如果⼀个XML⽂件是Well-Formed的,并且它是正确的依据某个DTD建⽴的,那么,这个XML⽂件就被称为:Validating XML⽂件。相应的解析器就称为:Validating Parser。
DTD实际上可以看作⼀个或多个XML⽂件的模板,这些XML⽂件中的元素、元素的属性、元素的排列⽅式/顺序、元素能够包含的内容等,都必须符合DTD中的定义。XML⽂件中的元素,即我们所创建的标记,是根据我们应⽤的实际情况来创建的。想要创建⼀份完整性⾼、适应性⼴的DTD是⾮常困难的,因为各⾏各业都有他们⾃⼰的⾏业特点,所以DTD通常是以某种应⽤领域为定义的范围,如:医学、建筑、⼯商、⾏政。DTD定义的元素含盖范围越⼴泛,那么就越复杂。
DTD可以是⼀个完全独⽴的⽂件,也可以在XML⽂件中直接设定。所以,DTD分为外部DTD(在XML⽂件中调⽤另外已经编辑好的DTD)和内部DTD(在XML⽂件中直接设定DTD)两种。⽐如,有⼏⼗家相互联系的、合作伙伴关系的公司、⼚商,他们相互之间的交换电⼦⽂档都是⽤XML⽂档。那么我们可以将这些XML⽂档的DTD放在某个地⽅,让所有交换的XML⽂档都使⽤此DTD,这是最⽅便的做法,同时也适⽤于公司内部的XML⽂件使⽤。
内部DTD
内部DTD是在XML⽂件的⽂件序⾔区域中定义的。语法:
〈!DOCTYPE element-name[........
]〉
〈!DOCTYPE :表⽰开始设定DTD,注意DOCUTYPE是⼤写。
xml文件怎么打开
Element-name :指定此DTD的根元素的名称,⼀个XML⽂件只能有⼀个根元素。注意,如果 XML⽂件使⽤了DTD,那么⽂件中的根元素就在这⾥指定。
[.........]〉 :在[ ]标记⾥⾯定义XML⽂件使⽤元素,然后⽤〉结束DTD的定义。
下⾯,我们来看⼀下怎样给XML⽂件定义DTD,请见例1。
例1中的DTD定义区可以看作是⼀个DTD定义的⼤概框架,为其他XML⽂件定义DTD,结构和例1的DTD差不多,只是可能需要添加、删除或者更改⼀些东西⽽已。在DTD定义的中间是元素设定,这是⼀个DTD的最主要部分,其主要语法如下:
〈!ELEMENT element-name element-definition〉
〈!ELEMENT:表⽰开始元素设置,注意此处ELEMENT关键字是⼤写。
element-name:表⽰要设置的元素的名称。
element-definition:指明要对此元素进⾏怎样的定义,就是说〈元素〉...〈/元素〉之间能够包含什么内容,是其他元素还是⼀般性的⽂字。
在例1中,⼤家可以看到,〈!ELEMENT 参考资料 (书籍)〉这个元素设定是声明了“参考资料”这个元素,并且它是作为“书籍”这个元素的⽗元素。〈!ELEMENT 书籍 (名称,作者,价格)〉这个元素设定声明了“书籍”这个元素,并且它是作为“名称”、“作者”、“价格”这三个元素的⽗元素。⽽〈!ELEMENT 名称 (#PCDATA)〉这个元素设定声明了“名称”这个元素,但是此元素仅仅包含⼀般⽂字,是基本元素,这是由#PCDATA关键字定义的。
在元素设置中,如果元素包含多个⼦元素,如:〈!ELEMENT 书籍 (名称,作者,价格)〉这种含多个⼦元素的声明,那么“名称”、“作者”、“价格”这些标记在XML⽂件中必须以上⾯排列的顺序出现,每个标记必须⽽且只能够出现⼀次。如果在设定元素时,按照
〈!ELEMENT 书籍ANY〉,这样在元素下就可以包含任意被设定过的元素,出现的次数和顺序也不受
限制,并且在该元素下,除了可以包含⼦元素以外,还能够包含⼀般的⽂字。有时候,在XML⽂件中,⼀个标记可能多次出现(或者不出现),那么我们除了在它们的⽗元素中⽤ANY关键字之外,还可以在元素的旁边加上特定的符号来控制标记出现的次数。这些符号见表1。
表1
符号代表标记出现的次数
不出现或只出现⼀次
*不出现或可出现多次
+必须出现⼀次以上
⽆符号只能出现⼀次
例如:〈!ELEMENT 参考资料(书籍 ,报纸+,杂志?,⽹站)〉这个元素设定,“书籍”标记在XML⽂件中可以不出现或者出现多次;“报
纸”标记必须出现⼀次以上;“杂志”标记可以不出现或只出现⼀次;⽽“⽹站”标记必须出现⽽且只能出现⼀次。
在⼀些⽗元素的声明中,有可能它包含的⼦元素是在多个⼦元素中选择⼀个来使⽤,那么我们声明此⽗元素时,就可以把它声明成选择性元素,例如:〈!ELEMENT 配偶 (妻⼦|丈夫)〉。可供选择的⼦元素⽤“|”分隔,这样,我们在XML⽂件中可以这样写:
〈配偶〉
〈丈夫〉张三〈/丈夫〉
〈/配偶〉