查看“核心技术Ⅱ：XML”的源代码

[[category:JavaCore]]

== XML概述 ==
XML 是一种非常有用的描述结构化信息的技术。

“'''Properties'''”类：在单个方法调用中读入这样的“'''属性文件'''”（property file）：
# 属性文件：用于描述程序配置；包含了一组“名/值”对：
#: <syntaxhighlight lang="properties">
fontname=Times Roman
fontsize=l2
windowsize=400 200
co1or=O 5O 100
</syntaxhighlight>
但是：
# 属性文件采用的是一种单一的平面层次结构；所以常常会出现这种情况：
#: <syntaxhighlight lang="properties">
title.fontname=Helvetica
title.fontsize=36
body.fontname=Times Roman
body.fontsize=12
</syntaxhighlight>
# 属性文件要求键是唯一的；所以保存序列值需要：
#: <syntaxhighlight lang="properties">
menu.item.l=Times Roman
menu.item.2=Helvetica
menu.item.3=Goudy Old Style
</syntaxhighlight>


'''XML''' 和'''HTML''' 格式是古老的标准通用标记语言(Standard Generalized Markup Language, '''SGML''') 的衍生语言。
* XML 格式能够表达层次结构，并且重复的元素不会被曲解：
<syntaxhighlight lang="xml">
<configuration>
   <title>
      <font>
         <name>Helvetica</name>
         <Size>36</size>
      </font>
   </title>
   <body>
      <font>
         <name>Times Roman</name>
         <Size>12</size>
      </font>
   </body>
   <window>
      <width>400</width>
      <height>200</height>
   </window>
   <color>
      <red>O</red>
      <green>50</green>
      <blue> 100</blue>
   </color>
   <menu>
      <item>Times Roman</item>
      <item>Helvetica</item>
      <item>Goudy 01d Style</item>
   </menu>
</configuration>
</syntaxhighlight>
'''XML''' 和'''HTML'''的区别：
{| class="wikitable"
! XML !! HTML
|-
| 大小写敏感
如：<nowiki><H1></nowiki> 和<nowiki><hl></nowiki> 是不同的XML 标签
| 不敏感
|-
| 结束标签绝对不能省略
| 如果从上下文中可以分清哪里是段落或列表项的结尾，那么结束标签（如<nowiki></p></nowiki>或<nowiki></li></nowiki>) 就可以省略
|-
| 只有单个标签而没有相对应的结束标签的元素必须以“/”结尾
如：<nowiki><img src="coffeecup.png"/ ></nowiki>
| 
|-
| 属性值必须用引号括起来
如：<nowiki><applet code="MyApplet.class" width="300" height="300"></nowiki>
| 引号是可有可无的
如：<nowiki><applet code="MyApplet.class" width=300 height=300></nowiki>
|-
| 所有属性必须都有属性值
如：<nowiki><input type="radio" name="1anguage" value="Java" checked="checked"></nowiki>
| 属性名可以没有值
如：<nowiki><input type="radio" name="1anguage" value="Java" checked></nowiki>
|}

=== XML 文档的结构 ===
# XML 文档应当以一个'''文档头'''开始：
#: <syntaxhighlight lang="xml">
<?xml version="l.O"?>
或
<?xml version="l.O" encoding="UTF-8"?>
</syntaxhighlight>
# 文档头之后通常是'''文档类型定义'''(Docun1ent Type Definition, DTD)：
#: <syntaxhighlight lang="xml">
<!DOCTYPE web-app PUBLIC
   "-//Sun Microsystems, Inc.//OTD Web Application 2.2//EN" 
   "http://java.sun.com/j2ee/dtds/web-app_2_2.dtd">
</syntaxhighlight>
# XML 文档的正文包含'''根元素'''，根元素包含'''其他元素'''：
#: <syntaxhighlight lang="xml">
<?xml version="l.O"?>
<!DOCTYPE configuration ... >
<configuration>
   <title>
      <font>
         <name>Helvetica</name>
         <Size>36</size>
      </font>
   </title>
   ...
</configuration>
</syntaxhighlight>
## 元素可以有子元素(child element )、文本或两者皆有；
## 在设计XML 文档结构时，应避免混合式内容(mixed content)，以简化解析过程：
##: <syntaxhighlight lang="xml">
<font>
   Helvetica
   <Size>36</size>
</font>
</syntaxhighlight>
## XML元素可以包含属性，但属性的灵活性要差很多；
##* “属性只应该用来修改值的解释，而不是用来指定值。”
##* “HTML 中，凡是不显示在网页上的都是属性。”
#: <syntaxhighlight lang="xml">
<font name="Helvetica" size="36 pt"/>

<font>
   <name>Helvetica</name>
   <Size unit="pt">36</size>
</font>
</syntaxhighlight>


XML中的其他一些标记：
# '''字符引用'''（character reference）：形式是“&#”十进制值；或“&#x”十六进制值；
# '''实体引用'''（entity reference）：形式是“&name”；
#: <syntaxhighlight lang="xml">
下面这些实体引用：
   &lt; &gt; &amp; &quot; &apos;
都有预定义的含义：
   小于、大于、＆、引号、省略号等字符。
</syntaxhighlight>
# '''CDATA部分'''（CDATA Section）：用“<![CDATA[”和“]]>”来限定其界限；
#* 它们是字符数据的一种特殊形式。可以使用它们来襄括那些含有“<”、“>”、“&”之类字符的字符串，而不必将它们解释为标记；
#* CDATA 部分不能包含字符串“]]>”；
#: <syntaxhighlight lang="xml">
<![CDATA[< & > are my favorite delimiters]]>
</syntaxhighlight>
# '''处理指令'''（processing instruction）：是那些专门在处理XML 文档的应用程序中使用的指令，它们由“<?”和“?>”来限定其界限：
#: <syntaxhighlight lang="xml">
<?xml-stylesheet href="mystyle.css" type="text/css"?>

每个XML 都以一个处理指令开头：
<?xml version="l.O"?>
</syntaxhighlight>
# '''注释'''（comment）：用“<!-”和“-->”限定其界限：
#* 注释不应该含有字符串“--”；
#: <syntaxhighlight lang="xml">
<!-- This is a comment. -->
</syntaxhighlight>

== 解析XML文档 ==
xml解析器：读入一个文件，确认这个文件具有正确的格式（验证xml文档），然后将其分解成各种元素，使得程序员能够访问这些元素；<br/>
* Java 库提供了两种XML 韶析器：
*# “'''树型解析器'''”：将读入的XML 文档转换成'''树结构'''。
*#: 如：文档对象校型（Document Object Model, DOM）解析器；
*# “'''流机制解析器'''”：在读入XML 文档时生成相应的'''事件'''。
*#: 如：XML 简单API（Simple API for XML, SAX）解析器；
* 何时使用“流机制解析器”：
*# 如果需要处理很长的文档，若生成树结构将会消耗大量内存；
*# 或者如果只对某些元素感兴趣，而不关心它们的上下文；

=== 树型解析器 ===
<pre>
DOM 韶析器的接门已经被W3C 标准化了。org.w3c.dom 包中包含了这些接口类型的定义，比如： Document 和Element 等。不同的提供者，比如Apache 组织和IBM, 都编写了实现这些接口的DOM 解析器。
</pre>
Java XML 处理 API (Java API for XML Processing, '''JAXP''') 库使得我们实际上可以以插件形式使用这些韶析器中的任意一个。
* JDK 中也包含了从Apache 解析器导出的DOM 解析器；


读人XML文档：
# 首先需要“'''DocumentBuilder'''”对象（从“'''DocumentBuilderFactory'''”中得到）：
#: <syntaxhighlight lang="java">
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();
</syntaxhighlight>
# 从不同的源中读入文档：
#: <syntaxhighlight lang="java">
// 从文件：
File f = ...
Document doc = builder.parse(f);

// 从一个URL：
URL u = ...
Document doc= builder.parse(u);

// 从指定的输入流：
InputStream in = ...
Document doc= builder.parse(in);
</syntaxhighlight>
#* 果使用输入流作为源，那么对于那些以该文档的位置为相对路径而被引用的文档，解析器将无法定位。
* “'''Document'''”对象是XML 文档的树型结构在内存中的表示方式，它由实现了“'''Node'''”接口及其各种子接口的类的对象构成：
*: [[File:Node接口及其子接口.png|500px]]


解析文档内容：
# 调用“'''getDocumentElement'''”方法，获取文档根元素：
#: 调用“'''getTagName'''”方法可以返同元素的标签名；
#: <syntaxhighlight lang="java">
Element root = doc.getDocumentElement();
String rootName = root.getTagName();
</syntaxhighlight>
# 调用“'''getChildNode'''”方法，获取元素的子元素（可能是子元素、文本、注释或其他节点）：
#: 返回一个类型为“Nodelist”的集合；
#: “item”方法将得到指定索引俏的项；
#: “getLength”方法则提供了项的总数；
#: <syntaxhighlight lang="java">
// 枚举所有子元素
// 得到的子元素会包含：元素之间的“\n”等空白字符
Nodelist children = root.getChildNodes();
for (int i = O; i < children.getlength(); i++)
{
   Node child= children.item(i);
   ...
}

// 枚举所有子元素
// 并忽略元素之间的“\n”等空白字符
Nodelist children = root.getChildNodes();
for (int i = O; i < children.getlength(); i++)
{
   Node child= children.item(i);
   if (chi1d instanceof Element)
   {
      Element childElement = (Element) child;
      ...
   }
}
</syntaxhighlight>
#* 利用DTD，解析器会忽略空白字符；
# 获取节点文本：
## 使用“'''getFirstChild'''”方法而不用再遍历另一个Nodelist；
## 使用“'''getData'''”方法获取存储在Text节点中的字符串；
#: <syntaxhighlight lang="java">
for (inti = O; i < children.getlength(); i++)
{  
   Node child = chi1dren.item(i);
   if (child instanceof Element)
   {
      Element childElement = (Element) chi1d;
      Text textNode = (Text) childElement.getFirstChild();
      String text = textNode.getData().trim();
      if (childElement.getTagName().equals("name"))
         name = text;
      else if (childElement.getTagName().equals("size"))
         size = Integer.parseInt(text);
   }
}
</syntaxhighlight>
#* 也可以用“'''getlastChild'''”方法得到最后一项子元素；
#* 用“'''getNextSibling'''”得到下一个兄弟节点；
#*: <syntaxhighlight lang="java">
// 另一种遍历子节点集的方法
for (Node childNode = element.getFirstChild();
    childNode != null;
    childNode = childNode.getNextSibling())
{
    ...
}
</syntaxhighlight>
# 获取元素属性：
## 调用“'''getAttributes'''”方法，枚举节点的属性：
##: 返回一个“NamedNodeMap”对象，其中包含了描述屈性的“Node”对象。可以和“Nodelist”一样的方式遍历；
## 调用“'''getNodeName'''”和“'''getNodeValue'''”方法可以得到属性名和属性值；
#: <syntaxhighlight lang="java">
NamedNodeMap attributes = element.getAttributes();
for (int i = O; i < attributes.getlength(); i++)
{
   Node attribute = attributes.item(i);
   String name = attribute.getNodeName();
   String value= attribute.getNodeValue();
   ...
}
</syntaxhighlight>
#* 如果知道属性名，则可以直接获取相应的属性值：
#*: <syntaxhighlight lang="java">
String unit = element.getAttribute("unit");
</syntaxhighlight>

===== 相关方法 =====
javax.xml.parsers.DocumentBuilderFactory 1.4
* static DocumentBuilderFactory newlnstance()
*:返回DocumentBuilderFactory 类的一个实例。
* DocumentBuilder newDocumentBuilder()
*:返回DocumentBuilder 类的一个实例。
javax.xml.parsers.DocumentBuilder 1.4
* Document parse( File f)
* Document parse( String url)
* Document parse( InputStream in)
*:解析来自给定文件、URL 或输入流的XML 文档，返回解析后的文档。
org.w3c.dom.Document 1.4
* Element getDocumentElement()
*:返回文挡的根元素。
org.w3c.dom.Element 1.4
* String getTagName()
*:返回元素的名字。
* String getAttribute( String name)
*:返回给定名字的属性值，没有该属性时返回空字符串。
org.w3c.dom.Node 1.4
* Nodelist getChildNodes()
*:返回包含该节点所有子元素的节点列表。
* Node getFirstChi1d()
* Node getLastChi1d()
*:获取该节点的第一个或最后一个子节点，在该节点没有子节点时返回null 。
* Node getNextSibling()
* Node getPreviousSibling()
*:获取该节点的下一个或上一个兄弟节点，在该节点没有兄弟节点时返回null 0
* Node getparentNode()
*:获取该节点的父节点，在该节点是文档节点时返回null 。
* NamedNodeMap getAttributes()
*:返回含有描述该节点所有属性的Attr 节点的映射表。
* String getNodeName()
*:返回该节点的名字。当该节点是Attr 节点时， 该名字就是属性名。
* String getNodeValue()
*:返回该节点的值。当该节点是Attr 节点时，该值就是属性值。
org.w3c.dom.CharacterDats 1.4
* String getData()
*:返回存储在节点中的文本。
org.w3c.dom.NodeList 1.4
* int getlength() ..,
*:返回列表中的节点数。
* Node item(int index)
*:返回给定索引值处的节点。索引值范围在0 到getlength()-1 之间。
org.w3c.dom.NamedNodeMap 1.4
* int getlength ( )
*:返回该节点映射表中的节点数。
* Node item( int index)
*:返回给定索引值处的节点。索引值范围在0 到getlength()-1 之间。

==== 使用“XPath”来定位信息 ====

=== 流机制解析器 ===
==== 使用“SAX”解析器 ====
==== 使用“StAX”解析器 ====


=== 使用命名空间 ===

== 验证XML文档 ==
* XML 解析器的一个很大的好处就是它能自动校验某个文档是否具有正确的结构。
指定文档结构，可以提供一个'''文档类型定义（ DTD ）'''或一个'''XML Schema''' 定义。
# DTD 或schema 包含了用于解释文档应如何构成的规则，这些规则指定了每个元素的合法子元素和属性。
# XML Schema 可以表达更加复杂的验证条件（比如size 元素必须包含一个整数）。XML Schema 自身使用的就是XML。

=== 文档类型定义 ===
==== 引入DTD的方式 ====
提供DTD 的方式有多种：
* 文档类型必须匹配根元素的名字，如以下的configuration。
# 纳入到XML 文档中：
#: <syntaxhighlight lang="xml">
<?xml version="l.O"?>
<!OOCTYPE configuration [
   <!ELEMENT configuration . . . >
   more rules
   . . .
]>
<configuration>
. . .
</configuration>
</syntaxhighlight>
# 指定一个包含DTD 的URL：
#* 如果使用的是DTD 的相对URL（比如“config.dtd”），那么要给解析器一个“File”或“URL”对象，而不是“InputStream”。
#: <syntaxhighlight lang="xml">
<!DOCTYPE configuration SYSTEM "config.dtd">
或
<!DOCTYPE configuration SYSTEM "http://myserve.com/config.dtd"〉
</syntaxhighlight>
#* 如果XML 处理器知道如何定位带有公共标识符的DTD，那么就不需要URL了：
#*: <syntaxhighlight lang="xml">
<!DOCTYPE web-app
PUBLIC "-//Sun Microsystems, Inc.//DTD Web App1ication 2.2//EN"
"http://java.sun.com/j2ee/dtds/web-app_2_2.dtd”>
</syntaxhighlight>
#* 如果使用DOM解析器，且要支持“PUBLIC”标识符，则需调用“DocumentBuilder”类的“setEntityResolver”方法来安装“EntityResolver”接口的某个实现类的一个对象。
#*（该接口只有一个方法：“resolveEntity”）
#* 典型实现的代码框架：
#*: <syntaxhighlight lang="xml">
class MyEntityResolver implements EntityResolver
{
   public InputSource resolveEntity(String publicID, String systemID)
   {
      if (publicID.equals(a known ID))
         return new InputSource(DTD data);
      else
         return null; // use default behavior
   }
}
</syntaxhighlight>

==== 元素规则 ====
ELEMENT规则用于指定某个元素可以拥有什么样的子元素：（可以指定一个正则表达式）
:[[File:DTD元素内容的规则.png|500px]]
如：
# menu 元素包含0 或多个item 元素：
#: <syntaxhighlight lang="xml">
<!ELEMENT menu (item)*〉
</syntaxhighlight>
# font 是用一个name 和size 来描述的，它们都包含文本：
#: <syntaxhighlight lang="xml">
<!ELEMENT font (name, size)>
<!ELEMENT name (#PCDATA) >
<!ELEMENT size (#PCDATA) >
</syntaxhighlight>
* 当一个元素可以包含文本时，那么就只有两种合法的情况：
*# 只包含文本：
*#: <syntaxhighlight lang="xml">
<!ELEMENT name (#PCDATA) >
</syntaxhighlight>
*# 包含任意顺序的文本和标签的组合：
*#: <syntaxhighlight lang="xml">
<!ELEMENT para (#PCDATA|em|strong|code)*>
</syntaxhighlight>
** 指定其他任何类型的包含＃ PCDATA 的规则都是不合法的：
**: <syntaxhighlight lang="xml">
<!ELEMENT captionedlmage (image, #PCDATA) >
</syntaxhighlight>

==== 属性规则 ====
描述合法的元素属性的规则，其通用语法为：
<syntaxhighlight lang="xml">
〈!ATTLIST element attribute type default>
</syntaxhighlight>

:[[File:DTD属性类型.png|400px]]
:[[File:DTD属性的默认值.png|400px]]

示例：
<syntaxhighlight lang="xml">
<!ATILIST font style (plainlboldlital|bold-italic) "plain">
font 元素的style 属性：它有4 个合法的属性值，默认值是plain 。

<!ATILIST size unit CDATA #IMPLIED>
size 元素的unit 属性可以包含任意的字符数据序列
</syntaxhighlight>

==== 使用DTD ====
# 通知文档生成工厂打开验证特性：
#: <syntaxhighlight lang="java">
factory.setVa1idating(true);
</syntaxhighlight>
# 设置生成器忽略文本节点中的空白字符：
#: <syntaxhighlight lang="java">
factory.setlgnoringElementContentWhitespace(true);
</syntaxhighlight>

*（验证的最大好处是可以忽略元索内容中的空白字符）
* 当解析器报告错误时｀应用程序希屯对该错误执行某些操作：
*: 只要使用验证，就应该安装一个错误处理器，这需要提供一个实现了“ErrorHandler”接口的对象。这个接口有三个方法：
*: <syntaxhighlight lang="java">
void warning(SAXParseException exception)
void error(SAXParseException exception)
void fatalError(SAXParseExcepti on exception)
</syntaxhighlight>
*: 可以通过“DocumentBuilder”类的“setErrorHandler”方法来安装错误处理器：
*: <syntaxhighlight lang="java">
bui1der.setErrorHandler(handler);
</syntaxhighlight>

==== 相关方法 ====
javax.xml.parsers.DocumentBuilder 1.4
* void setEntityResolver(EntityResolver resolver)
*: 设置解析器，来定位要解析的XML 文档中引用的实体。
* void setError‘ Handler(ErrorHandler handler)
*: 设置用来报告在解析过程中出现的错误和警告的处理器。
org.xml.sax.EntltyResolver 1.4
* public InputSource resolveEntity(String publicID, String systemID)
*: 返回一个输入源，它包含了被给定D 所引用的数据，或者，当解析器不知道如何解析这个特定名字时，返回null 。如果没有提供公共D，那么参数publicID 可以为null 。
org.xml.sax.lnputSource 1.4
* InputSource( InputStream in)
* InputSource(Reader in)
* InputSource( String system ID)
*: 从流、读人器或系统ID （通常是相对或绝对URL ）中构建输入源。
org.xml.sax.ErrorHandler 1.4
* void fatalError(SAXParseException exception)
* void error( SAXParseExcept ion exception)
* void warning( SAXParseExcept ion exception)
*: 覆盖这些方法以提供对致命错误、非致命错误和警告进行处理的处理器。
org.xml.sax.SAXParsaeException 1.4
* int getLineNumber()
* int getColumnNumber()
*: 返回引起异常的已处理的输入信息末尾的行号和列号。
javax.xml.parses.DocumentBuilderFactory 1.4
* boolean isValidating()
* void setValidating(boolean value)
*: 获取和设置工厂的validating 属性。当它设为true 时，该工厂生成的解析器会验证它们的输入信息。
* boolean isIgnoringElementContentWhitespace()
* void setlgnoringElemnentContentWhitespace(boolean value)
*: 获取和设置工厂的ignoringElementContentWhitespace 属性。当它设为true时，该工厂生成的解析器会忽略不含混合内容（ 即，元素与＃ PCDATA 混合）的元素节点之间的空白字符。

=== XML Schema ===

== 生成XML文档 ==
=== 不带命名空间的文档 ===
=== 带命名空间的文档 ===
=== 写出文档 ===
=== 示例：生成SVG 文件 ===
=== 使用StAX 写出XML文档 ===

== XSL 转换 ==