“核心技术Ⅱ：XML”的版本间差异

2020年11月27日 (五) 05:17的版本

XML概述

XML 是一种非常有用的描述结构化信息的技术。

“Properties”类：在单个方法调用中读入这样的“属性文件”（property file）：

属性文件：用于描述程序配置；包含了一组“名/值”对：
```
fontname=Times Roman
fontsize=l2
windowsize=400 200
co1or=O 5O 100
```

但是：

属性文件采用的是一种单一的平面层次结构；所以常常会出现这种情况：
```
title.fontname=Helvetica
title.fontsize=36
body.fontname=Times Roman
body.fontsize=12
```

属性文件要求键是唯一的；所以保存序列值需要：

menu.item.l=Times Roman
menu.item.2=Helvetica
menu.item.3=Goudy Old Style

XML 和HTML 格式是古老的标准通用标记语言(Standard Generalized Markup Language, SGML) 的衍生语言。

XML 格式能够表达层次结构，并且重复的元素不会被曲解：

<configuration>
   <title>
      <font>
         <name>Helvetica</name>
         <Size>36</size>
      </font>
   </title>
   <body>
      <font>
         <name>Times Roman</name>
         <Size>12</size>
      </font>
   </body>
   <window>
      <width>400</width>
      <height>200</height>
   </window>
   <color>
      <red>O</red>
      <green>50</green>
      <blue> 100</blue>
   </color>
   <menu>
      <item>Times Roman</item>
      <item>Helvetica</item>
      <item>Goudy 01d Style</item>
   </menu>
</configuration>

XML 和HTML的区别：

XML	HTML
大小写敏感如：<H1> 和<hl> 是不同的XML 标签	不敏感
结束标签绝对不能省略	如果从上下文中可以分清哪里是段落或列表项的结尾，那么结束标签（如</p>或</li>) 就可以省略
只有单个标签而没有相对应的结束标签的元素必须以“/”结尾如：<img src="coffeecup.png"/ >
属性值必须用引号括起来如：<applet code="MyApplet.class" width="300" height="300">	引号是可有可无的如：<applet code="MyApplet.class" width=300 height=300>
所有属性必须都有属性值如：<input type="radio" name="1anguage" value="Java" checked="checked">	属性名可以没有值如：<input type="radio" name="1anguage" value="Java" checked>

XML 文档的结构

XML 文档应当以一个文档头开始：

<?xml version="l.O"?>
或
<?xml version="l.O" encoding="UTF-8"?>

文档头之后通常是文档类型定义(Docun1ent Type Definition, DTD)：

<!DOCTYPE web-app PUBLIC
   "-//Sun Microsystems, Inc.//OTD Web Application 2.2//EN" 
   "http://java.sun.com/j2ee/dtds/web-app_2_2.dtd">

XML 文档的正文包含根元素，根元素包含其他元素：

<?xml version="l.O"?>
<!DOCTYPE configuration ... >
<configuration>
   <title>
      <font>
         <name>Helvetica</name>
         <Size>36</size>
      </font>
   </title>
   ...
</configuration>

元素可以有子元素(child element )、文本或两者皆有；
在设计XML 文档结构时，应避免混合式内容(mixed content)，以简化解析过程：
```
<font>
   Helvetica
   <Size>36</size>
</font>
```
XML元素可以包含属性，但属性的灵活性要差很多；
- “属性只应该用来修改值的解释，而不是用来指定值。”
- “HTML 中，凡是不显示在网页上的都是属性。”

<font name="Helvetica" size="36 pt"/>

<font>
   <name>Helvetica</name>
   <Size unit="pt">36</size>
</font>

XML中的其他一些标记：

字符引用（character reference）：形式是“&#”十进制值；或“&#x”十六进制值；

实体引用（entity reference）：形式是“&name”；

下面这些实体引用：
   &lt; &gt; &amp; &quot; &apos;
都有预定义的含义：
   小于、大于、＆、引号、省略号等字符。

CDATA部分（CDATA Section）：用“<![CDATA[”和“]]>”来限定其界限；
- 它们是字符数据的一种特殊形式。可以使用它们来襄括那些含有“<”、“>”、“&”之类字符的字符串，而不必将它们解释为标记；
- CDATA 部分不能包含字符串“]]>”；
```
<![CDATA[< & > are my favorite delimiters]]>
```
处理指令（processing instruction）：是那些专门在处理XML 文档的应用程序中使用的指令，它们由“<?”和“?>”来限定其界限：
```
<?xml-stylesheet href="mystyle.css" type="text/css"?>

每个XML 都以一个处理指令开头：
<?xml version="l.O"?>
```
注释（comment）：用“<!-”和“-->”限定其界限：
- 注释不应该含有字符串“--”；
```

```

解析XML文档

xml解析器：读入一个文件，确认这个文件具有正确的格式（验证xml文档），然后将其分解成各种元素，使得程序员能够访问这些元素；

Java 库提供了两种XML 韶析器：
1. “树型解析器”：将读入的XML 文档转换成树结构。
  如：文档对象校型（Document Object Model, DOM）解析器；
2. “流机制解析器”：在读入XML 文档时生成相应的事件。
  如：XML 简单API（Simple API for XML, SAX）解析器；
何时使用“流机制解析器”：
1. 如果需要处理很长的文档，若生成树结构将会消耗大量内存；
2. 或者如果只对某些元素感兴趣，而不关心它们的上下文；

树型解析器

DOM 韶析器的接门已经被W3C 标准化了。org.w3c.dom 包中包含了这些接口类型的定义，比如： Document 和Element 等。不同的提供者，比如Apache 组织和IBM, 都编写了实现这些接口的DOM 解析器。

Java XML 处理 API (Java API for XML Processing, JAXP) 库使得我们实际上可以以插件形式使用这些韶析器中的任意一个。

JDK 中也包含了从Apache 解析器导出的DOM 解析器；

读人XML文档：

首先需要“DocumentBuilder”对象（从“DocumentBuilderFactory”中得到）：

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
DocumentBuilder builder = factory.newDocumentBuilder();

从不同的源中读入文档：

// 从文件：
File f = ...
Document doc = builder.parse(f);

// 从一个URL：
URL u = ...
Document doc= builder.parse(u);

// 从指定的输入流：
InputStream in = ...
Document doc= builder.parse(in);

果使用输入流作为源，那么对于那些以该文档的位置为相对路径而被引用的文档，解析器将无法定位。

“Document”对象是XML 文档的树型结构在内存中的表示方式，它由实现了“Node”接口及其各种子接口的类的对象构成：

解析文档内容：

调用“getDocumentElement”方法，获取文档根元素：
调用“getTagName”方法可以返同元素的标签名；
```
Element root = doc.getDocumentElement();
String rootName = root.getTagName();
```

调用“getChildNode”方法，获取元素的子元素（可能是子元素、文本、注释或其他节点）：

返回一个类型为“Nodelist”的集合；

“item”方法将得到指定索引俏的项；

“getLength”方法则提供了项的总数；

// 枚举所有子元素
// 得到的子元素会包含：元素之间的“\n”等空白字符
Nodelist children = root.getChildNodes();
for (int i = O; i < children.getlength(); i++)
{
   Node child= children.item(i);
   ...
}

// 枚举所有子元素
// 并忽略元素之间的“\n”等空白字符
Nodelist children = root.getChildNodes();
for (int i = O; i < children.getlength(); i++)
{
   Node child= children.item(i);
   if (chi1d instanceof Element)
   {
      Element childElement = (Element) child;
      ...
   }
}

利用DTD，解析器会忽略空白字符；

获取节点文本：

使用“getFirstChild”方法而不用再遍历另一个Nodelist；
使用“getData”方法获取存储在Text节点中的字符串；

for (inti = O; i < children.getlength(); i++)
{  
   Node child = chi1dren.item(i);
   if (child instanceof Element)
   {
      Element childElement = (Element) chi1d;
      Text textNode = (Text) childElement.getFirstChild();
      String text = textNode.getData().trim();
      if (childElement.getTagName().equals("name"))
         name = text;
      else if (childElement.getTagName().equals("size"))
         size = Integer.parseInt(text);
   }
}

也可以用“getlastChild”方法得到最后一项子元素；

用“getNextSibling”得到下一个兄弟节点；

// 另一种遍历子节点集的方法
for (Node childNode = element.getFirstChild();
    childNode != null;
    childNode = childNode.getNextSibling())
{
    ...
}

获取元素属性：
1. 调用“getAttributes”方法，枚举节点的属性：
  返回一个“NamedNodeMap”对象，其中包含了描述屈性的“Node”对象。可以和“Nodelist”一样的方式遍历；
2. 调用“getNodeName”和“getNodeValue”方法可以得到属性名和属性值；
```
NamedNodeMap attributes = element.getAttributes();
for (int i = O; i < attributes.getlength(); i++)
{
   Node attribute = attributes.item(i);
   String name = attribute.getNodeName();
   String value= attribute.getNodeValue();
   ...
}
```
- 如果知道属性名，则可以直接获取相应的属性值：
  String unit = element.getAttribute("unit");

使用“XPath”来定位信息

流机制解析器

使用“SAX”解析器

使用“StAX”解析器

使用命名空间

验证XML文档

文档类型定义

XML Schema

生成XML文档

不带命名空间的文档

带命名空间的文档

写出文档

示例：生成SVG 文件

使用StAX 写出XML文档

XSL 转换

XML	HTML
大小写敏感如：<H1> 和<hl> 是不同的XML 标签	不敏感
结束标签绝对不能省略	如果从上下文中可以分清哪里是段落或列表项的结尾，那么结束标签（如</p>或</li>) 就可以省略
只有单个标签而没有相对应的结束标签的元素必须以“/”结尾如：<img src="coffeecup.png"/ >
属性值必须用引号括起来如：<applet code="MyApplet.class" width="300" height="300">	引号是可有可无的如：<applet code="MyApplet.class" width=300 height=300>
所有属性必须都有属性值如：<input type="radio" name="1anguage" value="Java" checked="checked">	属性名可以没有值如：<input type="radio" name="1anguage" value="Java" checked>

“核心技术Ⅱ：XML”的版本间差异

2020年11月27日 (五) 05:17的版本

目录

XML概述

XML 文档的结构

解析XML文档

树型解析器

相关方法

使用“XPath”来定位信息

流机制解析器

使用“SAX”解析器

使用“StAX”解析器

使用命名空间

验证XML文档

文档类型定义

XML Schema

生成XML文档

不带命名空间的文档

带命名空间的文档

写出文档

示例：生成SVG 文件

使用StAX 写出XML文档

XSL 转换

导航菜单

@@ 第241行： / 第241行： @@
 </syntaxhighlight>
 #* 利用DTD，解析器会忽略空白字符；
-#
+# 获取节点文本：
+## 使用“'''getFirstChild'''”方法而不用再遍历另一个Nodelist；
+## 使用“'''getData'''”方法获取存储在Text节点中的字符串；
 #: <syntaxhighlight lang="java">
+for (inti = O; i < children.getlength(); i++)
+{
+   Node child = chi1dren.item(i);
+   if (child instanceof Element)
+   {
+      Element childElement = (Element) chi1d;
+      Text textNode = (Text) childElement.getFirstChild();
+      String text = textNode.getData().trim();
+      if (childElement.getTagName().equals("name"))
+         name = text;
+      else if (childElement.getTagName().equals("size"))
+         size = Integer.parseInt(text);
+   }
+}
+</syntaxhighlight>
+#* 也可以用“'''getlastChild'''”方法得到最后一项子元素；
+#* 用“'''getNextSibling'''”得到下一个兄弟节点；
+#*: <syntaxhighlight lang="java">
+// 另一种遍历子节点集的方法
+for (Node childNode = element.getFirstChild();
+    childNode != null;
+    childNode = childNode.getNextSibling())
+{
+    ...
+}
 </syntaxhighlight>
-#
+# 获取元素属性：
+## 调用“'''getAttributes'''”方法，枚举节点的属性：
+##: 返回一个“NamedNodeMap”对象，其中包含了描述屈性的“Node”对象。可以和“Nodelist”一样的方式遍历；
+## 调用“'''getNodeName'''”和“'''getNodeValue'''”方法可以得到属性名和属性值；
 #: <syntaxhighlight lang="java">
+NamedNodeMap attributes = element.getAttributes();
+for (int i = O; i < attributes.getlength(); i++)
+{
+   Node attribute = attributes.item(i);
+   String name = attribute.getNodeName();
+   String value= attribute.getNodeValue();
+   ...
+}
+</syntaxhighlight>
+#* 如果知道属性名，则可以直接获取相应的属性值：
+#*: <syntaxhighlight lang="java">
+String unit = element.getAttribute("unit");
+</syntaxhighlight>
+===== 相关方法 =====
+javax.xml.parsers.DocumentBuilderFactory 1.4
+• static DocumentBuilderFactory newlnstance()
+返回Docu mentBuilderFactory 类的一个实例。
+• DocumentBuilder newDocumentBuilder()
+返回Doc umentBuilder 类的一个实例。
-</syntaxhighlight>
-#
-#: <syntaxhighlight lang="java">
-</syntaxhighlight>
-#
-#: <syntaxhighlight lang="java">
-</syntaxhighlight>
 ==== 使用“XPath”来定位信息 ====
 === 流机制解析器 ===

“核心技术Ⅱ：XML”的版本间差异

2020年11月27日 (五) 05:17的版本

XML概述

XML 文档的结构

解析XML文档

树型解析器

相关方法

使用“XPath”来定位信息

流机制解析器

使用“SAX”解析器

使用“StAX”解析器

使用命名空间

验证XML文档

文档类型定义

XML Schema

生成XML文档

不带命名空间的文档

带命名空间的文档

写出文档

示例：生成SVG 文件

使用StAX 写出XML文档

XSL 转换

导航菜单

搜索