XML 全称可扩展标记语言(EXtensible Markup Language),是一种标记语言,很类似 HTML,但是 XML 不是 HTML 的替代。XML 的设计宗旨是传输数据,而非显示数据。XML具有自我描述性,是 W3C 的推荐标准。
在现在,XML可以运用的场合有:
网络数据传输(主流:json)
数据存储(主流:数据库/文件管理系统)
配置文件(主流:xml)
在XML文档的开头,书写XML的文档声明:
version后面所跟上的是版本号,然后encoding后面跟上的是编码方式
<?xml version="1.0" encoding="utf-8"?>
XML文档是由一个个的标记组成
标记(元素、标签、节点)
语法格式:
<开始标记> (开放标记) :<标记名称>
<结束标记>(闭合标记) :</标记名称>
标记名称: 自定义名称必须遵守下列规则:
标记名称的命名规则:
- 可以含字母、数字以及其他字符
- 不能数字或符号开始
- 不能以xml开头(含大小写)
- 不含空格,不能包含冒号
- 区分大小写
标记内容 :
开始标记与结束标记之间表示的是标记的内容
例如,<name>小花仙</name>
在一个XML文档中,只能且必须有一个根标记:
例如:
正例:
<names>
<name>小新</name>
<age>5</age>
<name>小葵</name>
<age>1</age>
<names>
反例:
<name>小新</name>
<age>5</age>
<name>小葵</name>
<age>1</age>
标签可以嵌套,但不可以交叉
例如:
正例:
<names>
<name>小新</name>
<age>5</age>
<names>
反例:
<names>
<name>小新 <age>5</name></age>
<names>
通常我们可以这么称呼标签层级:(子标记、父标记、兄弟标记、后代标记、祖先标记)
标记名称允许重复,可以包含属性
注意!同一个标签里面多个属性名不允许重复,属性值必须被引号引住
例如:
<names>
<home id="1001">
<name>小新</name>
<age>5</age>
<name>小葵</name>
<age>1</age>
</home>
<names>
当我们有一段话不想被XML解析器解析时可以用<![CDATA[^ 内容]]> 来表示
例如:
CDATA 是不应该由 XML 解析器解析的文本数据
像 "<" 和 "&" 字符在 XML 元素中都是非法的。
"<" 会产生错误,因为解析器会把该字符解释为新元素的开始。
"&" 会产生错误,因为解析器会把该字符解释为字符实体的开始。
某些文本,比如 JavaScript 代码,包含大量 "<" 或 "&" 字符。为了避免错误,可以将脚本代 码定义为 CDATA。
CDATA 部分中的所有内容都会被解析器忽略。
CDATA 部分由 "" 结束:
注释:
注释不能写在文档文档声明前
注释不能嵌套注释
格式:
注释开始: <!--
注释结束: -->
那么在java中,XML的解析方式有4种:
1. SAX解析
解析方式是事件驱动机制 !
SAX解析器, 逐行读取XML文件解析 , 每当解析到一个标签的开始/结束/内容/属性时,触发事件.
我们可以编写程序在这些事件发生时, 进行相应的处理.
优点:
1:分析能够立即开始,而不是等待所有的数据被处理逐行加载,
2:节省内存.有助于解析大于系统内存的文档有时不必解析整个文档,
3:它可以在某个条件得到满足时停止解析.
缺点:
1. 单向解析,无法定位文档层次,无法同时访问同一文档的不同部分数据(因为逐行解析, 当解析第n行是, 第n-1行已经被释放了, 无法在进行操作了).
2. 无法得知事件发生时元素的层次, 只能自己维护节点的父/子关系.
3. 只读解析方式, 无法修改XML文档的内容.
2. DOM解析
是用与平台和语言无关的方式表示XML文档的官方W3C标准,分析该结构通常需要加载整个文档和内存中建立文档树模型.程序员可以通过操作文档树, 来完成数据的获取 修改 删除等.
优点:
1: 文档在内存中加载, 允许对数据和结构做出更改.
2:访问是双向的,可以在任何时候在树中双向解析数据
缺点:
1:文档全部加载在内存中 , 消耗资源大.
3. JDOM解析
目的是成为Java特定文档模型,它简化与XML的交互并且比使用DOM实现更快。由于是第一个Java特定模型,JDOM一直得到大力推广和促进
JDOM文档声明其目的是“使用20%(或更少)的精力解决80%(或更多)Java/XML问题” (根据学习曲线假定为20%)
优点:
1:使用具体类而不是接口,简化了DOM的API
2: 大量使用了Java集合类,方便了Java开发人员
缺点:
1: DOM4J解析XML 掌握文档对象 Document 元素对象 Element 没有较好的灵活性。
:2:性能不是那么优异。
4. DOM4J解析
它是JDOM的一种智能分支
它合并了许多超出基本XML文档表示的功能,包括集成的XPath 支持、XML Schema支持以及用于大文档或流化文档的基于事件的处理。
它还提供了构建文档表示的选项, DOM4J是一个非常优秀的Java XML API,具有性能优异、功能强大和极端易用使用的特点,同时它也是一个开放源代码的软件。如今你可以看到越来越多的Java软件都在使用DOM4J来读写