目录
XML:可扩展标记语言
概念
xml与html的区别
语法
基本语法
组成部分
约束:规定xml文档的书写规则
解析:将xml文档中的数据读取到内存中
解析xml的方式
Jsoup
快捷查询方式
可扩展:标签都是自定义的
功能
<?xml version="1.0" ?> <users> <user> <name>tony</name> <age>12</age> </user> <user> <name>tom</name> <age>15</age> </user> </users>
文档声明
指令:结合css
文本:
程序员根据约束文档,来编写xml文件
DTD
缺点:
不能对数据加以限制,例如年龄的范围,id的格式等等
<!--根元素 students 里面可以有多个student--> <!ELEMENT students (student*) > <!--student 里面有name age sex--> <!ELEMENT student (name,age,sex)> <!--指定各数据的类型--> <!ELEMENT name (#PCDATA)> <!ELEMENT age (#PCDATA)> <!ELEMENT sex (#PCDATA)> <!--必须有nubmer--> <!ATTLIST student number ID #REQUIRED>
导入文件
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE students SYSTEM "student.dtd"> <students> <student number="111"> <name>tony</name> <age>12</age> <sex>nan</sex> </student> </students>
Schema
引入
与上一个功能相同
<?xml version="1.0"?> <xsd:schema xmlns="http://www.itcast.cn/xml" xmlns:xsd="http://www.w3.org/2001/XMLSchema" targetNamespace="http://www.itcast.cn/xml" elementFormDefault="qualified"> <!-- 根目录 students 类型是自定义类型studentsType--> <xsd:element name="students" type="studentsType"/> <!-- studentsType 类型是studentTyp --> <xsd:complexType name="studentsType"> <xsd:sequence> <xsd:element name="student" type="studentType" minOccurs="0" maxOccurs="unbounded"/> </xsd:sequence> </xsd:complexType> <!-- studentType --> <xsd:complexType name="studentType"> <!-- 顺序存储--> <xsd:sequence> <xsd:element name="name" type="xsd:string"/> <xsd:element name="age" type="ageType" /> <xsd:element name="sex" type="sexType" /> </xsd:sequence> <xsd:attribute name="number" type="numberType" use="required"/> </xsd:complexType> <xsd:simpleType name="sexType"> <xsd:restriction base="xsd:string"> <xsd:enumeration value="male"/> <xsd:enumeration value="female"/> </xsd:restriction> </xsd:simpleType> <xsd:simpleType name="ageType"> <xsd:restriction base="xsd:integer"> <xsd:minInclusive value="0"/> <xsd:maxInclusive value="256"/> </xsd:restriction> </xsd:simpleType> <xsd:simpleType name="numberType"> <xsd:restriction base="xsd:string"> <xsd:pattern value="heima_\d{4}"/> </xsd:restriction> </xsd:simpleType> </xsd:schema>
<students xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.itcast.cn/xml student.xsd" xmlns="http://www.itcast.cn/xml" > <student number=""> <name></name> <age></age> <sex></sex> </student> </students>
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
Jsoup:工具类,可以解析html或xml文档,返回Document
Document:文档对象。代表内存中的dom树
获取Element对象
Elements:元素Element对象的集合
Element:元素对象
public static void main(String[] args) throws IOException { Document parse = Jsoup.parse(new File("*************"), "utf-8"); Elements es_name = parse.getElementsByTag("name");//获取所以name标签及内容 System.out.println(es_name.get(0).text());//tony System.out.println(es_name.get(1).text());//tom //获取user1 再通过获取子元素 来获取其name Elements users = parse.getElementsByTag("user"); Element user1 = users.get(0); System.out.println(user1.getElementsByTag("name").get(0).text()); }
selector:选择器
使用的方法:Elements select(String cssQuery)
cssQuery:css选择器的书写格式
public static void main(String[] args) throws IOException { Document parse = Jsoup.parse(new File("************"), "utf-8"); Elements select = parse.select("user[number=\"s123\"]");//查询user标签中number=s123的数据 Elements names = parse.select("name");//类似于元素选择器 Elements select1 = parse.select("#use");//id=use的元素 }
XPath:
XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言
public static void main(String[] args) throws IOException, XpathSyntaxErrorException { Document parse = Jsoup.parse(new File("*********"), "utf-8"); JXDocument jxDocument = new JXDocument(parse); List<JXNode> jxNodes = jxDocument.selN("//user");//查询所有的user标签 for (JXNode jxNode : jxNodes) { System.out.println(jxNode); } System.out.println("----------------"); List<JXNode> jxNodes1 = jxDocument.selN("//user/name[@id='asd']");//查询user下的name(id=asd)的标签 for (JXNode jxNode : jxNodes1) { System.out.println(jxNode); } }