引用:from bs4 import BeautifulSoup
soup = BeautifulSoup(),此类会在初始化时自动修正html
soup.节点名,比如soup.p获取
节点,会返回第一个匹配到的p节点,返回类型是bs4.element.Tag
格式化输出html
文本节点的类型
可以使用点操作符获取内部节点,返回的已经是Tag类型
节点的名称,比如p
节点当前使用的所有属性,字典格式,也可以不适用attrs而是直接使用 节点名['属性名']的方式直接获取,比如 p['class']
获取节点的文本内容,如果同时包含文本和其他子节点,返回的是None
返回所有直接子节点, 类型为list
同contents,返回所有直接子节点,只是类型为一个迭代器,可以使用list(xxx.children)转成list类型
返回的是一个生成器,包含所有子孙节点,可以使用list(xxx.descendants)转成list类型
返回节点的父节点
返回一个生成器,包含了节点的所有祖先节点
下一个兄弟节点
返回一个生成器,包含后面的所有兄弟节点
前一个兄弟节点
返回一个生成器,包含前面的所有兄弟节点
查询所有满足条件的节点:find_all(name, attrs, recursive, text, **kwargs)
节点
只返回第一个匹配的节点
使用css选择器进行查找
获取文本,返回由所有子孙文本节点组成的文本