是 一门全新的语言,一种使用表达式的方式对字符串进行匹配的语法规则
我们抓取到的网页源代码本质上就是一个超长的字符串,想从里面提取内容,用正则再适合不过
优点:速度快、效率高、准确性高
缺点:新手难度高
在线测试网站:
https://tool.oschina.net/regex/
. 匹配除换行符以外的任意字符 (注意:在未来Python的re模块中是一个坑——不能匹配换行符) \w 匹配字母或数字或下划线 \d 匹配数字 ^ 匹配字符串的开始 $ 匹配字符串的结尾 \W 匹配除了字母或数字或下划线 \D 匹配非数字 \S 匹配非空白符 a|b 匹配字符a或字符b () 匹配括号内的表达式,也表示一个组 [...] 匹配字符组中的字符 [^...] 匹配除了字符组中字符的所有字符 *\s 匹配任意的空白符* *\n 匹配一个换行符* *\t 匹配一个制表符*
* 重复0次或更多次 + 重复1次或更多次 ? 重复0次或一次 *{n} 重复n次* *{n,} 重复N次或更多次* *{n,m} 重复n到m次*
.* 贪婪匹配 #尽可能多的匹配结果 .*? 惰性匹配 #尽可能少的匹配内容——>回溯