Python教程

Python爬虫-正则

本文主要是介绍Python爬虫-正则,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

介绍:

是 一门全新的语言,一种使用表达式的方式对字符串进行匹配的语法规则

我们抓取到的网页源代码本质上就是一个超长的字符串,想从里面提取内容,用正则再适合不过

 

优点:速度快、效率高、准确性高

缺点:新手难度高

 

在线测试网站:

https://tool.oschina.net/regex/

 

常用元字符:

.       匹配除换行符以外的任意字符
           (注意:在未来Python的re模块中是一个坑——不能匹配换行符)
\w      匹配字母或数字或下划线
\d          匹配数字

^           匹配字符串的开始
$           匹配字符串的结尾

\W          匹配除了字母或数字或下划线
\D          匹配非数字
\S          匹配非空白符

a|b         匹配字符a或字符b
()          匹配括号内的表达式,也表示一个组
[...]       匹配字符组中的字符
[^...]      匹配除了字符组中字符的所有字符


*\s         匹配任意的空白符*
*\n         匹配一个换行符*
*\t         匹配一个制表符*

 

 

量词:

*         重复0次或更多次
+         重复1次或更多次
?        重复0次或一次

*{n}      重复n次*
*{n,}     重复N次或更多次*
*{n,m}   重复n到m次*

 

贪婪匹配和惰性匹配:

.*        贪婪匹配  #尽可能多的匹配结果
.*?        惰性匹配  #尽可能少的匹配内容——>回溯

 

这篇关于Python爬虫-正则的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!