Python爬虫-正则

本文主要是介绍Python爬虫-正则，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

介绍：

是一门全新的语言，一种使用表达式的方式对字符串进行匹配的语法规则

我们抓取到的网页源代码本质上就是一个超长的字符串，想从里面提取内容，用正则再适合不过

优点：速度快、效率高、准确性高

缺点：新手难度高

在线测试网站：

https://tool.oschina.net/regex/

常用元字符：

.　　　　　　 匹配除换行符以外的任意字符
           （注意：在未来Python的re模块中是一个坑——不能匹配换行符）
\w　　　　　　匹配字母或数字或下划线
\d          匹配数字

^           匹配字符串的开始
$           匹配字符串的结尾

\W          匹配除了字母或数字或下划线
\D          匹配非数字
\S          匹配非空白符

a|b         匹配字符a或字符b
()          匹配括号内的表达式，也表示一个组
[...]       匹配字符组中的字符
[^...]      匹配除了字符组中字符的所有字符


*\s         匹配任意的空白符*
*\n         匹配一个换行符*
*\t         匹配一个制表符*

量词：

*         重复0次或更多次
+         重复1次或更多次
？        重复0次或一次

*{n}      重复n次*
*{n,}     重复N次或更多次*
*{n，m}   重复n到m次*

贪婪匹配和惰性匹配：

.*        贪婪匹配  #尽可能多的匹配结果
.*?        惰性匹配  #尽可能少的匹配内容——>回溯

这篇关于Python爬虫-正则的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Python教程

Python爬虫-正则

介绍：

常用元字符：

量词：

贪婪匹配和惰性匹配：

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯