正则表达式是对字符串(包括普通字符(例如,a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式, 就是用事先定义好的一些特定字符,及这些字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。
给定一个正则表达式和另一个字符串,可达到以下目的:
1.给定的字符串是否符合正则表达式的过滤逻辑(称作:匹配)。
2.可以通过正则表达式,从字符串中获取我们想要的特定部分。
正则表达式的特点是:
1.灵活性,逻辑性和功能性很强。
2.可以迅速的用极简单的方式达到字符串的复杂控制。
3.对于刚接触的人来说,比较晦涩难懂。
使用场景:
如何判断一个字符串是手机号呢?
判断邮箱为163或者126的所有邮件地址。
或者是,假设我现在在写一个爬虫程序(虽然现在我还没有学哈哈),我得到了一个网页的HTML源码。其中有一段<html><body><h1>hello world<h1></body></html>,此时我想要将其中的内容“hello world”提取出来,但这时只会用字符串处理。
s = "<html> <body> <h1>hello world<h1> </body> </html>"
start_index = s.find('<h1>')
. #用于匹配除换行符(\n)之外的所有字符
^ #用于匹配字符串的开始,即行首
$ #用于匹配字符串的末尾(末尾如果有换行符\n,就匹配\n前面的那个字符),即行尾
* #用于将前面的模式匹配0次或多次(贪婪模式,即尽可能多的匹配) >=0
+ #用于将前面的模式匹配1次或多次(贪婪模式) >=1
? #用于将前面的模式匹配0次或1次(贪婪模式) 0,1
*?,+?,?? #即上面三种特殊字符的非贪婪模式(尽可能少的匹配)
{m} #用于验证将前面的匹配m次
{m.} #用于验证将前面的匹配m次或多次(>=m)
{m,n} #用于将前面的模式匹配m次到n次(贪婪模式),即最小匹配m次,最多匹配n次
{m,n}? #即上面{m,n}的非贪婪版本
[] #用于标示一组字符,如果^是第一个字符,则标示的是一个补集。比如[0-9]表示所有的数字,[^0-9]表示除了数字外的字符
| #比如A|B,用于匹配A或B
(...) #用于匹配括号中的模式,可以在字符串中检索或匹配我们所需要的内容。
注意:
Python里的数量词默认是贪婪的(在少数语言里可能默认为非贪婪),总是尝试匹配更多的字符;非贪婪是尽可能匹配更少的字符。将贪婪模式变为非贪婪模式,*?,+?,.?,??
\A:表示从字符串的开始处进行匹配
\Z:表示从字符串的结束处匹配,如果存在换行,只匹配到换行前的结束字符串
\b:匹配一个单词边界,也就是指单词和空格间的位置。例如,’py\‘ 可以匹配”python“中的'py',但是不能匹配”openpyxl“ 中的'py'
\B:匹配非单词边界(即单词内部的字母)。'py\b'可以匹配"openpyxl"中的'py',但不能匹配"python"中的'py'
\d:匹配任意的数字,等价于 [0~9]
\D:匹配任意非数字字符,等价于 [^\d]
\s:匹配任意空白字符,等价于 [ \t \n \f \r]
\S:匹配任意非空白字符,等价于 [^\s]
\w:匹配任意字母数字及下划线,等价于 [a-z A-Z 0-9]
\W:匹配任意非字母数字及下划线,等价于 [^\w]
\\:匹配原义的反斜杠\
match: 仅从头匹配,可以拿一个正则模块同字符串头部进行匹配;匹配成功返回match对象,否则返回值为空。
search:匹配整个字符串,匹配成功则返回,与match一样都只能匹配到一个符合正则的字符串。
findall:搜索整个字符串,找到所有的符合正则式的字符串,以列表形式返回。
sub:遍历整个字符串,将符合正则式的字符串替换为新的字符串。
split:在字符串中如果搜索到,就会分割,将分割出的内容保留在列表中。
##应用分析A1
import re msg = '玛尔扎哈赛恩德莱厄斯' pattern = re.compile('玛尔扎哈') print(pattern) result = pattern.match(msg) # 没有匹配到时,值为空 print(result)
输出:
re.compile('玛尔扎哈') <re.Match object; span=(0, 4), match='玛尔扎哈'>
上面代码中使用了re模块里的compile来创建正则式,再通过其调用match来实现正则匹配。
##应用分析A2
import re s = '泰达米尔卡特琳娜德莱文' result = re.match('泰达米尔', s) # 第一个参数为为正则式,第二个参数为字符串 print(result) # match 头部匹配 ###使用正则re模块的方法:search result = re.search('卡特', s) # 第一个参数为为正则式,第二个参数为字符串 print(result) # search 查找匹配,找到一个后返回 print(result.span()) # 返回匹配到的字符串位置 print(result.group()) # 提取到匹配的内容
输出:
<re.Match object; span=(0, 4), match='泰达米尔'> <re.Match object; span=(4, 6), match='卡特'> (4, 6) 卡特
可在match方法里直接写入正则式,再写入待匹配的字符串,就可直接进行匹配啦。而且从输出结果可以看到,match仅仅是从头匹配,而search是匹配整个字符串。
span()可用来返回匹配到字符串的位置,group()可返回匹配到的字符串位置。
其实,在我们实际项目的应用中,我们大多面对的是复杂字符串,而且要从中提取到符合特定逻辑的内容是比较复杂的,此时我们就可以真正的对正则的量词和预定义的灵活使用,解决这些难点。
###应用分析B1 (findall)
# 复杂字符串序列 msg = 'a2bc2d98s iui1200' result = re.match('[a-z][0-9][a-z]', msg) print(result.group()) result = re.findall('[a-z][0-9][a-z]', msg) # findall 找到所有匹配的字符 print(result) # 以列表形式返回
输出:
a2b ['a2b', 'c2d']
可见,findall匹配到所有符合的字符串后以列表形式返回;在正则式里[ ]里可表示范围的字符。
###应用分析B2 (正则量词练习)
msg = 'a7aa88aa7878aa78787878a' result = re.findall('[a-z][0-9]+[a-z]', msg) print(result) ##qq 号码验证 5~11 纯数字,没有字母 开头不为0 qq = '25420745800' result = re.match('[1-9][0-9]{4,10}$', qq) # 使用$来指明尾部 print(result) ##验证用户名 用户名可以是字母或者数字,不能是数字开头,用户名长度必须6位以上[0-9a-zA-Z] n = 'jj001admin' result = re.match('[a-zA-Z][0-9a-zA-Z]{5,}$', n) # 由于验证的是一个整体单位 print(result) msg = 'aa.py as.txt jkl.py sd.png km.py' result = re.findall(r'\w+.py\b', msg) print(result)
输出:
['a7a', 'a88a', 'a7878a', 'a78787878a'] <re.Match object; span=(0, 11), match='25420745800'> <re.Match object; span=(0, 10), match='jj001admin'> ['aa.py', 'jkl.py', 'km.py']
以上就是正则符号的混合应用了,大家可以仔细看一下代码。其中最后一个输出,其正则格式使用了正则里的预定义,可以更加简化代码。
###应用分析B3 ((),{},[]三者的用法)
# 匹配数字 0-100 之间 n = '100' result = re.match(r'[1-9]?\d?$|100$', n) print(result) # 小括号里字符串(或者时)可作整体,而方括号里(或者时)作为单个字符 # 验证邮箱 163 126 qq email = '321456987@qq.com' result = re.match('\w{5,20}@(qq|126|163)\.(com|cn)$', email) print(result) ##不是以4,7结尾的手机号码(11位) phone = '12345678910' result = re.match('1\d{9}[0-35-689]', phone) print(result)
输出:
<re.Match object; span=(0, 3), match='100'> <re.Match object; span=(0, 16), match='321456987@qq.com'> <re.Match object; span=(0, 11), match='12345678910'>
注意。经match匹配出的结果均为match对象形式;[]一般表示范围,{}表示字符出现频次,()表示分组。
###应用分析B4 (分组)
# 分组 (爬虫相关) phone = '010-12345678' result = re.match('(\d{3}|\d{4})-(\d{8}$)', phone) print(result) # 分别提取 print(result.group(1)) # 输出第一组 print(result.group(2)) # 输出第二组 print(result.group()) # 输出全部
输出:
010 12345678 010-12345678
()可以以分组的形式输出匹配到的字符串,借助group()可实现对分组的提取。
###应用分析B5 (两种正则式引用方法)
第一种:
msg1 = '<h1>hello</h1>' # \1是引用第一组的内容;number的方式 result = re.match(r'<([0-9a-zA-Z]+)>(.+)</\1>$', msg1) print(result) print(result.group(1)) print(result.group())
输出:
<re.Match object; span=(0, 14), match='<h1>hello</h1>'> h1 <h1>hello</h1>
正则表达式里的引用:在写正则式的时候我们可以利用小括号()来进行分组,然后利用\1,\2...的方式,表示引用第一组和第二组的内容,这样可以极大的简写我们的代码。
第二种:
# 起名的方式 使用 ?P 对标签起名 (?P<名字>正则) (?P = 名字) msg = '<html><h1>asd</h1></html>' result = re.match(r'<(?P<name1>\w+)><(?P<name2>\w+)>(.+)</(?P=name2)></(?P=name1)>', msg) print(result.group()) print(result)
输出:
<html><h1>asd</h1></html> <re.Match object; span=(0, 25), match='<html><h1>asd</h1></html>'>
这是对正则分组的式子引用的第二种方式,以<?P<name1>>的形式给字符串起名,并以<(?P=name1)>的形式引用。
###应用分析B6 ()
def func(temp): num = temp.group() num1 = int(num) + 1 return str(num1) result = re.sub(r'\d+', '90', 'java:95,pathon:99') # 替换后面字符串满足条件的内容 print(result) result = re.sub(r'\d+', func, 'java:95,pathon:99') # 利用函数+正则来实现对字符串内容的修改 print(result) result = re.split('[:,]','java:95,pathon:99') #被切除的元素就没有了 print(result)
输出:
java:90,pathon:90 java:96,pathon:100 ['java', '95', 'pathon', '99']
该例子用于说明sub与split方法的作用。sub(正则式,待替换的形式,旧字符串),会直接返回新的字符串;split(正则式,待匹配的字符串),匹配成功后删除该字符并将整个字符串分割,以列表形式返回。