re
模块是 Python 标准库中用于处理正则表达式的模块。正则表达式是一种强大的文本处理工具,可以用于查找、替换和匹配文本。在本节中,我们将介绍 re
模块的一些常用功能,并通过实例代码详细讲解每个知识点。
re
模块要使用 re
模块,首先需要导入它:
import re
re
模块提供了许多用于处理正则表达式的函数,以下是一些常用的函数:
re.search()
re.search()
函数用于在字符串中查找匹配的子串。如果找到匹配项,则返回一个匹配对象;否则返回 None
。
示例:
import re pattern = r"\d+" text = "There are 42 apples in the basket." match = re.search(pattern, text) if match: print(f"Found match: {match.group()}") else: print("No match found")
在这个例子中,我们查找一个或多个连续数字(\d+
)。当找到匹配项时,我们打印匹配到的子串。
re.findall()
re.findall()
函数用于在字符串中查找所有匹配的子串。返回一个包含所有匹配子串的列表。
示例:
import re pattern = r"\d+" text = "I have 3 cats and 2 dogs." matches = re.findall(pattern, text) print(f"Found matches: {matches}")
在这个例子中,我们同样查找一个或多个连续数字(\d+
)。当找到匹配项时,我们打印所有匹配到的子串。
re.sub()
re.sub()
函数用于替换字符串中匹配的子串。返回一个新的字符串,其中匹配的子串被替换为指定的字符串。
示例:
import re pattern = r"\d+" replacement = "number" text = "I have 3 cats and 2 dogs." new_text = re.sub(pattern, replacement, text) print(f"New text: {new_text}")
在这个例子中,我们用 “number” 替换所有的连续数字(\d+
)。然后我们打印替换后的字符串。
如果你需要多次使用同一个正则表达式,可以先编译它,然后在需要时使用。编译正则表达式可以提高匹配效率。
要编译正则表达式,请使用 re.compile()
函数:
import re pattern = r"\d+" compiled_pattern = re.compile(pattern) text1 = "I have 3 cats and 2 dogs." text2 = "There are 42 apples in the basket." matches1 = compiled_pattern.findall(text1) matches2 = compiled_pattern.findall(text2) print(f"Matches in text1: {matches1}") print(f"Matches in text2: {matches2}")
在这个例子中,我们先编译了正则表达式,然后在两个不同的字符串上使用它。这样可以避免每次调用 findall()
时都需要重新解析正则表达式。
我们已经介绍了 Python re
模块的一些常用功能,包括:
re.search()
:在字符串中查找匹配的子串re.findall()
:在字符串中查找所有匹配的子串re.sub()
:替换字符串中匹配的子串以下是一些练习题,以帮助你巩固所学的知识:
编写一个程序,提示用户输入一个字符串,然后查找其中所有的电子邮件地址,并打印出来。电子邮件地址的正则表达式可以用:r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"
。
编写一个程序,提示用户输入一个字符串,然后将其中的数字替换为单词 “number”。
编写一个程序,提示用户输入一个字符串,然后验证其是否是一个有效的电话号码。有效的电话号码可以用以下正则表达式表示:r"^(\+\d{1,2}\s)?\(?\d{1,4}\)?[\s.-]\d{1,4}[\s.-]\d{1,4}$"
。
请尝试自己编写这些程序,并在遇到问题时参考本节的内容。通过这些练习,你将更好地理解并掌握 Python re
模块的功能。