正则表达式

正则表达式爬虫遇到的问题

本文主要是介绍正则表达式爬虫遇到的问题,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

正则爬虫小例子

import re
import requests

# url = "http://www.redbull.com.cn/about/branch"
# 上面为网站
# page = requests.get(url).text
# 上面为把网站的数据提出来
with open('a.txt', 'r', encoding='utf8') as f:
    res = f.read()
# 上面为文件形式
# a = re.compile('<h2>(.*)</h2><p class=\'mapIco\'>(.*)</p><p class=\'mailIco\'>(.*)</p><p class=\'telIco\'>(.*)</p></li>')
# 一定要把双引号转义!!!!!不然取不到数据
a = re.compile('<h2>(.*?)</h2><p class=\'mapIco\'>(.*?)</p><p class=\'mailIco\'>(.*?)</p><p class=\'telIco\'>(.*?)</p>')

# z = re.compile()

# data = re.findall(a, page)

data = re.findall(a, res)
print(data)
with open('b.txt','a',encoding='utf8') as f:
    for i in data:
        f.write(f'''
            公司名称: {i[0]}
            公司地址: {i[1]}
            邮件信息: {i[2]}
            电话: {i[3]}
              ''')
这篇关于正则表达式爬虫遇到的问题的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!