概念 基于浏览器自动化的模块
自动化可以通过代码指定一系列的行为动作 然后将其作用到浏览器中
pip install selenium
selenium和爬虫之间的关联
简单实例
注意:网页里可以直接复制xpath路径 在代码部分右键
from selenium import webdriver from time import sleep # 基于浏览器的驱动程序实例化一个浏览器对象 bro = webdriver.Chrome(executable_path='./chromedriver') # 对目的网站发起请求 bro.get('http://www.jd.com/') # 标签定位 search_text = bro.find_element_by_xpath('//*[@id="key"]') search_text.send_keys('iphoneX') # 向标签中录入数据 btn = bro.find_element_by_xpath('//*[@id="search"]/div/div[2]/button') btn.click() sleep(2) # 在搜索结果页面进行滚轮向下滑动的操作(执行JS操作:js注入) bro.execute_script('window.scrollTo(0, document.body.scrollHeight)') ------------------------------------------------------------------------------------------------------------- from selenium import webdriver from time import sleep from lxml import etree url = "http://scxk.nmpa.gov.cn:81/xk/" bro = webdriver.Chrome(executable_path='./chromedriver.exe') bro.get(url) page_text_list = [] # 每一页的页面源码数据 sleep(1) # 捕获到当前页面对应的页面源码数据 # 当前页面全部加载完毕后对应的所有数据 page_text = bro.page_source page_text_list.append(page_text) # 点击下一页 for i in range(2): next_page = bro.find_element_by_xpath('//*[@id="pageIto_next"]') next_page.click() sleep(1) page_text_list.append(bro.page_source) tree = etree.HTML(page_text) li_lst = tree.xpath('//*[@id="gzlist"]/li') print(li_lst) for li in li_lst: name = li.xpath('./dl/@title')[0] print(name) sleep(2) bro.quit()
selenium的弊端,效率低
动作链ActionChains 指的是一系列连续的动作(滑动动作)
selenium规避检测 有的网站会检测请求是否为selenium发起, 如果是的话则该次请求失败 规避检测的方法是使用浏览器接管技术
这里的步骤是原始的 下边部分是另外看到的 都没尝试过
步骤
1.必须将你电脑中安装的谷歌浏览器的驱动程序所在目录找到。且将目录添加到环境变量中。
2.打开cmd 输入上边的指令
chrome.exe --remote-debugging-port=9222 --user-data-dir='C:\selenum\AutomationProfile'(后边跟的是一个空文件夹目录)
指定执行结束后 会打开你本机安装好的谷歌浏览器
3.执行如下代码 可以使用下边代码接管步骤2打开的真实的浏览器
from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_options = Options() chrome_options.add_experimental_option('debuggerAddress', '127.0.0.1:9222') chrome_driver = 'C:\Program Files(x86)\Google\Chrome\Application\chromedriver.exe' #(本机安装好的谷歌驱动程序路径) driver = webdriver.Chrome(executable_path=chrome_driver, chrome_options=chrome_options) print(driver.title)
无头浏览器 即无可视化界面的浏览器
谷歌无头浏览器(推荐)
phantomJs
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
# 创建一个参数对象 用来控制chrome以无界面模式打开 chrome_options = Options() chrome_options.add_argument('--headless') chrome_options.add_argument('--disable-gpu') # 创建浏览器对象 browser = webdriver.Chrome(executable_path='./chromedriver', chrome_options=chrome_options) # 上网 url = 'http://www.baidu.com' browser.get(url) time.sleep(3) # 截图 browser.save_screenshot('baidu.png') print(browser.page_source) browser.quit()