本文使用 python3.6.5.
Selenium 是一个用于 Web 应用程序测试的工具。
Selenium 测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括 IE(7, 8, 9, 10, 11),Firefox,Safari,Chrome,Opera 等。
使用 python 爬虫调用 selenium 来模拟正常用户访问浏览器.
安装 selenium:
win: pip install selenium liunx: pip3 install selenium
安装 ChromeDriver, 该工具供 selenium 使用 Chrome.
ChromeDriver: http://npm.taobao.org/mirrors/chromedriver/
这里只是对应版本中的一部分, 各位的 Chrome 版本可能超出了这里的版本范围.
但是通过版本对比, 可以发现每个 driver 版本对应的 chrome 版本范围为 3.
通过规律, 各位就能知道自己该下那个版本的 driver 了.
/usr/loacl/bin
目录中.如前面说的, 我们能使用 python 导入 selenium 来控制浏览器访问网站.
也就是说能使用 py 打开浏览器自动化访问.
#!/usr/bin/env python3 from selenium import werdriver import time driver = webdriver.Chrome() # 创建Chrome对象. # 操作这个对象. driver.get('https://www.baidu.com') # get方式访问百度. time.sleep(2) driver.quit() # 使用完, 记得关闭浏览器, 不然chromedriver.exe进程为一直在内存中.
#!/usr/bin/env python3 from selenium import webdriver from selenium.webdriver.chrome.options import Options import time chrome_opt = Options() # 创建参数设置对象. chrome_opt.add_argument('--headless') # 无界面化. chrome_opt.add_argument('--disable-gpu') # 配合上面的无界面化. chrome_opt.add_argument('--window-size=1366,768') # 设置窗口大小, 窗口大小会有影响. # 创建Chrome对象并传入设置信息. driver = webdriver.Chrome(chrome_options=chrome_opt) # 操作这个对象. driver.get('https://www.baidu.com') # get方式访问百度. time.sleep(2) print(driver.page_source) # 打印加载的page code, 证明(prove) program is right. driver.quit() # 使用完, 记得关闭浏览器, 不然chromedriver.exe进程为一直在内存中.
#!/usr/bin/env python3 from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_opt = Options() # 创建参数设置对象. chrome_opt.add_argument('--windows-size=1366,768') # 设置浏览器窗口大小. # 创建chrome对象并传入设置信息. driver = webdriver.Chrome(chrome_options=chrome_opt) driver.quit()
常用的启动项
启动参数 | 作用 |
---|---|
–user-agent=”“ | 设置请求头的 User-Agent |
–window-size=长,宽 | 设置浏览器分辨率 |
–headless | 无界面运行 |
–start-maximized | 最大化运行 |
–incognito | 隐身模式 |
–disable-javascript | 禁用 javascript |
–disable-infobars | 禁用浏览器正在被自动化程序控制的提示 |
Chrome 的禁用图片加载参数设置比较复杂,如下所示:
prefs = { 'profile.default_content_setting_values' : { 'images' : 2 } } options.add_experimental_option('prefs',prefs)
使用浏览器时常常会有弹窗弹出,以下选项可以禁止弹窗:
prefs = { 'profile.default_content_setting_values' : { 'notifications' : 2 } } options.add_experimental_option('prefs',prefs)
chromedriver.exe 一般可以放在环境文件中,但是有时候为了方便部署项目,或者为了容易打包,我们可以将 chromedriver.exe 放到我们的项目目录中,然后在初始化 Chrome Webdriver 对象时,传入 chromedriver.exe 的路径。
from selenium import webdriver driver = webdriver.Chrome(executable_path='chromedriver.exe') driver.quit()
driver.get('https://www.baidu.com')
.方法 | 作用 |
---|---|
find_element_by_xpath() | 通过Xpath 查找 |
find_element_by_class_name() | 通过class属性 查找 |
find_element_by_css_selector() | 通过css选择器 查找 |
find_element_by_id() | 通过id 查找 |
find_element_by_link_text() | 通过链接文本 查找 |
find_element_by_name() | 通过name属性 进行查找 |
find_element_by_partial_link_text() | 通过链接文本的部分匹配 查找 |
find_element_by_tag_name() | 通过标签名 查找 |
查找后返回的是一个Webelement
对象。
查找多个元素: 将其中的 element 加上一个 s,则是对应的多个查找方法
上面的方法都是将第一个找到的元素进行返回,而将所有匹配的元素进行返回使用的是find_elements_by_*
方法。
driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’}) driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’}) driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’, ‘secure’:True})
driver.get_screenshot_as_file(‘/Screenshots/foo.png’)
异步
执行 JS 代码。
script = “var callback = arguments[arguments.length - 1]; ” script2 = “window.setTimeout(function(){ callback(‘timeout’) }, 3000);” driver.execute_async_script(script + script2)
同步
执行 JS 代码。
前面有讲到使用find
等方法来查找单个或多个元素对象, 其结果返回一个Webelement
对象.
现在我们操作这个对象.
们经常需要模拟键盘的输入,当输入普通的值时,在send_keys()
方法中传入要输入的字符串就好了。
但是我们有时候会用到一些特殊的按键,这时候就需要用到我们的 Keys 类。
# 要使用按键值, 需要导入下面keys. from selenium.webdriver.common.keys import Keys elem.send_keys(Keys.CONTROL, 'c')
对应的属性
ADD = u’\\ue025’ ALT = u’\\ue00a’ ARROW_DOWN = u’\\ue015’ ARROW_LEFT = u’\\ue012’ ARROW_RIGHT = u’\\ue014’ ARROW_UP = u’\\ue013’ BACKSPACE = u’\\ue003’ BACK_SPACE = u’\\ue003’ CANCEL = u’\\ue001’ CLEAR = u’\\ue005’ COMMAND = u’\\ue03d’ CONTROL = u’\\ue009’ DECIMAL = u’\\ue028’ DELETE = u’\\ue017’ DIVIDE = u’\\ue029’ DOWN = u’\\ue015’ END = u’\\ue010’ ENTER = u’\\ue007’ EQUALS = u’\\ue019’ ESCAPE = u’\\ue00c’ F1 = u’\\ue031’ F2 = u’\\ue032’ F3 = u’\\ue033’ F4 = u’\\ue034’ F5 = u’\\ue035’ F6 = u’\\ue036’ F7 = u’\\ue037’ F8 = u’\\ue038’ F9 = u’\\ue039’ F10 = u’\\ue03a’ F11 = u’\\ue03b’ F12 = u’\\ue03c’ HELP = u’\\ue002’ HOME = u’\\ue011’ INSERT = u’\\ue016’ LEFT = u’\\ue012’ LEFT_ALT = u’\\ue00a’ LEFT_CONTROL = u’\\ue009’ LEFT_SHIFT = u’\\ue008’ META = u’\\ue03d’ MULTIPLY = u’\\ue024’ NULL = u’\\ue000’ NUMPAD0 = u’\\ue01a’ NUMPAD1 = u’\\ue01b’ NUMPAD2 = u’\\ue01c’ NUMPAD3 = u’\\ue01d’ NUMPAD4 = u’\\ue01e’ NUMPAD5 = u’\\ue01f’ NUMPAD6 = u’\\ue020’ NUMPAD7 = u’\\ue021’ NUMPAD8 = u’\\ue022’ NUMPAD9 = u’\\ue023’ PAGE_DOWN = u’\\ue00f’ PAGE_UP = u’\\ue00e’ PAUSE = u’\\ue00b’ RETURN = u’\\ue006’ RIGHT = u’\\ue014’ SEMICOLON = u’\\ue018’ SEPARATOR = u’\\ue026’ SHIFT = u’\\ue008’ SPACE = u’\\ue00d’ SUBTRACT = u’\\ue027’ TAB = u’\\ue004’ UP = u’\\ue013’
一般来说我们与页面的交互可以使用Webelement
的方法来进行点击等操作。但是,有时候我们需要一些更复杂的动作,类似于拖动,双击,长按等等。
这时候就需要用到我们的Action Chains
(动作链)了。
from selenium.webdriver import ActionChains from selenium import webdriver driver = webdriver.Chrome() # 创建webdriver对象. element = driver.find_element_by_name("source") # 查找单一元素对象. target = driver.find_element_by_name("target") # 同上. actions = ActionChains(driver) # 创建动作链对象. # 在element元素上点击抓起,移动到target元素上松开放下。 类似鼠标. actions.drag_and_drop(element, target) actions.perform() # 执行动作.
在导入动作链模块以后,需要声明一个动作链对象,在声明时将 webdriver 对象当作参数传入,并将对象赋值给一个 actions 变量。
然后我们通过这个 actions 变量,调用其内部附带的各种动作方法进行操作。
注:在调用各种动作方法后,这些方法并不会马上执行,而是会按你代码的顺序存储在 ActionChains 对象的队列中。当你调用 perform()时,这些动作才会依次开始执行。
在 selenium 操作浏览器的过程中,每一次请求url
,selenium
都会等待页面加载完毕以后,才会将操作权限再次交给我们的程序。
但是,由于ajax
和各种JS代码
的异步加载问题,所以我们在使用selenium
的时候常常会遇到操作的元素还没有加载出来,就会引发报错。为了解决这个问题,Selenium
提供了几种等待的方法,让我们可以等待元素加载完毕后,再进行操作。
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC driver = webdriver.Chrome() driver.get("http://somedomain/url_that_delays_loading") try: # 创建wait对象. element = WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.ID, "myDynamicElement")) ) finally: driver.quit()
在这个例子中,我们在查找一个元素的时候,不再使用find_element_by_*
这样的方式来查找元素,而是使用了WebDriverWait
。
try 代码块中的代码的意思是:在抛出元素不存在异常之前,最多等待 10 秒。在这 10 秒中,WebDriverWait
会默认每 500ms 运行一次 until 之中的内容,而 until 中的EC.presence_of_element_located
则是检查元素是否已经被加载,检查的元素则通过By.ID
这样的方式来进行查找。
就是说,在 10 秒内,默认每 0.5 秒检查一次元素是否存在,存在则将元素赋值给 element 这个变量。如果超过 10 秒这个元素仍不存在,则抛出超时异常。
隐式等待指的是,在webdriver
中进行find_element
这一类查找操作时,如果找不到元素,则会默认的轮询等待一段时间。
这个值默认是 0,可以通过以下方式进行设置:
from selenium import webdriver driver = webdriver.Chrome() driver.implicitly_wait(10) # 单位是秒 driver.get("http://somedomain/url_that_delays_loading") myDynamicElement = driver.find_element_by_id("myDynamicElement")
Expected Conditions这个类提供了很多种常见的检查条件可以供我们使用。
WebDriverWait(driver,10).until(EC.title_is(u"百度一下,你就知道"))
WebDriverWait(driver,10).until(EC.title_contains(u"百度一下"))
WebDriverWait(driver,10).until(EC.presence_of_element_located((By.ID,'some')))
WebDriverWait(driver,10).until(EC.visibility_of_element_located((By.ID,'some')))
WebDriverWait(driver,10).until(EC.visibility_of(driver.find_element(by=By.ID,value='some')))
WebDriverWait(driver,10).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'some')))
WebDriverWait(driver,10).until(EC.visibility_of_any_elements_located((By.CSS_SELECTOR,'some')))
WebDriverWait(driver,10).until(EC.text_to_be_present_in_element((By.XPATH,"some"),u'设置'))
WebDriverWait(driver,10).until(EC.text_to_be_present_in_element_value((By.CSS_SELECTOR,'some'),u'百度一下'))
WebDriverWait(driver,10).until(EC.frame_to_be_available_and_switch_to_it(some))
WebDriverWait(driver,10).until(EC.invisibility_of_element_located((By.CSS_SELECTOR,'some')))
WebDriverWait(driver,10).until(EC.element_to_be_clickable((By.XPATH,"some"))).click()
WebDriverWait(driver,10).until(EC.staleness_of(driver.find_element(By.ID,'some')))
WebDriverWait(driver,10).until(EC.element_to_be_selected(driver.find_element(By.XPATH,"some")))
WebDriverWait(driver,10).until(EC.element_selection_state_to_be(driver.find_element(By.XPATH,"some"),True))
WebDriverWait(driver,10).until(EC.element_located_selection_state_to_be((By.XPATH,"some"),True))
WebDriverWait(driver,10).until(EC.alert_is_present())
''' 示意代码, 不完整. ''' from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By driver = webdriver.Chrome() wait = WebDriverWait(driver, 10) # 等待直到元素可以被点击 element = wait.until(EC.element_to_be_clickable((By.ID, 'someid')))