利用selenium来进行爬取数据
import time from selenium import webdriver # 创建phantomjs浏览器对象 driver = webdriver.PhantomJS() # 向网站发送请求 driver.get("http://www.baidu.com/") # 打印响应html源码 print(driver.page_source) # 查看源码中是否有搜索两个字,失败返回-1,成功非-1 print(driver.page_source.find("搜索")) # 向百度搜索框发送内容 driver.find_element_by_id("kw").send_keys("拉勾") # 点击搜索按钮 driver.find_element_by_id("su").click() # 为了得到一张完整的图片,因此添加延时 time.sleep(2) # 获取内存中网页中的截屏 driver.save_screenshot("拉勾.png") # 关闭浏览器 driver.quit()
如果要用chrome浏览器的话,则将浏览器对象改为Chrome就可以
driver = webdriver.Chrome()
若要将有头浏览器变成无头浏览器的话,这添加
opt = webdriver.ChromeOptions()
opt.set_headless()
driver_item = webdriver.Chrome(options=opt)
还有好多方法,查看文档即可:https://python-selenium-zh.readthedocs.io/zh_CN/latest/