zoukankan      html  css  js  c++  java
  • 爬虫3

    """
    操作selenium的时候,先写一点,再按照它打开的浏览器写找到内容,因为我的浏览器可能是保存密码等设置过,和他的界面不一样!!
    查找的时候,有id尽量找id

    操作selenium命令如下
    点击click()
    各种通过id,text,class查找等
    输入.send_keys()
    获取cookie:get_cookies()
    .add_cookie({'k1':'xxx','k2':'yyy'}) 设置cookie
    bro.execute_script('alert("hello world")') #打印警告
    执行脚本:browser.execute_script('window.open()')
    """

    selenium的查找方式

    显示等待和隐士等待

    #显示等待和隐示等待
    #隐式等待:在查找所有元素时,如果尚未被加载,则等10秒(针对所有)
    # browser.implicitly_wait(10)   表示等待所有,
    
    #显式等待:显式地等待某个元素被加载(针对局部,可能要写多个)
    # wait=WebDriverWait(browser,10)
    # wait.until(EC.presence_of_element_located((By.ID,'content_left')))
    
    from selenium import webdriver
    
    import time
    bro=webdriver.Chrome()
    bro.get("http://www.baidu.com")
    bro.implicitly_wait(10)
    # 1、find_element_by_id   根据id找
    # 2、find_element_by_link_text     根据链接名字找到控件(a标签的文字)
    # 3、find_element_by_partial_link_text   根据链接名字找到控件(a标签的文字)模糊查询
    # 4、find_element_by_tag_name       根据标签名
    # 5、find_element_by_class_name     根据类名
    # 6、find_element_by_name           根据属性名
    # 7、find_element_by_css_selector   根据css选择器
    # 8、find_element_by_xpath          根据xpath选择
    
    dl_button=bro.find_element_by_link_text("登录")
    dl_button.click()
    user_login=bro.find_element_by_id('TANGRAM__PSP_10__footerULoginBtn')
    user_login.click()
    time.sleep(1)
    input_name=bro.find_element_by_name('userName')
    input_name.send_keys("17851822064")
    input_password=bro.find_element_by_id("TANGRAM__PSP_10__password")
    input_password.send_keys("Az84564586")
    submit_button=bro.find_element_by_id('TANGRAM__PSP_10__submit')
    time.sleep(1)
    submit_button.click()
    
    time.sleep(100)
    
    print(bro.get_cookies())
    bro.close()
    

    2 selenium爬取实例

    上面这种多个属性的,选择其中一个属性即可。假如直接复制全部属性,那么使用css选择器,选择内部嵌套的标签就出现空格问题了!!!

    换行问题

    下面这个strong嵌套a,a中有文本。通过good.find_element_by_css_selector('.p-commit strong').text可将strong内的全部文本取出!

    <strong><a id="J_comment_100002888716" target="_blank"href="//item.jd.com/100002888716.html#comment" onclick="searchlog(1,100002888716,1,3,'','flagsClk=1094717576')">6500+</a>条评价</strong>
    
    
    from selenium import webdriver
    from selenium.webdriver.common.keys import Keys #键盘按键操作
    import time
    bro=webdriver.Chrome()
    bro.get("https://www.jd.com")
    bro.implicitly_wait(10)
    
    def get_goods(bro):
        print("------------------------------------")
        goods_li = bro.find_elements_by_class_name('gl-item') 
        for good in goods_li:
            img_url = good.find_element_by_tag_name('img').get_attribute('src')
            if not img_url:
                img_url = 'https:' + good.find_element_by_css_selector('.p-img a img').get_attribute('data-lazy-img')
            url = good.find_element_by_css_selector('.p-img a').get_attribute('href')
            price = good.find_element_by_css_selector('.p-price i').text
            # name = good.find_element_by_css_selector('.p-name p-name-type-2 em').text
    
            name = good.find_element_by_css_selector('.p-name em').text.replace('
    ', '')
            commit = good.find_element_by_css_selector('.p-commit strong').text#商品评论数:1.7万+条评价
            print('''
            商品链接:%s
            商品图片:%s
            商品名字:%s
            商品价格:%s
            商品评论数:%s
            ''' % (url, img_url, name, price,commit))
    
        next_page = bro.find_element_by_partial_link_text("下一页")
        time.sleep(1)
        next_page.click()
        time.sleep(1)
        get_goods(bro)
    input_search=bro.find_element_by_id('key')
    input_search.send_keys("性感内裤")
    input_search.send_keys(Keys.ENTER)
    #进入了另一个页面
    try:
        get_goods(bro)
    except Exception as e:
        print("结束")
    finally:
        bro.()
    

    操作

    #获取属性:
    # tag.get_attribute('src')
    
    #获取文本内容(包含嵌套标签内的内容)
    # tag.text
    
    #获取标签ID,位置,名称,大小(了解)
    # print(tag.id)
    # print(tag.location)
    # print(tag.tag_name)
    # print(tag.size)
    
    #模拟浏览器前进后退
    # browser.back()
    # time.sleep(10)
    # browser.forward()
    
    
    
    

    cookies管理

    #cookies管理(*****)
    # print(browser.get_cookies())  获取cookie
    # browser.add_cookie({'k1':'xxx','k2':'yyy'})  设置cookie
    

    运行js。执行脚本

    #运行js。执行脚本
    # from selenium import webdriver
    # import time
    #
    # bro=webdriver.Chrome()
    # bro.get("http://www.baidu.com")
    # bro.execute_script('alert("hello world")') #打印警告
    
    import time
    from selenium import webdriver
    
    browser=webdriver.Chrome()
    browser.get('https://www.baidu.com')
    browser.execute_script('window.open()')
    
    #选项卡管理
    用【1】来表示第几个选项卡。
    
    import time
    from selenium import webdriver
    
    browser=webdriver.Chrome()
    browser.get('https://www.baidu.com')
    browser.execute_script('window.open()')
    
    print(browser.window_handles) #获取所有的选项卡
    browser.switch_to_window(browser.window_handles[1])#选项框从左到右依次为0到正无穷
    browser.get('https://www.taobao.com')
    browser.close()
    time.sleep(3)
    browser.switch_to_window(browser.window_handles[0])
    browser.get('https://www.sina.com.cn')
    browser.close()
    

    动作链

    #动作链
    # from selenium import webdriver
    # from selenium.webdriver import ActionChains
    #
    # from selenium.webdriver.support.wait import WebDriverWait  # 等待页面加载某些元素
    # import time
    #
    # driver = webdriver.Chrome()
    # driver.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')
    # wait=WebDriverWait(driver,3)
    # # driver.implicitly_wait(3)  # 使用隐式等待
    #
    # try:
    #     driver.switch_to.frame('iframeResult') ##切换到iframeResult
    #     sourse=driver.find_element_by_id('draggable')
    #     target=driver.find_element_by_id('droppable')
    #
    #
    # #方式一:基于同一个动作链串行执行
    # # actions=ActionChains(driver) #拿到动作链对象
    # # actions.drag_and_drop(sourse,target) #把动作放到动作链中,准备串行执行
    # # actions.perform()
    #
    # #方式二:不同的动作链,每次移动的位移都不同
    #
    #
    #     ActionChains(driver).click_and_hold(sourse).perform()
    #     distance=target.location['x']-sourse.location['x']
    #
    #
    #     track=0
    #     while track < distance:
    #         ActionChains(driver).move_by_offset(xoffset=2,yoffset=0).perform()
    #         track+=2
    #
    #     ActionChains(driver).release().perform()
    #
    #     time.sleep(10)
    #
    #
    # finally:
    #     driver.close()
    

    只需要记得这张图即可

    json操作

    # 序列化和反序列化
    with open('cookie.json','w')as f:
       json.dump(cookie,f)
    
    with open('cookie.json','r')as f:
        di=json.load(f)
    

    使用selenium打开网址,然后让用户完成手工登录,再获取cookie,根据获取来的cookies,并且带着头,来进行登陆

    
    import requests
    from selenium import webdriver
    import time
    import json
    # 使用selenium打开网址,然后让用户完成手工登录,再获取cookie
    url = 'https://account.cnblogs.com/signin?returnUrl=https%3A%2F%2Fwww.cnblogs.com%2F'
    driver = webdriver.Chrome()
    driver.get(url=url)
    time.sleep(15)
    driver.refresh()
    c = driver.get_cookies()
    print(c)
    with open('xxx.txt','w') as f:
        json.dump(c,f)
    
    
    with open('xxx.txt', 'r') as f:
        di = json.load(f)
    cookies = {}
    
    # 获取cookie中的name和value,转化成requests可以使用的形式
    for cookie in di:
        cookies[cookie['name']] = cookie['value']
    print(cookies)
    # from datetime import datetime
    #
    # GMT_FORMAT = '%a, %d %b %Y %H:%M:%S GMT'
    #
    # # Sun, 24 Nov 2019 06:14:53 GMT
    # #Tue, 26 Nov 2019 22:18:23 GMT
    # #Sun, 24 Nov 2019 06:14:53 GMT
    # # Tue, 26 Nov 2019 14:16:01 GMT (GMT)
    # print(datetime.now().strftime(GMT_FORMAT))
    # ttt=str(datetime.now().strftime(GMT_FORMAT))
    headers = {
        # 'authority': 'www.jd.com',
        # 'method': 'GET',
        # 'path': '/',
        # 'scheme': 'https',
        # 'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
        # 'accept-encoding': 'gzip, deflate, br',
        # 'accept-language': 'zh-CN,zh;q=0.9',
        # 'cache-control': 'max-age=0',
        # 'upgrade-insecure-requests': '1',
        'authority': 'i-beta.cnblogs.com',
        'method': 'GET',
        'path': '/',
        'scheme': 'https',
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9',
        'cache-control': 'max-age=0',
        'if-modified-since': 'Sun, 24 Nov 2019 06:14:53 GMT',
        # 'if-modified-since': 'Sun, 24 Nov 2019 06:14:53 GMT,
        'sec-fetch-mode': 'navigate',
        'sec-fetch-site': 'none',
        'sec-fetch-user': '?1',
        'upgrade-insecure-requests': '1',
        'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
    
    }
    # 使用该cookie完成请求
    response = requests.get(url='https://i-beta.cnblogs.com/api/user', headers=headers, cookies=cookies)
    print('xxx')
    response.encoding = response.apparent_encoding
    print(response.text)
    

    requests-html

    request-html安装:百度搜索request-html中文文档

    pip install requests-html
    

    xpaht选择

  • 相关阅读:
    基本类型和包装类对象使用 == 和 equals进行比较的结果?
    ==和equals的区别是什么?
    JDK和JRE有什么区别?
    Java自学指南三、入门视频优先
    Java自学指南二、后端开发全景图与快速入门
    Java自学指南一、找一个开始并能坚持下去的理由
    什么是&#160;happens-before 原则?
    什么是 Java 内存模型?
    Java 中有哪些无锁技术来解决并发问题?如何使用?
    什么是活锁和饥饿?
  • 原文地址:https://www.cnblogs.com/ZDQ1/p/11973086.html
Copyright © 2011-2022 走看看