zoukankan      html  css  js  c++  java
  • 抓取菜鸟教程中python内置函数的关键字和链接

    
    import requests 
    from lxml import etree
    import os
    '''
    1.抓取菜鸟教程中python内置函数的关键字和链接
    并保存在文件中
    2.抓取跳转路劲的页面中的描述性语言
    失败
    
    '''
    # 看来抓取页面和跳转的链接非常的简单
    url = "https://www.runoob.com/python/python-built-in-functions.html"
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
    
    response = requests.get(url = url,headers=headers)
    page_1 = response.text
    tree = etree.HTML(page_1)
    a_list = tree.xpath('//div[@id="content"]/table/tbody/tr/td/a/text()')
    a_herf = tree.xpath('//div[@id="content"]/table/tbody/tr/td/a/@href') # 取属性要加@
    print(a_list)
    print(a_herf)
    fp = open('python内置函数.txt','w',encoding='utf-8')
    a = 0
    # 抓取跳转链接之后的关键字 这里的xpath路径返回空列表
    for url_li in a_herf:
        
        url1 = "https://www.runoob.com/" + url_li
        fp.write(a_list[a]+'	'+url1+'
    ')
        a+=1
    fp.close()
        # page_2 = requests.get(url=url1,headers=headers)
        # tree1 = etree.HTML(page_1)
        # p_list = tree1.xpath('//div[@class="article-intro"]/p/text')
        # p_shuomin = tree1.xpath('//div[@id="content"]/blockquote/text') # 这个是说明描述
        # print(p_list)
        # print('*'*40)
        # print(p_shuomin)
    
    
    
    
    
    努力拼搏吧,不要害怕,不要去规划,不要迷茫。但你一定要在路上一直的走下去,尽管可能停滞不前,但也要走。
  • 相关阅读:
    git学习02
    每日一记8.12
    git学习01
    每日一记8.7
    每日一记8.6
    spring boot使用tomcat启动
    每日一记8.1
    【学习笔记】HTML5 WebGL游戏引擎开发
    【转】使用 WebGL 进行 3D 开发,第 3 部分: 添加用户交互
    【转】使用 WebGL 进行 3D 开发,第 2 部分: 使用 WebGL 库以更少的编码做更多的事情
  • 原文地址:https://www.cnblogs.com/wkhzwmr/p/14977493.html
Copyright © 2011-2022 走看看