zoukankan      html  css  js  c++  java
  • 抓取菜鸟教程中python内置函数的关键字和链接

    
    import requests 
    from lxml import etree
    import os
    '''
    1.抓取菜鸟教程中python内置函数的关键字和链接
    并保存在文件中
    2.抓取跳转路劲的页面中的描述性语言
    失败
    
    '''
    # 看来抓取页面和跳转的链接非常的简单
    url = "https://www.runoob.com/python/python-built-in-functions.html"
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
    
    response = requests.get(url = url,headers=headers)
    page_1 = response.text
    tree = etree.HTML(page_1)
    a_list = tree.xpath('//div[@id="content"]/table/tbody/tr/td/a/text()')
    a_herf = tree.xpath('//div[@id="content"]/table/tbody/tr/td/a/@href') # 取属性要加@
    print(a_list)
    print(a_herf)
    fp = open('python内置函数.txt','w',encoding='utf-8')
    a = 0
    # 抓取跳转链接之后的关键字 这里的xpath路径返回空列表
    for url_li in a_herf:
        
        url1 = "https://www.runoob.com/" + url_li
        fp.write(a_list[a]+'	'+url1+'
    ')
        a+=1
    fp.close()
        # page_2 = requests.get(url=url1,headers=headers)
        # tree1 = etree.HTML(page_1)
        # p_list = tree1.xpath('//div[@class="article-intro"]/p/text')
        # p_shuomin = tree1.xpath('//div[@id="content"]/blockquote/text') # 这个是说明描述
        # print(p_list)
        # print('*'*40)
        # print(p_shuomin)
    
    
    
    
    
    努力拼搏吧,不要害怕,不要去规划,不要迷茫。但你一定要在路上一直的走下去,尽管可能停滞不前,但也要走。
  • 相关阅读:
    获取 鼠标 键盘 最后响应信息
    EF 6 for mysql
    Python中的OS模块。
    python中的随机函数random的用法示例random
    Python中OSI七层模型
    Pythoon中的面向对象三大特征
    Python中的函数(学习日记)
    Python的6种运算符(日记)
    计算机的发展史
    osi七层
  • 原文地址:https://www.cnblogs.com/wkhzwmr/p/14977493.html
Copyright © 2011-2022 走看看