zoukankan      html  css  js  c++  java
  • 获取指定网页的所有链接

    Github上的一个小项目,通过requests和bs4获取网页指定网页上的所有链接:

    """
        一个小程序,获取指定网页上的所有链接
    """
    
    import requests
    from bs4 import BeautifulSoup
    
    url = input("请输入网址:") # 从终端输入网址
    
    if ("https" or "http") in url: # 判定一下
        webData = requests.get(url) # 获取网页响应
        # print(webData)
    else:
        webData = requests.get("https://" + url)
    
    webData.encoding = webData.apparent_encoding # 编码
    webData.raise_for_status()
    # webData.encoding = 'utf-8' # 编码
    # print(webData.text)
    htmlData = webData.text
    # 解析网页数据
    # soup = BeautifulSoup(htmlData, 'html.parser')
    soup = BeautifulSoup(htmlData, 'lxml')
    # print(soup)
    
    # 开始查找网页下所有链接
    allLinksFromPage = []
    links = soup.find_all('a')
    # print(links)
    for link in links:
        getLink = link.get('href')
        allLinksFromPage.append(getLink)
    
    # print(allLinksFromPage)
    
    # 开始存储
    with open('myLinks.txt', 'w') as saved:
        print(allLinksFromPage[0:10], file=saved) # 保存前十条
        saved.close()
    

      

  • 相关阅读:
    BoundsChecker下载
    大型系统内部资源定位的途径
    架构的焦点
    为什么日志只应该有三个级别
    回收站引发ORACLE查询表空间使用缓慢
    题目记录
    广搜入门 待改进的广搜
    归并排序的使用
    大数数组中滚动数组的应用
    多重背包问题
  • 原文地址:https://www.cnblogs.com/mafu/p/15419691.html
Copyright © 2011-2022 走看看