zoukankan      html  css  js  c++  java
  • python|爬虫东宫小说

    2k小说网爬取最近大火的《东宫》小说,借鉴之前看过的一段代码,修改之后,进行简单爬取。

    from urllib import request
    from bs4 import BeautifulSoup
    url='https://www.fpzw.com/xiaoshuo/19/19210/'
    req=request.Request(url)
    response=request.urlopen(req)
    html=response.read()
    soup=BeautifulSoup(html,'html.parser')
    soup_text=soup.find_all('dd')[4:]
    f= open('Desktop/donggong.doc','w',encoding='utf-8')
    for link in soup_text:
    url2='https://www.fpzw.com/xiaoshuo/19/19210/'+link.a.get('href')
    req2=request.Request(url2)
    response2=request.urlopen(req2)
    html2=response2.read()
    soup2=BeautifulSoup(html2,'html.parser')
    soup_text2=soup2.find('p',class_="Text").text
    soup_text3=soup_text2.replace('东宫最新章节','')
    soup_text3=soup_text3.replace('2k小说网欢迎您!本站域名:"2k小说"的完整拼音fpzw.com,很好记哦!www.fpzw.com 好看的小说','')
    soup_text3=soup_text3.replace('强烈推荐:','')
    f.write(soup_text3)
    f.write(' ')
    f.close()

    爬取的结果没进行精细处理,后续待优化。

  • 相关阅读:
    asp后台读id设置样式
    js,需要更多源字符
    列名无效
    asp,对待绑定数据加序号列(DataSet)
    ashx 绝对路径得到物理路径
    方法执行一次js
    小细节
    Spring oauth大致流程
    第六章 分支语句和逻辑运算符
    第七章 函数
  • 原文地址:https://www.cnblogs.com/susuye/p/10549737.html
Copyright © 2011-2022 走看看