zoukankan      html  css  js  c++  java
  • python爬取糗百第一页的笑话

    自学python网络爬虫,发现request比urllib还是要好用一些,因此利用request和BeautifulSoup来实现糗百的首页笑话的抓取。
    BeautifulSoup通过find和findAll以及利用正则表达式实现HTML对应模块的抓取,当然select也是一个不错的选择。
    下面是临时的代码,后续还会继续完善
     1 # coding=utf-8
     2 import requests
     3 from bs4 import BeautifulSoup
     4 
     5 page = 1
     6 url = 'http://www.qiushibaike.com/hot/page/' + str(page)
     7 try:
     8     res=requests.get(url)
     9     # print res.text # 如果请求成功,下载的网页就作为一个字符串,保存在相应的text变量中,这就是为什么用res.text。
    10 except Exception as e:
    11     print '打开网页出现异常:',e
    12 
    13 try:
    14     soup=BeautifulSoup(res.text,'html.parser')
    15     elms=soup.select('.content') #这里产生一个列表
    16     for elm in elms:
    17         print elm.text
    18 except Exception as e:
    19     print '解析出现异常:',e
    
    
     
  • 相关阅读:


    django 认证系统--3
    django 认证系统--2
    django 认证系统--1


    关于二叉树
    [GeeksForGeeks] Remove all half nodes of a given binary tree
    [LintCode] Letter Combinations of a Phone Number
  • 原文地址:https://www.cnblogs.com/carpenterworm/p/6009357.html
Copyright © 2011-2022 走看看