zoukankan      html  css  js  c++  java
  • 我的第一个 python 爬虫脚本

    #!/usr/bin/env python
    # coding=utf-8
    import urllib2
    from bs4 import BeautifulSoup

    #res = urllib.urlopen("http://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/?focus=book")
    #res = urllib2.urlopen("https://www.cnblogs.com/bensonyang/")
    res = urllib2.urlopen("https://www.cnblogs.com/hearzeus/")
    #print res
    soup = BeautifulSoup(res,features="html.parser")
    #print soup
    book_div = soup.find(attrs={"id":"main"})
    #print book_div
    book_a = book_div.findAll(attrs={"class":"postTitle2"})
    for book in book_a:
    print book.string.strip()

    【输出结果:】

    benson@bensons-MacBook-Pro:~/vm_share/python_mysql $ ./benson.py
    Python 爬虫入门——小项目实战(自动私信博客园某篇博客下的评论人,随机发送一条笑话,完整代码在博文最后)
    Python 爬虫入门(四)—— 验证码下篇(破解简单的验证码)
    Python 爬虫入门(四)—— 验证码上篇(主要讲述验证码验证流程,不含破解验证码)
    Python 爬虫入门(三)—— 寻找合适的爬取策略
    Python 爬虫入门(二)—— IP代理使用
    Python 爬虫入门(一)
    Dubbo、Zookeeper集群搭建及Rose使用心得(二)
    Dubbo、Zookeeper集群搭建及Rose使用心得(一)
    JAVA 加密算法初探DES&AES
    Android 蓝牙模块基础操作
    benson@bensons-MacBook-Pro:~/vm_share/python_mysql $

  • 相关阅读:
    判断大小写数字个数,取交集和并集
    软件工程总结
    正则表达式(邮箱)
    今天距离你生日的天数
    字符数量,查回文
    解决一个表单中的两个或者多个按钮提交到不同的页面中问题
    jsp前台输入框不输入值,后台怎么取出整型?
    第十次作业
    CMD命令行
    Kali渗透安卓手机
  • 原文地址:https://www.cnblogs.com/bensonyang/p/12011650.html
Copyright © 2011-2022 走看看