zoukankan      html  css  js  c++  java
  • Python技术之爬虫

    随着大数据的兴起,带动了一门编程语言的发展,没错,它就是Python。

    来自与wiki:

    Python(英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/),是一种面向对象、解释型的计算机程序语言。它包含了一组功能完备的标准库,能够轻松完成很多常见的任务。它的语法简单,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。 与Scheme、Ruby、Perl、Tcl等动态语言一样,Python具备垃圾回收功能,能够自动管理内存使用。它经常被当作脚本语言用于处理系统管理任务和网络程序编写,然而它也非常适合完成各种高级任务。Python虚拟机本身几乎可以在所有的作业系统中运行。使用一些诸如py2exe、PyPy、PyInstaller之类的工具可以将Python源代码转换成可以脱离Python解释器运行的程序。 Python的官方解释器是CPython,该解释器用C语言编写,是一个由社区驱动的自由软件,目前由Python软件基金会管理。 Python支持命令式程序设计、面向对象程序设计、函数式编程、面向侧面的程序设计、泛型编程多种编程范式。

    总结一下,Python是一个简单的、解释型的、交互式的、可移植的、面向对象的超高级语言,它的语法非常的清晰,写法简洁优美,适用于多种操作系统。

    Python的使用场景分为几大类,它可以被用来开发web程序,网络爬虫GUI开发操作系统,等等。

    今天就跟大家分享一下,基于python的网络爬虫。

    • 爱丝APP图片爬虫

      爱丝APP图片爬虫,以及免支付破解VIP看图

    • Bilibili 用户

      抓取Bilibili用户信息

    • 北邮人水木清华招聘

      Crawler_Job是获取北邮人以及水木清华论坛招聘信息的爬虫

    • 豆瓣读书

      Python所写,豆瓣读书的爬虫,方便大家搜罗各种美美书!

    • Girl-atlas

      图片爬虫,爬 http://www.girl-atlas.com 整个网站的图片

    • 机票

      Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)

    • 抓取今日头条,网易,腾讯等新闻

      新闻抓取,索引构建,前端搜索

    • 课程格子校花榜

      爬课程格子的校花榜

    • 抓取链家网信息

      爬取北京地区链家历年二手房成交记录。

    • QQ群

      批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。

    • 清华大学网络学堂爬虫

      项目目标是建立一个可以直接进行二次开发的清华网络学堂API,功能基本覆盖清华网络学堂所有功能。

    • 人人影视

      抓取人人影视指定美剧HR-HDTV的ed2k下载链接

    • 天猫双十二

      天猫双12爬虫,附266万活动商品数据。

    • 电影网站

      爬取常见电影网站的电影链,目前支持的网站有:电影天堂(www.dyt8.net)迅播影院(www.2tu.cc)

    • 微信公众号

      一个爬取微信公众号文章的爬虫

    • 新浪微博

      抓取新浪微博上的信息,一天可抓取1300万条记录

    • 知乎

      爬取知乎用户信息以及人际拓扑关系

    • 知网

      抓取知网文献

    • 知乎妹子头像

      抓取知乎上性别为女的用户的头像,由于知乎用户URL不具有规则性,所以采用BFS算法搜索所有的用户

  • 相关阅读:
    浅谈Objeact.clone克隆(纯个人理解,如有错误请指正)
    Spring集成Swagger,Java自动生成Api文档
    Spring @Value注入值失败,错误信息提示:Could not resolve placeholder
    触发器
    存储过程
    JavaEE笔记(十四)
    JavaEE笔记(十三)
    JavaEE笔记(十二)
    JavaEE笔记(十一)
    vue相关面试知识点总结
  • 原文地址:https://www.cnblogs.com/lianxiaoniu/p/7698372.html
Copyright © 2011-2022 走看看