随着大数据的兴起,带动了一门编程语言的发展,没错,它就是Python。
来自与wiki:
Python(英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/),是一种面向对象、解释型的计算机程序语言。它包含了一组功能完备的标准库,能够轻松完成很多常见的任务。它的语法简单,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。 与Scheme、Ruby、Perl、Tcl等动态语言一样,Python具备垃圾回收功能,能够自动管理内存使用。它经常被当作脚本语言用于处理系统管理任务和网络程序编写,然而它也非常适合完成各种高级任务。Python虚拟机本身几乎可以在所有的作业系统中运行。使用一些诸如py2exe、PyPy、PyInstaller之类的工具可以将Python源代码转换成可以脱离Python解释器运行的程序。 Python的官方解释器是CPython,该解释器用C语言编写,是一个由社区驱动的自由软件,目前由Python软件基金会管理。 Python支持命令式程序设计、面向对象程序设计、函数式编程、面向侧面的程序设计、泛型编程多种编程范式。
总结一下,Python是一个简单的、解释型的、交互式的、可移植的、面向对象的超高级语言,它的语法非常的清晰,写法简洁优美,适用于多种操作系统。
Python的使用场景分为几大类,它可以被用来开发web程序
,网络爬虫
,GUI开发
,操作系统
,等等。
今天就跟大家分享一下,基于python的网络爬虫。
-
爱丝APP图片爬虫,以及免支付破解VIP看图
-
抓取Bilibili用户信息
-
Crawler_Job是获取北邮人以及水木清华论坛招聘信息的爬虫
-
Python所写,豆瓣读书的爬虫,方便大家搜罗各种美美书!
-
图片爬虫,爬 http://www.girl-atlas.com 整个网站的图片
-
Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)
-
新闻抓取,索引构建,前端搜索
-
爬课程格子的校花榜
-
爬取北京地区链家历年二手房成交记录。
-
批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。
-
项目目标是建立一个可以直接进行二次开发的清华网络学堂API,功能基本覆盖清华网络学堂所有功能。
-
抓取人人影视指定美剧HR-HDTV的ed2k下载链接
-
天猫双12爬虫,附266万活动商品数据。
-
爬取常见电影网站的电影链,目前支持的网站有:电影天堂(www.dyt8.net)迅播影院(www.2tu.cc)
-
一个爬取微信公众号文章的爬虫
-
抓取新浪微博上的信息,一天可抓取1300万条记录
-
爬取知乎用户信息以及人际拓扑关系
-
抓取知网文献
-
抓取知乎上性别为女的用户的头像,由于知乎用户URL不具有规则性,所以采用BFS算法搜索所有的用户