zoukankan      html  css  js  c++  java
  • 为什么python适合写爬虫?(python到底有啥好的?!)

    我用c#,java都写过爬虫。区别不大,原理就是利用好正则表达式。只不过是平台问题。后来了解到很多爬虫都是用python写的。因为目前对python并不熟,所以也不知道这是为什么。百度了下结果:

    1)抓取网页本身的接口
    相比与其他静态编程语言,如java,c#,C++,python抓取网页文档的接口更简洁;相比其他动态脚本语言,如perl,shell,python的urllib2包提供了较为完整的访问网页文档的API。(当然ruby也是很好的选择)
    此外,抓取网页有时候需要模拟浏览器的行为,很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求,譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定,如Requestsmechanize

    2)网页抓取后的处理
    抓取的网页通常需要处理,比如过滤html标签,提取文本等。python的beautifulsoap提供了简洁的文档处理功能,能用极短的代码完成大部分文档的处理。

    其实以上功能很多语言和工具都能做,但是用python能够干得最快,最干净。Life is short, u need python.

     

    冲最后一句‘Life is short, u need python’,立马在当当上买了本python的书!以前就膜拜过python大牛,一直想学都扯于各种借口迟迟没有开始。。

    py用在linux上很强大,语言挺简单的。

    NO.1 快速开发(唯一能和python比开发效率的语言只有rudy)语言简洁,没那么多技巧,所以读起来很清楚容易。

    NO.2跨平台(由于python的开源,他比java更能体现"一次编写到处运行"

    NO.3解释性( 无须编译,直接运行/调试代码)

    NO.4构架选择太多(GUI构架方面 主要的就有 wxPython, tkInter, PyGtk, PyQt 。

     

    顺便买了本《正则表达式》的书。

    下班了,,先写到这把。。

    多学习。To be niubility!

     

  • 相关阅读:
    win10 UWP button
    内网分享资源
    内网分享资源
    CF724F Uniformly Branched Trees
    win10 UWP FlipView
    win10 UWP FlipView
    win10 UWP FlipView
    搭建阿里云 centos mysql tomcat jdk
    搭建阿里云 centos mysql tomcat jdk
    win10 UWP 申请微软开发者
  • 原文地址:https://www.cnblogs.com/benzone/p/5854084.html
Copyright © 2011-2022 走看看