zoukankan      html  css  js  c++  java
  • Ubuntu下配置python完成爬虫任务(笔记一)

    Ubuntu下配置python完成爬虫任务(笔记一)

    目标:

    作为一个.NET汪,是时候去学习一下Linux下的操作了。为此选择了python来边学习Linux,边学python,熟能生巧嘛。

    前期目标是完成环境配置,apt的简单操作。

    之后按照网上的文档学习一下python的操作,顺便用python写爬虫功能。由于有用C#写爬虫的底子,应该能少走许多弯路。

    再接下来,就安装配置一下redis,用python读写一下redis。最后小程序跑起来。这个初级学习过程就算结束了。【15Day】

    正文:

    首先登陆系统:

    我这里是虚拟机集群服务器上的一个Ubuntu学习用虚拟机。

    我在window上用Xshell 5来远程登陆Ubuntu。

    登陆看看,关于Ubuntu的配置,就不介绍了,网文很多,不是这里话题点。

    查看一下python的版本:

    python --version

    好了,看到这里是2.7.6版本的python。

    接下来通过urllib2这个包来写一个读取网页的小例子:

    首先导入urllib2:

    import urllib2

    在这一步,若是导入失败,提示没有urllib2,我们就去安装一下。

    在ubuntu下有apt-get这个包管理器,使用起来巨方便的,通过这个东西来导入urllib2

    键入搜索命令:

    apt-cache search urllib2

    这个命令会显示所有urllib2关键字的包,并且后面写了简单的说明,根据需要进行安装即可。

    安装完成后,继续coding!

    回到导入urllib2的步骤,然后继续读取一个页面,例如政府首页。

    page = urllib2.urlopen("http://www.gov.cn/")

    然后读取内容。

    page = urllib2.urlopen("http://www.gov.cn/")

    打印,看看内容:

    回车后,发现html内容已经读取出来了。

    小测试写到这里。

  • 相关阅读:
    Django请求生命周期
    继上一篇Django的数据库数据的编辑和删除
    NumPy-布尔索引
    NumPy-基础索引与切片
    NumPy-数组算术
    NumPy-ndarray 的数据类型
    NumPy-生成ndarray
    Django 静态资源,请求,数据库的连接和操作
    设置谷歌默认浏览器
    奋斗史-IT女生是怎样炼成的
  • 原文地址:https://www.cnblogs.com/likeli/p/5280540.html
Copyright © 2011-2022 走看看