zoukankan      html  css  js  c++  java
  • Python学习 第7天 爬虫-1 构思

     语法大概熟悉后,开始尝试下爬虫,这也是python比较热门的一种应用,只有在实际应用中摸索才能掌握,光看教程不够。

    刚好有下载电影的需求,思路如下:

    1、整理一个待下载的电影名称列表的文本,每行一个电影名字

    2、到一个bt搜索网站上按行循环搜索

    3、搜索名字后会出现一堆结果,主要判断两个地方。

    一个是大小,找出第1页10G以内从大到小排列前三的,因为超过10G可能就不是所要找的内容了,而是一些什么合集

    另一个是人气,大小第一如果人气太低也下载不了,所以要在下载大小和人气之间选择容易尽量大、人气尽量多的。先按大小也行,看下下载情况,或者取个临界值,小于多少人气的就顺位取后面一个。

    4、找到这个链接后,点击进去(即python抓取网页),里面有个magent地址,这个就是要找的,记录在文本,并把原先文本里的电影名称删除,避免重复抓取。

    文本可能不方便,估计弄个数据库打上已处理标记更好。

    其实要处理文本也可以,读取文本,找到记录,在前面加上【已抓取】几个字,下次取的时候写死判断前面带这几个字的就跳过

    上午要加班,回来再试下

    ============================

    中午下雨,就没回家吃了直接在公司趴了一会下午继续,做到四点部门去看电影,刺客信条,没看懂。看完聚餐,九点前能78元抵100元,结果不知道,21:02出来结账。。。最后只好打九五折并送五张50元券,还好可以报销。

    具体就没法试了,晚上先找些资料看下怎么爬取网页吧

    ============================

    #encoding=utf8
    import urllib
    res = urllib.urlopen("http://www.baidu.com")
    
    file_object = open('thefile.txt', 'w')
    file_object.write(res.read())
    file_object.close()

    总算有个起步了

    import的这个urllib,是通用爬取网页的包,用urlopen可以打开网页,再.read()可以获取网页内容

    要写到文件里,要先open('xx','w'),再write,并记得close()

  • 相关阅读:
    HTML页面之间跳转传值
    Ajax之三种数据传输格式
    css选择器
    jQuery Validate
    正则表达式
    JSP的九大内置对象,七大动作指令,四个作用域,三个编译指令
    Zooeeper之paxos算法
    ZooKeeper之选举(fastleaderelection算法)
    ZooKeeper之ZAB协议
    ZooKeeper之三阶段提交(3PC)
  • 原文地址:https://www.cnblogs.com/liuyouying/p/6440863.html
Copyright © 2011-2022 走看看