zoukankan      html  css  js  c++  java
  • Python学习 第7天 爬虫-1 构思

     语法大概熟悉后,开始尝试下爬虫,这也是python比较热门的一种应用,只有在实际应用中摸索才能掌握,光看教程不够。

    刚好有下载电影的需求,思路如下:

    1、整理一个待下载的电影名称列表的文本,每行一个电影名字

    2、到一个bt搜索网站上按行循环搜索

    3、搜索名字后会出现一堆结果,主要判断两个地方。

    一个是大小,找出第1页10G以内从大到小排列前三的,因为超过10G可能就不是所要找的内容了,而是一些什么合集

    另一个是人气,大小第一如果人气太低也下载不了,所以要在下载大小和人气之间选择容易尽量大、人气尽量多的。先按大小也行,看下下载情况,或者取个临界值,小于多少人气的就顺位取后面一个。

    4、找到这个链接后,点击进去(即python抓取网页),里面有个magent地址,这个就是要找的,记录在文本,并把原先文本里的电影名称删除,避免重复抓取。

    文本可能不方便,估计弄个数据库打上已处理标记更好。

    其实要处理文本也可以,读取文本,找到记录,在前面加上【已抓取】几个字,下次取的时候写死判断前面带这几个字的就跳过

    上午要加班,回来再试下

    ============================

    中午下雨,就没回家吃了直接在公司趴了一会下午继续,做到四点部门去看电影,刺客信条,没看懂。看完聚餐,九点前能78元抵100元,结果不知道,21:02出来结账。。。最后只好打九五折并送五张50元券,还好可以报销。

    具体就没法试了,晚上先找些资料看下怎么爬取网页吧

    ============================

    #encoding=utf8
    import urllib
    res = urllib.urlopen("http://www.baidu.com")
    
    file_object = open('thefile.txt', 'w')
    file_object.write(res.read())
    file_object.close()

    总算有个起步了

    import的这个urllib,是通用爬取网页的包,用urlopen可以打开网页,再.read()可以获取网页内容

    要写到文件里,要先open('xx','w'),再write,并记得close()

  • 相关阅读:
    Arduino开发版学习计划--直流电机
    Arduino开发版学习计划--蜂鸣器
    社交网络编程API之iOS系统自带分享
    iOS解析XML实现省市区选择
    Frameworks(不定时更新)
    NSLayoutConstraint
    Categories  VS Extensions (分类 vs 扩展)
    strong vs copy
    折半查找
    Block
  • 原文地址:https://www.cnblogs.com/liuyouying/p/6440863.html
Copyright © 2011-2022 走看看