zoukankan      html  css  js  c++  java
  • 小白看网络爬虫

    名字很猥琐,其实学问很深,小白今天做了一点点基于python的网络爬虫工作,没有太多,因为python并不是很熟

    A.python

    1、要在网上得到资料,有个非常好用的库就是上节所说到的urllib2,这库简单明了,功能不错,想看详细的可以上google搜索一下,第一条介绍的挺详细,或者在linux ipython界面下import URLlib2 之后输入urllib2.+tab就可以看库函数有什么了。在这次操作中主要运用了urlopen这个函数 格式如下:

    urllib2.urlopen('(网址)').read()

    2、记录一些文件读写操作:

    filename='';

    f=file(filename,'w') #以写的形式打开filename

    cPickle.dump(data,f) #data写入文件filename

    f.close #关闭文件

    filename='';
    f=file(filename) #打开

    ss=cPicke.load(f) #ss为读入数据

    B.json

    貌似是一个网站内容格式标准,详情json.org可以看一下,当然python中也有解析json的库,真是挺棒哒~今天主要运用了json->python 这种任务,运用的代码为json.loads(数据),之后可以通过json格式化网站看代码了解结构并用以下代码提取url值

    s1=s["data"]["items"]

    for i in range(1,len(s1))

      f.write(s1[i]["url"])

    进行网址输入文件的操作

    C.Linux

    今天熟悉了一些文件删除 移动操作

    mv file1 tmp/file2 nwdir file1与tmp/目录下file2 共同导入nwdir文件夹

    rm -f file1 删除文件

  • 相关阅读:
    PUTTY与SecureCRT的比较
    java中volatile关键字的含义
    java中引用的原理
    Java陷阱之assert关键字
    脏读 幻读 不可重复读
    JAVA 的wait(), notify()与synchronized同步机制
    线程状态转换图
    并行、并发、同步和互斥
    B-树学习笔记
    平衡二叉树及其应用场景
  • 原文地址:https://www.cnblogs.com/Victory-walt/p/4790421.html
Copyright © 2011-2022 走看看