小白看网络爬虫 - 走看看

zoukankan html css js c++ java

小白看网络爬虫

名字很猥琐，其实学问很深，小白今天做了一点点基于python的网络爬虫工作，没有太多，因为python并不是很熟

A.python

1、要在网上得到资料，有个非常好用的库就是上节所说到的urllib2，这库简单明了，功能不错，想看详细的可以上google搜索一下，第一条介绍的挺详细，或者在linux ipython界面下import URLlib2 之后输入urllib2.+tab就可以看库函数有什么了。在这次操作中主要运用了urlopen这个函数格式如下：

urllib2.urlopen('(网址)').read()

2、记录一些文件读写操作：

filename='';

f=file(filename,'w') #以写的形式打开filename

cPickle.dump(data,f) #data写入文件filename

f.close #关闭文件

filename='';
f=file(filename) #打开

ss=cPicke.load(f) #ss为读入数据

B.json

貌似是一个网站内容格式标准，详情json.org可以看一下，当然python中也有解析json的库，真是挺棒哒~今天主要运用了json->python 这种任务，运用的代码为json.loads(数据)，之后可以通过json格式化网站看代码了解结构并用以下代码提取url值

s1=s["data"]["items"]

for i in range(1,len(s1))

　　f.write(s1[i]["url"])

进行网址输入文件的操作

C.Linux

今天熟悉了一些文件删除移动操作

mv file1 tmp/file2 nwdir file1与tmp/目录下file2 共同导入nwdir文件夹

rm -f file1 删除文件

查看全文

相关阅读:
template
open File Browser in shell
自定义模板类型vs模板类型自动推测
 protobuffer
多重继承＆虚继承
 What I'm Researching
JobTracker和TaskTracker
MapReduce
How To Use Google Flags
Frequently Used Shell Commands

原文地址：https://www.cnblogs.com/Victory-walt/p/4790421.html

最新文章
gpg的使用
 python之time&datetime
python之daemon线程
 Python之ConfigParser
pdb调试
 ps命令
 SVN常用命令
 Python Modules
构建索引
 词条归一化

Copyright © 2011-2022 走看看