名字很猥琐,其实学问很深,小白今天做了一点点基于python的网络爬虫工作,没有太多,因为python并不是很熟
A.python
1、要在网上得到资料,有个非常好用的库就是上节所说到的urllib2,这库简单明了,功能不错,想看详细的可以上google搜索一下,第一条介绍的挺详细,或者在linux ipython界面下import URLlib2 之后输入urllib2.+tab就可以看库函数有什么了。在这次操作中主要运用了urlopen这个函数 格式如下:
urllib2.urlopen('(网址)').read()
2、记录一些文件读写操作:
filename='';
f=file(filename,'w') #以写的形式打开filename
cPickle.dump(data,f) #data写入文件filename
f.close #关闭文件
filename='';
f=file(filename) #打开
ss=cPicke.load(f) #ss为读入数据
B.json
貌似是一个网站内容格式标准,详情json.org可以看一下,当然python中也有解析json的库,真是挺棒哒~今天主要运用了json->python 这种任务,运用的代码为json.loads(数据),之后可以通过json格式化网站看代码了解结构并用以下代码提取url值
s1=s["data"]["items"]
for i in range(1,len(s1))
f.write(s1[i]["url"])
进行网址输入文件的操作
C.Linux
今天熟悉了一些文件删除 移动操作
mv file1 tmp/file2 nwdir file1与tmp/目录下file2 共同导入nwdir文件夹
rm -f file1 删除文件