python爬虫（一） - 走看看

zoukankan html css js c++ java

python爬虫（一）
什么是网络爬虫？爬虫可以理解为一段按照一段规则抓取网络信息的程序，比如我们常用的搜索引擎就是网络爬虫。因为python写爬虫的效率比较高，所以很多爬虫都是使用python开发的。

爬虫模拟浏览器自动对服务器交互，一般web浏览器发生的事情：打开浏览器，浏览器对服务器发送请求，服务器回应客户端，浏览器显示网页。我们可以通过代码模拟这个过程，比如下载一部小说，代码框架如下
1 import requests 2 import re 3 4 url = 'http://www.jingcaiyuedu.com/book/15401.html' 5 6 response = requests.get(url) 7 response.encoding = 'utf-8' 8 9 html = response.text 10 11 title = re.findall(r'',html)[0] 12 13 fb = open('%s.txt'%title,'w',encoding=''utf-8) 14 15 download = re.findall(r'',html,re.S)[0] 16 chapter_info_list = re.findall(r'',download) 17 18 for chapter_info in chapter_info_list: 19 chapter_url,chapter_title = chapter_info 20 chapter_url = '' 21 22 chapter_content = chapter_content.replace(' ','') 23 24 fb.write(chapter_title) 25 fb.write(chapter_content) 26 fb.write('/n') 27 28 print(chapter_url)
request模块，提供了能发送网络请求的方法get，post等。思路：首先获取这个url页面的代码给response，修改编码形式。再用findall方法，用正则表达式检索相应的字段，保存小说的标题、章节号、内容。最后清洗数据和储存。
查看全文

相关阅读:
浅析C#中的套接字编程
 在 C# 中通过 P/Invoke 调用Win32 DLL
读书笔记c#高级编程委托和事件
 如何将 .net framework 打包进 msi安装包，使得安装时自动安装
 自实现input上传指定文件到服务器
 Thrift初探：简单实现C#通讯服务程序
 C# 使用NLog记录日志
 C# winform程序怎么打包成安装项目(图解)
VUE3.0+Vant VS Code入门教程
 WCF入门教程2——创建第一个WCF程序

原文地址：https://www.cnblogs.com/Kammuri/p/8992992.html

Copyright © 2011-2022 走看看