Python爬取各类文档方法归类小结，获取文档资料必备小脚本

zoukankan html css js c++ java

Python爬取各类文档方法归类小结，获取文档资料必备小脚本

人对于Python学习创建了一个小小的学习圈子，为各位提供了一个平台，大家一起来讨论学习Python。欢迎各位私信小编进群一起讨论视频分享学习。Python是未来的发展方向，正在挑战我们的分析能力及对世界的认知方式，因此，我们与时俱进，迎接变化，并不断的成长，掌握Python核心技术，才是掌握真正的价值所在。

前言

HTML文档是互联网上的主要文档类型，但还存在如TXT、WORD、Excel、PDF、csv等多种类型的文档。网络爬虫不仅需要能够抓取HTML中的敏感信息，也需要有抓取其他类型文档的能力。下面简要记录一些个人已知的基于python3的抓取方法，以备查阅。

抓取TXT文档

在python3下，常用方法是使用urllib.request.urlopen方法直接获取。之后利用正则表达式等方式进行敏感词检索。

如果抓取的是某个HTML，最好先分析，例如：

抓取CSV文档

抓取PDF文档

抓取word

方法：

（1）利用urlopen抓取远程word docx文件；

（2）将其转换为内存字节流；

（3）解压缩（docx是压缩后文件）；

（4）将解压后文件作为xml读取

（5）寻找xml中的标签（正文内容）并处理

注意：如果你是打算找python高薪工作的话。我建议你多写点真实的企业项目积累经验。不然工作都找不到，当然很多人没进过企业，怎么会存在项目经验呢？所以你得多找找企业项目实战多练习下撒。如果你很懒不想找，也可以进我的Python交流圈：1156465813。群文件里面有我之前在做开发写过的一些真实企业项目案例。你可以拿去学习，不懂都可以在裙里找我，有空会耐心给你解答下。

以下内容无用，为本篇博客被搜索引擎抓取使用
(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)
python 是干什么的零基础学 python 要多久 python 为什么叫爬虫
python 爬虫菜鸟教程 python 爬虫万能代码 python 爬虫怎么挣钱
python 基础教程网络爬虫 python python 爬虫经典例子
python 爬虫
(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)
以上内容无用，为本篇博客被搜索引擎抓取使用

查看全文

相关阅读:
Oracle的序列、视图、索引和表空间
 MySQL存储过程
 MySQL触发器
 MySQL索引和视图
 完整性约束
 Mybatis的核心对象及运行流程
 Mybatis中配置连接池
 IDEA中创建Maven工程整合Mybatis
Idea中创建JavaWeb工程
 实现整数集合的并、交、差运算

原文地址：https://www.cnblogs.com/shuchongzeishuai/p/14034569.html

Python爬取各类文档方法归类小结，获取文档资料必备小脚本

前言

抓取TXT文档

抓取CSV文档

抓取PDF文档

抓取word