信息采集和信息源 - 走看看

zoukankan html css js c++ java

信息采集和信息源

1.确定搜索的内容

2.网络信息爬去

　　2.1 抓取网页（网络浏览器和网络爬虫）

　　2.2 多线程，从一个种子集合开始

　　2.3 robots.txt允许访问的文件，礼貌策略，访问时间限制

　　2.4 时新性，评估每一个页面的变化比率

　　2.5 垂直搜索，面向主题的信息采集，主题爬虫，判断一个网页和某个主题相关，

　　2.6 深层网络，（私人站点，表单结果，脚本页面（比较复杂,需要模拟js运行））

　　2.7 网站地图（robots.txt含有一个对网站地图的引用，可以告诉爬虫爬取网页的相关信息，例如时薪，重要，主题

　　2.8 分布式网络爬虫，使用多个URL队列，使用散列函数，将URL分配给多个信息采集的计算机，当一个爬虫程序看到一个新的URL，就对该地址计算散列值，已确定有哪个计算机负责

3. 文档和电子邮件的采集

4. 转换问题

5. 字符编码

6. 文档存储

　　使用数据库系统

　　随机存取

　　压缩大规模文件

　　更新

　　BigTable数据库

7. 文本重复检测

　　信息指纹
　　文本相似度（余弦定理相似度）

8.去除噪声

查看全文

相关阅读:
BZOJ4722 由乃
 LOJ6043 「雅礼集训 2017 Day7」蛐蛐国的修墙方案
 Luogu P2414 [NOI2011]阿狸的打字机
 Luogu P3193 [HNOI2008]GT考试
 Luogu P3167 [CQOI2014]通配符匹配
 Luogu P4503 [CTSC2014]企鹅QQ
Luogu P5446 [THUPC2018]绿绿和串串
 Luogu P5329 [SNOI2019]字符串
 免密码ssh2登录
 mooon模板的automake、autoconf、m4和libtool版本信息

原文地址：https://www.cnblogs.com/csxf/p/3421724.html

Copyright © 2011-2022 走看看