搜索引擎手记（三）之网页的去重 - 走看看

zoukankan html css js c++ java

搜索引擎手记（三）之网页的去重

015年4月1日(星期二)

晴南风

　　今天是愚人节，我们给同事过愚人节，爬虫也让我们技术部过了愚人节。通过对抓取数据的分析，发现有20%的数据都是重复数据。开会讨论，原来有两个问题，一个爬虫引擎有重大bug；另外一个问题，竟然对网页没有做去重处理。啊！My GOD！

通过和群里进行技术交流，大概明白了解决问题的思路。爬虫爬下的网页在通过ETL工具抽取到搜索引擎时候需要对内容进行去重的操作。评价网页内容重复的问题，大体上分为4种：

1、完全重复文档内容和布局格式上毫无差别；

2、内容重复文档内容相同，布局格式不同；

3、布局重复文档重要的内容相同，布局相同；

4、部分重复文档重要内容相同，布局格式不同。

我们出现的问题的原因，是因为爬虫组，只是对内容进行了简单的md5加密，作为索引。

不专业害死人呀！

我翻了翻网上的资料，网页去重流程大体如下图：

（上附图是我从网站找的）

去重的算法还不太复杂。大体上有Shingle算法、SuperShinge算法、I-Match算法和SimHash算法。在后面的几个章节，我会一一娓娓道来。

查看全文

相关阅读:
MySql设计表中的create_time和update_time字段
 java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V
Hbase问题：java.lang.RuntimeException: HRegionServer Aborted
Elasticsearch 7.6.2 简单的api（springboot）
idea + springboot 热部署
 kibana Elasticsearch cluster did not respond with license information.
Elasticsearch7.6.2 搭建的坑
 数据库账号密码加密
 pg数据库，插入数据，若已存在则更新数据
 org.postgresql.util.PSQLException：这个 ResultSet 已经被关闭。

原文地址：https://www.cnblogs.com/bigdatafly/p/5012660.html

Copyright © 2011-2022 走看看