zoukankan html css js c++ java

焦大：特征权重的处理与最终排名（中）

http://www.wocaoseo.com/thread-48-1-1.html PS：刚刚写一篇博客特征权重的处理与最终排名（上）由于一篇博客不能说完所有的东东，就简单了些，准备写个下的，也就是这篇文章，写标题时候忘记写括号上了，搜索了下网址发现度娘立即收录了，后改了标题，4分钟后博客再次标题立即更新，不得不赞下度娘的伟大，但是回访蜘蛛是不是也太快了呢？

接着说特征权重的处理问题，无论se的多么复杂，其基础都是一样的，在抓取、分析、索引之后，进行预处理、进行排序等，其处理大量的数据都有一定的原则的：最高的性价比和机器自身的算法。在这里其结
果处理就是计算机的数学。

计算机数学除了最复杂的向量算法，普通的或与非，还有最简单的比较大小和加减计数。在考虑最终排名结果时候，一般会采用复杂的，因为这样的效果是最好的，但不是最终结果时候更多采用简单的算法。举
例来说，在特征权重处理时候最容易出现的是如果很多特征没有出现怎么办、有个权重值很大怎么办、值异常如何处理、如何降低大量的复杂计算等，这估计也是搜索的一个主要的东西了。

首先说，一个值很大，最主要的处理是取对（连续性）和增加其他有效指标（离散型），第一个貌似还比较完美，第二个在实践上就存在缺省值问题和指标选取问题等，而且也增加了计算的复杂度，因此可以想象蜘蛛一般会对重要的因素进行向量计算，而一般的则不会。

这里我觉得有一个折中的处理，比如外链，如果按照PR计算的方法，每个链接都是采用迭代算法，但由于链接特别复杂，谷歌在PR升级算法时候，特别强调了把一个网站作为整体，然后对首页和内页进行赋值，这样把大量的网页迭代变成了网站迭代，其他的页面直接分配，大大降低了计算量。而在不久前谷歌再次算法升级，把同一个主域名的所有网站链接作为内链，why？其实是很明白了。

第二，除了数值很大的处理外，如何把特征值进行向量化是个大的问题。一般认为在特征值进行分类时候采用的是指纹技术，进行到二叉树进行向量化。而特征值向量化和特征向量分类是有一定的渊源关系的，如果存在多维向量进行处理的话，其计算量也很大，该怎么通过简单方式进行处理也是个大问题。

在词项权重处理上，个人比较倾向于带权计算的方式。不过，在词项权重上问题也比较多的，比如词性、微标签处理、相关词域、语义关系、粒度划分等，都是需要大量计算的。

最后还有缺省值问题，如果se需要计算大量的因素来确定网站的排名，如果任何两个网页因素不一样多时候就会出现很多问题，而且这是最普通存在的，以最简单的例子，比如用户一个有2个词素构成的短语的时候，只有两个网页含有各自不同的一个，哪个应该排在前面？

这让我想起一个人以前说seo排名一个重要的因素是谁在前面谁是重要的，比如“浏览器下载”中含有浏览器这个词域更加重要是因为浏览器在前面，“下载”在后面，晕死的一个结论的。这个其实并不难，可以通过词语分析来解决，如果有缺省值是比较解决的，但是一个比较复杂的，如果给两个词赋予一定的数值呢？如果是两个负面因素该怎么判断处理呢？

回到起点，搜索都是满足一定的意义的搜索请求的，所以这里的含义是满足一定的不追求完美，也要注意性价比，即使可以改善一定的效果如果代价大的话，搜索引擎也不会做的，这就是很多人说的人工有一定的关系了。

计算机数学是博大精深的，而复杂的事情都可以采用一定的策略在一定程度上完成，而在此之上的搜索引擎，万变不离其宗，其实很多seo结论可以在计算上解决。焦大：特征权重的处理与最终排名（中） ...

本主题由 jiaoda015 于 6 分钟前移动

查看全文

相关阅读:
luogu P2015 二叉苹果树
 luogu P1197 [JSOI2008]星球大战
 QBXT T15214 Day2上午遭遇
 luogu P2831 愤怒的小鸟
 luogu P1018 乘积最大
 [BZOJ2402]陶陶的难题II(树链剖分+线段树维护凸包+分数规划)
[BZOJ1500][NOI2005]维修数列(splay)
[BZOJ3282]Tree(LCT)
[BZOJ4785][ZJOI2017]树状数组(概率+二维线段树)
[BZOJ2427][HAOI2010]软件安装(Tarjan+DP)

原文地址：https://www.cnblogs.com/bjanzhuo/p/3629472.html