zoukankan      html  css  js  c++  java
  • 焦大:特征权重的处理与最终排名(中)

    http://www.wocaoseo.com/thread-48-1-1.html PS:刚刚写一篇博客特征权重的处理与最终排名(上)由于一篇博客不能说完所有的东东,就简单了些,准备写个下的,也就是这篇文章,写标题时候忘记写括号上了,搜索了下网址发现度娘立即收录了,后改了标题,4分钟后博客再次标题立即更新,不得不赞下度娘的伟大,但是回访蜘蛛是不是也太快了呢?

    接着说特征权重的处理问题,无论se的多么复杂,其基础都是一样的,在抓取、分析、索引之后,进行预处理、进行排序等,其处理大量的数据都有一定的原则的:最高的性价比和机器自身的算法。在这里其结
    果处理就是计算机的数学。

    计算机数学除了最复杂的向量算法,普通的或与非,还有最简单的比较大小和加减计数。在考虑最终排名结果时候,一般会采用复杂的,因为这样的效果是最好的,但不是最终结果时候更多采用简单的算法。举
    例来说,在特征权重处理时候最容易出现的是如果很多特征没有出现怎么办、有个权重值很大怎么办、值异常如何处理、如何降低大量的复杂计算等,这估计也是搜索的一个主要的东西了。

    首先说,一个值很大,最主要的处理是取对(连续性)和增加其他有效指标(离散型),第一个貌似还比较完美,第二个在实践上就存在缺省值问题和指标选取问题等,而且也增加了计算的复杂度,因此可以想象蜘蛛一般会对重要的因素进行向量计算,而一般的则不会。

    这里我觉得有一个折中的处理,比如外链,如果按照PR计算的方法,每个链接都是采用迭代算法,但由于链接特别复杂,谷歌在PR升级算法时候,特别强调了把一个网站作为整体,然后对首页和内页进行赋值,这样把大量的网页迭代变成了网站迭代,其他的页面直接分配,大大降低了计算量。而在不久前谷歌再次算法升级,把同一个主域名的所有网站链接作为内链,why?其实是很明白了。

    第二,除了数值很大的处理外,如何把特征值进行向量化是个大的问题。一般认为在特征值进行分类时候采用的是指纹技术,进行到二叉树进行向量化。而特征值向量化和特征向量分类是有一定的渊源关系的,如果存在多维向量进行处理的话,其计算量也很大,该怎么通过简单方式进行处理也是个大问题。

    在词项权重处理上,个人比较倾向于带权计算的方式。不过,在词项权重上问题也比较多的,比如词性、微标签处理、相关词域、语义关系、粒度划分等,都是需要大量计算的。

    最后还有缺省值问题,如果se需要计算大量的因素来确定网站的排名,如果任何两个网页因素不一样多时候就会出现很多问题,而且这是最普通存在的,以最简单的例子,比如用户一个有2个词素构成的短语的时候,只有两个网页含有各自不同的一个,哪个应该排在前面?

    这让我想起一个人以前说seo排名一个重要的因素是谁在前面谁是重要的,比如“浏览器下载”中含有浏览器这个词域更加重要是因为浏览器在前面,“下载”在后面,晕死的一个结论的。这个其实并不难,可以通过词语分析来解决,如果有缺省值是比较解决的,但是一个比较复杂的,如果给两个词赋予一定的数值呢?如果是两个负面因素该怎么判断处理呢?

    回到起点,搜索都是满足一定的意义的搜索请求的,所以这里的含义是满足一定的不追求完美,也要注意性价比,即使可以改善一定的效果如果代价大的话,搜索引擎也不会做的,这就是很多人说的人工有一定的关系了。

    计算机数学是博大精深的,而复杂的事情都可以采用一定的策略在一定程度上完成,而在此之上的搜索引擎,万变不离其宗,其实很多seo结论可以在计算上解决。焦大:特征权重的处理与最终排名(中) ...



    以上内容由SEO论坛版权所有。http://www.wocaoseo.com/forum-37-1.html
  • 相关阅读:
    CF1119H
    oracle 第06章 数据字典
    oracle col命令
    oracle 第05章 SQL语句
    oracle 第04章 字符集
    oracle 第03章 体系结构
    oracle 第02章 基本操作
    oracle 第01章 安装
    oracle启动、关闭、重启脚本
    第十一周-学习进度条
  • 原文地址:https://www.cnblogs.com/bjanzhuo/p/3629472.html
Copyright © 2011-2022 走看看