【网络挖掘：成就与未来方向】之网络挖掘应用程序与相关概念

zoukankan html css js c++ java

【网络挖掘：成就与未来方向】之网络挖掘应用程序与相关概念

六、网络挖掘应用程序

1、B2C电子商务个性化体验——Amazon.com

网络挖掘的使用：

1）使用cookies识别用户；

2）对用户过去行为分析并同类型用户分组，以提供个性化消息、类别推荐、金盒子（gold box）；

3）使用聚类、关联分析、时间序列分析等。

2、Web搜索——Google

网络挖掘的使用：

1）内容分析确定相关页面；

2）超链接分析根据质量对相关页面排名；

3、网络用户跟踪——Double Click

网络挖掘的使用：

1）使用特殊的cookie跟踪用户在多个站点之间的访问；

2）分析多站点行为；

3）使用DART系统提供广告服务。

4、了解用户社区——AOL

1）挖掘用户组的兴趣和观点；

2）针对特定群组推广新产品或发表关于某个问题的观点。

5、了解拍卖行为——eBay

eBay有详细的数据：拍卖历史记录、参与率、竞价数据、使用数据。

网络挖掘的使用：对参与者类型分类、对拍卖类型分类、确定欺诈性报价、确实拍卖成交。

6、个性化门户网站——MyYahoo

使用网络挖掘：

1）创建个性化消息；

2）基于偏好或位置推荐产品或保养；

3）根据偏好或使用发送媒体内容。

7、在线文档统计——CiteSeer

8、i-Mode –NTT D0C0Mo’s mobile internet accesssystem

有4000万用户从他们的手机访问互联网。

用户可以收发邮件、在线购物或理财、获取交通新闻和天气预报、搜索当地餐馆及其他东西。

9、v-TAG网络挖掘服务器

七、相关概念

1、兴趣度（Interestingness Measure[PT1998,C2000]）

万维网上有两种资源：

网络结构（Web Structure）——反映作者关于浏览行为的观点；

网络使用（Web Usage）——反映用户的浏览行文。

所有与这些信息源矛盾的证据都将被称作“令人感兴趣的（interesting）”。

2、用户行为档案（User Behavior Profiles[MSSZ2002]）

目标：理解复杂的人类决策过程。

方法：记录点击流数据；收集其他用户信息，比如人口统计数据和心理调查数据等。

级别：在一个网站内部，如Amazon.com；在整个万维网上，如Alexa研究和DoubleClick。

3、分布式网络挖掘（Distributed Web Mining）

动机：网络上的数据是巨大的，并且分布在不同的站点。

传统方法：把所有的数据整合到一个站点，然后进行必要的分析。

问题：耗时、不可伸缩。

解决方案：在不同的位置进行本地数据分析，建立整体模型。

应用程序：根据用户的“网络生活”（用户的兴趣、位置和行为）提供个性化的站点。

两种方法：隐式（Surreptious），不需要用户提交任何信息而跟踪用户在不同网站的访问行为；协作（Co-operative），用户行为报告给一个中央组织或数据库。

4、网络可视化（Web Visualization）

动机：网络数据挖掘提供了大量的信息，这些信息通过可视化工具可以更好地被理解，相比纯文本的表示方式。

著名开发工具（Prominent toolsdeveloped）：WebViz、WUM（Web Utlization Miner）、WEEV、WebQuilt、Naviz。

5、主题提取（Topic Distillation）

定义：识别与查询主题相关的一组文档或其中的一部分。

方法：Kleinberg的Hubs and Authority；The FOCUSproject；Web Page Reputations；主题敏感的PageRank。

6、在线文档计量学（Online Bibiliometrics）

动机：在线文章比离线文章更多地被引用；更容易地互动和交流信息。

例子：SCI，ACM portal，CiteSeer，DBLP等。

7、网页分类（WebPage Categorization）

定义：网页分类决定了一个网页所属的类别，这些类别是预先定义好的。

8、语义网络挖掘（Semantic Web Mining）

动机：从无结构的网络中自动检索文档是困难的；搜索引擎检索的文档在语义方面是不精确的。

语义网的最初想法：生成附加语义的文档；开发从结构化数据中根据语义挖掘信息的技术。

语义网格式：RDF，节点与附属的属性/值对可以模型化为一个有向的标签图；XML主题网可以由基础数据的语义形成，它可以被看作在线版本的打印索引和目录。

任务：应用网络挖掘技术理解网络上大量非结构化文档的本体；为现有的和未来的文档定义本体以使搜索更加精确。

查看全文

相关阅读:
全志A10_linux3.0内核编译记录
 C#使用Socket登陆WordPress源码
 UIKeyboardType键盘
 浅谈 iOS 版本号
 学习软件开发应该看的书
 NSPredicate的用法
 ios 技巧总结（不断更新）
RSA 加解密
 GCD下的几种实现同步的方式
 iOS事件处理

原文地址：https://www.cnblogs.com/jiangu66/p/2996595.html