zoukankan      html  css  js  c++  java
  • 词库的扩充百度百科的抓取你知道这些热词吗? rabbit9898 ITeye技术网站

    词库的扩充-百度百科的抓取-你知道这些热词吗? - rabbit9898 - ITeye技术网站

    词库的扩充-百度百科的抓取-你知道这些热词吗? 博客分类: 百度百科词库抓取         做中文分词需要一个好的词库,网上收集的这些都基本不更新,没有办法,只有自己抓取百科中的词条了。但是百科中有300多万词条,要全部抓取下来把其中的优质词条摘录出来并非易事。        抓取用 httpclient 应该就够了 Java代码          org.apache.httpcomponents       httpclient       4.1          解析用htmlclener 就够了 Java代码

    关于抓取维基百科,百度百科,Google News的记录 - kklldog - 博客园

    关于抓取维基百科,百度百科,Google News的记录 最近由于项目中需要抓取维基百科,百度百科,Google News的数据,做了些研究。维基百科开放性做的好,用强大的API支持查询,不过中文的API貌似是基于繁体的,而且中文的维基信息太少了,有些关键词没有对应的词条。于是目标转向百度百科。百度百科的词条确实很丰富,一般的关键词基本都有对应的词条。不过百度百科的词条对应的html页面的连接是这样的 baike.baidu.com/view/0000.html 。0000对应的是某个词条了。要想根据URL来获取就首先需要把关键词转换成对应的数字。通过httpwatch查看后发现http://baike.baidu.com/searchword/?word= keyWord &pic=1&sug=1&enc=gbk 这个url返回的信息中包含了关键词对应的0000.html此格式的数据。关键词要gb2312编码。把信息提取出来,拼接一下url,这样就能顺利获取百度百科的html页面了。然后把html页面做处理,输出到自己的页面上。因为html页面结构复杂,在服务器做处理效率低。所以我觉得还不如把所有html代码输出到自己的页面中,在用JQuery来处理页面,只要用IE或者chrome的开发人员工具,看一下结构,然后用JQuery来提取啊,隐藏啊,这样方便多了。Google New的思路同百度百科,用webrequest来模拟搜索请求,取得html代码,输出到自己的页面,JQuery来处理下就OK了。
  • 相关阅读:
    修改eclipse的背景色(转载)
    c#调用 windows api实现WinForm中嵌入EXE程序
    VS2008序列号
    Microsoft Visual Studio 2005 获取与升级
    Oracle数组一般可以分为固定数组和可变数组
    深圳香港之行杂记
    [难过]小明住院了
    青岛之行杂记
    喀纳斯之行杂记
    亲历北京721大雨
  • 原文地址:https://www.cnblogs.com/lexus/p/2531509.html
Copyright © 2011-2022 走看看