html正文提取工具goose的安装及简单使用Demo - 走看看

zoukankan html css js c++ java

html正文提取工具goose的安装及简单使用Demo

1.git clone https://github.com/grangier/python-goose.git
2.cd python-goose
3.sudo pip install -r requirements.txt
此时会报一个安装nltk的错误,执行下面命令单独安装:
sudo apt-get install python-nltk
4.sudo python setup.py install
至此安装完毕!!!!!!!
---------------------------------------------------------
下面付简单的使用demo:
def goose_extraction(response):
try:
import traceback
import chardet
from goose import Goose
from goose.text import StopWordsChinese
charset = chardet.detect(response.content)
coding = charset.get('encoding').lower() # 网页编码类别：gbk,gb2312,utf-8等
if coding and coding.startswith(u'gb'):
codeHtml = response.content.decode("GB18030").encode('utf-8')
elif coding.startswith(u'utf'):
codeHtml = response.content
else:
codeHtml = response.content.decode(coding, 'ignore')
g = Goose({'stopwords_class': StopWordsChinese}) #　中文
article = g.extract(raw_html=codeHtml)
content = article.cleaned_text
html = '<div>' + ''.join(['<p>'+con+'</p> ' for con in content.split(' ')]) + '</div>'
return content, html
except Exception as e:
traceback.print_exc(e)

查看全文

相关阅读:
JSON介绍
 json例子（后台取消息）
在Struts 2中使用JSON Ajax支持
 JSON介绍
 json例子（后台取消息）
64位播放器播放RMVB时一卡一顿
 标记一个：HookQQ QQFun CWUB
Android开发环境搭建全程演示（jdk+eclip+android sdk）
64位播放器播放RMVB时一卡一顿
 一种可做特殊用途的字符串匹配算法

原文地址：https://www.cnblogs.com/fanjp666888/p/11278155.html

热门文章
硬币问题
 队列实现
 hdoj_1058
汉诺塔
 分平面问题
 Json优缺点
 dwr介绍
 在Struts 2中使用JSON Ajax支持
 Json优缺点
 Quartz实现定时功能 job.xml文件的配置

Copyright © 2011-2022 走看看