教程：RSS全文输出，自己动手做。（一）

zoukankan html css js c++ java

教程：RSS全文输出，自己动手做。（一）
这里以PHP版为例，尽量说得通俗点吧，水平实在有限，见谅。

目前我这里所有的获取全文输出的网站大概是三种情况：
1. 要输出的内容集中在一页上，也就是看似列表页的页面里集中了你想要的所有内容，并不需要点击“更多”或“继续阅读”才能看到文章整体。比如糗事百科、wiki。
2. 有列表页，要查看相应文章必须点击链接进入。
3. json方式写入。特征就是查看源文件并不能找到你在浏览器中看到的内容。比如腾讯新闻图片（链接），它的真正内容在这（链接）。
第一种最省事，第二种最常见，第三种稍麻烦。

今天先讲第二种。

以国家地理中文网宇宙空间为例（链接），先看代码：（把下列源码存为space.php）
<?php

include "gethtml.php";

$regex_link = '/(?<=<dt><a href=").+?(?=")/s';

$regex_tit = '/(?<=<title>)(.+?)(?= -)/s';

$regex_con = '/<div id="detailMain_box_img".*?(?=<div class="M-L-article-last-p" >)/s';

$header='<?xml version="1.0" encoding="utf-8"?><rss version="2.0"><channel><title>国家地理中文网宇宙空间</title>';

$footer='</channel></rss>';

$html=gethtml('http://www.nationalgeographic.com.cn/science/space/');

if(preg_match_all($regex_link, $html, $links)){

$size=count($links[0]);

for($i=0;$i<$size;$i++){

$link=preg_replace('/(.+)/','http://www.nationalgeographic.com.cn$1',$links[0][$i]);

$content=gethtml($link);

preg_match($regex_con,$content,$article);

preg_match($regex_tit,$content,$title);

$rss.='<item><title>'.$title[0].'</title><link><![CDATA['.$link.']]></link><description><![CDATA['.$article[0].']]></description></item>';

}

file_put_contents('space.xml',$header.$rss.$footer);

}

?>
重点是第8行往后。只解释我认为重要的，不明白的可以讨论。

第2行，引入gethtml方法，来自下面的代码。

看一下第8行gethtml(‘http://www.nationalgeographic.com.cn/science/space/’)得到了什么（链接），虽然有点乱，但是目的达到了，http://www.nationalgeographic.com.cn/science/space/ 我已经抓到本地服务器上。

第9行是要挑出需要的链接 $links（链接）

第13行利用这些链接继续抓取页面 $content=gethtml($link)

第14、15行从$content里查找需要的$title（文章标题）和$article（文章内容）

后面就是按RSS要求的格式输出，并最终生成xml文件。

上面我说的查找、挑出都是用正则来实现的，此外最好对html特别熟悉，操作起来才能得心应手。

=================================================

下面是在别人的基础上自己总结的利用curl抓取页面的方法，把下面源码存为gethtml.php，我所有的抓取都是用的这个方法，当然，省事的话可以用 file_get_contents，那就是真正的20行代码完成全文RSS输出了，不过可选的参数就没有了，有的页面会抓取不到。
<?php

error_reporting(E_ERROR);

function gethtml($url,$json){

$args = json_decode($json,true);

$useragent = $args["useragent"]?$args["useragent"]:'Mozilla/5.0';

$timeout = $args["timeout"]?$args["timeout"]:9000;

$ch = curl_init();

$options = array(

CURLOPT_URL => $url,

CURLOPT_USERAGENT => $useragent,

CURLOPT_TIMEOUT_MS => $timeout,

CURLOPT_NOSIGNAL => 1,

CURLOPT_HEADER => 0,

CURLOPT_RETURNTRANSFER => 1,

CURLOPT_FOLLOWLOCATION => 1

);

if($args["ip"]){

$options[CURLOPT_HTTPHEADER] = array('CLIENT-IP:'.$args["ip"],'X-FORWARDED-FOR:'.$args["ip"]);

}

if (preg_match('/^https/',$url)){

$options[CURLOPT_SSL_VERIFYHOST] = 1;

$options[CURLOPT_SSL_VERIFYPEER] = 0;

}

curl_setopt_array($ch, $options);

$data = curl_exec($ch);

$curl_errno = curl_errno($ch);

curl_close($ch);

if($curl_errno>0){

return 'error';

}else{

return $data;

}

}

?>
原文：http://www.rssfull.net/turorial160710
查看全文

相关阅读:
2013软考最新大纲
 安卓的第二堂课
 安卓第一堂课
 VS2010的快捷键;VS2012变化的快捷键
 漂亮的表格样式大全
 ASCII说明和ASCII对照表
 Cookie学习笔记
 JavaScript实现功能全集
 1073-成绩排名
 1071-数字的空洞

原文地址：https://www.cnblogs.com/wpbars/p/6437931.html