zoukankan      html  css  js  c++  java
  • 网页抓取信息(php正則表達式、php操作excel)

    1.问题描写叙述

    实现对固定网页上自己须要的信息抓取,以表格形式存储。

    我是拿wustoj上的一个排行榜来练习的,地址:wustoj


    2.思路

    网页自己就简单学习了一下php,刚好用它来做点事情吧,我的想法是这种:

    (1)查看网页源码并保存在文件里。

    (2)依据须要的信息写出正則表達式。读文件,依据正則表達式来提取须要的信息。写正則表達式的时候最好分组,这样提取起来就方便了非常多。

    (3)对excel操作。将提取的信息以excel的形式输出。

    比較好的开源php处理excel类链接:点击打开链接


    3.体会

    ^是指要是原字符串的开头。$是指要是原字符串的结尾。
    空字符不一定是空格。
    用()来分组是好方法,如preg_macth_all(/$pattern/,$subject,matches)。


    matches为二维数组,假设没有_all。则仅仅会匹配第一部分,是一维数组。
    $matches[0]保存完整模式的全部匹配。$matches[1]保存第一子组全部匹配,即全部匹配的第一部分。
    中文匹配串我用的这个$patt_ch=chr(0x80)."-".chr(0xff)。


    4.代码

    <?php
    header("Content-Type: text/html; charset=utf-8");
    
    $url = "http://acm.wust.edu.cn/contestrank.php?cid=1014";
    $result=file_get_contents($url);
    $file=fopen("content.php","w");
    fwrite($file,$result);
    $file=fopen("content.php","r");
    
    $patt_ch=chr(0x80)."-".chr(0xff);
    // <td>1<td
    $rankpatt="(<td>)([0-9]+|*)(<td)";   // part2
    //<a href=status.php?user_id=team30&cid=1014>team30_姓名</a>
    $namepatt="(<a[[:space:]]href=status.php?

    user_id=team[0-9]+&cid=1014>)(*{0,1}team[0-9]+)(_)([$patt_ch]+)(</a>)"; // part2 part4 //$namepatt="(team[0-9]+)(_)([$patt_ch]+)"; 也能够用这个直接匹配"team_姓名" //<a href=status.php?user_id=team30&cid=1014&jresult=4>7</a> $problempatt="(<a[[:space:]]href=status.php?user_id=team[0-9]+&cid=1014&jresult=4>)([0-9]+)(</a>)"; //Include class require_once('Classes/PHPExcel.php'); require_once('Classes/PHPExcel/Writer/Excel2007.php'); $objPHPExcel = new PHPExcel(); //Set properties 设置文件属性 $objPHPExcel->getProperties()->setCreator("Maarten Balliauw"); $objPHPExcel->getProperties()->setLastModifiedBy("Maarten Balliauw"); $objPHPExcel->getProperties()->setTitle("Office 2007 XLSX Test Document"); $objPHPExcel->getProperties()->setSubject("Office 2007 XLSX Test Document"); $objPHPExcel->getProperties()->setDescription("Test document for Office 2007 XLSX, generated using PHP classes."); $objPHPExcel->getProperties()->setKeywords("office 2007 openxml php"); $objPHPExcel->getProperties()->setCategory("Test result file"); $row=1; $objPHPExcel->getActiveSheet()->setCellValue('A'.$row, 'rank'); $objPHPExcel->getActiveSheet()->setCellValue('B'.$row, 'team'); $objPHPExcel->getActiveSheet()->setCellValue('C'.$row, 'solved'); while(!feof($file)) { //echo $row." "; $line=fgets($file); if(preg_match("/$rankpatt/",$line,$match)) { $row++; //print_r ($match); //echo $match[2]." "; //echo "<br>"; $objPHPExcel->getActiveSheet()->setCellValue('A'.$row, $match[2]); $objPHPExcel->getActiveSheet()->getStyle('A'.$row)->getAlignment()->setHorizontal(PHPExcel_Style_Alignment::HORIZONTAL_LEFT); } if(preg_match("/$namepatt/",$line,$match)) { //print_r ($match); //echo $match[2]." ".$match[4]." "; //echo "<br>"; $objPHPExcel->getActiveSheet()->setCellValue('B'.$row, $match[2].$match[4]); } if(preg_match("/$problempatt/",$line,$match)) { //print_r ($match); //echo $match[2]." "; //echo "<br>"; $objPHPExcel->getActiveSheet()->setCellValue('C' . $row, $match[2]); $objPHPExcel->getActiveSheet()->getStyle('C'.$row)->getAlignment()->setHorizontal(PHPExcel_Style_Alignment::HORIZONTAL_LEFT); } $objWriter = new PHPExcel_Writer_Excel2007($objPHPExcel); $objWriter->save(str_replace('.php', '.xlsx', __FILE__)); } echo "well done:)"; ?>



    5.执行结果




  • 相关阅读:
    qt自定义的串口类判断断开
    ubuntu16.04永久修改有线接口名称(enp0s3->eth0)
    记录一下读过的书
    Qt 主界面卡死
    Mysql5.7及版本以上导入sql提示Incorrect date value: '0000-00-00' for column
    webpack打包css
    ant-design-vue中的a-directory-tree更换图标
    解决php-fpm占用内存过高问题
    centos,解压源代码安装,没有configure文件
    OSS存储上遇到The difference between the request time and the current time is too large
  • 原文地址:https://www.cnblogs.com/liguangsunls/p/6719697.html
Copyright © 2011-2022 走看看