zoukankan      html  css  js  c++  java
  • 批量下载搜狗词库

    转载自:http://www.oschina.net/code/snippet_270478_20216

    coreseek搜索引擎要用到mmseg,但是mmseg自带的词库不是很全面,导至搜索结果不精细。这个程序就是用来下载搜狗词库。

    <?php
        /*//echo microtime();
        echo $start=strtotime(date("Y-m-01"))."<br/>";
        echo urlencode(iconv("UTF-8","GB2312//IGNORE","中国的") );
        echo urlencode("/");
        require_once "pinyin.php";
        $pinyin=new PY_deal();
        echo join($pinyin->pinyin("麦包包批发,[魅惑/微光摇曳/青春密语]三种款式,自由选择!现只需50元/款!"));*/
     
        $fp=fopen("dictory.txt", "a+");
        for($i=1;$i<=225;$i++){
            echo 'page'.$i;
            $curl=curl_init();
            $url="http://pinyin.sogou.com/dict/list.php?c=167&page={$i}";
            $options=array(CURLOPT_URL=>$url,CURLOPT_RETURNTRANSFER=>true,CURLOPT_HEADER=>false);
            curl_setopt_array($curl, $options);
            $rs=curl_exec($curl);
            curl_close($curl);
            $pattern_list="/<dls+class="dictlist">([Ss]+)?</dl>/i";
            preg_match_all($pattern_list,$rs,$match);
            $rs=$match[1][0];
            $pattern="/?id=(d+?)"/i";
            preg_match_all($pattern,$rs,$match);
            $rs=$match[1];
             
            foreach($rs as $v){
                $link="http://pinyin.sogou.com/dict/download_txt.php?id={$v}";
                $curl=curl_init();
                $options=array(CURLOPT_URL=>$link,CURLOPT_FILE=>$fp,CURLOPT_HEADER=>false);
                curl_setopt_array($curl, $options);
                curl_exec($curl);
                curl_close($curl);
                 
     
            }
     
        }
         
     
        fclose($fp);
    ?>

    完成。

  • 相关阅读:
    一. js高级(1)-面向对象编程
    tips01- 定位
    h5c3 part6 flex
    h5c3 part5 background and transform
    template and pagination
    h5c3 part4
    h5c3 part3
    h5c3 part2
    h5c3 part1
    学习博客
  • 原文地址:https://www.cnblogs.com/zl0372/p/sogou.html
Copyright © 2011-2022 走看看