zoukankan      html  css  js  c++  java
  • 批量下载搜狗词库

    转载自:http://www.oschina.net/code/snippet_270478_20216

    coreseek搜索引擎要用到mmseg,但是mmseg自带的词库不是很全面,导至搜索结果不精细。这个程序就是用来下载搜狗词库。

    <?php
        /*//echo microtime();
        echo $start=strtotime(date("Y-m-01"))."<br/>";
        echo urlencode(iconv("UTF-8","GB2312//IGNORE","中国的") );
        echo urlencode("/");
        require_once "pinyin.php";
        $pinyin=new PY_deal();
        echo join($pinyin->pinyin("麦包包批发,[魅惑/微光摇曳/青春密语]三种款式,自由选择!现只需50元/款!"));*/
     
        $fp=fopen("dictory.txt", "a+");
        for($i=1;$i<=225;$i++){
            echo 'page'.$i;
            $curl=curl_init();
            $url="http://pinyin.sogou.com/dict/list.php?c=167&page={$i}";
            $options=array(CURLOPT_URL=>$url,CURLOPT_RETURNTRANSFER=>true,CURLOPT_HEADER=>false);
            curl_setopt_array($curl, $options);
            $rs=curl_exec($curl);
            curl_close($curl);
            $pattern_list="/<dls+class="dictlist">([Ss]+)?</dl>/i";
            preg_match_all($pattern_list,$rs,$match);
            $rs=$match[1][0];
            $pattern="/?id=(d+?)"/i";
            preg_match_all($pattern,$rs,$match);
            $rs=$match[1];
             
            foreach($rs as $v){
                $link="http://pinyin.sogou.com/dict/download_txt.php?id={$v}";
                $curl=curl_init();
                $options=array(CURLOPT_URL=>$link,CURLOPT_FILE=>$fp,CURLOPT_HEADER=>false);
                curl_setopt_array($curl, $options);
                curl_exec($curl);
                curl_close($curl);
                 
     
            }
     
        }
         
     
        fclose($fp);
    ?>

    完成。

  • 相关阅读:
    使用环信WebIm实现一个客服功能
    html中的下拉框—select和input方式
    [LeetCode] 206. Reverse Linked List
    visual studio 2019安装配置可编写c/c++语言的IDE环境
    JS判断数据类型是不是undefined
    idea微服务架构出现 Run Dashboard 按钮方法
    docker 常用命令
    配置docker镜像加速
    linux安装docker
    linux安装redis
  • 原文地址:https://www.cnblogs.com/zl0372/p/sogou.html
Copyright © 2011-2022 走看看