zoukankan      html  css  js  c++  java
  • 搞数据抓取搞得整个人都不好了

    背景:抓取各个医药网站关于“肝炎”的疾病的问答。

    分别是两个问题:

    1、用PHPEXCEL保存到excel文件出现中文乱码怎么解决,查了百度查了好久,都没有搞定。百度到的基本是因为是从数据库取数据而数据库编码不一致。可是我是从网站根据phpquery取得数据,所以没有找到有用的东西。

    待解决。

    2、为什么根据百度到的url 

    https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&ch=1&tn=98010089_dg&wd=site%3Aclub.xywy.com%20intitle%3A%E8%82%9D%E7%82%8E&oq=site%3Aclub.xywy.com%20intitle%20%E8%82%9D%E7%82%8E&rsv_pq=f49e11880001fca6&rsv_t=d4481GSX9BMWUhT%2BZMgWOkPIksjYaNwwalBtnUzPcPm87o7bWfkH5elJrKqBQjc7ER8&rsv_enter=1&inputT=1872&gpc=stf%3D1433088000%2C1435766399%7Cstftype%3D2&tfflag=1&si=club.xywy.com&ct=2097152";
    

      用正则匹配url地址匹配不上呢?查了半天,原来是https和http的区别,估计是https传递数据进行了加密,所以用正则匹配不到。

  • 相关阅读:
    动物-昆虫:蠼螋
    动物-昆虫:蚰蜒
    动物-软体动物:蜒蚰
    动物-昆虫:蝼蛄
    动物-昆虫:地鳖
    动物:水蛭、蚂蟥
    动物:刺猬
    cmd 下命令
    storm-安装
    python学习之--安装IDE(eclipse+pydev)
  • 原文地址:https://www.cnblogs.com/wangzhi/p/4734357.html
Copyright © 2011-2022 走看看