zoukankan      html  css  js  c++  java
  • paip.抓取网页内容java php python

    paip.抓取网页内容--java php python.txt

    作者Attilax  艾龙, EMAIL:1466519819@qq.com
    来源:attilax的专栏
    地址:http://blog.csdn.net/attilax

    //java
    String urlContent = WebpageContent("http://www.123cha.com/ip/?q="+ip,"utf-8");



    ///php
    file_get_contents($url);
     curl_init()>>>curl_exec
     fopen->fread->fclose
     
     
     /python
     urllib.urlopen(url).read()
     response = urllib2.urlopen('http://www.baidu.com/')  
    html = response.read()  
     
     ///ahk
     UrlDownloadToFile, URL, Filename

     
     
     public String downloadPage(String Url, String encode) {
            try {
                URL pageUrl = new URL(Url);
                // Open connection to URL for reading.
                BufferedReader reader = new BufferedReader(new InputStreamReader(
                        pageUrl.openStream(), encode));
                // BufferedReader br = new BufferedReader(new InputStreamReader(in,
                // "gbk"));
                // Read page into buffer.
                String line;
                StringBuffer pageBuffer = new StringBuffer();
                while ((line = reader.readLine()) != null) {
                    pageBuffer.append(line);
                }
                String s = pageBuffer.toString();
                return s;
                // System.out.println(s);
                // return pageBuffer.toString();
            } catch (Exception e) {
                // return null;
                throw new RuntimeException(e);
            }

        }

     
     
     参考:
     php获取网页内容方法总结_php技巧_脚本之家.htm
     Python 3 抓取网页资源的 N 种方法.htm
  • 相关阅读:
    《冒号课堂》学习笔记 OOP-继承
    《冒号课堂》学习笔记 编程范式汇总
    EF中主表和附表一起提交的话,如果主附表的主键外键已经设定。
    超时时间已到。在操作完成之前超时时间已过或服务器未响应。 解决方法
    wpf下拉框不能多选的原因
    查询中无法构造实体或复杂类型
    wpf新增记录时用多线程的问题
    面向对象
    HTML5入门以及新标签
    前端学习本地存储
  • 原文地址:https://www.cnblogs.com/attilax/p/15199300.html
Copyright © 2011-2022 走看看