zoukankan html css js c++ java

爬虫

1. 最基本的抓取

（1）抓取大多数情况属于get请求，即直接从对方服务器上获取数据。
首先，Python中自带urllib及urllib2这两个模块，基本上能满足一般的页面抓取。另外，requests也是非常有用的包，与此类似的，还有httplib2等等。

import requests
url = "https://www.baidu.com/"
response = requests.get(url)
content = response.content
headers = response.headers
print("headers:",headers)
print("content:",content)

（2）此外，对于带有查询字段的url，get请求一般会将来请求的数据附在url之后，以?分割url和传输数据，多个参数用&连接。

data = {'data1':'XXXXX', 'data2':'XXXXX'}
Requests：data为dict，json
    import requests
    response = requests.get(url=url, params=data)

2. 对于登陆情况的处理
2.1 使用表单登陆

data = {'data1':'XXXXX', 'data2':'XXXXX'}
Requests：data为dict，json
    import requests
    response = requests.get(url=url, params=data)
Urllib2：data为string
    import urllib, urllib2    
    data = urllib.urlencode(data)
    full_url = url+'?'+data
    response = urllib2.urlopen(full_url)

查看全文

相关阅读:
只要有梦想
 过去这一年
 Importing BizTalk Applications to Production Environment
SQL Server 2005 – Database Master Key
Check Page Rank of any web site pages instantly
An Introduction to SQL Server Service Broker [WORD DOCUMENT]
Svcutil.exe – Generate the proxy class for the WCF client application
SQL Server 2005: how to add a linked server
BizTalk Error: The published message could not be routed
Enable routing for failed messages in BizTalk 2006

原文地址：https://www.cnblogs.com/zhanglin123/p/9184501.html