zoukankan html css js c++ java

python网络爬虫day1

python爬虫真的很方便，自己不能忽视的问题就是字符编码的问题，一直想腾出时间来看，一直没有时间。明天开始看吧。

今天是学习python爬虫的第一天，从B站上搜到的，可惜可惜。

import  requests

def getHtmlText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return  r.text
    except:
        return "产生异常"


url="http://baidu.com"
print(getHtmlText(url))

一开始的代码很简单，就是爬取百度的内容。百度做了反爬虫的处理，哈哈哈哈。

import requests
kv={'user-agent':"Mozilla/5.0"}
r=requests.get("https://www.amazon.cn/gp/product/B01M8L5Z3Y",headers=kv)
print(r.status_code)
print(r.text)

爬亚马逊，亚马逊对爬虫做了限制处理，直接爬取会出错，令爬虫模拟浏览器。

r=requests.get("https://www.amazon.cn/gp/product/B01M8L5Z3Y",headers=kv)

import requests
kv={"wd":'python'}
r=requests.get("https://www.baidu.com/s",params=kv)
print(r.status_code)
print(r.request.url)

爬取百度关键字的搜素内容，难度不大，使用params参数就行了。

查看全文

相关阅读:
UITextView自适应高度解决方法
 UITextView自适应高度出现的问题
 UITextView出现的一些问题
 服务器终于好了！
Update语句
 VS.NET经验与技巧
 唯一约束
 由C#风潮想起的－给初学编程者的忠告
 location.search在客户端获取Url参数的方法
 Web Services 入门概念

原文地址：https://www.cnblogs.com/bianzhuo/p/9886209.html