4.22

re练习⼿刃⾖瓣TOP250电影信息

import requests
headers = {
 "user-agent": "Mozilla/5.0 (Macintosh; Intel
Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like
Gecko) Chrome/87.0.4280.88 Safari/537.36"
}
url = "https://movie.douban.com/top250?
start=0&filter="
resp = requests.get(url, headers=headers)
print(resp.text)
obj = re.compile(r'<li>.*?<div class="item">.*?
<div class="pic">.*?<em class="">(?P<num>d+)
</em>'
 r'.*?<span class="title">(?
P<name>.*?)</span>'
 r'.*?<p class="">.*?<br>
(?
P<year>.*?)&nbsp;'
 r'.*?property="v:average">(?
P<average>.*?)</span>'
 r'.*?<span>(?P<people>d+)⼈评价
</span>', re.S)
it = obj.finditer(resp.text)
with open("movie.csv", mode="w", encoding="utf-8")
as f:
 csvwriter = csv.writer(f) # 创建csv⽂件写⼊⼯具,
也可以直接f.write()
 for item in it:
 dic = item.groupdict()
 dic['year'] = dic['year'].strip()
 csvwriter.writerow(dic.values()) # 写⼊数据

查看全文

相关阅读:
二元树的深度【微软面试100题第五十二题】
和为n连续正数序列【微软面试100题第五十一题】
一道看上去很吓人的算法题【微软面试去100题第四十九题】
在左移的递减数组中查找某数【微软面试100题第四十八题】
最长递减子序列【微软面试100题第四十七题】
括号问题【微软面试100题第四十六题】
矩阵运算【微软面试100题第四十五题】
设计一个魔方（六面）的程序【微软面试100题第四十四题】
二叉搜索树的非递归前中后序遍历【微软面试100题第四十三题】
合并链表【微软面试100题第四十二题】

原文地址：https://www.cnblogs.com/zhaoyids/p/14903831.html