大二下学期团队项目（爬取豆瓣电影）

前面爬取的豆瓣电影没有国家地区与语言，主要是因为豆瓣电影的网页结构：

以前学习的解析内容都是通过标签，拿取标签内的文字信息，这里的文本信息在标签外面，当时不知道可以用正则表达式。

通过正则表达式可以方便的匹配到标签之外的文字信息。

url_bean = 'https://movie.douban.com/subject/26752088/'

    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36',
    }

    text=requests.get(url=url_bean,headers=headers).text
    ex=' <span class="pl">制片国家/地区:</span> (.*?)<br/>'
    test=re.findall(ex,text,re.S)
    ex2='<span class="pl">语言:</span> (.*?)<br/>'
    test = re.findall(ex2, text, re.S)
    summary = test[0].replace(" / ", " ")
    print(summary)

查看全文

相关阅读:
VS2008 查找失效怎么办
 Winfrom弹出下拉编辑控件，DataGridView弹出查询对话框下拉录入，支持TextBox
修改SQL Server 2005的默认端口
 C#操作XML小结
 金蝶KIS系列 KISBOS 二次开发学习资料例子习题讲解
 Datawindow.net中实现让当前行选中,并且当前行以其他颜色显示
 sqlserver 截取字符串
 python3定时爬虫
 linux下安装pyenv及使用pyenv管理不同的python版本
 CentOS7下安装mysql最快捷方式及mysql远程访问连接实现

原文地址：https://www.cnblogs.com/fengchuiguobanxia/p/14725041.html