前面爬取的豆瓣电影没有国家地区与语言,主要是因为豆瓣电影的网页结构:
以前学习的解析内容都是通过标签,拿取标签内的文字信息,这里的文本信息在标签外面,当时不知道可以用正则表达式。
通过正则表达式可以方便的匹配到标签之外的文字信息。
url_bean = 'https://movie.douban.com/subject/26752088/' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36', } text=requests.get(url=url_bean,headers=headers).text ex=' <span class="pl">制片国家/地区:</span> (.*?)<br/>' test=re.findall(ex,text,re.S) ex2='<span class="pl">语言:</span> (.*?)<br/>' test = re.findall(ex2, text, re.S) summary = test[0].replace(" / ", " ") print(summary)