zoukankan html css js c++ java

Python之抓取网页元素

import urllib.request

from bs4 import BeautifulSoup

url = "http://www.wal-martchina.com/walmart/store/14_hubei.htm"

user_agent = "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.134 Safari/537.36"

request = urllib.request.Request(url)

request.add_header("User-Agent", user_agent)

content = urllib.request.urlopen(request)

soup = BeautifulSoup(content,from_encoding="gb18030")

#店名
shopname = soup.find_all('td', {"class": "xl714445"})
#地址
addresss = soup.find_all('td', {"class": "xl684445"})
#联系电话
phones = soup.find_all('td', {"class": "xl744445"})

for shop in shopname:
    print("店铺名称:"+shop.text.lstrip().rstrip())

print("----------------------------------------------")

for address in addresss:
      print("店铺地址:"+address.text.lstrip().rstrip())

sum = 0
for phone in phones:
    if sum % 2 == 0:
        print("联系电话：" + phone.text.lstrip().rstrip())
    else:
        print("交通路线：" + phone.text.lstrip().rstrip())
        print('---------------------------------------------------')
    sum += 1

查看全文

相关阅读:
ubuntu下解决无法解析或打开软件包列表或状态文件的问题
 linux 解除文件root权限限制
 查看linux设备信息的命令
 R系安装rpm包
 重启窗口管理器
 内存泄漏如何定位？
双屏显示，HDMI可以正常显示，lvds不显示
 避免linux下log在/var/log/messages 中重复输出的办法
 debian编包成功后，想要修改的文件的内容没有变化
 linux terminal 显示不全将log内容打印出来

原文地址：https://www.cnblogs.com/bilaisheng/p/10211043.html