zoukankan      html  css  js  c++  java
  • python之爬虫爬有道词典

    首先我们先去有道词典网站

    找到这个网址的格式

    然后

    右键网页源代码

    找到翻译所在的部分 并记录下来

    现在浏览器部分的任务就完成了

    我们现在开始敲代码

    首先是url 就是有道的网址和我们要查找的单词

    url = 'http://dict.youdao.com/w/eng/%s' % word

    然后我们用urllib2去抓取网页的包

    page = urllib2.urlopen(url).read()

     之后我们用BeautifulSoup去解析page

    data = BeautifulSoup(page, 'lxml')

    最后用我们记下的标签去找相应的内容就行了

    data.findAll('div', attrs={'class': 'trans-container'})[0].findNext('ul').text

    整体代码:

     1 import urllib2
     2 from bs4 import BeautifulSoup
     3 
     4 def query(word):
     5     url = 'http://dict.youdao.com/w/eng/%s' % word
     6     page = urllib2.urlopen(url).read()
     7     data = BeautifulSoup(page, 'lxml')
     8     return data.findAll('div', attrs={'class': 'trans-container'})[0].findNext('ul').text
     9 
    10 if __name__ == '__main__':
    11     while True:
    12         print(query(raw_input()))

    运行结果:

    哇你看是不是学个爬虫很简单

  • 相关阅读:
    算法
    爬虫--scrapy框架
    Flask--SQLAlchemy
    Flask--WTForms
    Django--model操作
    Odoo10 自定义模块创建
    odoo10 工作流、安全机制、向导
    odoo10 高级视图
    odoo10 onchange、唯一性约束
    Odoo10 模型(结构化的应用数据)、视图(用户界面设计)
  • 原文地址:https://www.cnblogs.com/general10/p/7490279.html
Copyright © 2011-2022 走看看