zoukankan      html  css  js  c++  java
  • python爬虫-采集英语翻译

     

    http://fanyi.baidu.com/?aldtype=85#en/zh/drug
    http://fanyi.baidu.com/?aldtype=85#en/zh/cat
    http://fanyi.baidu.com/?aldtype=85#en/zh/amoxicillin


    url+word

    # -*- coding: utf-8 -*-
    """
    Created on Wed Mar 2 20:35:05 2016

    @author: daxiong
    """

    import openpyxl,selenium,bs4,requests
    from selenium import webdriver
    from openpyxl.cell import get_column_letter,column_index_from_string
    excel_name='translation.xlsx'
    #两个表格名字
    sheet_name="Sheet1"
    wb=openpyxl.load_workbook(excel_name)
    sheet=wb.get_sheet_by_name(sheet_name)

    English_columnname="A"
    Chinese_columnname="B"
    start=1

    #根据列表索引字母,返回列表
    def Get_column(columnname,thesheet):
    column_index=column_index_from_string(columnname)
    column=thesheet.columns[column_index-1]
    return column


    #根据列,返回列的值,用列表存储
    def Column_cellValues(column):
    cellValue_list=[]
    for cellObj in column[start:]: #console显示不全前面内容,出现第一项不是第一个
    #print(cellObj.value)
    cellValue_list.append(cellObj.value)
    return cellValue_list

    #返回英语翻译网址列表
    def Url_list(words_list):
    url_list=[]
    basic_url="http://fanyi.baidu.com/?aldtype=85#en/zh/"
    for word in words_list:
    url=basic_url+word
    url_list.append(url)
    return url_list

    English_column=Get_column(English_columnname,sheet)
    EnglishWords_list=Column_cellValues(English_column)
    url_list=Url_list(EnglishWords_list)

    #打开浏览器
    #browser=webdriver.Firefox()
    #browser.get(url_list[0])
    res=requests.get(url_list[0])
    res.raise_for_status()
    soup=bs4.BeautifulSoup(res.text,"lxml") #如果没有"lxml"参数,在其他系统或虚拟机会出错
    spanElems=soup.select('span')

  • 相关阅读:
    把redhat5.4-linux2.6.18内核升级到2.6.24 vmware虚拟机中
    webdeploy 使用总结(二)
    System.Web.UI.Page 详解(转)
    Dapper常用方法总结
    webdeploy 使用总结(一)
    Log4Net 详解(转)
    C# 日志工具汇总(转)
    Global.asax 详解(转)
    Transfer与Redirect区别(转)
    web.config配置节system.webServer的子元素详细介绍
  • 原文地址:https://www.cnblogs.com/webRobot/p/5236802.html
Copyright © 2011-2022 走看看