zoukankan      html  css  js  c++  java
  • 盖得化工--采集二级网址的公司详细信息

    Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门

    https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6EmUbbW&id=564564604865

    # -*- coding: utf-8 -*-
    """
    Created on Wed May 11 10:18:57 2016
    
    @author: Administrator
    """
    
    import requests,bs4,csv,time,random,os
    
    fileName='combinedFile.csv'
    #存放二级网址目录
    thedir='C:/Users/Administrator/Desktop/盖得化工测试/二级链接/'
    
    #获取所有csv文件名
    def Get_csvFileNames():
        #获取路径下所有文件
        list_FileNames=os.listdir(thedir)
        #获取路径下所有csv文件
        list_csvFileNames=[fileName for fileName in list_FileNames if os.path.splitext(fileName)[1]==".csv"]
        return list_csvFileNames
    
     #获取一个csv文件的公司的二级网址,一共二十个
    def Get_second_links(fileName):
        file=open(fileName,'r')
        csv_reader=csv.reader(file)
        second_links=list(csv_reader)
        second_links1=[i[1] for i in second_links]
        
        return second_links1
    
    #获取一个公司的信息:名字,主要产品,联系方式,地址 ,并保存到一个row的列表中
    def Get_companeyInformation(secondLink):
        #row用于保存公司所有采集信息
        row=[]
        res=requests.get(secondLink)
        soup=bs4.BeautifulSoup(res.text,"lxml")
        #公司名字
        companyName_elem=soup.select(".cnname")
        companyName=companyName_elem[0].getText()
        #主要产品
        mainProduct_elem=soup.select(".main-product")
        mainProduct=mainProduct_elem[0].getText()
        #地址
        address_elem=soup.select(".public-ul")
        content=address_elem[1].getText()
        content1=content.split('
    ')
        address=content1[3]
        
        site_company=content1[6] 
        site_company1=site_company.strip('	')
        site_company2=site_company1.split("xa0")
        site_company3=site_company2[0:2] #最终结果
        row.append(secondLink)
        row.append(companyName)
        row.append(mainProduct)
        row.append(address)
        row.append(site_company3)
        return row
        
    

      

  • 相关阅读:
    用例要素(非原创)
    边界接口设计
    项目管理平台架构
    内外网邮件自动转发
    Python技术公众号100天了
    将博客搬至CSDN
    Android项目真的要去做混淆(加密)处理
    【转】Android Gson的使用
    【转】在eclipse上使用Git
    在AChartEngine上绘图,手指标记当前位置
  • 原文地址:https://www.cnblogs.com/webRobot/p/5482741.html
Copyright © 2011-2022 走看看