zoukankan      html  css  js  c++  java
  • 盖得化工--采集二级网址的公司详细信息

    Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门

    https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6EmUbbW&id=564564604865

    # -*- coding: utf-8 -*-
    """
    Created on Wed May 11 10:18:57 2016
    
    @author: Administrator
    """
    
    import requests,bs4,csv,time,random,os
    
    fileName='combinedFile.csv'
    #存放二级网址目录
    thedir='C:/Users/Administrator/Desktop/盖得化工测试/二级链接/'
    
    #获取所有csv文件名
    def Get_csvFileNames():
        #获取路径下所有文件
        list_FileNames=os.listdir(thedir)
        #获取路径下所有csv文件
        list_csvFileNames=[fileName for fileName in list_FileNames if os.path.splitext(fileName)[1]==".csv"]
        return list_csvFileNames
    
     #获取一个csv文件的公司的二级网址,一共二十个
    def Get_second_links(fileName):
        file=open(fileName,'r')
        csv_reader=csv.reader(file)
        second_links=list(csv_reader)
        second_links1=[i[1] for i in second_links]
        
        return second_links1
    
    #获取一个公司的信息:名字,主要产品,联系方式,地址 ,并保存到一个row的列表中
    def Get_companeyInformation(secondLink):
        #row用于保存公司所有采集信息
        row=[]
        res=requests.get(secondLink)
        soup=bs4.BeautifulSoup(res.text,"lxml")
        #公司名字
        companyName_elem=soup.select(".cnname")
        companyName=companyName_elem[0].getText()
        #主要产品
        mainProduct_elem=soup.select(".main-product")
        mainProduct=mainProduct_elem[0].getText()
        #地址
        address_elem=soup.select(".public-ul")
        content=address_elem[1].getText()
        content1=content.split('
    ')
        address=content1[3]
        
        site_company=content1[6] 
        site_company1=site_company.strip('	')
        site_company2=site_company1.split("xa0")
        site_company3=site_company2[0:2] #最终结果
        row.append(secondLink)
        row.append(companyName)
        row.append(mainProduct)
        row.append(address)
        row.append(site_company3)
        return row
        
    

      

  • 相关阅读:
    Redis入门
    k8s dubbo微服务之maven配置
    NoSQL发展历史与阿里巴巴架构演进分析
    k8s交付dubbo微服务之部署Jenkins
    k8s版本平滑升级
    读 <The Lost Horizon> 感
    luogu P1026 统计单词个数
    acm一些小细节/技巧
    数据结构与算法——常用高级数据结构及其Java实现
    数据结构与算法——常用排序算法及其Java实现
  • 原文地址:https://www.cnblogs.com/webRobot/p/5482741.html
Copyright © 2011-2022 走看看