zoukankan      html  css  js  c++  java
  • python爬虫

    这里使用的是xpath这个第三方python库

    使用 from lxml import etree 导入

    使用:

    select = etree.HTML(html)

    content = select.xpath()

    for each in content:

      print each

    一个简单的demo:

    from lxml import etree
    
    
    html = '''
    <!DOCTYPE html>
    <html lang="en">
    <head>
        <meta charset="UTF-8">
        <title>Title</title>
    </head>
    <body>
        <input id='name1' href = 'www.hao123.com'></input>
        <input id='name2'></input>
            xxxx
    
    
    </body>
    </html>
    '''
    select = etree.HTML(html)
    
    content = select.xpath("//body/input[@id='name1']/@href")
    
    for each in content:
        print each
    print "end"
  • 相关阅读:
    URL
    B/S架构
    SQL查询语句
    SQL-Delete语句
    SQL运算符
    SQL结构查询语言
    SQL数据库数据类型详解
    标准文档流
    CSS
    字体样式
  • 原文地址:https://www.cnblogs.com/liaocheng/p/5218807.html
Copyright © 2011-2022 走看看