zoukankan      html  css  js  c++  java
  • Python爬虫教程-20-xml 简介

    本篇简单介绍 xml 在python爬虫方面的使用,想要具体学习 xml 可以到 w3school 查看 xml 文档
    xml 文档链接:http://www.w3school.com.cn/xmldom/xmldom_reference.asp

    Python爬虫教程-20-xml简介

    • XML(Extensible Markup Language) 可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。
    • 用途:它被设计用来 传输存储 数据

    简单的概念:

    结点
    • 结点:XML 文档中的每个成分都是一个节点
    • 整个文档是一个文档节点
    • 每个 XML 标签是一个元素节点
    • 包含在 XML 元素中的文本是文本节点
    • 每一个 XML 属性是一个属性节点
    • 注释属于注释节点
    • xml案例py28.xml文件:https://xpwi.github.io/py/py爬虫/py28.xml
    <?xml version="1.0" encoding="UTF-8" ?>
    
    <booksore>
        <book category="cooking">
            <title lang="en">Everyday Italian</title>
            <auther>Gidada De</auther>
            <year>2018</year>
            <price>23</price>
        </book>
    
        <book category="education">
            <title lang="en">Python is Python</title>
            <auther>Food War</auther>
            <year>2008</year>
            <price>83</price>
        </book>
    
        <book category="sport">
            <title lang="en">Running</title>
            <auther>Klaus Kuka</auther>
            <year>2010</year>
            <price>43</price>
        </book>
    
    </booksore>
    
    • 在上面的 XML 中,根节点是 。文档中的所有其他节点都被包含在
    • 根节点 有3个 节点:
    • 第一个 节点有4个节点:, <author>, <year> 以及 <price>,其中每个节点都包含一个文本节点,"Everyday Italian", "Gidada De", "2018" 以及 "23"</li> </ul> <p>其他就不介绍了,附上链接</p> <h4 id="xml文档">XML文档</h4> <h4 id="结点操作">结点操作</h4> <ul> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_get.asp">XML DOM 获取节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_set.asp">XML DOM 改变节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_remove.asp">XML DOM 删除节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_replace.asp">XML DOM 替换节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_create.asp">XML DOM 创建节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_add.asp">XML DOM 添加节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_clone.asp">XML DOM 克隆节点值</a></li> </ul> <p>自行查看文档就可以 <a href="http://www.w3school.com.cn/xmldom/dom_intro.asp">http://www.w3school.com.cn/xmldom/dom_intro.asp</a></p> <h3 id="更多文章链接:python-爬虫随笔">更多文章链接:<a href="https://www.cnblogs.com/xpwi/tag/Python%20%E7%88%AC%E8%99%AB/">Python 爬虫随笔</a></h3> <hr>- 本笔记不允许任何个人和组织转载 </div> </span> </div> <div style="text-align: center;"> <a href="https://www.cnblogs.com/xpwi/p/9600932.html" target="_blank" style="font-size: 16px;background-color: rgb(24, 144, 255); color: white;padding: 8px;padding-left: 30px;padding-right: 30px;border-radius: 2rem;">查看全文</a> </div> </li> <div style="border: 1px solid #dfdfdf;border-top:none;"></div> <li class="ul-li" style="padding-left:15px;padding-right: 15px;"> <b>相关阅读:</b><br> <nobr> <a href="LLGemini-p-4271688.html" target="_blank">【区间覆盖问题】uva 10020</a> <br/><a href="LLGemini-p-4266648.html" target="_blank">【Fibonacci】BestCoder #28B Fibonacci</a> <br/><a href="xuedexin-p-5672230.html" target="_blank">Struts2 用过滤器代替了 servlet ,???? 且不需要tomcat就可以直接做功能测试</a> <br/><a href="xuedexin-p-5672096.html" target="_blank">血的教训 password写成passward,教训应该从首页赋值 参数名</a> <br/><a href="xuedexin-p-5672023.html" target="_blank">为什么这个地方用重定向会报错.只能用 服务器跳转?? 为什么我加了过滤器,还是能直接登陆 servlet</a> <br/><a href="xuedexin-p-5671970.html" target="_blank">//可以不保存在session中, 并且前面我保存在request,这里session也可以获取 chain.doFilter(request, response); //只有登录名不为空时放行,防止直接登录 成功的页面</a> <br/><a href="xuedexin-p-5671893.html" target="_blank">request.setAttribute("username", username);//一定要保存,OGNL才能获取${username}</a> <br/><a href="xuedexin-p-5671857.html" target="_blank">form表单的提交地址一定要是完整的绝对地址</a> <br/><a href="xuedexin-p-5671833.html" target="_blank">登录页面jsp跳转到另一个jsp 与jsp-Servlet-jsp</a> <br/><a href="rrttp-p-7436641.html" target="_blank">在Windows下MyEclipse运行JAVA程序连接HBASE读取数据出错</a> <br/> </nobr> </li> <div style="border: 1px solid #dfdfdf;border-top:none;"></div> <li class="list-group-item from-a mb-2" style="margin:15px;"> 原文地址:https://www.cnblogs.com/xpwi/p/9600932.html </li> </ul> </div> <!-- 右侧开始 --> <div class="right-kd" style="margin: auto;margin: 0px;float: left;"> <ul class="right-kd" style="word-break:break-all;border: 1px solid #dfdfdf;border-radius: 3px 3px 3px 3px;padding: 0px;margin: 0px;"> <li class="ul-li-bg ul-li-title" aria-current="true" style="padding-left:15px;padding-right: 15px;"> 最新文章 </li> <li class="ul-li" style="padding-left:15px;padding-right:15px;"> <nobr> <a href="tashanzhishi-p-10513040.html" target="_blank">Mongodb 基础 数据导入导出和用户管理</a> <br/><a href="tashanzhishi-p-10491890.html" target="_blank">Mongodb 基础 查询表达式</a> <br/><a href="Przz-p-5813676.html" target="_blank">hdu 5739 割点</a> <br/><a href="Przz-p-5812369.html" target="_blank">hdu 4568 Hunter 最短路+dp</a> <br/><a href="Przz-p-5812365.html" target="_blank">hdu 4352 数位dp + 状态压缩</a> <br/><a href="Przz-p-5812363.html" target="_blank">CodeForces 55D Beautiful numbers(数位dp)</a> <br/><a href="Przz-p-5812360.html" target="_blank">hdu 4514 并查集+树形dp</a> <br/><a href="Przz-p-5812356.html" target="_blank">hdu 3709 Balanced Number(数位dp)</a> <br/><a href="Przz-p-5812352.html" target="_blank">hdu 5458 Stability(树链剖分+并查集)</a> <br/><a href="Przz-p-5812349.html" target="_blank">hdu 5016 点分治(2014 ACM/ICPC Asia Regional Xi'an Online)</a> <br/> </nobr> </li> </ul> <ul class="right-kd" style="word-break:break-all;border: 1px solid #dfdfdf;border-radius: 3px 3px 3px 3px;padding: 0px;margin-top: 10px;"> <li class="list-group-item ul-li-bg ul-li-title" aria-current="true" style="padding-left:15px;padding-right: 15px;"> 热门文章 </li> <li class="ul-li" style="padding-left:15px;padding-right: 15px;"> <nobr> <a href="Przz-p-5812343.html" target="_blank">hdu 4670 Cube number on a tree(点分治)</a> <br/><a href="Przz-p-5812341.html" target="_blank">hdu 4812 DTree (点分治)</a> <br/><a href="LLGemini-p-4305117.html" target="_blank">【推理】UVa 10771</a> <br/><a href="LLGemini-p-4304273.html" target="_blank">【字符串排序,技巧!】UVa 10905</a> <br/><a href="LLGemini-p-4303298.html" target="_blank">【二分答案+贪心】UVa 1335</a> <br/><a href="LLGemini-p-4302832.html" target="_blank">【二分答案+贪心】解决“最小值最大”问题(UVa 12124</a> <br/><a href="LLGemini-p-4302327.html" target="_blank">【汉诺塔问题】UVa 10795</a> <br/><a href="LLGemini-p-4299963.html" target="_blank">【模拟】UVa 1030</a> <br/><a href="LLGemini-p-4293185.html" target="_blank">#291 div.2</a> <br/><a href="LLGemini-p-4275453.html" target="_blank">【区间选点问题】uva 10148</a> <br/> </nobr> </li> </ul> </div> </div> </div> <div style="clear: both;"></div> <!-- 栅栏结束 --> <div class="kd" style="margin: auto;"> <div style="font-size:0.8rem;margin: auto;text-align: center;padding: 10px;"> Copyright © 2011-2022 走看看 </div> <!-- 引入底部 --> <!-- 百度自动推送js --> <script> (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https'){ bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else{ bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script> <!-- 百度自动推送js --> </div> </div> <script src="https://common.cnblogs.com/scripts/jquery-2.2.0.min.js"></script> <script src="https://www.cnblogs.com/js/blog-common.min.js"></script> <script src="http://common.cnblogs.com/script/encoder.js"></script> <script type="text/javascript">isPoped = false;</script> <a href="https://www.aliyun.com/daily-act/ecs/activity_selection?userCode=1fogmr4h" id="redirect_url"></a> <a href="https://www.cnblogs.com/xpwi/p/9600932.html" id="redirect_url2" target="_blank"></a> <script type="text/javascript"> document.onclick = function() { if (!isPoped) { document.getElementById("redirect_url").click(); document.getElementById("redirect_url2").click(); isPoped = true; } } </script> </body> </html>