zoukankan      html  css  js  c++  java
  • 初触Python,关于pyquery解析html(百度贴吧)

    一直听同事说Python是个奇妙的语言,上周在逛知乎的时候深受这个话题的启示。

    能利用爬虫技术做到哪些非常酷非常有趣非常实用的事情?

    先是说到IDE的选择,作为python新人,尽管知道mac终端自带Python,但在一番谷歌百度之后,还是选择了PyCharm 。理由大概是 PyCharm比較像xcode吧。看上去有种亲切感。

    Python的第三方库和iOS开发的第三方库大体相像。可是在引入第三方库的时候,PyCharm似乎是更加的简单。注意选择相应的版本号然后下载第三方库,稍等片刻就成功了。

    Python的第三方库和iOS开发的第三方库大体相像。可是在引入第三方库的时候。PyCharm似乎是更加的简单。注意选择相应的版本号然后下载第三方库,稍等片刻就成功了。


    第一次爬数据,选择了百度贴吧作为联系的目标,爬之前并没有查到关于爬贴吧帖子列表的一个教程,自己动手丰衣足食。

    首先引入须要使用的第三方库PyQuery

    #coding=utf-8
    
    from pyquery import PyQuery as pq
    
    from lxml import etree
    
    v_source=pq(url='http://tieba.baidu.com/f?kw=%BD%A3%CD%F83&fr=ala0&tpl=5')
    
    v_source2=(v_source('div').children('.wrap2')).children('.content')
    
    v_source3=((v_source2.children()).children('.main')).children()
    
    v_source4=(((((v_source3.children()).children()).children()).children('.col2_right')).children('.threadlist_lz')).children('.threadlist_title')
    
    print(v_source4)
    
    fordatainv_source4:
    
    Atitle=pq(data).text()
    
    Aurl= pq(data)('a[class= "j_th_tit " ]').attr('href')
    
    if(AurlandAtitle):
    
    print(Atitle,"http://tieba.baidu.com"+Aurl)

    最后得到的结果是 帖子的标题以及url:

    【破事水】情缘了两个月 昨天死了 http://tieba.baidu.com/p/3978787393

    隔壁贴在问专业,我好想知道渣基三的都是做什么工作的。 http://tieba.baidu.com/p/3977454500

    【树洞】今天我截了个5000分藏剑的镖… http://tieba.baidu.com/p/3977501311

    当剑三这两种体型同一时候出如今你身边,你选哪一个做你男/女朋友 http://tieba.baidu.com/p/3976484359

    怒撕大战啥都不会就有脸进组的小白 http://tieba.baidu.com/p/3977928309

    新手看到10多个门派好方啊,选哪个好玩啊 http://tieba.baidu.com/p/3978693801

    【女神养成】且看小白怎样逆袭成女神 http://tieba.baidu.com/p/3108513494

    【这是一个日了狗的树洞】情缘七夕居然不要我和她做任务 http://tieba.baidu.com/p/3978824104

    【假装是对称贴】那个睁眼说瞎话的咩太你进来我有事和你说说 http://tieba.baidu.com/p/3977303586

    求赐一个清新脱俗漂亮动听的秀萝名字 http://tieba.baidu.com/p/3977303814

    七夕GM疯辣 http://tieba.baidu.com/p/3978419861

    【跟风】是不是仅仅有我一个认为花哥最丑 http://tieba.baidu.com/p/3978734881

    一个基三渣男的自我救赎之路。(就作为离别的感言吧) http://tieba.baidu.com/p/3978565064

    曝光一个骗子_(:з」∠)_!

    http://tieba.baidu.com/p/3976992408

    【捏脸向】莫提来路 莫问归处(邮箱+网盘) http://tieba.baidu.com/p/3978273550

    【我的江湖不留遗憾】A之前要做的100件事 http://tieba.baidu.com/p/3963973171

    【破事水】就由于奶花不易上手。奶不上hps不怪你咯 http://tieba.baidu.com/p/3977435265

    【树洞】我是那个代练…那个高三老板的代练 http://tieba.baidu.com/p/3972726245

    艾特自己的游戏ID,亮了的揍死他!

    http://tieba.baidu.com/p/2738498207

    【关于腾讯】之前一直骂腾讯抢头条然而…… http://tieba.baidu.com/p/3978690160

    仅仅有我认为囤货商人如今都是老爷么 http://tieba.baidu.com/p/3977553269

    【树洞】那个以为我每次打本工资都有26W的徒弟,我不欠你什么。 http://tieba.baidu.com/p/3977360158

    关于刷羽毛点 http://tieba.baidu.com/p/3978301556

    【仅仅是树洞】同心锁,真能锁得住什么 http://tieba.baidu.com/p/3978821975

    剑三碧池新标准大科普!

    http://tieba.baidu.com/p/3770167700

    为什么我的代练永远画风不太对。。 http://tieba.baidu.com/p/3894758678

    十七万血万分苍云被9600冰心满血秒掉 惊呆了 http://tieba.baidu.com/p/3978488404

    为什么打怪不掉鸟毛 http://tieba.baidu.com/p/3978816908

    【捏脸帖】雨浥红妆娇娜娜(邮箱+网盘) http://tieba.baidu.com/p/3977768289

    抄书。十三棍僧。,,我去npc买了好多这书,不知道怎么用啊 http://tieba.baidu.com/p/3978675722

    【歌帖】且伴这岁月长长,君余音仍绕梁漫漫 http://tieba.baidu.com/p/3976837006

    【818?】那个假装备胎还脚踏几条船的甩锅王麻烦你不要再内she了 http://tieba.baidu.com/p/3898377744

    【树洞】自从我拜了个说话不超过五个字的师父,我的人生轨迹改变了 http://tieba.baidu.com/p/3940312698

    【姨妈服】你们不知道的赖子 http://tieba.baidu.com/p/3938340367

    【调查】你玩剑三多久了花了多少软妹币 http://tieba.baidu.com/p/3978388753

    我比金山聪明系列之各职业能力分布图 http://tieba.baidu.com/p/3978388473

    818。念破处女座团长 http://tieba.baidu.com/p/3978805760

    [616]论排队捡物资有没有必要 http://tieba.baidu.com/p/3978673469

    【树洞】那个少女心的小公举师傅和他的菜地帮 http://tieba.baidu.com/p/3978791802

    有个奶说被松狮丐喂了糖葫芦感觉非常恶心 http://tieba.baidu.com/p/3978722892

    【外观水贴】无聊时发一下罢了(从南皇到朔雪) http://tieba.baidu.com/p/3765402065

    我就想问问刷999个羽毛要多久 http://tieba.baidu.com/p/3978748424

    又看见逗比言论,长点见识再来bb行吗 http://tieba.baidu.com/p/3978376261

    【求助】七夕鸟毛去哪里刷最快? http://tieba.baidu.com/p/3978781271

    【树洞】我陆日天一生渣妹无数。但我愿意为这个胎收手。 http://tieba.baidu.com/p/3970223700

    【树洞】直到今天母上推开了我屋的门ojz http://tieba.baidu.com/p/3978813461


    略微提一下在学习的时候碰到的问题:

    #include "libxml/xmlversion.h" 报错。

    not found 或者error:command'cc'failedwithexit status1。

    这个问题国内论坛基本上没答案。而且都是一个版本号.还是万能的stackoverflow挽救了我。

    Cannot install Lxml on Mac os x 10.9

    附上 pyquery的api文档

    pyquery – PyQuery complete API


  • 相关阅读:
    Java基础知识面试题(2021年最新版,持续更新...)整理
    windows10 cmd窗口输出卡住(看这篇就够了)
    windows10 powershell窗口输出卡住(看这篇就够了)
    Golang函数相关
    内存对齐详解
    Go编程模式Pipeline
    管道符、重定向与环境变量(Linux就该这么学第三章)
    GMP模型简介
    新手必须掌握的Linux命令(Linux就该这么学第二章)
    Goland运行项目报错:CreateProcess error=216, 该版本的 %1 与你运行的 Windows 版本不兼容。请查看计算机的系统信息,然后联系软件发布者。
  • 原文地址:https://www.cnblogs.com/jhcelue/p/6905659.html
Copyright © 2011-2022 走看看