生物信息很多时候要爬数据。最近也看了一些这些方面的。
url<-"要爬取的网址"
url.html<-htmlParse(url,encoding="UTF-8")
如果要获得部分信息,则使用XPath方法。
xpath<-"//*[@id='填写目标id']/span[@id='细分标签的id']
目标id.node<-getNodeSet(url.html,xpath)
//表示任意个html嵌套标签
*表示任意个标签
/表示下一级,span则表示细分标签
如果要读取节点下表签内的内容,则使用xmlValue;xmlGetAttr则可以读取某个属性值