解决一个问题有很多方法,虽然可以达到同样的目的,但是过程却是相差胜远.比如:从HTML代码片段里面获取img属性的值
我刚刚开始使用的是正则表达式去匹配,代码如下:
/**
* 得到网页中图片的地址
* @param sets html字符串
*/
public Set<String> getImgStr(String htmlStr) {
Set<String> pics = new HashSet<String>();
String img = "";
Pattern p_image;
Matcher m_image;
String regEx_img = "<img.*src\s*=\s*(.*?)[^>]*?>";
p_image = Pattern.compile(regEx_img, Pattern.CASE_INSENSITIVE);
m_image = p_image.matcher(htmlStr);
while (m_image.find()) {
// 得到<img />数据
img = m_image.group();
// 匹配<img>中的src数据
Matcher m = Pattern.compile("src\s*=\s*"?(.*?)("|>|\s+)").matcher(img);
while (m.find()) {
pics.add(m.group(1));
}
}
return pics;
}
运行过程中发现这种全字段去匹配的方式效率非常低,如果内容大点,会卡死.后面才知道java的document对象可以快速解析HTML代码
Document doc = Jsop.parse(htmlStr);
Elements imgNodeList = doc.select("img");
String src = "";
StringBuffer srcBase64s = new StringBuffer();
int n = 1;
for(Element imgNode : imgNodeList){
src = imgNode.attr("src");
if(src.contains("base64")){
String srcBase64 = src.split(",")[1];
if(n<imgNodeList).size()){
srcBase64s.append(srcBase64).append(",");
n++;
}else{
srcBase64s.append((srcBase64);
}
}
}
//转化为二进制存储,图片一般都是以二进制去存储的
Bytes.toBytes(srcBase64s.toString())
document是分节点去获取属性值,效率会高很多,其操作方式跟js,jQuery的方式类似,具体可以参照该https://blog.csdn.net/qq541976141/article/details/51162084博客