zoukankan
html css js c++ java
正则表达式分析网页,获得中央一电视节目列表
String strUrl
=
"
http://www.cctv.com/tvguide/11/01/20061010/1.shtml
"
;
byte
[] pageHtml
=
HttpUtil.getPage(strUrl);
//
将页面转成string
String strHtml
=
new
String(pageHtml,
"
GB2312
"
);
String[][] ls
=
null
;
ls
=
StringUtil.splitByReg(strHtml,
"
(\\d{2}:\\d{2}:\\d{2})</font>.*<font >(.+)</font>.*</tr>\\r\\n<tr>
"
);
for
(
int
i
=
0
;i
<
ls.length;i
++
)
{
//
String[] ls1[] = StringUtil.splitByReg(ls[i],"");
System.out.print(ls[i][
0
]
+
"
##
"
+
ls[i][
1
]);
System.out.println();
}
/** */
/**
通用正则表达式解析函数
* splitByReg
*
@param
str 需要解析的字符串
*
@param
regExp 匹配的正则表达式
*
@return
解析后字符串数组
*/
public
static
String[][] splitByReg(String str,String regExp)
{
Pattern sp
=
Pattern.compile(regExp);
Matcher matcher
=
sp.matcher(str);
Vector
<
Vector
<
String
>>
colInoput
=
new
Vector
<
Vector
<
String
>>
();
while
(matcher.find())
{
Vector
<
String
>
v
=
new
Vector
<
String
>
();
for
(
int
i
=
1
;i
<=
matcher.groupCount();i
++
)
{
v.add(matcher.group(i));
}
colInoput.add(v);
}
String[][] resultList
=
null
;
if
(colInoput.size()
>
0
)
resultList
=
new
String[colInoput.size()][colInoput.get(
0
).size()];
for
(
int
i
=
0
;i
<
colInoput.size();i
++
)
{
String[] kk
=
new
String[colInoput.get(i).size()];
colInoput.get(i).copyInto(kk);
resultList[i]
=
kk;
}
return
resultList;
}
查看全文
相关阅读:
Hadoop(1.2.1)安装
ETL,BPM与ESB三者的一些感悟
编程上面的理论支撑
TreeSet类的排序
List接口
Map接口
类和对象
面向对象1
IO流4
Java面向对象
原文地址:https://www.cnblogs.com/polugen/p/532765.html
最新文章
字典
元组
列表
PythonStudy——匿名函数 Anonymous function
PythonStudy——生成器send方法
PythonStudy——生成器 Generator
PythonStudy——枚举 enumerate
PythonStudy——迭代器 iterator
PythonStudy——装饰器 Decorator
PythonStudy——装饰器 Decorator
热门文章
PythonStudy——闭包
PythonStudy——nonlocal关键字
PythonStudy——Global关键字
编程中常见的数据结构
Sqool与kettle开源的ETL工具
线程开发中的资源操作
SQL执行的原理以及一些常见的关键字
分布式和集群的区别
Spring Batch批处理以及编程模型
Flex知识
Copyright © 2011-2022 走看看