wget http://www.baidu.com
cat index.html | sed 's/[^a-zA-Z0-9[:punct:]]//g' | grep -v '^$'
过滤index.html的中文