zoukankan html css js c++ java

输入一个网址提取文字代码

import requests
from bs4 import BeautifulSoup
import re

string = ''
# 确定目标网页
url = 'http://imgtest.yijingjia.com/95f5aa57ab5a4a828a4aa4007587ef5a_1631190202380'
print(url)
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'
headers = {'User-Agent': user_agent}
res = requests.get(url=url, headers=headers)
res.encoding = res.apparent_encoding
soup = BeautifulSoup(res.text, 'lxml')
news = soup.find('html')  # 只识别外层的div里面的文字
string = string + news.get_text()

# 1.处理空行----------------------------------------success
string = re.sub('\n{1,100}', '\n', string)
# 2.处理只含有空格的行--------------------------------success
string = re.sub('\40{0,100}\n\40{0,100}\n', '\n', string)
string = re.sub('\40{0,100}\n\40{0,100}', '\n', string)

# 3.将所有中文冒号转成英文冒号--------------------------success
string = re.sub('：', ':', string)

# 4.处理冒号换行空格----------------------------------success
string = re.sub('\40{0,100}:\40{0,100}\n\40{0,100}', ':', string)
# 5.处理冒号后面的空格--------------------------------default
string = re.sub(': {1,100}', ':', string)
# 6.处理空格----------------------------------------default  怀疑读取出来的不是空格，因为 2. 是可以处理空格的
string = re.sub('\40{2,100}', '\40', string)

fileName = 'E:\\网站文件\\' + 'test.txt'
print(fileName)
fh = open(fileName, 'w', encoding='utf-8')
fh.write(string)
fh.close()

会当凌绝顶，一览众山小

查看全文

相关阅读:
SQL注入
 mysq笔记
 白话内存管理（一）：从开国大典说起
 【转载】光纤协议中 WWPN 编码规则及实例解析
 利用django打造自己的工作流平台(三):任务的批量分派和跟踪
 利用django打造自己的工作流平台(二):疫情统计系统
 利用django打造自己的工作流平台(一):从EXCEL到流程化运作
 驾驭git merge——git merge的规范化操作
 一款用于绘制状态机转换图和流程图的web在线绘图工具
 利用python+graphviz绘制数据结构关系图和指定目录下头文件包含关系图

原文地址：https://www.cnblogs.com/leyzzz/p/15726272.html