zoukankan      html  css  js  c++  java
  • 抽取网页源代码中的中文字符

    通过正则匹配中文字符,写入新的文本,我在这里删除了表示字体的中文

    import re
    f=open(r'C:UserslenovoDesktop1.txt','r',encoding='utf8')
    m= re.compile(u"[u4e00-u9fa5]+")
    p=open(r'C:UserslenovoDesktop2.txt','w',encoding='utf8')
    for line in f.readlines():
        list=re.findall(m,line)
        for i in list:
            if i!='宋体':
                p.write(i)
        p.write('
    ')
    p.close()
    f.close()
    

    1.txt是网页源代码文件,如下:

    <html>
    
    <head>
    <meta http-equiv="Content-Type" content="text/html; charset=gb2312">
    <meta name="GENERATOR" content="Microsoft FrontPage 6.0">
    <meta name="ProgId" content="FrontPage.Editor.Document">
    <title>回归分析原理之逐步回归分析</title>
    </head>
    
    <body background="images/bg.jpg">
    <p style="line-height: 150%; margin-top: 0; margin-bottom: 0" align="center"><b>
    <font face="宋体" style="font-size: 11pt">§</font><font face="宋体" size="3">4 
    逐步回归分析</font></b></p>
    <p style="line-height: 150%; margin-top: 0; margin-bottom: 0" align="center"> </p>
    <p style="line-height: 150%; margin-top: 0; margin-bottom: 0">
    <font face="宋体" style="font-size: 9pt">、逐步回归分析的主要思路</font></p>
    <p style="line-height: 150%; margin-top: 0; margin-bottom: 0">
    ...

    2.txt是抽取中文后的文件,如下:

    逐步回归分析
    
    
    逐步回归分析的主要思路
    
    在实际问题中人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量应用多元回归分析的方法建立最优回归方程以便对因变量进行预报或控制所谓最优回归方程主要是指希望在回归方程中包含所有对因变量影响显著的自变量而不包含对影响不显著的自变量的回归方程逐步回归分析正是根据这种原则提出来的一种回归分析方法它的主要思路是在考虑的全部自变量中按其对的作用大小显著程度大小或者说贡献大小由大到小地逐个引入回归方程而对那些对作用不显著的变量可能始终不被引人回归方程另外己被引人回归方程的变量在引入新变量后也可能失去重要性而需要从回归方程中剔除出去引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步每一步都要进行检验以保证在引人新变量前回归方程中只含有对影响显著的变量而不显著的变量已被剔除
    ...
  • 相关阅读:
    vue首页组件切换
    vue 页面 添加背景音乐
    vue 新闻列表滚动效果
    vuex中的this.$store.commit
    echarts图例的位置及大小,环图中间字
    octotree — 树形展示 Github 项目代码
    D3 GEO应用专题(一):绘制旋转的3D地球
    vue/cli 3.0脚手架搭建vue项目
    微软锁屏壁纸
    Spring Boot构建RESTful API与单元测试
  • 原文地址:https://www.cnblogs.com/chenyaling/p/5838040.html
Copyright © 2011-2022 走看看