zoukankan html css js c++ java

字符串处理概述

工作中有时会对各类文本进行处理。文本，即字符串。
大部分使用正则表达式，部分直接使用python自带的方法

1. 替换字符串中的url

用于http，https和其他普通的url类型特殊字符

import re
def remove_urls (vTEXT):
    vTEXT = re.sub(r'(https|http)?://(w|.|/|?|=|&|\%)*', '', vTEXT, flags=re.MULTILINE)
    return(vTEXT)


print( remove_urls("this is a test https://sdfs.sdfsdf.com/sdfsdf/sdfsdf/sd/sdfsdfs?bob=%20tree&jef=man lets see this too https://sdfsdf.fdf.com/sdf/f end"))

2. 替换字符串中的英文字母(不含标点符号)

import re
str="我aksjnekljfklen,"
temp = re.sub('[a-zA-Z]','',str)
print(temp)

3. 某个字符串在文本中出现的位置

3.1 找到第一个出现的位置

word = '木叶'
str = '木叶飞舞之处，木叶的莲花'
index = str.find(word)

3.2 找到所有出现的位置

def find_all_(source,dest):

    length1,length2 = len(source),len(dest)
    dest_list = []
    temp_list = []
    if length1 < length2:
        return -1
    i = 0
    while i <= length1-length2:
        if source[i] == dest[0]:
            dest_list.append(i)
        i += 1
    if dest_list == []:
        return -1
    for x in dest_list:
        #print("Now x is:%d. Slice string is :%s"% (x,repr(source[x:x+length2])),end=" ")
        if source[x:x+length2] != dest:
            #print(" dest != slice")
            temp_list.append(x)
        # else:
        #     print(" dest == slice")

    for x in temp_list:
        dest_list.remove(x)
    return dest_list

4. 中文姓氏

可以用来匹配文本中的'x师傅'……
https://github.com/wainshine/Chinese-Names-Corpus

book = xlrd.open_workbook("./tools/Chinese_Family_Name（1k）.xlsx")
sheet = book.sheet_by_index(0)
for r in range(1,sheet.nrows):
    family_name = sheet.cell(r,0).value
    name_list.append(family_name)

5. 中文人名

使用hanlp中带词性的分词，人名对应的pos为'nr'。但是这种方法，很多人名其实被分为了姓+两个字。

words = [_.toString() for _ in HanLP.segment(str)]
for item in words:
    word,pos = item.split('/')
    if pos == 'nr':
        str = str.replace(word,'')

查看全文

相关阅读:
jupyter同时使用python2、3
[python之ipython] jupyter notebook在云端服务器上开启，本地访问
 Transformer的PyTorch实现--转载
 二叉树中和为某一值的路径
 hadoop初识笔记
 大数据初识笔记
 mysql快速入门笔记
 118.Java反射-工厂模式
 117.Java观察者设计模式
 116.Java对象的拷贝

原文地址：https://www.cnblogs.com/leimu/p/13631246.html