zoukankan      html  css  js  c++  java
  • 02-NLP-01-字符串处理

    Jupyter Notebook
    string_operation
    
    字符串操作 我们一起回归一下python字符串的相关操作,这是非常基础的知识,但却是使用频度非常高的一些功能。 去空格及特殊符号 In [3]: s = ' hello, world!' print s.strip() print s.lstrip(' hello, ') print s.rstrip('!') hello, world! world! hello, world 连接字符串 In [4]: sStr1 = 'strcat' sStr2 = 'append' sStr1 += sStr2 print sStr1 strcatappend 查找字符 In [6]: # index函数的返回值小于0 表示未找到 # 查找的子串必须完全匹配,如果想查找的是模式串,需要用到正则表达式 sStr1 = 'strchr' sStr2 = 'r' nPos = sStr1.index(sStr2) print nPos 2 比较字符串 In [10]: # compare函数cmp进行比较 sStr1 = 'strchr' sStr2 = 'strch' print cmp(sStr2,sStr1) print cmp(sStr1,sStr2) print cmp(sStr1,sStr1) -1 1 0 字符串中的大小写转换 In [15]: sStr1 = 'JCstrlwr' sStr1 = sStr1.upper() #sStr1 = sStr1.lower() print sStr1 JCSTRLWR 翻转字符串 In [16]: #[::-1] sStr1 = 'abcdefg' sStr1 = sStr1[::-1] print sStr1 gfedcba 查找字符串 In [17]: sStr1 = 'abcdefg' sStr2 = 'cde' print sStr1.find(sStr2) 2 分割字符串 In [18]: #利用split,按照分隔符进行分割 sStr1 = 'ab,cde,fgh,ijk' sStr2 = ',' sStr1 = sStr1[sStr1.find(sStr2) + 1:] print sStr1 #或者 s = 'ab,cde,fgh,ijk' print(s.split(',')) cde,fgh,ijk ['ab', 'cde', 'fgh', 'ijk'] 计算字符串中出现频次最多的字母 In [19]: #version 1 import re from collections import Counter ​ def get_max_value_v1(text): text = text.lower() result = re.findall('[a-zA-Z]', text) # 去掉列表中的符号符 count = Counter(result) # Counter({'l': 3, 'o': 2, 'd': 1, 'h': 1, 'r': 1, 'e': 1, 'w': 1}) count_list = list(count.values()) max_value = max(count_list) max_list = [] for k, v in count.items(): if v == max_value: max_list.append(k) max_list = sorted(max_list) return max_list[0] In [20]: #version 2 from collections import Counter ​ def get_max_value(text): count = Counter([x for x in text.lower() if x.isalpha()]) m = max(count.values()) return sorted([x for (x, y) in count.items() if y == m])[0] In [21]: #version 3 import string ​ def get_max_value(text): text = text.lower() return max(string.ascii_lowercase, key=text.count) In [23]: max(range(6), key = lambda x : x>2) # >>> 3 # 带入key函数中,各个元素返回布尔值,相当于[False, False, False, True, True, True] # key函数要求返回值为True,有多个符合的值,则挑选第一个。 ​ max([3,5,2,1,4,3,0], key = lambda x : x) # >>> 5 # 带入key函数中,各个元素返回自身的值,最大的值为5,返回5. ​ max('ah', 'bf', key=lambda x: x[1]) # >>> 'ah' # 带入key函数,各个字符串返回最后一个字符,其中'ah'的h要大于'bf'中的f,因此返回'ah' ​ max('ah', 'bf', key=lambda x: x[0]) # >>> 'bf' # 带入key函数,各个字符串返回第一个字符,其中'bf'的b要大于'ah'中的a,因此返回'bf' ​ text = 'Hello World' max('abcdefghijklmnopqrstuvwxyz', key=text.count) # >>> 'l' # 带入key函数,返回各个字符在'Hello World'中出现的次数,出现次数最多的字符为'l',因此输出'l' Out[23]: 'l' Count occurrence of a character in a Python string In [24]: #T h e M i s s i s s i p p i R i v e r #[1, 1, 2, 2, 1, 5, 4, 4, 5, 4, 4, 5, 2, 2, 5, 2, 1, 5, 1, 2, 1] sentence='The Mississippi River'def count_chars(s): s=s.lower() count=list(map(s.count,s)) return (max(count)) ​ print count_chars(sentence)
  • 相关阅读:
    怎样去阅读一份php源代码
    Cloudera Hadoop 4系列实战课程(电商业日志流量分析项目)
    ORACLE系列之SQL从入门到精通(全面把控数据库基础)
    jQuery2.0应用开发:SSH框架整合jQuery2.0实战OA办公自动化
    Unity3D游戏引擎实战开发从入门到精通
    中国移动:物联网项目实战开发企业级应用(ssp框架应用、EXTJS4.2、GoogleMap、JPA)
    基于OpenLayers实战地理信息系统(离线地图,通过基站转经纬度,Quartz深入,轨迹实战)
    Android自动化测试从入门到精通
    博客从新开张啦!
    python scrapy版 极客学院爬虫V2
  • 原文地址:https://www.cnblogs.com/Josie-chen/p/9120753.html
Copyright © 2011-2022 走看看