zoukankan      html  css  js  c++  java
  • python库--pandas--Series.str--字符串处理

    python内置字符串处理方法

    S: Series  I: Index

    方法 返回值 参数 说明
    .capitalize() S/I   将Series/Index中的字符串大写
    .cat() S/I/str  使用给定分隔符连接字符串
    other=None  None: 使用sep连接给定的Series返回一个str
    List_like: 与Series对应位置的字符串用sep连接返回一个S
    sep=None 分隔符
    na_rep=None 遇到NA值忽略或使用指定字符替换
    .center() S 在字符串两端填充指定字符到指定长度
    width 填充后的字符串长度
    fillchar=' ' 用于填充的字符串
    .contains() S[bool] 判断指定字符串或正则表达式是否在序列或索引中
    pat 字符串或正则表达式
    case=True 是否区分大小写
    flags=0 可传入re.IGNORECASE之类的参数
    na=nan 缺失值填充
    regex=True 是否使用正则表达式匹配
    .count() S[int] 统计指定字符串在序列字符串中出现的次数
    pat 字符串或正则表达式
    flags=0 可传入re.IGNORECASE之类的参数
    .decode() S[str] 解码
    encoding 解码方式
    errors='static' error处理方式
    .encode() S[b''] 编码
    encoding 编码方式
    error='static' error处理方式
    .endswith() S[bool] 判断是否以给定的字符串结尾
    pat 字符串
    na=nan 缺失值填充
    .extract()   使用正则表达式提取需要的内容(只匹配一次)
    pat 正则表达式(必须含有捕获组, 超过一个必然返回DataFrame)
    flags=0 可传入re.IGNORECASE之类的参数
    expand=None True: 返回DataFrame(未来版本默认值)
    False: 返回S/I/DataFrame(现在版本默认值)
    .extractall() df 获取所有的正则表达式匹配到的内容(以多级索引的方式展示)
    pat 含捕获组的正则表达式, 若捕获组设有name则将作为返回的列标签
    flags=0 可传入re.IGNORECASE之类的参数
    .find() S 查找sub在序列字符串的子字符串中出现的位置, 找不到返回-1
    sub 字符串
    start=0 子字符串开始的位置
    end=None 子字符串结束的位置
    .findall() S[list] 相当于对序列中每个字符串执行 re.findall(pat, string)
    pat 正则表达式
    flags=0 可传入re.IGNORECASE之类的参数
    .get() S i 获取指定位置的字符, 超出长度则返回Na
    .index() S 同.find() 不过找不到将引发Error
    .join() S sep 给每个字符串的字符间插入指定字符
    .len() S 返回每个字符串的长度
    .ljust() S 同 .center() 不过只在右侧填充
    .lower() S 所有字符小写
    .lstrip() S to_strip=None 去除左侧指定字符, 默认去掉空白符
    .match() S[bool] 判断字符串与正则表达式是否匹配, 即正则表达式能否匹配到内容
    pat 字符串或正则表达式
    case=True 是否区分大小写
    flags=0 可传入re.IGNORECASE之类的参数
    na=nan 缺失值填充
    as_indexer=None 弃用
    .normalize() S from 返回字符串的Unicode标准格式
    .pad() S 在序列字符串左侧/右侧/两侧填充指定字符串到指定长度
    width 将字符串填充到的长度
    side='left' 'left': 在左侧填充
    'right': 在右侧填充
    'both': 在两侧填充, 原字符串居中
    fillchar=' ' 填充的字符
    .partition()   第一次出现pat时将字符串分割为三个部分: pat前面的部分, pat本身, pat后面的部分
    pat=' ' 字符串
    expand=True True: 返回DataFrame/Multilndex
    False: 返回Series/Index, 元素为Tuple
    .repeat()   将字符串扩展n倍, 比如 'a' 扩展 2 倍为 'aa'
    repeats int: 序列中所有字符串扩展相同倍数
    list_like: 长度需和序列长度一致, 对应每个元素扩展对应倍数
    .replace() S 更新字符串
    pat 字符串或编译的正则表达式
    repl str: 将匹配到的字符串替换为此字符串
    fun: 传给fun的是对象相当于re.search(pat, string)的返回值
    n=-1 替换的次数, 默认全部
    case=None 是否区分大小写, 如果pat为字符串则默认为True, 若为编译的正则表达式则不能设置
    flags=0 可传入re.IGNORECASE之类的参数, 但若pat为编译的正则表达式则不能设置
    .rfind()   同 .find() 不过从右往左检索
    .rindex()   同 .index() 不过从右往左检索
    .rjust()   同 .center() 不过只在左侧填充
    .rpartition()   同.partition(), 不过从右往左检索pat字符串
    .rstrip() S to_strip=None 去除右侧指定字符, 默认去掉空白符
    .slice() S 截取子字符串
    start=None 开始位置
    stop=None 结束位置
    step=None 步长
    .slice_replace() S 截取子字符串, 并将截取部分替换为repl
    start=None 开始位置
    stop=None 结束位置
    repl=None 要替换为的字符串
    .split()   对字符串按照给定字符进行分割
    pat=None 分隔符, 默认空白符
    n=-1 分割次数, 默认全部
    expand=False True: 返回DataFrame/MultiINdex
    False: 返回Series/Index
    .rsplit()   同.split() 不过从右侧开始分割
    .startswith() S[bool] 判断序列字符串是否以指定字符串开头
    pat 字符串
    na=nan 缺失值填充
    .strip() S to_strip=None 去除两侧指定字符, 默认去掉空白符
    .swapcase() S 将小写字符大写, 将大写字符小写
    .title() S 将首字母大写, 其余字符小写
    .translate()   参考python内置字符串处理方法 .translate()
    .upper() S 全部大写
    .wrap() S width 在指定位置插入换行符
    .zfill() S width 在字符串前面填充0到指定长度
    .isalnum() S[bool] 字符串至少包含一个字符且所有字符都是字母(汉字)或数字则返回True
    .isalpha() S[bool] 字符串至少包含一个字符且所有字符都是字母(汉字)则返回True
    .isdigit() S[bool] 只包含数字(可以是: Unicode, 全角字符, bytes(b'1'), 罗马数字)
    .isspace() S[bool] 只包含空白符
    .islower() S[bool] 至少包含一个小写字符, 且不包含大写字符
    .isupper() S[bool] 至少包含一个大写字符, 且不包含小写字符
    .istitle() S[bool] 所有单词大写开头其余小写(标题化)
    .isnumeric() S[bool] 只包含数字字符
    .isdecimal() S[bool] 只包含数字(Unicode字符, 全角字符)
    .get_dummies() df sep='|' 把字符串按照指定分隔符分割, 并返回分割后的字符串出现的次数
  • 相关阅读:
    人工智能背后的故事
    idea 开发插件。
    安卓工作室 Android studio 或 Intellij IDEA 美化 修改 汉化 酷炫 装逼 Android studio or Intellij IDEA beautify modify Chinesization cool decoration
    安卓工作室 android studio文件和代码模板,以及汉化出错问题
    安卓工作室 android studio 汉化后,报错。 设置界面打不开。Can't find resource for bundle java.util.PropertyResourceBundle, key emmet.bem.class.name.element.separator.label
    android studio的汉化 教程 及解析
    安卓工作室Android Studio 快捷键
    安卓工作室 android studio 的 汉化 美化 定制 Android studio's Chinesization beautification customization
    VR开发 VR development
    Lakeshore 中文开发界面,示例项目,飞机大战 等 Lakeshore Chinese development interface, sample project, aircraft war, etc
  • 原文地址:https://www.cnblogs.com/P--K/p/8443995.html
Copyright © 2011-2022 走看看