zoukankan      html  css  js  c++  java
  • 汇编窥探Swift String的底层

    String(字符串),是所有编程语言中非常重要的成员,因此非常值得去深入研究。众所周知,字符串的本质是字符序列,由若干个字符组成。比如字符串 "iOS" 由 'i'、'O'、'S' 三个字符组成。(这里不考虑有些编程语言中提及的尾部的 '')

    思考

    在 Swift 开发使用字符串的过程中,你是否有思考过以下问题?

    • 1个字符串变量占用多少内存?
    • 字符串 str1、str2 的底层存储有什么不同?
    • 如果对 str1、str2 进行拼接操作,str1、str2 的底层存储又会发生什么变化?

    如果你能准确地回答以上问题,那说明对 Swift 字符串的底层存储机制还是比较了解的。

    1个字符串变量占用多少内存?

    MemoryLayout

    首先,可以借助 Swift 自带的 MemoryLayout 来测试一下

    汇编

    另外,我们也可以借助一个强有力的底层分析助手—汇编语言,来窥探一下 String 的底层存储

    • 实际上分析其他语法、系统库的底层,都可以借助汇编语言

      • 比如多态的原理、泛型的原理、Array 的底层、枚举的底层等等
    • 另外,不仅仅是 Swift,C、C++、OC 的底层分析,依然可以借助汇编语言
      • 毕竟你写的每一行有效代码,最终都是要转成机器指令(0 和 1)
      • 而机器指令是跟汇编指令一一对应的,每一条机器指令都能翻译成与之对应的汇编指令
      • 能读懂汇编指令,就相当于能读懂机器指令,知道 CPU 具体在干嘛(操作了什么寄存器,操作了哪块内存)
    • 本教程的代码是直接跑在 Mac 的命令行(CommandLineTools)项目上
      • 因此展示的汇编代码是基于 X64 的 AT&T 格式汇编,并非 iOS 真机设备的 ARM 汇编
      • 其实不同种类的汇编之间有极大的相似性,只是有些指令的叫法不一样

    跟微软的 Visual Studio 一样,Xcode 也内置了非常方便的反汇编功能,可以轻松查看每一句代码对应的汇编指令,打开反汇编界面的步骤如下

    • 在某一行需要调试的代码打上断点(反汇编界面会在断点调试状态下显示出来)

    • 菜单:Debug > Debug Workflow > Always Show Disassembly
      • Assembly 译为汇编, Disassembly 译为反汇编
    • 运行程序,看到反汇编界面

    如果你的反汇编经验十足,根据第 16、17 行的汇编就可以推敲出来,String 是占用 16 个字节

    • 因为它用了 rax、rdx 寄存器存放字符串 str 的内容,而 rax、rdx 都是 8 字节的

    汇编的内容太多了,因为时间和篇幅关系,文章里并不会对每一句汇编指令进行详细地讲解,更多的是想说明汇编的重要性。

    字符串的底层存储

    窥探内存

    此前我写了个可以窥探 Swift 变量内存的小工具:Mems

    • 现在用它来窥探下字符串的 16 字节里面,究竟存储着什么数据

    • Mems.memStr(ofVal:) 默认情况下按照 8 个字节一组来显示内存数据

    • 传递参数 alignment: .one 是按照 1 个字节一组来显示内存数据

    字符 '0'~'9' 的 ASCII 值是 0x30~0x39,认真观察最初 str1 的 16 个字节数据,你发现了什么?

    • 它直接将所有字符的 ASCII 值存储在 str1 的 16 字节中

    • 最后 1 个字节 0xea 中的 0xa 就是字符的数量,也是共 10 个字符

    拼接

    可以发现,当对 str1 进行拼接 "ABCDE" 的时候

    • 它最终是将 "0123456789ABCDE"十五个字符的 ASCII 值都存储在了 str1 的 16 字节中

    • 最后 1 个字节 0xef 中的 0xf 就是字符的数量,也是共 15 个字符

    • 可以看得出来,目前 16 个字节已经存满了,那如果再拼接 1 个字符呢?

    可以看到,str1 里面存储的数据发生了非常大的变化,每一个字符的 ASCII 值不见了,

    • 那里面的 16 字节具体是什么含义呢?

    • 所有字符('0'~'9'、'A' 到 'F')的 ASCII 值又存到哪去了呢?

    其他情况

    如果一开始初始化的时候(未拼接之前),字符串的内容就是超过 15 个字符呢?

    相信你能猜到是这个结果

    • 这 16 个字节里面并没有出现任何一个字符的 ASCII 值
    • 而且这 16 个字节跟 第27行的str1 还是有所区别
      • 虽然它们的字符串内容都是"0123456789ABCDEF"

    如果对 str2 进行拼接操作

    不难发现:这时 str2 的 16 字节又发生了变化,跟 第27行的str1 是有点相似的

    如何解决上述疑问?

    上述的种种疑问,光看打印出来的内存数据是无法解决的,但是都可以利用【!!!汇编!!!】来解决,分析汇编指令,立马就得出结论,因为文章的篇幅有限,平时工作也比较忙,我把上述问题的详细剖析过程录制成了长达 2 个多小时的视频,有兴趣的朋友可以用 1.5~2 倍速度观看

    • 链接:百度网盘
      • 提取码:kzrk
    • 视频对于没有汇编基础的朋友来说,可能会有点难度,最好挑一个头脑清醒的时间去观看

    • 看完视频后,希望大家能够确切地感受到汇编语言的重要性,不要永远只停留在编写高级语言代码、沉迷于语法糖的层面

    • 里面不仅仅有汇编教程,还有算法、小程序、Swift等精品教程

    最后

    最后想多说一句:汇编能给你带来的价值远远不止这篇文章所说的窥探字符串的底层,对你的程序生涯影响绝对是终生受益的(数据结构与算法功底也是如此),比如你还能玩转软件破解、游戏外挂等,这是我此前用【汇编C++】编写的一个游戏外挂:植物大战僵尸外挂

  • 相关阅读:
    【转载】Python正则表达式指南
    Redis4.0模块子系统实现简述
    Redis4.0 主从复制(PSYN2.0)
    13种细分类型的TCP重传小结(一张表总结4.4内核所有TCP重传场景)
    TCP/IP Illustrated Vol1 Second Edition即英文版第二版,TCP部分个人勘误
    TCP源码—epoll源码及测试
    TCP系列55—拥塞控制—18、其他拥塞控制算法及相关内容概述
    TCP系列54—拥塞控制—17、AQM及ECN
    TCP系列53—拥塞控制—16、Destination Metrics和Congestion Manager
    TCP系列52—拥塞控制—15、前向重传与RACK重传拥塞控制处理对比
  • 原文地址:https://www.cnblogs.com/qq575654643/p/11799520.html
Copyright © 2011-2022 走看看