工程师笔记｜浅析AI平台的架构设计

zoukankan html css js c++ java

工程师笔记｜浅析AI平台的架构设计

https://mp.weixin.qq.com/s/W7GsdPZtIdIY75t-9-G7Pg

关于机器学习，很多人都强调算法而忽视了基础架构的作用，一种看似“高大上”的算法集成到实际环境中，也可能用起来“水土不服”，原因就在于基础架构的支持力度不够。所以，基础架构和算法同等重要，这里我们从AI平台基础架构中至关重要的存储架构，谈一谈AI平台的架构设计，供相关人员参考。

目前，在政策和市场的双重驱动下，我国人工智能发展获得长足进步，“言必谈AI”已经成为各个科技公司技术峰会和企业间交流必不可少的话题。各家企业希望借力AI加速自身业务的发展和创新，通过AI帮助企业在数字化转型的浪潮中取得先发优势。

梦想回归现实，话语落到行动，因而，搭建自己的AI平台成为了最近两年很多企业的重点战略规划。

搭建一个AI平台，在哪里搭建？这是企业首先需要考虑的问题。是署在本地，还是部署在云端？这需要根据自身业务特点来选择，不过，无论你的AI平台在哪个地方，其基本流程都可分为四个步骤：

❶ 把原始数据从各种数据源导入到数据湖，进行数据拆分、清洗等数据预处理工作；

❷ 把数据交给AI训练集群通过机器学习神经算法框架进行训练；

❸ 训练完成后就可以把得到的最优参数设置模型，进行人工智能应用的部署；

❹ 最后把机器学习的数据进行归档。

有人说人工智能应用构建最重要的是算法框架。这种说法笔者并不苟同，框架或平台尽管重要，但也可能因行业发展流行或衰退，所以，AI平台的构建并不能只懂算法，因为算法实现不等于问题解决，问题解决不等于现场问题解决。

而追求高可用、高性能、灵活易用的基础架构才是永恒不变的。Google就是依靠强大的基础架构能力让 AI 研究领先于业界，因为基础架构知识是AI工程师进行高效团队协作的共同语言。工业界的发展让深度学习、自动机器学习成为可能，未来将会有更多人关注底层的架构与设计。

因此，今天的主题就是浅析对AI平台基础架构中至关重要的存储架构需求▼：

如果把机器学习训练集群中的GPU比作飞驰的高铁列车，那么一个优秀的AI平台数据管道就像高铁网络中的铁轨。当你考虑如何从你的AI部署中获取最佳结果时，数据管道或许是最重要的考量点。

▒ 我们知道企业级存储主要有三种模式：基于数据块的SAN存储，基于文件的NAS存储和对象存储。首先SAN存储因为自身无法实现跨不同主机共享数据，不适合直接用于AI平台，可以排除；其次对象存储达不到AI平台数据管道所需的高性能也可以排除，所以文件存储是一个不错的选择，但有些因素必须考虑▼：

➣ 选择何种文件系统

• 横向扩展架构例如Lustre 或者 GPFS；

• HDFS，通用的大数据文件系统；

• NFS，最广泛部署的共享文件系统。

➣ 能够存放各种来源的结构化和非结构化数据，而不牺牲性能

• 日志和传感器数据；

• 数据库数据：包括关系型数据库和非关系型数据库；

• 邮件日志；

• 个人主目录；

• 其他数据类型。

➣ 同时满足随机小IO和顺序大IO的性能

• 从上面列举的数据来源可以看到一些数据源产生的是随机小IO，而有些数据源是顺序大IO；

• 文件系统必须能够在两者之间平衡性能。

➣ 最大性能和数据移动的能力：

• 文件系统的最大性能；

• 能够高效的移动数据。

➣ 数据生命周期的自动化

• 自动分层智能决定不同数据集的存储位置，比如高性能层，归档层等；

• 同时满足数据分类和过滤过程的实时性能；

➣支持最新的存储和内存介质如NVMe和SCM等，从而在性能和延迟上获得数量级的提升

你的AI平台选择的文件系统和数据架构至少应该满足以上条件，这对AI平台的长久发展非常重要。

单一命名空间

AI数据集能够轻易地增长到很大规模，为适应这种数据大规模增长，需要一个可以横向扩展的单一命名空间文件系统，并且能够随着客户端训练节点的扩展而线性提升存储性能。

▒ 客户端访问这个单一命名空间有不同的方式，不同方式意味着不同的性能要求，一种训练模型为异步训练，数据集被静态地分布于训练集群节点，每次训练只有一个节点访问命名空间中的一部分特定数据。

戴尔易安信R940xa和R840服务器

专为AI平台优化设计

另一种训练模型为同步进行，数据集相互关联紧耦合在一起，需要被训练集群中所有节点同时访问。这种情形明显需要更高的文件系统性能。

还有一种多层神经网络训练模型，每个训练节点有序地从文件系统中读出数据集进行训练，这样就导致整个数据集不断地被反复读取，一个节点读一次，不断地换手。

➣ 除了上述几点外，在选择AI平台的文件系统存储时还有一些其他因素也需要考虑，包括：

• 易于管理；

• 扩展简单；

• 支持多租户和存储QoS；

• 支持客户端缓存；

• 产品技术持续更新能力。

你会选择何种数据架构？

相信以上我们所讨论的标准能够帮助你选择一个适合AI需求的文件系统和数据架构，如果还是不清楚也没有关系。戴尔易安信的AI解决方案满足上述所有要求，包括Lustre横向扩展高性能存储解决方案，原生支持HDFS的ISilon横向扩展NAS 解决方案，自动分层的横向扩展Fluid NFS解决方案。

戴尔易安信Lustre横向扩展高性能存储架构

戴尔易安信横向扩展高性能文件系统

在这些可选项中，每一种方案都在国内的AI研究机构和相关企业已有落地的案例参考。正在筹划搭建自己的AI平台的企业机构，可以咨询戴尔易安信专业的人工智能解决方案专家了解各方案的优劣和特点，从而根据自己的建设需要，从长远考虑选择最适合自己的AI平台。

未来已来，戴尔易安信端到端解决方案为企业的AI平台建设全方位助力，加速组织数字化转型。

查看全文

相关阅读:
再谈 Devstack（Rocky）
记一次性能测试与优化经历
 Nova rebuild for boot from volume issue
OpenStack RPM Sample 解析
 [Cinder] 存储 Qos
Octavia Rocky UDP 负载均衡功能试验
 Keepalived + LVS-NAT 实现高可用四层 TCP/UDP 负载均衡器
 LVS 四层 TCP/UDP 负载均衡器
 集群的定义以及类别定义
 对程序员又了解了一些

原文地址：https://www.cnblogs.com/dhcn/p/12459256.html