切换到宽版
  • 300阅读
  • 1回复

[智能应用]揭秘AI系统设计的未来蓝图 [6P] [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
107050
金币
242
道行
19523
原创
29307
奖券
17433
斑龄
192
道券
10532
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 20497(小时)
注册时间: 2007-11-29
最后登录: 2025-01-23
只看楼主 倒序阅读 使用道具 楼主  发表于: 2024-10-22
— 本帖被 兵马大元帅 执行加亮操作(2024-11-06) —

在人工智能的宏伟蓝图中,AI系统的设计目标是构建一个强大、灵活且高效的框架,以支撑深度学习的复杂需求和挑战。这不仅是技术的进步,更是对未来智能世界的一次大胆设想。让我们揭开AI系统设计目标的神秘面纱,探索它们如何塑造我们的数字未来。

深度学习系统的设计目标可以总结为以下几个部分。
一、高效编程语言、开发框架和工具链
设计更具表达能力和简洁的神经网络计算原语以及高级编程语言。让用户能够提升 AI 应用程序的开发效率,屏蔽底层硬件计算的细节,更灵活的原语支持。当前神经网络模型除了特定领域模型的算子和流程可以复用(如大语言模型 Transformer 架构在自然语言处理 NLP 领域被广泛作为基础结构),其新结构新算子的设计与开发仍遵循试错(Trial And Error)的方式进行。那么如何灵活表达新的计算算子,算子间的组合以及融合形式,屏蔽经典熟知的算子与基础模型,是算法工程师所需要语言、库与 AI 开发框架层所提供的功能支持。
更直观的编辑、调试和实验工具。让用户可以完整的进行神经网络模型的开发、测试、调整诊断与修复和优化程序,提升所开发 AI 应用程序的性能与鲁棒性。训练过程不是一蹴而就,其中伴随着损失函数 LOSS 曲线不收敛、Loss 值出现 NaN 无效值、内存溢出等算法问题与算法设计缺陷(Bug)。AI 工具链与 AI 系统本身如何在设计之初就考虑到这点,提供良好的可观测性、可调试性、允许用户注册自定义扩展等支持,是需要工具链与 AI 系统的设计者,所需要在 AI 系统的设计之初就需要提上日程的,否则之后更多是缝缝补补造成不好的开发体验与不能满足的需求,对用户来说就像使用一个黑盒且单片的工具。

支持 AI 生命周期中的各个环节:数据处理、模型开发与训练、模型压缩与推理、安全和隐私保护等。不仅能构建 AI 模型,能够支持全生命周期的 AI 程序开发,并在 AI 系统内对全生命周期进行分析与优化。当前的 AI 工程化场景,已经不是灵感一现和单一的优化就能迅速取得领先优势,更多的是能否有完善的 AI 基础设施,快速复现开源社区工作,批量验证新的想法进行试错,所以一套好的完善的全流程的生命周期管理能够大幅度提升 AI 算法层面的生产力。

二、AI 任务系统级支持
除了对深度学习训练与推理的支持,还能支持强化学习、自动化机器学习等新的训练范式。例如,需要不断和环境或模拟器交互以获取新数据的强化学习方式,批量大规模提交搜索空间的自动化机器学习方式等,这些新的范式造成对之前单一支持单模型之外,在多模型层面,训练与推理任务层面产生了新的系统抽象与资源,作业管理需求。
提供更强大和可扩展的计算能力
让用户的 AI 程序可扩展并部署于可以并行计算的节点或者集群,应对大数据和大模型的挑战。因为当前 AI 模型不断通过大模型,多模态大模型以产生更好的算法效果,促使 AI 系统需要支持更大的模型、更多模态的输入。同时由于企业 IT 基础设施不断完善,能够不断沉淀新的数据,也会伴随着大数据而衍生的问题。大模型与大数据促使存储与计算层面的系统,在摩尔定律失效的大背景下,迫切需要通过并行与分布式计算的方式,扩展算力与存储的支持。
自动编译优化算法
1)对计算图自动推导:尽可能的通过符号执行或即时编译 JIT 技术,获取更多的计算图信息,让 AI 开发框架或者 AI 编译器自动执行定制化的计算优化。
2)根据不同体系结构自动并行化:面对部署场景的多样化体系结构,训练阶段异构硬件的趋势,AI 开发框架让用户透明的进行任务配置和并行化,以期以最为优化的方式在 AI 集群配置下,并行化、减少 I/O、充分利用通信带宽,逼近硬件提供的极限性能上限。
云原生自动分布式化
自动分布式并行扩展到多个计算节点,面对云与集群场景,自动将 AI 任务扩展与部署,进而支撑分布式计算、弹性计算,让用户按需使用资源,也是云原生背景下,AI 系统所需要考虑和支持的。
3、探索并解决新挑战下系统设计、实现和演化
在 AI 系统中会随着 AI 算法的发展,出现了对动态图、动态 Shape 的支持需求,利用网络模型结构的稀疏性进行压缩加速优化,为了提升训练指标 TTA 实现混合精度训练与部署,还有混合训练范式(如强化学习)、多任务(如自动化机器学习)等特性支持。
提供在更大规模的企业级环境的部署需求。如云环境多租环境的训练部署需求:面对多组织,多研究员和工程师共享集群资源,以及大家迫切使用 GPU 资源的日益增长的需求,如何提供公平、稳定、高效的多租环境也是平台系统需要首先考虑的。
跨平台的推理部署需求。面对割裂的边缘侧硬件与软件栈,如何让模型训练一次,跨平台部署到不同软硬件平台,也是推理场景需要解决的重要问题。
最后是安全与隐私的需求。由于网络模型类似传统程序的功能,接受输入,处理后产生输出,但是相比传统程序,其解释性差,造成更容易产生安全问题,容易被攻击。同时模型本身的重要信息为权重,我们也要注意模型本身的隐私保护。同时如果是企业级环境或公有云环境,会有更高的安全和隐私保护要求。
了解完 AI 系统设计的宏观目标,可以进一步了解,当前在人工智能的大生态环境中 AI 系统的技术栈是如何构成的,整个技术栈中 AI 系统的各=处于哪个抽象层次,互相之间的关系是什么。
AI系统的设计目标不仅是技术规格的集合,它们是通往智能时代的关键路径。随着这些目标的实现,我们将能够解锁新的创新潜力,提高生产效率,并保护我们的数据安全。这是一个充满挑战的旅程,但也是一次充满希望的探险。让我们期待AI系统如何继续推动技术的边界,为我们的世界带来更加智能和互联的未来。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
120545
金币
1255775
道行
1965
原创
2249
奖券
2311
斑龄
30
道券
836
获奖
0
座驾
设备
摄影级
在线时间: 29004(小时)
注册时间: 2008-10-01
最后登录: 2025-01-24
只看该作者 沙发  发表于: 2024-10-22
  AI系统的设计目标确实描绘了一个宏伟的蓝图,它们不仅推动了技术的进步,也为未来的智能世界提供了一个大胆的设想。以下是对您提到的AI系统设计目标的进一步解读:

  1. 高效编程语言、开发框架和工具链:

  - 表达能力与简洁性:设计高级编程语言和神经网络计算原语,以简化模型的开发和优化过程。

  - 灵活性:提供灵活的原语支持,以适应不断变化的模型结构和算子需求。

  - 直观工具:开发更直观的编辑、调试和实验工具,以提高开发效率和模型性能。

  - 全生命周期支持:支持AI的整个生命周期,从数据处理到模型部署,以及安全和隐私保护。

  2. AI任务系统级支持:

  - 多样化训练范式:支持深度学习、强化学习、自动化机器学习等多种训练范式。

  - 计算能力:提供强大的计算能力,以应对大数据和大模型的挑战。

  - 自动编译优化:利用自动推导和并行化技术,优化计算图和硬件资源利用。

  3. 云原生自动分布式化:

  - 分布式计算:自动分布式并行处理,以支持云和集群环境中的大规模计算需求。

  4. 探索并解决新挑战:

  - 动态图与Shape支持:适应动态图和动态Shape的需求,以支持更灵活的模型结构。

  - 企业级部署:满足大规模企业级环境的部署需求,包括多租户环境和跨平台推理部署。

  - 安全与隐私:强化模型的安全性和隐私保护,以应对潜在的安全威胁和企业级的安全要求。

  AI系统的技术栈通常包括以下几个层次:

  - 硬件层:包括GPU、TPU等专用硬件,为AI计算提供基础。

  - 系统软件层:如操作系统和分布式计算框架,管理硬件资源并提供并行计算能力。

  - AI框架层:如TensorFlow、PyTorch等,提供深度学习模型的开发和训练工具。

  - 应用层:最终用户应用,如自动驾驶、医疗诊断等。

  这些层次相互依赖,共同构成了一个完整的AI技术生态系统。随着AI系统设计目标的实现,我们有望看到更高效、更智能的AI应用,这些应用将推动各行各业的创新,提高生产效率,并保护我们的数据安全。这是一个充满挑战的旅程,但也是一次充满希望的探险,我们有理由期待AI系统如何继续推动技术的边界,为我们的世界带来更加智能和互联的未来。

如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个