封面
版权信息
作者简介
译者序
序
前言
深度学习系统架构参考
第1章 深度学习系统介绍
1.1 深度学习开发周期
1.1.1 深度学习产品开发周期的阶段
1.1.2 开发周期中的角色
1.1.3 深度学习开发周期实例演练
1.1.4 项目开发的规模化
1.2 深度学习系统设计概述
1.2.1 参考系统架构
1.2.2 关键组件
1.2.3 关键用户场景
1.2.4 定制你自己的设计
1.2.5 在Kubernetes上构建组件
1.3 构建深度学习系统与开发模型之间的区别
总结
第2章 数据集管理服务
2.1 理解数据集管理服务
2.1.1 为什么深度学习系统需要数据集管理
2.1.2 数据集管理设计原则
2.1.3 数据集的悖论特性
2.2 浏览一个示例数据集管理服务
- APP免费
2.2.1 与示例服务互动
- APP免费
2.2.2 用户、用户场景和整体架构
- APP免费
2.2.3 数据摄取API
- APP免费
2.2.4 训练数据集获取API
- APP免费
2.2.5 内部数据集存储
- APP免费
2.2.6 数据模式
- APP免费
2.2.7 添加新的数据集类型(IMAGE_CLASS)
- APP免费
2.2.8 服务设计回顾
- APP免费
2.3 开源方法
- APP免费
2.3.1 Delta Lake和Apache Spark家族的Petastorm
- APP免费
2.3.2 基于云对象存储的Pachyderm
- APP免费
总结
- APP免费
第3章 模型训练服务
- APP免费
3.1 模型训练服务:设计概述
- APP免费
3.1.1 为什么要使用模型训练服务
- APP免费
3.1.2 训练服务设计原则
- APP免费
3.2 深度学习训练代码模式
- APP免费
3.2.1 模型训练工作流
- APP免费
3.2.2 将模型训练代码Docker化为黑盒
- APP免费
3.3 一个示例模型训练服务
- APP免费
3.3.1 与服务进行交互
- APP免费
3.3.2 服务设计概述
- APP免费
3.3.3 训练服务API
- APP免费
3.3.4 启动新的训练作业
- APP免费
3.3.5 更新和获取作业状态
- APP免费
3.3.6 意图分类模型训练代码
- APP免费
3.3.7 训练作业管理
- APP免费
3.3.8 故障排除指标
- APP免费
3.3.9 支持新的算法或新版本
- APP免费
3.4 Kubeflow训练算子:开源方法
- APP免费
3.4.1 Kubeflow训练算子
- APP免费
3.4.2 Kubernetes算子/控制器模式
- APP免费
3.4.3 Kubeflow训练算子设计
- APP免费
3.4.4 如何使用Kubeflow训练算子
- APP免费
3.4.5 如何将这些算子集成到现有系统中
- APP免费
3.5 何时使用公有云
- APP免费
3.5.1 何时使用公有云解决方案
- APP免费
3.5.2 何时构建自己的训练服务
- APP免费
总结
- APP免费
第4章 分布式训练
- APP免费
4.1 分布式训练方法的类型
- APP免费
4.2 数据并行
- APP免费
4.2.1 理解数据并行
- APP免费
4.2.2 多工作节点训练挑战
- APP免费
4.2.3 不同训练框架的分布式训练(数据并行)代码编写
- APP免费
4.2.4 数据并行-分布式训练中的工程化努力
- APP免费
4.3 支持数据并行-分布式训练的示例服务
- APP免费
4.3.1 服务概述
- APP免费
4.3.2 与服务进行交互
- APP免费
4.3.3 启动训练作业
- APP免费
4.3.4 更新和获取作业状态
- APP免费
4.3.5 将训练代码转换为分布式运行
- APP免费
4.3.6 进一步改进
- APP免费
4.4 训练无法在单个GPU上加载的大模型
- APP免费
4.4.1 传统方法:节省内存
- APP免费
4.4.2 流水线模型并行
- APP免费
4.4.3 软件工程师如何支持流水线并行训练
- APP免费
总结
- APP免费
第5章 超参数优化服务
- APP免费
5.1 理解超参数
- APP免费
5.1.1 什么是超参数
- APP免费
5.1.2 超参数为什么重要
- APP免费
5.2 理解超参数优化
- APP免费
5.2.1 什么是HPO
- APP免费
5.2.2 热门的HPO算法
- APP免费
5.2.3 常见的自动HPO方法
- APP免费
5.3 设计一个HPO服务
- APP免费
5.3.1 HPO设计原则
- APP免费
5.3.2 通用HPO服务设计
- APP免费
5.4 开源HPO库
- APP免费
5.4.1 Hyperopt
- APP免费
5.4.2 Optuna
- APP免费
5.4.3 Ray Tune
- APP免费
5.4.4 后续步骤
- APP免费
总结
- APP免费
第6章 模型服务设计
- APP免费
6.1 模型服务的解释
- APP免费
6.1.1 什么是机器学习模型
- APP免费
6.1.2 模型预测和推理
- APP免费
6.1.3 什么是模型服务
- APP免费
6.1.4 模型服务的挑战
- APP免费
6.1.5 模型服务术语
- APP免费
6.2 常见的模型服务策略
- APP免费
6.2.1 直接模型嵌入
- APP免费
6.2.2 模型服务
- APP免费
6.2.3 模型服务器
- APP免费
6.3 设计预测服务
- APP免费
6.3.1 单一模型应用
- APP免费
6.3.2 多租户应用
- APP免费
6.3.3 在一个系统中支持多个应用程序
- APP免费
6.3.4 常见的预测服务需求
- APP免费
总结
- APP免费
第7章 模型服务实践
- APP免费
7.1 模型服务示例
- APP免费
7.1.1 运行示例服务
- APP免费
7.1.2 服务设计
- APP免费
7.1.3 前端服务
- APP免费
7.1.4 意图分类预测器
- APP免费
7.1.5 模型驱逐
- APP免费
7.2 TorchServe模型服务器示例
- APP免费
7.2.1 与服务进行交互
- APP免费
7.2.2 服务设计
- APP免费
7.2.3 前端服务
- APP免费
7.2.4 TorchServe后端
- APP免费
7.2.5 TorchServe API
- APP免费
7.2.6 TorchServe模型文件
- APP免费
7.2.7 在Kubernetes中进行扩展
- APP免费
7.3 模型服务器与模型服务
- APP免费
7.4 开源模型服务工具导览
- APP免费
7.4.1 TensorFlow Serving
- APP免费
7.4.2 TorchServe
- APP免费
7.4.3 Triton推理服务器
- APP免费
7.4.4 KServe和其他工具
- APP免费
7.4.5 将模型服务工具集成到现有服务系统中
- APP免费
7.5 发布模型
- APP免费
7.5.1 注册模型
- APP免费
7.5.2 在实时预测服务中加载任意版本的模型
- APP免费
7.5.3 通过更新默认模型版本发布模型
- APP免费
7.6 模型的后期监控
- APP免费
7.6.1 指标收集和质量门控
- APP免费
7.6.2 需要收集的指标
- APP免费
总结
- APP免费
第8章 元数据和工件存储
- APP免费
8.1 工件介绍
- APP免费
8.2 深度学习环境中的元数据
- APP免费
8.2.1 常见的元数据类别
- APP免费
8.2.2 为什么要管理元数据
- APP免费
8.3 设计元数据和工件存储
- APP免费
8.3.1 设计原则
- APP免费
8.3.2 通用元数据和工件存储设计方案
- APP免费
8.4 开源解决方案
- APP免费
8.4.1 MLMD
- APP免费
8.4.2 MLflow
- APP免费
8.4.3 MLflow与MLMD
- APP免费
总结
- APP免费
第9章 工作流编排
- APP免费
9.1 工作流编排介绍
- APP免费
9.1.1 什么是工作流
- APP免费
9.1.2 什么是工作流编排
- APP免费
9.1.3 在深度学习中使用工作流编排的挑战
- APP免费
9.2 设计工作流编排系统
- APP免费
9.2.1 用户场景
- APP免费
9.2.2 通用编排系统设计
- APP免费
9.2.3 工作流编排设计原则
- APP免费
9.3 浏览开源工作流编排系统
- APP免费
9.3.1 Airflow
- APP免费
9.3.2 Argo Work flows
- APP免费
9.3.3 Meta flow
- APP免费
9.3.4 何时使用
- APP免费
总结
- APP免费
第10章 生产部署路径
- APP免费
10.1 准备产品化阶段
- APP免费
10.1.1 研究阶段
- APP免费
10.1.2 原型设计
- APP免费
10.1.3 要点总结
- APP免费
10.2 模型产品化
- APP免费
10.2.1 代码组件化
- APP免费
10.2.2 代码打包
- APP免费
10.2.3 代码注册
- APP免费
10.2.4 训练工作流设置
- APP免费
10.2.5 模型推理
- APP免费
10.2.6 产品集成
- APP免费
10.3 模型部署策略
- APP免费
10.3.1 金丝雀部署
- APP免费
10.3.2 蓝绿部署
- APP免费
10.3.3 多臂老虎机部署
- APP免费
总结
- APP免费
附录A 一个“Hello World”深度学习系统
- APP免费
A.1 介绍“Hello World”深度学习系统
- APP免费
A.1.1 用户角色
- APP免费
A.1.2 数据工程师
- APP免费
A.1.3 数据科学家/研究员
- APP免费
A.1.4 系统开发人员
- APP免费
A.1.5 深度学习应用开发人员
- APP免费
A.1.6 示例系统概述
- APP免费
A.1.7 用户工作流
- APP免费
A.2 实验室演示
- APP免费
A.2.1 演示步骤
- APP免费
A.2.2 一个自行完成的练习
- APP免费
附录B 现有解决方案调查
- APP免费
B.1 Amazon SageMaker
- APP免费
B.1.1 数据集管理
- APP免费
B.1.2 模型训练
- APP免费
B.1.3 模型服务
- APP免费
B.1.4 元数据和工件存储
- APP免费
B.1.5 工作流编排
- APP免费
B.1.6 实验
- APP免费
B.2 谷歌Vertex AI
- APP免费
B.2.1 数据集管理
- APP免费
B.2.2 模型训练
- APP免费
B.2.3 模型服务
- APP免费
B.2.4 元数据和工件存储
- APP免费
B.2.5 工作流编排
- APP免费
B.2.6 实验
- APP免费
B.3 微软Azure Machine Learning
- APP免费
B.3.1 数据集管理
- APP免费
B.3.2 模型训练
- APP免费
B.3.3 模型服务
- APP免费
B.3.4 元数据和工件存储
- APP免费
B.3.5 工作流编排
- APP免费
B.3.6 实验
- APP免费
B.4 Kubeflow
- APP免费
B.4.1 数据集管理
- APP免费
B.4.2 模型训练
- APP免费
B.4.3 模型服务
- APP免费
B.4.4 元数据和工件存储
- APP免费
B.4.5 工作流编排
- APP免费
B.4.6 实验
- APP免费
B.5 并排比较
- APP免费
附录C 使用Kubeflow Katib创建HPO服务
- APP免费
C.1 Katib概述
- APP免费
C.2 开始使用Katib
- APP免费
C.2.1 第一步:安装
- APP免费
C.2.2 第二步:理解Katib术语
- APP免费
C.2.3 第三步:将训练代码打包为Docker镜像
- APP免费
C.2.4 第四步:配置实验
- APP免费
C.2.5 第五步:开始实验
- APP免费
C.2.6 第六步:查询进度和结果
- APP免费
C.2.7 第七步:故障排除
- APP免费
C.3 加速HPO
- APP免费
C.3.1 并行试验
- APP免费
C.3.2 分布式试验(训练)作业
- APP免费
C.3.3 提前停止
- APP免费
C.4 Katib系统设计
- APP免费
C.4.1 Kubernetes控制器/算子模式
- APP免费
C.4.2 Katib系统设计和工作流
- APP免费
C.4.3 用于分布式训练的Kubeflow训练算子集成
- APP免费
C.4.4 代码阅读
- APP免费
C.5 添加新的算法
- APP免费
C.5.1 第一步:使用新算法实现Katib建议API
- APP免费
C.5.2 第二步:将算法代码制作成一个gRPC服务的Docker镜像
- APP免费
C.5.3 第三步:向Katib注册算法
- APP免费
C.5.4 示例和文档
- APP免费
C.6 更多阅读
- APP免费
C.7 使用场景
- APP免费
推荐阅读
- APP免费
译者简介
- APP免费
封底
更新时间:2025-03-13 16:31:50