价格: 49 学币

分类: AIGC

发布时间: 2026-03-18 15:02:43

最近更新: 2026-03-18 15:02:43

资源类型: SVIP

优惠: 开通钻石SVIP免费获取此资源

慕课 大模型基石 AI 分布式存储工程实战

课程介绍

大模型基石 AI 分布式存储工程实战视频教程,由优库it资源网整理发布。本课程聚焦Ceph存储技术与AI大模型训练场景的深度融合,结合JuiceFS加速方案与DeepSeek实战项目,系统讲授PB级存储架构设计、高并发调优策略、生产级故障恢复等核心技能,助你快速成长为“存储+AI”复合型工程师,抢占AI时代高薪赛道。

资源目录

.
├── 第1章 AI+Ceph分布式存储工程实战--课程导学/
│   └── [ 34M]  1-1AI+Ceph分布式存储工程实战--课程导学
├── 第2章 AI时代的数据基石/
│   ├── [ 19M]  2-1AI发展的核心要素:数据、算力与算法的协同演进
│   ├── [ 12M]  2-2分布式存储:大模型时代的必备基础设施
│   ├── [ 19M]  2-3六大优势解读:为何分布式存储是AI人才必争之地
│   ├── [ 11M]  2-4技术红利前瞻:早期布局存储技术的个人与企业机遇
│   ├── [ 19M]  2-5技术全景扫描:AI分布式存储体系全解析
│   ├── [ 32M]  2-6从本地到云:存储演进与分布式存储的本质
│   ├── [ 63M]  2-7存储类型解析:分布式存储的多元应用场景
│   ├── [ 16M]  2-8未来趋势:AI与存储的深度融合与协同进化
│   └── [ 12M]  2-9主流大模型盘点:国内外AI存储需求对比分析
├── 第3章 搭建生产级分布式存储集群环境准备/
│   ├── [ 24M]  3-1集群架构设计:从规划到部署的全局视角
│   ├── [ 24M]  3-2初探Ceph:开源分布式存储系统的核心架构
│   ├── [ 72M]  3-3硬件选型与配置:构建高可靠存储节点的关键要素
│   ├── [ 96M]  3-4操作系统与环境配置:打造稳定的集群运行基石
│   ├── [113M]  3-5内部Yum源搭建:实现规模化高效部署
│   ├── [ 40M]  3-6Ansible自动化运维:批量配置与管理的利器
│   ├── [ 87M]  3-7Chrony时间同步:保障分布式系统一致性的守护者
│   ├── [ 51M]  3-8节点安全加固:基础防护与访问控制策略
│   └── [5.7M]  3-9本章回顾:环境准备的关键要点总结
├── 第4章 从零打造你的分布式存储集群/
│   ├── [ 24M]  4-1生产级集群部署:从规划到上线的全流程
│   ├── [106M]  4-2Monitor部署与集群初始化
│   ├── [ 35M]  4-3MGR深度解析:集群监控与管理的智能中枢
│   ├── [ 67M]  4-4OSD批量部署:标准化硬盘初始化实战(一)
│   ├── [217M]  4-5OSD批量部署:标准化硬盘初始化实战(二)
│   ├── [ 57M]  4-6副本存储池设计:为AI小文件训练优化性能(一)
│   ├── [139M]  4-7副本存储池设计:为AI小文件训练优化性能(二)
│   ├── [ 97M]  4-8EC纠删码存储池设计:大文件存储的经济高效方案
│   ├── [157M]  4-9PG动态调优实战:实现存储池的智能负载均衡
│   ├── [ 67M]  4-10CRUSH地图定制:掌握数据分布与故障域的设计艺术
│   └── [4.3M]  4-11本章回顾:集群部署核心技能总结
├── 第5章 分布式存储集群中的对象存储/
│   ├── [ 17M]  5-1对象存储架构解析:数据访问模式与设计原则
│   ├── [ 14M]  5-2CephRGW:开源S3兼容存储的实现之道
│   ├── [125M]  5-3存储池功能划分:策略化数据管理(一)
│   ├── [127M]  5-4存储池功能划分:策略化数据管理(二)
│   ├── [ 82M]  5-5多RGW高可用部署:构建弹性对象存储门户(一)
│   ├── [ 88M]  5-6多RGW高可用部署:构建弹性对象存储门户(二)
│   ├── [133M]  5-7生命周期策略实战:智能数据清理与归档
│   ├── [ 37M]  5-8GC机制与空间优化:垃圾回收原理与配置
│   ├── [134M]  5-9元数据管理模式:Index与Indexless的优劣对比
│   ├── [ 45M]  5-10功能验证实战:使用s3cmd全面测试对象存储
│   ├── [ 62M]  5-11压力测试实战:CosBench揭示系统性能边界(一)
│   ├── [114M]  5-12压力测试实战:CosBench揭示系统性能边界(二)
│   ├── [ 94M]  5-13Python对接实战:开发面向DeepSeek的对象存储测试工具
│   ├── [ 73M]  5-14Go语言实战:高性能测试与数据清理程序开发(一)
│   ├── [139M]  5-15Go语言实战:高性能测试与数据清理程序开发(二)
│   ├── [ 71M]  5-16AI训练对接实战:PyTorch直接读写对象存储数据
│   ├── [ 87M]  5-17JuiceFS加速实战:为AI训练构建缓存加速层
│   └── [4.8M]  5-18本章回顾:对象存储核心能力与AI集成总结
├── 第6章 分布式存储集群中的块存储/
│   ├── [ 16M]  6-1块存储核心引擎解析:性能优化与架构设计
│   ├── [ 25M]  6-2CephRBD深度解读:云计算的存储底层逻辑
│   ├── [ 78M]  6-3存储池优化实战:数据与元数据分离架构
│   ├── [ 63M]  6-4快照功能实战:实现块设备的高效数据保护
│   ├── [ 52M]  6-5快速克隆实战:秒级复制TB级数据的奥秘
│   ├── [144M]  6-6性能测试实战:FIO与VDBench工具深度使用
│   ├── [ 70M]  6-7AI训练场景实战:K8s集群与块存储无缝对接(一)
│   ├── [ 81M]  6-8AI训练场景实战:K8s集群与块存储无缝对接(二)
│   └── [5.4M]  6-9本章回顾:块存储在企业与AI场景中的应用总结
├── 第7章 实现PB级别的分布式文件存储/
│   ├── [ 19M]  7-1文件系统架构解析:共享存储与高性能访问
│   ├── [ 20M]  7-2CephFS机制揭秘:突破容量与性能瓶颈的设计
│   ├── [ 88M]  7-3分层存储实战:数据与元数据分离的高级配置
│   ├── [111M]  7-4业务挂载与优化实战:参数调优与性能提升
│   ├── [134M]  7-5JuiceFSvsCephFS:AI训练场景下的存储选型
│   ├── [ 81M]  7-6企业级文件系统对比:CephFS、NFS、Samba全解析
│   ├── [ 34M]  7-7AI训练直连实战:PyTorch与分布式文件系统无缝集成
│   └── [8.3M]  7-8本章回顾:PB级文件存储架构与AI适配总结
├── 第8章 分布式集群的监控搭建和管理运维/
│   ├── [ 16M]  8-1可观测性设计:监控体系构建的原则与方法
│   ├── [ 23M]  8-2监控告警体系搭建实战:从原理到实现
│   ├── [ 59M]  8-3Prometheus部署实战:云原生时序数据存储方案
│   ├── [ 68M]  8-4Grafana可视化实战:打造业务监控全景看板
│   ├── [ 85M]  8-5节点监控实战:NodeExporter部署与数据采集(一)
│   ├── [183M]  8-6节点监控实战:NodeExporter部署与数据采集(二)
│   ├── [108M]  8-7业务监控实战:MGR模块数据导出与分析
│   ├── [102M]  8-8集群指标采集实战:CephExporter集成与配置
│   ├── [133M]  8-9告警通知实战:Alertmanager多通道告警策略
│   ├── [165M]  8-10自定义监控实战:Shell脚本采集与推送指标
│   └── [ 13M]  8-11本章回顾:分布式存储监控体系全栈总结
├── 第9章 分布式存储系统集群调优/
│   ├── [ 16M]  9-1性能分析方法论:从监控到调优的系统路径
│   ├── [8.1M]  9-2调优必要性分析:理解系统软硬件性能边界
│   ├── [ 67M]  9-3网络调优实战:万兆环境下的传输优化策略(一)
│   ├── [107M]  9-4网络调优实战:万兆环境下的传输优化策略(二)
│   ├── [145M]  9-5系统稳定性调优:内核参数与资源限制优化(一)
│   ├── [ 73M]  9-6系统稳定性调优:内核参数与资源限制优化(二)
│   ├── [ 85M]  9-7OSD参数调优实战:性能与稳定的平衡艺术
│   ├── [ 70M]  9-8数据安全调优:Scrub机制原理与参数建议
│   └── [5.0M]  9-9本章回顾:集群性能优化关键点总结
├── 第10章 生产级分布式存储集群中常见的故障问题处理及排查/
│   ├── [ 27M]  10-1故障处理工程实践:方法论与应急流程
│   ├── [ 21M]  10-2告警响应策略:从告警到处置的标准化路径
│   ├── [236M]  10-3磁盘故障处理:OSD坏盘替换与数据重建
│   ├── [ 79M]  10-4服务中断应急:Monitor宕机恢复方案
│   ├── [331M]  10-5网络变更规划:集群IP迁移与配置更新
│   ├── [120M]  10-6存储资源规划:集群扩容与缩容操作指南
│   ├── [205M]  10-7多盘损坏应急:超越副本容忍度的数据恢复
│   ├── [255M]  10-8写入过载处理:OSDFull状态应急与预防
│   ├── [156M]  10-9高级调试手法:Ceph源码编译与机制探析
│   ├── [136M]  10-10数据恢复:操作系统重装后的OSD快速恢复(一)
│   ├── [163M]  10-11数据恢复:操作系统重装后的OSD快速恢复(二)
│   ├── [292M]  10-12故障排查经验集:常见问题分类与处理思路
│   └── [2.6M]  10-13本章回顾:故障处理与运维实战能力总结
├── 第11章 DeepSeek推理大模型在分布式集群的应用/
│   ├── [ 40M]  11-1DeepSeek大模型解析:推理架构与运行原理
│   ├── [ 83M]  11-2私有化AI助手部署实战:5分钟快速安装指南
│   ├── [ 64M]  11-3专属知识库构建实战:基于分布式存储的模型微调
│   ├── [ 49M]  11-4AI运维系统实战:打造智能日志分析与异常检测平台
│   ├── [151M]  11-5智能磁盘预警实战:训练基于大模型的故障预测系统
│   └── [8.4M]  11-6本章回顾:存储与AI融合创新的未来展望
└── 第12章 AI+Ceph分布式存储工程实战--课程总结/
    └── [ 16M]  12-1AI+Ceph分布式存储工程实战--课程总结
└── 代码/