价格: 49 学币

大模型基石 AI 分布式存储工程实战视频教程,由优库it资源网整理发布。本课程聚焦Ceph存储技术与AI大模型训练场景的深度融合,结合JuiceFS加速方案与DeepSeek实战项目,系统讲授PB级存储架构设计、高并发调优策略、生产级故障恢复等核心技能,助你快速成长为“存储+AI”复合型工程师,抢占AI时代高薪赛道。
.
├── 第1章 AI+Ceph分布式存储工程实战--课程导学/
│ └── [ 34M] 1-1AI+Ceph分布式存储工程实战--课程导学
├── 第2章 AI时代的数据基石/
│ ├── [ 19M] 2-1AI发展的核心要素:数据、算力与算法的协同演进
│ ├── [ 12M] 2-2分布式存储:大模型时代的必备基础设施
│ ├── [ 19M] 2-3六大优势解读:为何分布式存储是AI人才必争之地
│ ├── [ 11M] 2-4技术红利前瞻:早期布局存储技术的个人与企业机遇
│ ├── [ 19M] 2-5技术全景扫描:AI分布式存储体系全解析
│ ├── [ 32M] 2-6从本地到云:存储演进与分布式存储的本质
│ ├── [ 63M] 2-7存储类型解析:分布式存储的多元应用场景
│ ├── [ 16M] 2-8未来趋势:AI与存储的深度融合与协同进化
│ └── [ 12M] 2-9主流大模型盘点:国内外AI存储需求对比分析
├── 第3章 搭建生产级分布式存储集群环境准备/
│ ├── [ 24M] 3-1集群架构设计:从规划到部署的全局视角
│ ├── [ 24M] 3-2初探Ceph:开源分布式存储系统的核心架构
│ ├── [ 72M] 3-3硬件选型与配置:构建高可靠存储节点的关键要素
│ ├── [ 96M] 3-4操作系统与环境配置:打造稳定的集群运行基石
│ ├── [113M] 3-5内部Yum源搭建:实现规模化高效部署
│ ├── [ 40M] 3-6Ansible自动化运维:批量配置与管理的利器
│ ├── [ 87M] 3-7Chrony时间同步:保障分布式系统一致性的守护者
│ ├── [ 51M] 3-8节点安全加固:基础防护与访问控制策略
│ └── [5.7M] 3-9本章回顾:环境准备的关键要点总结
├── 第4章 从零打造你的分布式存储集群/
│ ├── [ 24M] 4-1生产级集群部署:从规划到上线的全流程
│ ├── [106M] 4-2Monitor部署与集群初始化
│ ├── [ 35M] 4-3MGR深度解析:集群监控与管理的智能中枢
│ ├── [ 67M] 4-4OSD批量部署:标准化硬盘初始化实战(一)
│ ├── [217M] 4-5OSD批量部署:标准化硬盘初始化实战(二)
│ ├── [ 57M] 4-6副本存储池设计:为AI小文件训练优化性能(一)
│ ├── [139M] 4-7副本存储池设计:为AI小文件训练优化性能(二)
│ ├── [ 97M] 4-8EC纠删码存储池设计:大文件存储的经济高效方案
│ ├── [157M] 4-9PG动态调优实战:实现存储池的智能负载均衡
│ ├── [ 67M] 4-10CRUSH地图定制:掌握数据分布与故障域的设计艺术
│ └── [4.3M] 4-11本章回顾:集群部署核心技能总结
├── 第5章 分布式存储集群中的对象存储/
│ ├── [ 17M] 5-1对象存储架构解析:数据访问模式与设计原则
│ ├── [ 14M] 5-2CephRGW:开源S3兼容存储的实现之道
│ ├── [125M] 5-3存储池功能划分:策略化数据管理(一)
│ ├── [127M] 5-4存储池功能划分:策略化数据管理(二)
│ ├── [ 82M] 5-5多RGW高可用部署:构建弹性对象存储门户(一)
│ ├── [ 88M] 5-6多RGW高可用部署:构建弹性对象存储门户(二)
│ ├── [133M] 5-7生命周期策略实战:智能数据清理与归档
│ ├── [ 37M] 5-8GC机制与空间优化:垃圾回收原理与配置
│ ├── [134M] 5-9元数据管理模式:Index与Indexless的优劣对比
│ ├── [ 45M] 5-10功能验证实战:使用s3cmd全面测试对象存储
│ ├── [ 62M] 5-11压力测试实战:CosBench揭示系统性能边界(一)
│ ├── [114M] 5-12压力测试实战:CosBench揭示系统性能边界(二)
│ ├── [ 94M] 5-13Python对接实战:开发面向DeepSeek的对象存储测试工具
│ ├── [ 73M] 5-14Go语言实战:高性能测试与数据清理程序开发(一)
│ ├── [139M] 5-15Go语言实战:高性能测试与数据清理程序开发(二)
│ ├── [ 71M] 5-16AI训练对接实战:PyTorch直接读写对象存储数据
│ ├── [ 87M] 5-17JuiceFS加速实战:为AI训练构建缓存加速层
│ └── [4.8M] 5-18本章回顾:对象存储核心能力与AI集成总结
├── 第6章 分布式存储集群中的块存储/
│ ├── [ 16M] 6-1块存储核心引擎解析:性能优化与架构设计
│ ├── [ 25M] 6-2CephRBD深度解读:云计算的存储底层逻辑
│ ├── [ 78M] 6-3存储池优化实战:数据与元数据分离架构
│ ├── [ 63M] 6-4快照功能实战:实现块设备的高效数据保护
│ ├── [ 52M] 6-5快速克隆实战:秒级复制TB级数据的奥秘
│ ├── [144M] 6-6性能测试实战:FIO与VDBench工具深度使用
│ ├── [ 70M] 6-7AI训练场景实战:K8s集群与块存储无缝对接(一)
│ ├── [ 81M] 6-8AI训练场景实战:K8s集群与块存储无缝对接(二)
│ └── [5.4M] 6-9本章回顾:块存储在企业与AI场景中的应用总结
├── 第7章 实现PB级别的分布式文件存储/
│ ├── [ 19M] 7-1文件系统架构解析:共享存储与高性能访问
│ ├── [ 20M] 7-2CephFS机制揭秘:突破容量与性能瓶颈的设计
│ ├── [ 88M] 7-3分层存储实战:数据与元数据分离的高级配置
│ ├── [111M] 7-4业务挂载与优化实战:参数调优与性能提升
│ ├── [134M] 7-5JuiceFSvsCephFS:AI训练场景下的存储选型
│ ├── [ 81M] 7-6企业级文件系统对比:CephFS、NFS、Samba全解析
│ ├── [ 34M] 7-7AI训练直连实战:PyTorch与分布式文件系统无缝集成
│ └── [8.3M] 7-8本章回顾:PB级文件存储架构与AI适配总结
├── 第8章 分布式集群的监控搭建和管理运维/
│ ├── [ 16M] 8-1可观测性设计:监控体系构建的原则与方法
│ ├── [ 23M] 8-2监控告警体系搭建实战:从原理到实现
│ ├── [ 59M] 8-3Prometheus部署实战:云原生时序数据存储方案
│ ├── [ 68M] 8-4Grafana可视化实战:打造业务监控全景看板
│ ├── [ 85M] 8-5节点监控实战:NodeExporter部署与数据采集(一)
│ ├── [183M] 8-6节点监控实战:NodeExporter部署与数据采集(二)
│ ├── [108M] 8-7业务监控实战:MGR模块数据导出与分析
│ ├── [102M] 8-8集群指标采集实战:CephExporter集成与配置
│ ├── [133M] 8-9告警通知实战:Alertmanager多通道告警策略
│ ├── [165M] 8-10自定义监控实战:Shell脚本采集与推送指标
│ └── [ 13M] 8-11本章回顾:分布式存储监控体系全栈总结
├── 第9章 分布式存储系统集群调优/
│ ├── [ 16M] 9-1性能分析方法论:从监控到调优的系统路径
│ ├── [8.1M] 9-2调优必要性分析:理解系统软硬件性能边界
│ ├── [ 67M] 9-3网络调优实战:万兆环境下的传输优化策略(一)
│ ├── [107M] 9-4网络调优实战:万兆环境下的传输优化策略(二)
│ ├── [145M] 9-5系统稳定性调优:内核参数与资源限制优化(一)
│ ├── [ 73M] 9-6系统稳定性调优:内核参数与资源限制优化(二)
│ ├── [ 85M] 9-7OSD参数调优实战:性能与稳定的平衡艺术
│ ├── [ 70M] 9-8数据安全调优:Scrub机制原理与参数建议
│ └── [5.0M] 9-9本章回顾:集群性能优化关键点总结
├── 第10章 生产级分布式存储集群中常见的故障问题处理及排查/
│ ├── [ 27M] 10-1故障处理工程实践:方法论与应急流程
│ ├── [ 21M] 10-2告警响应策略:从告警到处置的标准化路径
│ ├── [236M] 10-3磁盘故障处理:OSD坏盘替换与数据重建
│ ├── [ 79M] 10-4服务中断应急:Monitor宕机恢复方案
│ ├── [331M] 10-5网络变更规划:集群IP迁移与配置更新
│ ├── [120M] 10-6存储资源规划:集群扩容与缩容操作指南
│ ├── [205M] 10-7多盘损坏应急:超越副本容忍度的数据恢复
│ ├── [255M] 10-8写入过载处理:OSDFull状态应急与预防
│ ├── [156M] 10-9高级调试手法:Ceph源码编译与机制探析
│ ├── [136M] 10-10数据恢复:操作系统重装后的OSD快速恢复(一)
│ ├── [163M] 10-11数据恢复:操作系统重装后的OSD快速恢复(二)
│ ├── [292M] 10-12故障排查经验集:常见问题分类与处理思路
│ └── [2.6M] 10-13本章回顾:故障处理与运维实战能力总结
├── 第11章 DeepSeek推理大模型在分布式集群的应用/
│ ├── [ 40M] 11-1DeepSeek大模型解析:推理架构与运行原理
│ ├── [ 83M] 11-2私有化AI助手部署实战:5分钟快速安装指南
│ ├── [ 64M] 11-3专属知识库构建实战:基于分布式存储的模型微调
│ ├── [ 49M] 11-4AI运维系统实战:打造智能日志分析与异常检测平台
│ ├── [151M] 11-5智能磁盘预警实战:训练基于大模型的故障预测系统
│ └── [8.4M] 11-6本章回顾:存储与AI融合创新的未来展望
└── 第12章 AI+Ceph分布式存储工程实战--课程总结/
└── [ 16M] 12-1AI+Ceph分布式存储工程实战--课程总结
└── 代码/