JK 多模态大模型训练营,构筑从数据、训练、推理到安全防护的全链路技术闭环,打通模型从开发到规模化部署的全过程。基于电商、医疗、虚拟人等多个真实场景,提供七个核心实战案例与十一个可复用的工程化实践,深度覆盖多模态应用需求。通过深度融合文本、图像、音频与视频,实现拍照搜同款、虚拟人直播等创新交互。紧跟技术前沿,覆盖 Qwen2.5-VL、InternVL3 等多模态模型,集成 vLLM 推理框架与 MoE 架构等尖端技术,提供高效的落地实践。
.
├── 第0周:直播答疑+开营直播回放/
│ ├── [622M] 0-1 开营直播回放
│ └── [245M] 0-2 直播答疑-20251025
├── 第1周:机器学习与深度学习基础(上)/
│ ├── [157M] 1-1 课程概述
│ ├── [169M] 1-2 常见机器学习任务与算法:机器学习任务类型
│ ├── [333M] 1-3 常见机器学习任务与算法:机器学习十大算法
│ ├── [257M] 1-4 常见机器学习任务与算法:机器学习的任务步骤
│ ├── [289M] 1-5 深度学习任务版图
│ └── [238M] 1-6 深度学习算法
├── 第2周:机器学习与深度学习基础(下)/
│ ├── [359M] 2-1 深度学习训练要素
│ ├── [354M] 2-2 强化学习最小闭环
│ ├── [142M] 2-3 PyTorch基础与工程要素
│ └── [323M] 2-4 实战:电商SKU卡生成
├── 第3周:大模型微调与落地(上)/
│ ├── [308M] 3-1 大模型的演进历史(一)
│ ├── [307M] 3-2 大模型的演进历史(二)
│ ├── [306M] 3-3 从AI到AGI到ASI(一)
│ ├── [326M] 3-4 从AI到AGI到ASI(二)
│ └── [419M] 3-5 Transformer核心原理
├── 第4周:大模型微调与落地(下)/
│ ├── [866M] 4-1 Transformer核心原理的演示
│ ├── [418M] 4-2 知识工程与多模态RAG
│ ├── [423M] 4-3 微调方法与参数高效训练(一)
│ ├── [367M] 4-4 微调方法与参数高效训练(二)
│ ├── [339M] 4-5 提示词工程和模型压缩优化
│ └── [272M] 4-6 实战:可溯源的问答助手
├── 第5周:多模态全景认知/
│ ├── [152M] 5-1 多模态的定义与边界
│ ├── [234M] 5-2 多模态数据与表征
│ ├── [198M] 5-3 多模态模型架构
│ ├── [ 87M] 5-4 多模态任务类型
│ ├── [177M] 5-5 多模态应用场景
│ ├── [615M] 5-6 多模态实战
│ └── [ 70M] 5-7 音频模态扩展
├── 第6周:虚拟人生成与交互技术/
│ ├── [148M] 6-1 虚拟人生成全景
│ ├── [496M] 6-2 图像生成与条件控制(一)
│ ├── [401M] 6-3 图像生成与条件控制(二)
│ ├── [398M] 6-4 虚拟人的大脑
│ ├── [512M] 6-5 虚拟人的声音情感
│ ├── [520M] 6-6 虚拟人的口型与驱动
│ ├── [127M] 6-7 虚拟人直播
│ └── [402M] 6-8 虚拟人案例实操
├── 第7周:多模态 OCR 与智能翻译链路/
│ ├── [210M] 7-1 OCR的全景认知
│ ├── [402M] 7-2 传统OCR技术机制
│ ├── [370M] 7-3 生成式与Transformer式OCR(一)
│ ├── [349M] 7-4 生成式与Transformer式OCR(二)
│ ├── [373M] 7-5 版面与表格结构解析
│ ├── [338M] 7-6 手写OCR与多语种
│ └── [270M] 7-7 OCR到翻译链路与RAG落地
├── 第8周:视觉定位与跨模态融合感知/
│ ├── [212M] 8-1 视觉和语言任务总览
│ ├── [459M] 8-2 视觉问答
│ ├── [363M] 8-3 视觉定位
│ ├── [496M] 8-4 图像计数和视觉推理
│ ├── [330M] 8-5 图像-文本生成和跨模态融合策略
│ ├── [103M] 8-6 注意力机制与可视化
│ └── [ 93M] 8-7 综合实战与评估指标
├── 第9周:文本到 SQL(NL2SQL)与多表推理/
│ ├── [414M] 9-1 NL2SQL的核心价值
│ ├── [147M] 9-2 Schema对齐与语义消歧
│ ├── [358M] 9-3 NL2SQL的技术对比(一)
│ ├── [342M] 9-4 NL2SQL的技术对比(二)
│ ├── [469M] 9-5 适合复杂场景的策略
│ └── [ 83M] 9-6 数据表查询助手
└── 第10周:医疗影像分析与智能报告生成/
├── [318M] 10-1 医疗影像分析与行业落地
├── [275M] 10-2 医疗多模态数据预处理与隐私合规
├── [295M] 10-3 核心模型深度解析(一)
├── [196M] 10-4 核心模型深度解析(二)
├── [297M] 10-5 核心模型深度解析(三)
├── [ 97M] 10-6 医疗报告生成
├── [305M] 10-7 医疗知识图谱与多模态融合应用
└── [116M] 10-8 实战:多模态辅助诊断系统搭建
└── 资料/