价格: 160 学币

分类: AIGC

发布时间: 2026-01-09 17:44:47

最近更新: 2026-01-09 17:44:47

优惠: 钻石SVIP购买此课享受8折优惠

网盘下载地址

课程介绍

JK 多模态大模型训练营,构筑从数据、训练、推理到安全防护的全链路技术闭环,打通模型从开发到规模化部署的全过程。基于电商、医疗、虚拟人等多个真实场景,提供七个核心实战案例与十一个可复用的工程化实践,深度覆盖多模态应用需求。通过深度融合文本、图像、音频与视频,实现拍照搜同款、虚拟人直播等创新交互。紧跟技术前沿,覆盖 Qwen2.5-VL、InternVL3 等多模态模型,集成 vLLM 推理框架与 MoE 架构等尖端技术,提供高效的落地实践。

资源目录

.
├──   第0周:直播答疑+开营直播回放/
│   ├── [622M]  0-1 开营直播回放
│   └── [245M]  0-2 直播答疑-20251025
├──   第1周:机器学习与深度学习基础(上)/
│   ├── [157M]  1-1 课程概述
│   ├── [169M]  1-2 常见机器学习任务与算法:机器学习任务类型
│   ├── [333M]  1-3 常见机器学习任务与算法:机器学习十大算法
│   ├── [257M]  1-4 常见机器学习任务与算法:机器学习的任务步骤
│   ├── [289M]  1-5 深度学习任务版图
│   └── [238M]  1-6 深度学习算法
├──   第2周:机器学习与深度学习基础(下)/
│   ├── [359M]  2-1 深度学习训练要素
│   ├── [354M]  2-2 强化学习最小闭环
│   ├── [142M]  2-3 PyTorch基础与工程要素
│   └── [323M]  2-4 实战:电商SKU卡生成
├──   第3周:大模型微调与落地(上)/
│   ├── [308M]  3-1 大模型的演进历史(一)
│   ├── [307M]  3-2 大模型的演进历史(二)
│   ├── [306M]  3-3 从AI到AGI到ASI(一)
│   ├── [326M]  3-4 从AI到AGI到ASI(二)
│   └── [419M]  3-5 Transformer核心原理
├──   第4周:大模型微调与落地(下)/
│   ├── [866M]  4-1 Transformer核心原理的演示
│   ├── [418M]  4-2 知识工程与多模态RAG
│   ├── [423M]  4-3 微调方法与参数高效训练(一)
│   ├── [367M]  4-4 微调方法与参数高效训练(二)
│   ├── [339M]  4-5 提示词工程和模型压缩优化
│   └── [272M]  4-6 实战:可溯源的问答助手
├──   第5周:多模态全景认知/
│   ├── [152M]  5-1 多模态的定义与边界
│   ├── [234M]  5-2 多模态数据与表征
│   ├── [198M]  5-3 多模态模型架构
│   ├── [ 87M]  5-4 多模态任务类型
│   ├── [177M]  5-5 多模态应用场景
│   ├── [615M]  5-6 多模态实战
│   └── [ 70M]  5-7 音频模态扩展
├──   第6周:虚拟人生成与交互技术/
│   ├── [148M]  6-1 虚拟人生成全景
│   ├── [496M]  6-2 图像生成与条件控制(一)
│   ├── [401M]  6-3 图像生成与条件控制(二)
│   ├── [398M]  6-4 虚拟人的大脑
│   ├── [512M]  6-5 虚拟人的声音情感
│   ├── [520M]  6-6 虚拟人的口型与驱动
│   ├── [127M]  6-7 虚拟人直播
│   └── [402M]  6-8 虚拟人案例实操
├──   第7周:多模态 OCR 与智能翻译链路/
│   ├── [210M]  7-1 OCR的全景认知
│   ├── [402M]  7-2 传统OCR技术机制
│   ├── [370M]  7-3 生成式与Transformer式OCR(一)
│   ├── [349M]  7-4 生成式与Transformer式OCR(二)
│   ├── [373M]  7-5 版面与表格结构解析
│   ├── [338M]  7-6 手写OCR与多语种
│   └── [270M]  7-7 OCR到翻译链路与RAG落地
├──   第8周:视觉定位与跨模态融合感知/
│   ├── [212M]  8-1 视觉和语言任务总览
│   ├── [459M]  8-2 视觉问答
│   ├── [363M]  8-3 视觉定位
│   ├── [496M]  8-4 图像计数和视觉推理
│   ├── [330M]  8-5 图像-文本生成和跨模态融合策略
│   ├── [103M]  8-6 注意力机制与可视化
│   └── [ 93M]  8-7 综合实战与评估指标
├──   第9周:文本到 SQL(NL2SQL)与多表推理/
│   ├── [414M]  9-1 NL2SQL的核心价值
│   ├── [147M]  9-2 Schema对齐与语义消歧
│   ├── [358M]  9-3 NL2SQL的技术对比(一)
│   ├── [342M]  9-4 NL2SQL的技术对比(二)
│   ├── [469M]  9-5 适合复杂场景的策略
│   └── [ 83M]  9-6 数据表查询助手
└──   第10周:医疗影像分析与智能报告生成/
    ├── [318M]  10-1 医疗影像分析与行业落地
    ├── [275M]  10-2 医疗多模态数据预处理与隐私合规
    ├── [295M]  10-3 核心模型深度解析(一)
    ├── [196M]  10-4 核心模型深度解析(二)
    ├── [297M]  10-5 核心模型深度解析(三)
    ├── [ 97M]  10-6 医疗报告生成
    ├── [305M]  10-7 医疗知识图谱与多模态融合应用
    └── [116M]  10-8 实战:多模态辅助诊断系统搭建
└── 资料/