🎵 SOMI 2026 音乐AI知识图谱
基于第三届世界音乐人工智能大会核心内容整理
🎓 零基础学习路径
从完全零基础到能参与音乐AI研究/创作的阶梯式成长方案,预计总周期 6-9 个月
📊 阶段总览
🛤️ 学习流程
📚 阶段详解
点击各阶段展开详细学习内容、大会对应资源与验收标准
🏗️ 阶段0:筑基期(2-4周)
🎵 乐理基础
- 认识五线谱/简谱
- 理解音高、节奏、拍号
- 三和弦与调性概念
- 理解"音乐有规律"(管晓宏)
💻 Python入门
- 变量、循环、函数
- 列表与字典
- 能读懂简单代码
- 卢迪Web DAW架构
🤖 AI常识
- 大模型是什么
- Token是什么
- 训练 vs 推理
- 李小兵"机文主义"前半
🌍 阶段1:开眼界(1-2周)
🎬 观看主旨报告
- 李小兵《机文主义》
- 管晓宏《音乐智能量化》
- Georg Hajdu《社会化重构》
🎧 第一次AI创作
- 注册 Suno 或 ACE-Step
- 输入歌词/风格描述
- 生成第一首完整歌曲
- 保存为学习里程碑
🎮 阶段2:玩起来(3-4周)
🎹 和弦派 (DeepMusic)
刘晓光团队。输入诗词让AI配和弦,导出简谱。
🤖 音潮Agent (hitto.ai)
姜涛团队。对话方式生成"雨天心情歌"并生成MV。
🌐 Web DAW (概念)
卢迪研究。浏览器里编辑MIDI,调整音符和音色。
🎛️ Suno Studio
徐帆所在公司。对生成歌曲做分轨编辑。
🧠 阶段3:懂原理(4-6周)
🎼 音乐Token(Khala)
刘家丰。64层不同精度Token,两阶段:先搭骨架,再补细节。
👂 AI如何听懂(CLaMP3)
吴尚达。跨模态对齐:乐谱/MIDI/音频/文字映射到同一"语义空间"。
📖 AI如何读谱(MSU-Bench)
戴琮人。四层次:L1认音符→L2读节奏→L3分析和声→L4理解曲式。
⚙️ 动手实验
本地部署 ACE-Step(RTX 3090即可),观察文本→音频的完整过程。
🎯 阶段4:选方向(8-12周)
🎹 赛道A:AI音乐生成
- 深入:Khala统一Token、扩散模型
- 路径:PyTorch→复现简单模型→微调开源模型
- 产出:训练指定风格LoRA
🔍 赛道B:音乐理解与检索
- 深入:CLaMP3跨模态、MSU-Bench
- 路径:Transformer→音乐分类器→跨模态检索
- 产出:搭建"哼唱搜谱"小工具
🎭 赛道C:AI辅助表演
- 深入:ELGAR音频驱动动作、Fields网络合奏
- 路径:动作捕捉基础→AI演奏动画→远程合奏
- 产出:为二胡录音生成虚拟演奏视频
📚 赛道D:AI音乐教育
- 深入:和弦派、Web DAW、视唱练耳系统
- 路径:调研痛点→设计AI课程→中小学实践
- 产出:设计40分钟"AI音乐创编"课并试讲
🧘 赛道E:音乐治疗与健康
- 深入:马军BCI、管晓宏治疗、央音一号
- 路径:脑电基础→情绪识别→干预实验设计
- 产出:为失眠人群设计AI助眠音乐方案
🚀 阶段5:出成果(持续)
📄 学术论文
参考MSU-Bench、CLaMP3研究方法。适合研究生/研究者。
💻 开源项目
参考ACE-Step、Khala开源策略。适合工程师。
🎵 音乐作品
参考Suno、音潮Agent创作流程。适合创作者。
🏫 教育产品
参考DeepMusic、Web DAW设计。适合创业者/教师。
🌾 跨界应用
结合非遗背景,用AI生成/分析非遗音乐。适合乡村振兴研究者。
⚠️ 避坑指南
基于SOMI 2026专家分享的经验,总结常见误区与正确做法
❌ 一上来就啃论文
❌ 认为必须精通乐理
❌ 认为AI会取代音乐人
❌ 只看技术不看伦理
❌ 闭门造车
❌ 忽视身体与表演
📚 推荐学习资源
🏗️ 阶段0-1(科普)
- 大会主旨报告回放(B站/官网)
- Suno、Udio官方文档(10分钟上手)
- 3Blue1Brown《神经网络》可视化
🎮 阶段2(工具)
- 和弦派App(微信小程序/网页)
- 音潮 hitto.ai(对话式创作)
- ACE-Step GitHub(开源体验)
🧠 阶段3(原理)
- ACE-Step GitHub仓库(详细README)
- CLaMP3论文 + M4-RAG数据集
- MSU-Bench基准测试(乐谱理解)
🚀 阶段4-5(深入)
- 中央音乐学院"艺术与科学的交汇"音乐会
- 你的非遗音乐数据集(个性化)
- 相关顶会论文:ISMIR/NAACL/ACL/AAAI
基于第三届世界音乐人工智能大会(SOMI 2026)全部报告内容整理
📍 北京·中央音乐学院 | 主办单位:中国人工智能学会、中央音乐学院