🎵 SOMI 2026 音乐AI知识图谱

基于第三届世界音乐人工智能大会核心内容整理

🎓 零基础学习路径

从完全零基础到能参与音乐AI研究/创作的阶梯式成长方案，预计总周期 6-9 个月

📊 阶段总览

🏗️

阶段0 筑基期

2-4周

🌍

阶段1 开眼界

1-2周

🎮

阶段2 玩起来

3-4周

🧠

阶段3 懂原理

4-6周

🎯

阶段4 选方向

8-12周

🚀

阶段5 出成果

持续

🛤️ 学习流程

筑基期（2-4周）基础乐理（音高/节奏/和弦）→ Python入门 → AI常识（神经网络/大模型概念）

开眼界（1-2周）观看SOMI主旨报告 → 建立全局认知 → 用Suno/ACE-Step完成第一首AI歌曲

玩起来（3-4周）和弦派/DeepMusic → 音潮Agent对话创作 → Web DAW浏览器编曲 → 输出完整作品

懂原理（4-6周）理解音乐Token（Khala）→ AI如何听懂音乐（CLaMP3）→ AI如何读谱（MSU-Bench）→ 本地部署ACE-Step

选方向（8-12周）生成方向（Khala/扩散模型）/ 理解方向（乐谱分析）/ 表演方向（ELGAR）/ 教育方向（AI教学系统）/ 健康方向（音乐BCI）

出成果（持续）独立项目落地：学术论文 / 开源项目 / 音乐作品 / 教育产品 / 跨界应用

📚 阶段详解

点击各阶段展开详细学习内容、大会对应资源与验收标准

🏗️ 阶段0：筑基期（2-4周）

🎯 目标：具备看懂后续内容的"最小必要知识"

🎵 乐理基础

认识五线谱/简谱
理解音高、节奏、拍号
三和弦与调性概念
理解"音乐有规律"（管晓宏）

💻 Python入门

变量、循环、函数
列表与字典
能读懂简单代码
卢迪Web DAW架构

🤖 AI常识

大模型是什么
Token是什么
训练 vs 推理
李小兵"机文主义"前半

验收标准：能向朋友解释清楚"AI音乐不是魔法，是数学预测"

🌍 阶段1：开眼界（1-2周）

🎯 目标：建立对音乐AI全貌的认知，激发兴趣

🎬 观看主旨报告

李小兵《机文主义》
管晓宏《音乐智能量化》
Georg Hajdu《社会化重构》

🎧 第一次AI创作

注册 Suno 或 ACE-Step
输入歌词/风格描述
生成第一首完整歌曲
保存为学习里程碑

验收标准：能说出音乐AI的 5 个应用领域（创作、教育、治疗、表演、分析）

🎮 阶段2：玩起来（3-4周）

🎯 目标：像"数字原住民"一样熟练使用音乐AI工具

🎹 和弦派 (DeepMusic)

刘晓光团队。输入诗词让AI配和弦，导出简谱。

🤖 音潮Agent (hitto.ai)

姜涛团队。对话方式生成"雨天心情歌"并生成MV。

🌐 Web DAW (概念)

卢迪研究。浏览器里编辑MIDI，调整音符和音色。

🎛️ Suno Studio

徐帆所在公司。对生成歌曲做分轨编辑。

💡 关键概念：徐帆"创作变选择"——你现在不是在"写歌"，而是在"挑选AI生成的候选"。龚俊民：好的AI音乐需要懂音乐的人参与。

验收标准：独立完成一首有歌词、有编曲、有简单MV的AI音乐作品

🧠 阶段3：懂原理（4-6周）

🎯 目标：从"用户"升级为"知情者"，能看懂技术报道和论文摘要

🎼 音乐Token（Khala）

刘家丰。64层不同精度Token，两阶段：先搭骨架，再补细节。

👂 AI如何听懂（CLaMP3）

吴尚达。跨模态对齐：乐谱/MIDI/音频/文字映射到同一"语义空间"。

📖 AI如何读谱（MSU-Bench）

戴琮人。四层次：L1认音符→L2读节奏→L3分析和声→L4理解曲式。

⚙️ 动手实验

本地部署 ACE-Step（RTX 3090即可），观察文本→音频的完整过程。

验收标准：能用通俗语言向音乐生解释"扩散模型"和"Token"的区别

🎯 阶段4：选方向（8-12周）

🎯 目标：找到个人兴趣点，深入一个垂直领域

🎹 赛道A：AI音乐生成

深入：Khala统一Token、扩散模型
路径：PyTorch→复现简单模型→微调开源模型
产出：训练指定风格LoRA

🔍 赛道B：音乐理解与检索

深入：CLaMP3跨模态、MSU-Bench
路径：Transformer→音乐分类器→跨模态检索
产出：搭建"哼唱搜谱"小工具

🎭 赛道C：AI辅助表演

深入：ELGAR音频驱动动作、Fields网络合奏
路径：动作捕捉基础→AI演奏动画→远程合奏
产出：为二胡录音生成虚拟演奏视频

📚 赛道D：AI音乐教育

深入：和弦派、Web DAW、视唱练耳系统
路径：调研痛点→设计AI课程→中小学实践
产出：设计40分钟"AI音乐创编"课并试讲

🧘 赛道E：音乐治疗与健康

深入：马军BCI、管晓宏治疗、央音一号
路径：脑电基础→情绪识别→干预实验设计
产出：为失眠人群设计AI助眠音乐方案

🚀 阶段5：出成果（持续）

🎯 目标：用项目倒逼学习，形成作品集

📄 学术论文

参考MSU-Bench、CLaMP3研究方法。适合研究生/研究者。

💻 开源项目

参考ACE-Step、Khala开源策略。适合工程师。

🎵 音乐作品

参考Suno、音潮Agent创作流程。适合创作者。

🏫 教育产品

参考DeepMusic、Web DAW设计。适合创业者/教师。

🌾 跨界应用

结合非遗背景，用AI生成/分析非遗音乐。适合乡村振兴研究者。

⚠️ 避坑指南

基于SOMI 2026专家分享的经验，总结常见误区与正确做法

❌ 一上来就啃论文

还没建立直觉就硬读CLaMP3、MSU-Bench原文

✅ 先用Suno玩起来，建立"AI能做什么"的直觉（徐帆）

证据：Suno让不会写歌的人也能创作，降低门槛是第一步

❌ 认为必须精通乐理

等学完美学和声学再碰AI

✅ 乐理和AI同步学，互为补充（刘晓光）

证据：和弦派让小学生也能编配和弦，乐理可以在实践中补

❌ 认为AI会取代音乐人

焦虑被替代，拒绝接触AI工具

✅ 把AI当"乐器"，艺术家才是核心（龚俊民）

证据："AI是乐器，让它响起来的是艺术家"

❌ 只看技术不看伦理

沉迷模型性能，忽视版权和主体性

✅ 从一开始就思考创作归属（Cat Hope）

证据：治理框架比单一技术更重要，人的主体性优先

❌ 闭门造车

一个人闷头学，不交流不分享

✅ 加入开源社区，和懂音乐的人合作（ACE-Step团队）

证据：ACE-Step强调"与音乐人合作"是最大成功因素

❌ 忽视身体与表演

只关注屏幕上的生成，忽略演奏者健康

✅ 关注表演者福祉，技术服务于人（Aaron Williamon）

证据：RCM表演科学中心强调"健康表演者=更好艺术"

📚 推荐学习资源

🏗️ 阶段0-1（科普）

大会主旨报告回放（B站/官网）
Suno、Udio官方文档（10分钟上手）
3Blue1Brown《神经网络》可视化

🎮 阶段2（工具）

和弦派App（微信小程序/网页）
音潮 hitto.ai（对话式创作）
ACE-Step GitHub（开源体验）

🧠 阶段3（原理）

ACE-Step GitHub仓库（详细README）
CLaMP3论文 + M4-RAG数据集
MSU-Bench基准测试（乐谱理解）

🚀 阶段4-5（深入）

中央音乐学院"艺术与科学的交汇"音乐会
你的非遗音乐数据集（个性化）
相关顶会论文：ISMIR/NAACL/ACL/AAAI

基于第三届世界音乐人工智能大会（SOMI 2026）全部报告内容整理

📍 北京·中央音乐学院 | 主办单位：中国人工智能学会、中央音乐学院