🎵 SOMI 2026 音乐AI知识图谱

基于第三届世界音乐人工智能大会核心内容整理

🎓 零基础学习路径

从完全零基础到能参与音乐AI研究/创作的阶梯式成长方案,预计总周期 6-9 个月

📊 阶段总览

🏗️
阶段0 筑基期
2-4周
🌍
阶段1 开眼界
1-2周
🎮
阶段2 玩起来
3-4周
🧠
阶段3 懂原理
4-6周
🎯
阶段4 选方向
8-12周
🚀
阶段5 出成果
持续

🛤️ 学习流程

0
筑基期(2-4周)基础乐理(音高/节奏/和弦)→ Python入门 → AI常识(神经网络/大模型概念)
1
开眼界(1-2周)观看SOMI主旨报告 → 建立全局认知 → 用Suno/ACE-Step完成第一首AI歌曲
2
玩起来(3-4周)和弦派/DeepMusic → 音潮Agent对话创作 → Web DAW浏览器编曲 → 输出完整作品
3
懂原理(4-6周)理解音乐Token(Khala)→ AI如何听懂音乐(CLaMP3)→ AI如何读谱(MSU-Bench)→ 本地部署ACE-Step
4
选方向(8-12周)生成方向(Khala/扩散模型)/ 理解方向(乐谱分析)/ 表演方向(ELGAR)/ 教育方向(AI教学系统)/ 健康方向(音乐BCI)
5
出成果(持续)独立项目落地:学术论文 / 开源项目 / 音乐作品 / 教育产品 / 跨界应用

📚 阶段详解

点击各阶段展开详细学习内容、大会对应资源与验收标准

🏗️ 阶段0:筑基期(2-4周)

🎯 目标:具备看懂后续内容的"最小必要知识"

🎵 乐理基础

  • 认识五线谱/简谱
  • 理解音高、节奏、拍号
  • 三和弦与调性概念
  • 理解"音乐有规律"(管晓宏)

💻 Python入门

  • 变量、循环、函数
  • 列表与字典
  • 能读懂简单代码
  • 卢迪Web DAW架构

🤖 AI常识

  • 大模型是什么
  • Token是什么
  • 训练 vs 推理
  • 李小兵"机文主义"前半
验收标准:能向朋友解释清楚"AI音乐不是魔法,是数学预测"

🌍 阶段1:开眼界(1-2周)

🎯 目标:建立对音乐AI全貌的认知,激发兴趣

🎬 观看主旨报告

  • 李小兵《机文主义》
  • 管晓宏《音乐智能量化》
  • Georg Hajdu《社会化重构》

🎧 第一次AI创作

  • 注册 Suno 或 ACE-Step
  • 输入歌词/风格描述
  • 生成第一首完整歌曲
  • 保存为学习里程碑
验收标准:能说出音乐AI的 5 个应用领域(创作、教育、治疗、表演、分析)

🎮 阶段2:玩起来(3-4周)

🎯 目标:像"数字原住民"一样熟练使用音乐AI工具

🎹 和弦派 (DeepMusic)

刘晓光团队。输入诗词让AI配和弦,导出简谱。

🤖 音潮Agent (hitto.ai)

姜涛团队。对话方式生成"雨天心情歌"并生成MV。

🌐 Web DAW (概念)

卢迪研究。浏览器里编辑MIDI,调整音符和音色。

🎛️ Suno Studio

徐帆所在公司。对生成歌曲做分轨编辑。

💡 关键概念:徐帆"创作变选择"——你现在不是在"写歌",而是在"挑选AI生成的候选"。龚俊民:好的AI音乐需要懂音乐的人参与。
验收标准:独立完成一首有歌词、有编曲、有简单MV的AI音乐作品

🧠 阶段3:懂原理(4-6周)

🎯 目标:从"用户"升级为"知情者",能看懂技术报道和论文摘要

🎼 音乐Token(Khala)

刘家丰。64层不同精度Token,两阶段:先搭骨架,再补细节。

👂 AI如何听懂(CLaMP3)

吴尚达。跨模态对齐:乐谱/MIDI/音频/文字映射到同一"语义空间"。

📖 AI如何读谱(MSU-Bench)

戴琮人。四层次:L1认音符→L2读节奏→L3分析和声→L4理解曲式。

⚙️ 动手实验

本地部署 ACE-Step(RTX 3090即可),观察文本→音频的完整过程。

验收标准:能用通俗语言向音乐生解释"扩散模型"和"Token"的区别

🎯 阶段4:选方向(8-12周)

🎯 目标:找到个人兴趣点,深入一个垂直领域

🎹 赛道A:AI音乐生成

  • 深入:Khala统一Token、扩散模型
  • 路径:PyTorch→复现简单模型→微调开源模型
  • 产出:训练指定风格LoRA

🔍 赛道B:音乐理解与检索

  • 深入:CLaMP3跨模态、MSU-Bench
  • 路径:Transformer→音乐分类器→跨模态检索
  • 产出:搭建"哼唱搜谱"小工具

🎭 赛道C:AI辅助表演

  • 深入:ELGAR音频驱动动作、Fields网络合奏
  • 路径:动作捕捉基础→AI演奏动画→远程合奏
  • 产出:为二胡录音生成虚拟演奏视频

📚 赛道D:AI音乐教育

  • 深入:和弦派、Web DAW、视唱练耳系统
  • 路径:调研痛点→设计AI课程→中小学实践
  • 产出:设计40分钟"AI音乐创编"课并试讲

🧘 赛道E:音乐治疗与健康

  • 深入:马军BCI、管晓宏治疗、央音一号
  • 路径:脑电基础→情绪识别→干预实验设计
  • 产出:为失眠人群设计AI助眠音乐方案

🚀 阶段5:出成果(持续)

🎯 目标:用项目倒逼学习,形成作品集

📄 学术论文

参考MSU-Bench、CLaMP3研究方法。适合研究生/研究者。

💻 开源项目

参考ACE-Step、Khala开源策略。适合工程师。

🎵 音乐作品

参考Suno、音潮Agent创作流程。适合创作者。

🏫 教育产品

参考DeepMusic、Web DAW设计。适合创业者/教师。

🌾 跨界应用

结合非遗背景,用AI生成/分析非遗音乐。适合乡村振兴研究者。

⚠️ 避坑指南

基于SOMI 2026专家分享的经验,总结常见误区与正确做法

一上来就啃论文

还没建立直觉就硬读CLaMP3、MSU-Bench原文
✅ 先用Suno玩起来,建立"AI能做什么"的直觉(徐帆)
证据:Suno让不会写歌的人也能创作,降低门槛是第一步

认为必须精通乐理

等学完美学和声学再碰AI
✅ 乐理和AI同步学,互为补充(刘晓光)
证据:和弦派让小学生也能编配和弦,乐理可以在实践中补

认为AI会取代音乐人

焦虑被替代,拒绝接触AI工具
✅ 把AI当"乐器",艺术家才是核心(龚俊民)
证据:"AI是乐器,让它响起来的是艺术家"

只看技术不看伦理

沉迷模型性能,忽视版权和主体性
✅ 从一开始就思考创作归属(Cat Hope)
证据:治理框架比单一技术更重要,人的主体性优先

闭门造车

一个人闷头学,不交流不分享
✅ 加入开源社区,和懂音乐的人合作(ACE-Step团队)
证据:ACE-Step强调"与音乐人合作"是最大成功因素

忽视身体与表演

只关注屏幕上的生成,忽略演奏者健康
✅ 关注表演者福祉,技术服务于人(Aaron Williamon)
证据:RCM表演科学中心强调"健康表演者=更好艺术"

📚 推荐学习资源

🏗️ 阶段0-1(科普)

  • 大会主旨报告回放(B站/官网)
  • Suno、Udio官方文档(10分钟上手)
  • 3Blue1Brown《神经网络》可视化

🎮 阶段2(工具)

  • 和弦派App(微信小程序/网页)
  • 音潮 hitto.ai(对话式创作)
  • ACE-Step GitHub(开源体验)

🧠 阶段3(原理)

  • ACE-Step GitHub仓库(详细README)
  • CLaMP3论文 + M4-RAG数据集
  • MSU-Bench基准测试(乐谱理解)

🚀 阶段4-5(深入)

  • 中央音乐学院"艺术与科学的交汇"音乐会
  • 你的非遗音乐数据集(个性化)
  • 相关顶会论文:ISMIR/NAACL/ACL/AAAI

基于第三届世界音乐人工智能大会(SOMI 2026)全部报告内容整理

📍 北京·中央音乐学院 | 主办单位:中国人工智能学会、中央音乐学院