香港中文大学电子工程系助理教授
孔秋强,现任香港中文大学电子工程系助理教授。他于2020年于英国萨里大学获得博士学位,曾于字节跳动任职研究科学家。他的研究方向包括语音、音乐、和一般音频信号处理。他的代表作包括基于弱标签的音频事件检测和分离、大规模音频分类、大规模音乐数据集等。孔秋强于音频领域顶级期刊和会议包括TASLP、TMM、ICASSP等发表多篇文章。截至2023年8月,他的谷歌学术引用为3093余次,H指数为28。孔秋强是音频领域内多个国内国际期刊和会议审稿人,并参与筹办了DCASE2018,LVA-ICA2018等多个国际学术会议。
报告摘要:
计算机科学与音乐学是交叉学科。音乐生成是一项让计算机能够在人类的提示下自动作曲的新兴研究。音乐生成能够降低普通人创作音乐的门槛,提升作曲家、编曲者的创作效率。最近两年,人工智能在大语言模型、Diffusion模型的浪潮下取得了快速的发展。音乐生成包括基于符号的生成和基于音频波形的生成。本汇报将介绍基于波形生成的音乐生成大语言模型、Diffusion技术,并反思基于波形的音乐生成方案的局限性。本汇报将展望联合音乐理解和音乐生成的前瞻研究。