谷歌“狂飙”在生成式AI赛道最新模型可凭文字、图片“创作”音乐

《科创板日报》1月28日讯（编辑宋子乔）在生成式AI模型的赛道上，谷歌正一路“狂飙”。继文字生成AI模型Wordcraft、视频生成工具Imagen Video之后，谷歌将生成式AI的应用场景扩展到了音乐圈。

当地时间1月27日，谷歌发布了新的AI模型——MusicLM，该模型可以从文本甚至图像中生成高保真音乐，也就是说可以把一段文字、一幅画转化为歌曲，且曲风多样。

谷歌在相关论文中展示了大量案例，如输入字幕“雷鬼和电子舞曲的融合，带有空旷的、超凡脱俗的声音，引发迷失在太空中的体验，音乐的设计旨在唤起一种惊奇和敬畏的感觉，同时又适合跳舞”，MusicLM便生成了30秒的电子音乐。

(资料图)

又如以世界名画《跨越阿尔卑斯山圣伯纳隘口的拿破仑》为“题”，MusicLM生成的音乐庄重典雅，将冬日的凌厉肃杀和英雄主义色彩体现地淋漓尽致。写实油画之外，《舞蹈》《呐喊》《格尔尼卡》《星空》等抽象派画作均可为题。

MusicLM甚至来个音乐串烧，在故事模式下将不同风格的曲子混杂在一起。即便要求生成5分钟时长的音乐，MusicLM也不在话下。

另外，MusicLM具备强大的辅助功能，可以规定具体的乐器、地点、流派、年代、音乐家演奏水平等，对生成的音乐质量进行调整，从而让一段曲子幻化出多个版本。

MusicLM并非第一个生成歌曲的AI模型，同类型产品包括Riffusion、Dance Diffusion等，谷歌自己也发布过AudioML，时下最热门的聊天机器人“ChatGPT”的研发者OpenAI则推出过Jukebox。

MusicLM有何独到之处？

它其实是一个分层的序列到序列（Sequence-to-Sequence）模型。根据人工智能科学家Keunwoo Choi的说法，MusicLM结合了MuLan+AudioLM和MuLan+w2b-Bert+Soundstream等多个模型，可谓集大成者。

其中，AudioLM模型可视作MusicLM的前身，MusicLM就是利用了AudioLM的多阶段自回归建模作为生成条件，可以通过文本描述，以24kHz的频率生成音乐，并在几分钟内保持这个频率。

相较而言，MusicLM的训练数据更多。研究团队引入了首个专门为文本-音乐生成任务评估数据MusicCaps来解决任务缺乏评估数据的问题。MusicCaps由专业人士共建，涵盖5500个音乐-文本对。

基于此，谷歌用280000小时的音乐数据集训练出了MusicLM。

谷歌的实验表明，MusicLM在音频质量和对文本描述的遵守方面都优于以前的模型。

不过，MusicLM也有着所有生成式AI共同的风险——技术不完善、素材侵权、道德争议等。

对于技术问题，比方说当要求MusicLM生成人声时，技术上可行，但效果不佳，歌词乱七八糟、意义不明的情况时有发生。MusicLM也会“偷懒”——起生成的音乐中，约有1%直接从训练集的歌曲中复制。

另外，由AI系统生成的音乐到底算不算原创作品？可以受到版权保护吗？能不能和“人造音乐”同台竞技？相关争议始终未有一致见解。

这些都是谷歌没有对外发布MusicLM的原因。“我们承认该模型有盗用创意内容的潜在风险，我们强调，需要在未来开展更多工作来应对这些与音乐生成相关的风险。”谷歌发布的论文写道。

推荐内容

谷歌“狂飙”在生成式AI赛道 最新模型可凭文字、图片“创作”音乐

安徽新年新政：盘活存量资产 原则上每个市打造一个500亿元级以上国有资本运营集团

《ESG Weekly》：马斯克麻烦大了 自动驾驶宣传造假疑云或将继续拉低特斯拉ESG评级

全球即时：多个国货药妆年销破10亿！揭秘背后崛起之路|一线

特斯拉计划扩产4680电池 首次表态将应用领域拓展至储能

郭靖会什么武功？郭靖是什么样的角色？

全球热点！公分是什么单位？公分是什么意思？

诺基亚客户服务怎么样？诺基亚品牌手机的故障有哪些？

安康鱼炖豆腐是哪里的菜？安康鱼炖豆腐怎么做？

世界信息:摩托罗拉mz606平板怎么样？摩托罗拉双核平板电脑好用吗？

word的分页符在哪里？word分页预览怎么找？

今日快看!努努如何出装？努努出装教学？

环球热门:同桌的你钢琴简谱完整版介绍？同桌的你是谁唱的？

全球看热讯：索尼nex f3性价比高吗？索尼nex f3怎么样？

新版微信背景视频怎么设置？如何设置微信后台的视频？

热点！男人40要出嫁是什么电视剧？于东是什么角色？

时讯：一座三线城市的三种“新”变化|新春里的中国经济

世界看热讯：沪深复盘

金融危机对股市的影响有哪些？影响中国股市走势的主要渠道是什么？

成交量与股价有什么关系？体现在哪些方面？

股市中红三兵的三个特殊形态是什么？为什么说红三兵后必有大阴线？

毛利率是什么意思？如何计算毛利率？

当前热讯：《研报掘金》

每日速看!从《流浪地球2》走出的黑科技！机械外骨骼赞助商现身微博 网友：居然是真的

折翼的天使是什么意思？折翼的天使一般用来指什么？

焦点滚动:江珊主演的电视剧有哪些？江珊主演的电视剧大全

视点！摆龙门阵是什么意思？摆龙门阵是哪里的说法？

天天快报!人体伤残鉴定标准是什么？人体伤残鉴定标准有哪些规定？

【新要闻】海底捞排号过号了怎么办？海底捞排号过了可以重新排号吗？

世界热门:yy歪歪首页登录界面是怎样的？YY频道内有哪些功能？

天天热消息：笔记本电脑不能关机了是怎么回事？电脑关机关不了解决办法？

佳域g3手机怎么样？佳宇g3怎么刷机？

全球看热讯：ipod shuffle怎么用？ipodshuffle按键使用方法

主机声音大怎么消除？解决机箱噪音大的方法是什么？

在线视频下载软件哪个好？应用宝好用吗？

提前截单是怎么回事？是发货截单吗？

世界热头条丨涨停打板新功能

天天亮点！年后重点关注方向来了！北向疯狂加仓，贵金属板块一枝独秀

记者亲历江南小镇：疫情淡去，人气回来|新春里的中国经济

又一自动驾驶公司裁员过冬 盈利困难成行业通病

每日视讯：海南实验中学_关于海南实验中学的介绍

联想a780主板怎么样_联想a780怎么样

世界微头条丨小米九支持5g吗_小米9支持5g吗(小米手机9支持5g吗)

每日头条!俄737降落时故障 具体是啥情况伤亡情况

世界微头条丨张会祥_关于张会祥的介绍

泰山币什么时候开始预约_泰山币什么时候预约

范冰冰结过几次婚?_范冰冰结婚

家家都有的动物是什么打一生肖_家家有的动物是什么生肖

青岛小珠山大火_关于青岛小珠山大火的介绍

即时焦点：迅雷_迅雷5 7

谷歌“狂飙”在生成式AI赛道最新模型可凭文字、图片“创作”音乐

安徽新年新政：盘活存量资产原则上每个市打造一个500亿元级以上国有资本运营集团

《ESG Weekly》：马斯克麻烦大了自动驾驶宣传造假疑云或将继续拉低特斯拉ESG评级

特斯拉计划扩产4680电池首次表态将应用领域拓展至储能

每日速看!从《流浪地球2》走出的黑科技！机械外骨骼赞助商现身微博网友：居然是真的

又一自动驾驶公司裁员过冬盈利困难成行业通病

每日头条!俄737降落时故障具体是啥情况伤亡情况