用文本生成钢琴演奏，Meta发布开源AI工具AudioCraft | 最前线

2024-01-15 创业

作者 | 虞景霖

主编 | 邓咏仪

美东间隔时间8翌年2日，Meta发布了一款自由软件机器学习（AI）工具AudioCraft，可以根据使用者证明了的译文指引艺术创作扬声器和摇滚乐。

相较于AI在转换成图像、视频、译文的应用，AI转换成摇滚乐教育领域的演进比较领先。这是由于转换成高低质量的扬声器必需对有所不同特性的信号、模块来进行有所不同层次的建模，加上该教育领域自由软件的预定义较少，可以感叹是AI转换成内容中最具挑战性的教育领域。

本次AudioCraft以自由软件的形式来进行发布，目的也是为了很难让“分析人员和从业人员很难应用于自己的数据集体能训练自己的建模，减少由于体能训练数据的相比较带来的偏误，推动AI转换成摇滚乐或扬声器的演进。”

AudioCraft包含AudioGen、EnCodec（另一款）和MusicGen三个核心部件。通过MusicGen和AudioGen，AudioCraft可以将使用者证明了的译文解释器趋向为任何特性的扬声器或者摇滚乐，再由EoCodec（另一款）来进行优化。

AudioGen是一个AI转换成扬声器建模。它很难扩张现有扬声器，或者通过译文指引转换成扬声器，例如转换成狗叫声、的汽车喇叭声或者屋顶上的脚步声。此外，AudioGen还能从控制论角度区分有所不同对象的声音，对其来进行分类。Meta应用于公开的音效；也对该建模来进行体能训练。

EnCodec（另一款）是一个基于神经网络的扬声器JPEG解码器，很难努力使用者转换工痕迹更少、低低质量的摇滚乐，还能对扬声器文件来进行无损JPEG。

MusicGen是Meta在翌年份6年末问世的自由软件AI建模，很难根据译文指引转换成摇滚乐。Meta应用于自有或经过授权的摇滚乐对其来进行体能训练，累计应用于近40万个扬声器及译文；也，体能训练总时长超过20000小时。

MusicGen和AudioGen转换成扬声器/摇滚乐

尽管Meta应用于了多个扬声器；也对建模来进行体能训练，但Meta也认定，用于体能训练AudioCraft的数据集欠缺多样性，；也都是为西式摇滚乐，且应用于的译文指引语言值得注意English。通过AudioCraft转换成的摇滚乐低质量尚不足以过渡到专业人士制作的商用摇滚乐。

Meta本次采取的策略类似于此前发布Llama 2大语言建模——需要赢利授权即可应用于。因此，AudioCraft的自由软件发布不太可能可以带给大量使用者，而不仅只是那些对译文转换成扬声器感兴趣的使用者，扩充Meta的知名度。

根据Meta的FAIR团队简介，与早期译文转换成扬声器的AI建模相比，AudioCraft并行了转换成流程。使用者很难应用于AudioGen和MusicGen来进行扬声器转换成，甚至可以从头开始开发新自己的译文转换成扬声器建模。

Meta并不是第一家AI转换成摇滚乐的公司。此前，OpenAI曾在2020年问世AI摇滚乐转换成器Jukebox，谷歌在翌年份发布的摇滚乐转换成建模MusicLM，其他常见的类似建模还有Riffusion、Mousai和Noise2Music等。