主要注意的是:
腾讯推出的M2UGen是一款多模态音乐生成框架,结合音乐和多模态任务,支持从文字、图像、视频生成音乐,并具备强大的编辑功能。
依赖于预训练大语言模型:DeWave在实现脑电波到文本的转换过程中使用了预训练大语言模型,如BART。
Robin AI的核心产品是一款名为Robin Copilot的AI助手,该产品基于Anthropic公司的Claude2.1大型语言模型技术。这一技术使得Robin Copilot能够在过去的200多万份合同基础上进行训练,并采用特定算法来理解合同内容。有趣的是,Robin Copilot是一款Microsoft Word的插件,可用于创建合同、审阅现有合同并提出修改建议。据称,这项技术能够将合同审查时间减少80%,合同成本降低75%。
另外,DreamTalk还具有说话风格预测的功能,能够根据语音预测说话者的风格,并同步表情,使得动画更加贴近原始音频。此外,该框架适用于多种场景,可以用于歌曲、不同类型的肖像,甚至在嘈杂环境中也能表现良好。