嘴唇同步技术的发展速度呈指数级增长。尽管在学术界,相关论文的数量激增,商业公司也从这项技术中衍生出来的情况也是如此。在本指南里,我将列出一些公司,并对它们进行简要介绍。我还将为有兴趣尝试这些工具或服务的人提供价格和链接。我尽量提供了他们所使用技术的最佳估计(这只是基于网页内容的估计,除非另有说明)。我可能会从一些链接中获得佣金(已标注)。
如果你知道这里没有提到的任何做唇同步的公司,请告诉我一声,我会把名单更新一下。这份名单会定期更新一下,但可能随时有点滞后。
Synthesia(https://www.synthesia.io/?via=jack-saunders)是市场上的领头羊,估值超过10亿美金。凭借每年都能产出几篇顶级论文的研究团队,技术只会越来越好。虽然价格不便宜,但质量也越来越好。
他们做什么: AI虚拟主播。他们为特定的人物生成口型(你也可以为此支付费用来定制专属的虚拟形象)。
价格: 基础级每月17英镑,高级每月52英镑。前者每年提供2小时的视频,后者提供6小时的视频。每分钟的费用约为2.2美元。更高级别则包括网络摄像头头像。
技术方面: 早期的Synthesia很可能围绕延迟神经渲染建立。最近,他们的相关技术团队一直在研究神经参数化头部模型;如果还未使用,我预计很快就会开始。总的来说,Synthesia的技术最为成熟。
试试看这里( aff )
他们做什么:HeyGen 描述其产品为“视觉故事”。实际上,这指的是用于销售、营销和培训视频的AI角色市场。HeyGen 更加注重定制角色,但也开始提供实时角色(例如,用于视频中的AI角色)。这也表明HeyGen开始涉足实时角色的领域。
价格: 价格从每月24美元(每分钟1.60美元)到每月360美元(顶级套餐)之间。提供的自定义头像比竞争对手多。
技术方面: HeyGen的技术可能主要集中在微调上。他们有一个通用模型,并为每个自定义角色进行微调。我认为这更像是一个2D模型,而不是基于神经渲染技术。从感觉和市场推广来看。
试试看这里
Flawless是一家发展迅速的公司,拥有出色的技术。他们和Synthesia一样,经常在顶级会议和期刊上发表论文。不过,你可能用不到他们的系统,因为他们主要为好莱坞电影做配音工作。
他们主要做什么:
价格: 从某种程度上来说,价格并不重要。他们为电影和广告行业提供定制的解决方案,普通消费者无法享受这些服务。
技术上: 大多数营销材料显示了叠加在脸上的3D模型。这表明他们可能使用了基于3DMM的模型。
在这里试试](https://www.flawlessai.com/)。
他们做什么:DeepReel(深影)是一家AI虚拟人物公司,我个人对这家公司有点偏爱,因为我过去曾经参与过他们的技术开发。他们为销售和营销活动提供虚拟人物,并与Canva和Adobe Express集成。
价格: 每分钟价格约为1.90美元,套餐计划的价格从每月5美元到200美元不等。自定义虚拟形象的价格为网络摄像头头像149美元,工作室头像499美元。
技术方面: 我曾在这里工作过,因此不能透露太多。但从我和他们一起公开发布的论文(例如:https://dubbingforeveryone.github.io/)来看,技术是基于3DMM(三维人脸模型)的。
试试这里:链接****
他们做什么: 他们提供的是专注于内部沟通和教育培训的AI虚拟主播。此外,他们还提供一个功能,将PDF或PowerPoint文档转换成AI虚拟角色演示视频。Colossyan
价格: 基础计划从每月19美元起(每分钟视频1.90元),高级计划则为每月158美元(每分钟视频1.75元)。高级计划包含网络摄像头虚拟形象。
技术方面:这里的信息不多。通常,公司会用3D叠加效果展示其营销策略,如果它们使用3D模型的话,而Colossyan并没有这样做。总的来说,这些虚拟形象更像是2D风格。它们和其他使用神经渲染技术的竞争对手价格相当,因此,很难准确判断。
在这里试一试
提供销售、营销和内部交流用的AI虚拟形象,详情请见 Pipio(https://pipio.ai/?via=jack)。
价格: Pipio 只提供一个默认的价格点:每月 20 美元,相当于每分钟视频 1.75 美元的费用。自定义头像选项为附加项:摄像头为 50 美元,工作室选项则是 449 美元。
技术上: Pipio 并没有直接告诉我们其模型是如何工作的,但在我看来,它有点像 3DMM。
试试这里(来自作者推荐).
SyncLabs 是由 Wav2Lip 的创作者创建的一家 YC 支持的公司。它可能受到了他们后续研究工作的影响。在市面上的模型中,它价格较为低廉,但灵活性更高,但通常质量较低。
他们做什么: SyncLabs 稍有不同,和其他很多公司不一样。他们不是提供预定义的虚拟形象,而是允许任何视频的唇部动作同步到任何音频。虽然输出质量不如预定义虚拟形象,但它们提供更灵活的选择。
价格: SyncLabs 打破了其他公司约 $1.5–2 的业务模式,起步价为每月 $19,即每分钟 $0.95。如果你愿意每月掏出 $999,这样每分钟只需 $0.40。
从技术角度来看: 由于 Synclabs 是由 Wav2Lip 的作者孵化出来的,几乎可以肯定它是在这条技术路径上发展的。最有可能的是,它基于 Wav2LipHQ,但经过了重大修改。
在这里试试](https://synclabs.so/)
他们做什么:D-ID 是该领域较早成立的公司之一。他们主要面向培训视频的制作、销售和营销方面,你或许见过用他们早期技术制作的某些 TikTok 模因。
价格: D-ID 的价格比竞争对手稍微便宜一些,每分钟大约是 0.50 美元。套餐价格范围是每月 6 美元到 360 美元。
技术方面: 从D-ID表情包的早期阶段开始,他们可能使用某种基于图像的变形技术来从一张图片生成他们的头像。
试试这里
拉武斯
他们做什么:Tavus 提供 AI 虚拟形象,专注于为商务、市场营销、教育和社媒定制虚拟形象。他们还为开发者提供 API 接口,以便将 Tavus 的虚拟形象集成到他们的产品中。
价格: Tavus 提供两种方案。更实惠的方案是每月 39 美元,每分钟仅 1.56 美元,包含 3 个自定义头像;而更高级的方案每月则为 199 美元,每分钟仅 1.32 美元,包含 7 个自定义头像。
技术栈: Tavus的一个好处是他们对他们的技术栈非常透明。一位员工在Medium上发表的文章详细介绍了这一点,但简而言之:他们使用3DMM模型加上NERF(正在转向使用高斯点云技术)以及GAN。
在此试用](https://www.tavus.io/privacy-policy)
他们做什么:GAN AI 还提供替换单个词的选项,而不是生成整句的avatar。这在电子邮件活动等场景中表现很好。
关于价格,GAN AI 并未在其网站上提供价格,而是让潜在客户预约演示。
技术方面: 仅替换个别单词,因此理解起来更费劲。不过,它似乎是基于2D的。
来试试这里
VEED IO 是做什么的:VEED IO 更像一家提供平台服务的公司,而非专门研究AI虚拟形象的公司。他们还提供其他产品,例如自动字幕和视频编辑软件。
价格: 他们只在商务层提供了AI虚拟角色这一项。商务层的月费为55英镑,约合70美元,折算下来每分钟约3.5美元。这只是该层级提供的多种功能之一,所以这样的比较并不完全公平。
关于技术方面: 关于AI化身几乎没有透露相关信息。
来试试看
他们做什么: 字幕团队主要负责全流程的视频生产,包括AI视频生成、编辑以及分发。
价格不够明确: 提供三种字幕级别,但价格不够明确。可以免费在他们的应用上生成视频,但好像必须订阅最高等级的套餐($25/月)才能下载这些视频。
技术: 字幕文本使用了Diffusion、NeRF 和高斯点阵的结合,具体取决于所用模型。
试试看在这里
首先,你可能会注意到,这个市场变得非常拥挤。这些只是一部分,因为我只遇到了这些。更糟糕的是,很多公司看起来几乎一模一样。许多公司提供的是能够站立并说出指定文本的虚拟角色。他们的定价通常介于每分钟1.70到1.90美元。如果你打算自己开一个唇同步公司,我建议你找到一个新的卖点,否则你可能会陷入一场激烈的竞争。
如果你从每个公司的页面上移除所有品牌元素和格式,很多情况下你看不出任何差别。
尽管用途相似,公司提供了各种令人兴奋的技术。涉及各种不同的唇同步模型,如所述不同的唇同步模型形式。2D和3D都被广泛应用,还有延迟神经渲染技术(NeRFs)、高斯点阵(早期阶段)和类似于wav2lip的模型。
一些最大的科技公司对唇形同步模型表现出了极大的兴趣。来自阿里巴巴和微软的EMO和VASA-1清楚地表明了这一点。如果他们决定在这个领域开发产品,可能在竞争中超越初创企业。有证据表明,唇形同步模型遵循与机器学习其他部分相同的规模法则。想象一下谷歌在YouTube上训练了一个数亿参数的模型会怎样!
未来一两年内,我们可能会看到一些整合。较大的公司可能会收购较小的公司,以获取有限的有经验的音唇同步开发者。如果FAANG级别的公司进入市场,他们也可能采取类似行动;参见上文。