任何用过打字机的人都会记得修正拼写错误或选错单词的困难——还记得涂改液和修正带吗?
现在,普林斯顿大学计算机科学家开发的技术可能会为人类语音的音频录制做些什么Word处理软件为书面单词做了什么。
该软件名为VOCO,通过编辑记录的转录程序来在人类声音的音频记录中添加或替换字的简单手段。即使它们在录制中的其他任何地方都没有出现,新单词也会自动在扬声器的声音中综合。
该系统使用一种复杂的算法来学习和再现特定声音,有朝一日可能使播客和视频叙事的编辑变得更加容易。更广泛地说,这项技术可以为创造听起来自然的个性化机器人声音提供一个起点。
“VOCO在一个非常实用的技术中提供了一种用于编辑音频轨道的实用技术,但它也是未来技术的预兆,允许人类的声音以显着的方式合成和自动化,”计算机科学教授Adam Finkelstein说普林斯顿。
Finkelstein建议的普林斯顿研究生Zeyu Jin将在7月份展示在计算机械Siggraph会议协会的工作。普林斯顿的工作由项目X基金资助,为追求投机项目提供给工程师的种子资金。普林斯顿研究人员与科学家Gautham Mysore,Stephen Diverdi和Jingwan Lu合作。
研究小组在一篇论文中描述了VoCo的发展过程,这篇论文将发表在该杂志的7月号上图形上的事务。研究团队发布了论文的预印刷品以及演示项目的视频和综合声音的例子他们的网页。
在电脑屏幕上,VoCo的用户界面看起来类似于其他音频编辑软件,如流行的播客编辑程序Audacity或苹果的音乐编辑程序GarageBand。它提供音频波形的可视化和一套剪切、复制和粘贴工具用于编辑。然而,与其他程序不同的是,VoCo还使用音轨的文本文本来增强波形,并允许用户通过简单地输入文本文本来替换或插入音轨中不存在的新单词。当用户键入新单词时,VoCo会更新音轨,通过将旁白中其他地方的音频片段拼接在一起,自动合成新单词。
“目前,音频编辑器可以剪断叙述的曲目,并将剪辑从一个地方移动到另一个地方。但是,如果要添加录制中不存在的单词,则只能通过艰难的试验和错误过程搜索可能适合合适的小型音频片段,以便合理地形成这个词,“Finkelstein说。“VOCO自动化搜索和拼接过程,并产生通常由音频专家手动创建的结果的结果。”
在VOCO的核心是一个优化算法,搜索语音录制,并选择部分单词声音的最佳组合,称为“音素”,以在用户的语音中构建新单词。为此,它不仅需要找到个人音素,还要找到它们的序列,在没有突然转换的情况下缝合在一起,以及将它们拟合到现有的句子中,使新词无缝混合。根据他们陷入困境的位置,言语和语调在句子中发音不同,所以上下文很重要。
为了寻找上下文的线索,VoCo会寻找句子的音轨,这些音轨是从文本文本中自动合成的人工声音——在人耳中听起来像机器人。这段录音被用来作为建立新词的参照点。然后,VoCo将来自真实人类声音录音的声音片段与合成音轨中的单词进行匹配——这项技术被称为“声音转换”,该项目的名称为VoCo。
如果合成单词不太正确,Voco为用户提供了许多版本的单词可供选择。该系统还提供高级编辑器来修改音高和持续时间,允许专家用户进一步波动曲目。
为了测试他们的系统在制作真实声音编辑时的有效性,研究人员要求人们听一组音频,其中一些是用VoCo编辑的,其他是完全自然的。在超过60%的情况下,全自动版本被误认为是真实录音。
Jin的研究兴趣横跨音频和机器学习,他表示,语音转换技术有望在音频编辑之外的一系列应用中发挥作用。例如,由于受伤或疾病而失去声音的人可以通过机器人系统重新创造他们的声音。
金说:“一位患有神经退行性疾病的男子来找我们,他只能通过眼睑控制的文本对语音系统说话。”这个声音听起来很机械,就像史蒂芬·霍金使用的系统一样,但他想让他的小女儿听到他真正的声音。也许有一天我们可以分析他过去说话的录音,并创造出一种用他自己的声音说话的辅助设备。”
在打火机方面,金说,声音转换可能被用来带回标志性漫画人物的长期失去的声音,如臭虫兔子或职位。这样的声音 - 以及着名的演员或历史数字 - 然后可以用来为新电影创造叙述,甚至集成了像Apple的Siri或亚马逊的Alexa这样的自动智能个人助理。
普林斯顿研究人员目前正在精炼VOCO算法,以提高系统将合成词更顺畅地集成到音频轨道中的能力。它们还致力于扩展系统的功能,以创建更长的短语甚至从叙述者的声音合成的整个句子。
Finkelstein表示,当我们知道它可能被改变以改变其含义时,Doco等编辑软件提出了关于如何治疗数字内容的重要问题。“这个问题来到了几十年前的最前沿,随着Adobe Photoshop等数字图像编辑软件的到来,”他说。
他说,快速简便的照片编辑技术的出现,导致人们对新闻报道中照片的可靠性进行了长时间的讨论。甚至在数字编辑可用之前,专业摄影师就有许多修改照片的技巧,但新的程序使其更快、更容易,不需要同样程度的专业知识。
“如今,我们想当然地认为照片可以被编辑,我们对照片的评价也多了一些怀疑,”他说。“我们明白,照片是一种新闻责任。”
他说,同样的讨论正在发生在数字音频上。编辑长期以来一直能够修改音频文件来清理音轨,而且他们可以选择改变音轨的含义,比如简单地删除“not”这个词。但他说,像VoCo这样的项目使这一过程更容易,可能会引起关注。
芬克尔斯坦说:“这个工具几乎肯定会让人们在讨论照片之前,先讨论音频。”“很快,就会有一场关于视频的对话。”
了下:M2M(机器对机器)




