强大的统计技术可以从一大堆输入中辨别出所需的音频信号。
贝茨戴夫•AudioTelligence
我们大多数人都在噪音中生活和工作。我们已经习惯了和别人说话的声音、音乐播放的声音、电视播放的声音、汽车呼啸的声音作斗争……我们的大脑非常善于从嘈杂的声音中挑出我们想听的声音。
BSS解决的一个典型的声学场景——四个声源向八个麦克风阵列发送音频。BSS的目的是对麦克风信号进行分解,以估计来自原始声源的音频,同时获得关于声源和麦克风位置的最小信息。下面是一个使用BSS来提高源的可听性的典型场景。麦克风阵列输出通过模拟/数字转换器进行数字化,该转换器向空间滤波器和滤波器系数确定器提供多通道数字化音频。滤波器系数确定器计算空间滤波器应用于从一个或多个麦克风提取音频的分混滤波器的系数。限定词可选地接受用户输入,例如,选择一个源。解混音频然后进入数字/模拟转换器,然后进入扬声器。
但是,对于任何有轻度到中度听力损失的人来说,在所有背景噪音中清楚地听到一个声音是很困难的。据估计,80%的人进入中年后都会受到这个问题的影响。
电子设备也有同样的问题——麦克风接收到的音频信号经常受到干扰、噪音和混响的污染。设计用来捕捉语音的设备的质量和可理解性会受到严重影响。
信号处理技术,如波束形成和盲源分离(BSS),可以挽救。但是,您应该为哪个音频应用程序选择哪个?为什么?
波束形成
音频波束形成是在声学场景中强调特定声源的最通用的多麦克风方法之一。在其最简单的形式——称为延迟和波束形成器——麦克风信号被延迟(通常是数字的),以补偿目标源和不同麦克风之间的不同路径长度。波束形成器加强来自特定方向的声音信号。
然而,声音并不是直线移动的:一个给定的声源有多条不同的路径到达麦克风,每条路径都有不同的反射和衍射量。因此,简单的延迟和波束形成器在从声学场景中提取感兴趣的源时并不十分有效。但它非常容易实现,而且确实带来了少量的好处,所以它经常用于较老的设备。
现在有许多更先进的波束形成技术。然而,要提取感兴趣的来源,它们都需要有关来源方向和麦克风位置的信息。更详细地说,输入信号通常被分成不同的频带,每个频带单独处理,然后在不同频率下的结果被重新组合。一些这样的技术也可以对麦克风和源位置的准确性敏感,并可能拒绝目标源,因为它实际上并不来自指示的方向。
更现代的设备经常使用自适应副瓣消去,它试图消去不来自感兴趣方向的源。例如,这是现代助听器中最先进的,可以让使用者集中注意力听正前方的声音。但它的一大缺点是,你必须看着你正在听的任何东西,如果你的视觉注意力需要在其他地方,这可能会很尴尬——例如,当你一边和别人说话一边拿着一杯咖啡。
因此,如果你需要一种低成本、可靠的音频增强方法,波束形成是很有帮助的,前提是你的用例只需要少量的改进——比如2dB左右。在会议室和会议中心的大型固定麦克风阵列中,它也能很好地工作,在这些地方,麦克风一起将一个狭窄的波束聚焦在一个小区域上——例如,在讲台上的扬声器上。
盲源分离
BSS是一个强大的技术家族,通过使用声源一般行为的统计模型,将声学场景分离为其组成部分。BSS提取所有的声源,而不仅仅是一个声源,而且这样做不需要事先了解声源、麦克风阵列或声学场景。
更详细的BSS转换时频和反之亦然发生在频域滤波器系数决定器。每个音频通道都有一个短时间傅里叶变换(STFT)模块,用于在音频通道上执行一系列重叠的离散傅里叶变换(DFTs),生成频谱的时间序列。滤波系数的变换回到时域是通过反dft实现的。
BSS从音频数据而不是麦克风的几何结构工作。这使得它对校准问题不敏感,通常能够实现比任何波束形成器在现实情况下更高的分离源。而且,因为它分离了所有的来源,而不考虑方向,它可以自动跟踪多路对话。这对于听力辅助应用程序尤其有帮助,用户希望在不需要手动与设备交互的情况下跟上对话。当使用在家庭智能设备和车载信息娱乐应用程序时,BSS也可以有效。
一般来说,BSS分离声源的方法是先在时频域对声波数据进行快照。多通道滤波器对这些数据帧进行操作,将信号从声源中分离出来。此外,该过滤器是动态配置的。该过程涉及确定一组所谓的分离混合矩阵,应用于每个数据帧,以确定分离输出的变化。根据声学数据的趋势,针对每个检测到的频率修改每个分混矩阵。
BSS的典型流程图。音频数据转换到时频域,可选地减少音频通道的数量。然后重复一个重要性加权/趋势检测过程,直到它收敛。这有希望解决信号中的缩放和歧义,在这一点上滤波器系数被转换回时域。
然而,BSS也并非没有自身的问题。对于大多数BSS算法,可以分离的源的数量取决于阵列中麦克风的数量。而且,因为它从数据出发,它需要一个一致的参考框架,这目前限制了该技术的设备有一个固定的麦克风阵列-例如,桌面听力设备或固定会议系统的麦克风阵列。
当有嘈杂的背景音时,BSS通常会将最主要的声音来源分开,其中可能包括隔壁桌子上吵闹得令人讨厌的人。因此,为了有效地工作,BSS需要与辅助算法相结合,以确定哪些信息源是感兴趣的信息源——但在对话中动态跟踪这些信息源是很容易的。
如果将BSS用于听力设备,还存在延迟问题。它们需要超低的延迟来保持口型同步,这是一个很难解决的问题。BSS算法只有5毫秒的延迟是最近才开发出来的-经过多年的研究。
选择BSS还是波束形成来增强音频取决于您的需要。如果你可以接受声音的有限改进,并且成本是一个主要的考虑因素,波束形成是相对便宜和容易实现的。但是,如果您的用例需要分离不同的信号,并大幅提高信噪比(或者听觉解决方案的超低延迟),那么BSS可能是解决方案。DW
你也可能喜欢:
了下:技术+产品,医疗,电子•电

