传感器

Learning soft mask with DNN and DNN-SVM for multi-speaker DOA estimation using an acoustic vector sensor

文: | 2017年第三期 (0) | (0)

语音声源到达角(DirectionofArrival,DOA)估计是服务机器人听觉感知系统的关键技术之一,其功能是为服务机器人提供准确的语音声源所在方向估计。在真实复杂的声学环境中,远场语音声源的DOA估计易受到噪声、混响和干扰的影响,一直是学术界的研究热点。为了提高对语音声源DOA估计的精度和鲁棒性,同时考虑到阵列尺寸和易搭载需求,本文创新地提出采用声学矢量传感器(AcousticVectorSensor,AVS)拾取语音声源,在保持传感器物理体积小的前提下获取多路语音信号,其次,在本团队前期工作基础上,创新地提出了一种基于有监督学习的语音信号主导时频点鲁棒提取方法,同时实现了语音声源DOA估计的鲁棒性和准确性。具体内容为:(1)根据人耳基于局部时频区域实现语音感知与分离的生理学机制,提出了一种新的级联局部语谱块(TandemLocalSpectrogramBlock,TLSB)特征,该特征能够有效区分语音信号主导时频点和干扰信号主导时频点;(2)通过构造大量不同噪声和混响环境下的TLSB数据集,训练一个深度神经网络(DeepNeuralNetwork,DNN)语音信号主导时频点软膜估计器,用于提取目标主导时频点;(3)为了减少人为设定阈值,提升算法可扩展性,提出采用DNN模型最后一层隐含层特征表示,训练支持向量机(SupportVectorMachine,SVM)实现软膜估计;(4)利用提取出的语音主导时频点计算传感器间数据比(Inter-SensorDataRatio,ISDR),采用核密度聚类方法对ISDR进行聚类可实现多声源的DOA估计。通过大量实验证明,验证了本文提出的方法在不同的噪声和混响环境中都具有更高的DOA估计精度和鲁棒性。

 

杂志订阅

填写邮件地址,订阅精彩资讯: