人的耳朵是一个非常精巧的声音处理系统,总体来说,声音引起鼓膜振动,经过听小骨传递到耳蜗后,形成神经脉冲传到大脑中形成声音感知,在这一过程中,耳蜗是物理振动转换成神经电信号的核心部件,很多人耳感知的特性就是在这里形成的,例如,当一个声音已经存在且音量较高时,我们将很难感知另一个频率差不多的声音,类似的,当两个强音之间,夹杂一个短暂的低音或噪音,我们也很难察觉这些短暂变化的存在,这一现象称为人耳的掩蔽效应。
这些感知特性和声音信号在耳蜗中的处理过程相关,声音在耳蜗中的传导是一个频率选择的过程,当传导到耳蜗的不同位置时,对某一特定频率产生反应。这些反应互相叠加组合,从而形成了复杂神经信号,为描述这一感知过程,科学家们提出了一种称为传输线的计算模型,这一模型将耳蜗分成若干段,每一段描述为一个差分方程,可以很精确的描述耳蜗的生理特性,可惜传输线模型计算量太大,很难用到实际系统中。
2021年2月8日,自然机器智能杂志刊载了一篇论文,用机器学习方法解决了传输线模型的计算问题。在这篇论文中,作者将耳蜗分成210段简历传输线模型,然后利用一个称为connear的卷积神经网络来近似传输线模型的输出,实验表明,这个可以对传输模型做很好的近似,而计算效率提高了2000倍。
这张图给出了connear对传输线模型的近似结果,其中第一行为原始声音,第二行为传输线模型的输出,类似人耳的真实响应,第三行为CONNEAR的近似结果,可以看到,速度提高2000倍的connear在预测结果上和传输线模型非常相似,验证了这一方法的有效性。
Connear带来的启发是利用机器学习,一些计算很复杂的传统方法有可能用神经网络进行合理的近似,从而极大提高传统方法的应用范围,同时,传统方法的理论基础又为神经网络学习提供了约束,从而提高神经网络的可信性。