近日,微电子所感知中心低功耗智能技术与微系统团队在低功耗人工智能领域研究取得新进展。
语音唤醒技术 (KWS, Keyword Spotting)是人工智能领域的重要技术,语音唤醒是人声与低功耗设备或终端之间的典型且广泛使用的“触发器”,可广泛应用于各种低功耗的智能芯片与微系统。通常高性能的深度卷积神经网络模型的语音唤醒模型复杂度高、计算量大、需占用大量内存,难以将其部署到上述资源有限的硬件设备上。
针对上述问题,感知中心科研团队提出了一种用于语音唤醒的极轻量化、高准确率的改进二值残差神经网络B-ResNet(Binary Residual Neural Network,图1),利用二值量化方法,将神经网络中的全精度权重、激活参数量化为1bit(+1,-1),显著降低内存占用,亦可将网络中存在的大量浮点卷积乘加运算简化为XNOR同或逻辑与popcount运算,大幅降低计算复杂度。为解决二值网络带来的精度下降问题,团队在B-ResNet网络前向传播中提出了一种具有移位初始化且可学习的激活函数来优化网络各层激活值分布,降低信息损失(图2),并在反向传播过程中,提出了一种具有可变周期性窗口的梯度修正近似方法,有效解决了梯度失配与消失问题(图3)。在GSCD(Google Speech Commands Dataset)标准语音数据集的12分类任务下,与基线网络Res8-narrow相比,该技术可降低33%参数量与72%计算量,实现更高的语音唤醒精度,为后续该功能的低功耗硬件实现奠定了良好基础。
该成果的论文“ Low-complex and Highly-performed Binary Residual Neural Network for Small-footprint Keyword Spotting” (DOI:10.21437/Interspeech.2022-573)被国际语音通信协会(ISCA)组织的语音领域重要会议Interspeech2022接收,团队被邀请作口头报告。微电子学院硕士研究生王啸为该文章的第一作者,微电子所正高级工程师詹毅为该文章的通讯作者。
论文信息链接:
1:https://www.isca-speech.org/archive/interspeech_2022/wang22g_interspeech.html
2:https://www.isca-speech.org/archive/interspeech_2022/
相关新闻: |
微电子所垂直沟道纳米晶体管研发工作再获重要突破 |
微电子所在无外场单级电压控制SOT-MTJ自旋逻辑器件的研究中取得新进展 |
学习园地