TRAMBA:一种新型混合变压器和基于 Mamba 的架构
资料来自:@Columbia @NorthwesternU #ai
用于移动和可穿戴平台的语音超分辨率和增强
来自西北大学和哥伦比亚大学的研究人员推出了混合变压器 TRAMBA 和 Mamba 架构,用于增强移动和可穿戴平台中的声学和骨传导语音。此前,在此类平台中采用骨传导语音增强技术面临着由于劳动密集型数据收集和模型之间的性能差距而面临的挑战。 TRAMBA 通过使用广泛可用的音频语音数据集进行预训练并使用少量骨传导数据进行微调来解决这个问题。它使用单个可穿戴加速度计实现了重建可理解的语音,展示了跨多种声学模态的通用性。 TRAMBA 集成到可穿戴和移动平台中,可实现实时语音超分辨率并显着降低功耗。这也是第一项仅使用单个头戴式加速度计来感知可理解语音的研究。
在宏观层面上,TRAMBA 架构在下采样和上采样层中集成了改进的 U-Net 结构和自注意力机制,并在窄瓶颈层中集成了 Mamba。 TRAMBA 在 512ms 的单通道音频窗口上运行,并对来自加速度计的加速度数据进行预处理。每个下采样块由一个具有 LeakyReLU 激活的 1D 卷积层组成,后面是一个称为仅尺度注意的特征线性调制 (SAFiLM) 的稳健调节层。 SAFiLM 利用多头注意力机制来学习缩放因子以增强特征表示。瓶颈层采用 Mamba,它以其高效的内存使用和类似于 Transformer 的注意力机制而闻名。然而,由于梯度消失问题,变压器仅保留在下采样和上采样块中。采用残差连接来促进梯度流动并优化更深的网络,从而提高训练效率。
如果想详细了解,可以点开视频下方的链接。
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢