研究目的
将数字通信中的turbo原理应用于自动语音识别(ASR)领域,通过整合更多信息源(如附加模态、声学通道或声学模型)来提升性能。
研究成果
该论文得出结论:与传统的信息融合方法相比,涡轮式自动语音识别(ASR)方案显著提升了性能——在所有信噪比条件和所研究的噪声类型中,视听任务平均相对词错误率(WER)降低22.4%,纯音频任务平均降低18.2%。
研究不足
该论文并未明确提及局限性,但turbo ASR方法的复杂性和计算需求(尤其是针对大词汇量连续语音识别LVCSR场景)可视为潜在局限。