基于跨模態(tài)注意力的目標(biāo)語(yǔ)音提取
計(jì)算機(jī)工程
頁(yè)數(shù): 9 2024-01-19
摘要: 目標(biāo)語(yǔ)音提取作為語(yǔ)音分離領(lǐng)域的一部分,旨在從混合語(yǔ)音數(shù)據(jù)中提取出目標(biāo)語(yǔ)音??紤]到視聽(tīng)信息具有天然一致性,在進(jìn)行模型訓(xùn)練時(shí),可以融合視覺(jué)信息指導(dǎo)模型對(duì)目標(biāo)語(yǔ)音的提取。對(duì)此,傳統(tǒng)方法是將視覺(jué)特征和音頻特征進(jìn)行簡(jiǎn)單拼接,然后進(jìn)行卷積操作實(shí)現(xiàn)通道融合,這種方法無(wú)法有效挖掘到跨模態(tài)信息間的相關(guān)性。針對(duì)這個(gè)問(wèn)題,設(shè)計(jì)一個(gè)基于兩階段的跨模態(tài)注意力特征融合模塊。在第一階段進(jìn)行點(diǎn)積注意力計(jì)算來(lái)挖...