基于先驗梅爾譜和神經(jīng)聲碼器的語音丟包隱藏方法
電子學報
頁數(shù): 10 2024-08-15
摘要: 對基于神經(jīng)網(wǎng)絡(luò)的丟包隱藏方法而言,輸入特征是直接影響最終恢復(fù)效果的重要因素.此外,如何通過丟包隱藏恢復(fù)高自然度的語音,也是亟待解決的難題.為有效恢復(fù)丟包語音并提高自然度,本文提出了一種基于先驗梅爾譜和神經(jīng)聲碼器的語音丟包隱藏方法 .該方法采用一種非對稱的編解碼網(wǎng)絡(luò)結(jié)構(gòu).在編碼端,用兩個獨立的編碼網(wǎng)絡(luò)分別從時域波形和梅爾譜中提取深層時頻特征.在解碼端,將時頻深層特征一同送入由時序...