寫歌作詞,換風(fēng)格,繼續(xù)寫音樂的AI,今天又來當(dāng)編曲了!
上傳《Stay》的一段,一鍵按:
伴奏和人聲很容易分開。
在空曠的地方有相當(dāng)清晰的唱歌感覺,背景音樂可以直接用來混切!
這個驚人的效果也引發(fā)了Reddit對:的討論。
這項(xiàng)研究的主要負(fù)責(zé)人孔來自,世界上最大的古典鋼琴數(shù)據(jù)集GiantMIDI—Piano也是他在去年出版的。
那么他今天帶來了什么樣的AI音樂人呢。
讓我們來看看。
基于深度殘差網(wǎng)絡(luò)的聲源分離。
這是一個包括相位估計的音樂源分離系統(tǒng)。
首先,幅度和相位解耦以估計復(fù)理想比例掩模。
其次,為了實(shí)現(xiàn)更靈活的幅度估計,結(jié)合了有界掩模估計和直接幅度預(yù)測。
最后,為MSS系統(tǒng)引入了一個143層深度殘差網(wǎng)絡(luò),并使用殘差編碼塊和殘差解碼塊將其深度增加:
在殘差編碼塊和殘差卷積塊之間引入中間卷積塊,以提高殘差網(wǎng)絡(luò)的表達(dá)能力。
每個殘差編碼塊由四個殘差卷積塊組成,殘差卷積塊由兩個大小為3倍的核組成3卷積層
每個殘差解碼塊由8個卷積層和1個卷積層組成。
接下來,在MUSDB18數(shù)據(jù)集上對系統(tǒng)進(jìn)行測試。
MUSDB18中的訓(xùn)練/驗(yàn)證集包含100/50個完整的立體聲曲目,包括獨(dú)立的人聲,伴奏,低音,鼓和其他樂器。
以信號失真率為判斷標(biāo)準(zhǔn),可以看出resuenet解耦系統(tǒng)在分離人聲,低音,其他和伴奏方面明顯優(yōu)于之前的方法3360。
在燒蝕實(shí)驗(yàn)中,143層殘差網(wǎng)絡(luò)的性能也證明了有界掩模估計和直接幅度預(yù)測的結(jié)合確實(shí)可以提高聲源分離系統(tǒng)的性能。
作為本研究的第一篇論文孔,本碩畢業(yè)于華南理工大學(xué),博士畢業(yè)于英國薩里大學(xué)電子信息工程專業(yè)。
2019年加入字節(jié)跳動語音,音頻和音樂智能研究組,主要負(fù)責(zé)音頻信號處理和聲音事件檢測的研究。
本文地址:http://www.dayishuiji.com/finance/13255.html - 轉(zhuǎn)載請保留原文鏈接。免責(zé)聲明:本文轉(zhuǎn)載上述內(nèi)容出于傳遞更多信息之目的,不代表本網(wǎng)的觀點(diǎn)和立場,故本網(wǎng)對其真實(shí)性不負(fù)責(zé),也不構(gòu)成任何其他建議;本網(wǎng)站圖片,文字之類版權(quán)申明,因?yàn)榫W(wǎng)站可以由注冊用戶自行上傳圖片或文字,本網(wǎng)站無法鑒別所上傳圖片或文字的知識版權(quán),如果侵犯,請及時通知我們,本網(wǎng)站將在第一時間及時刪除。 |