寫(xiě)歌作詞,換風(fēng)格,繼續(xù)寫(xiě)音樂(lè)的AI,今天又來(lái)當(dāng)編曲了!
上傳《Stay》的一段,一鍵按:
伴奏和人聲很容易分開(kāi)。
在空曠的地方有相當(dāng)清晰的唱歌感覺(jué),背景音樂(lè)可以直接用來(lái)混切!
這個(gè)驚人的效果也引發(fā)了Reddit對(duì):的討論。
這項(xiàng)研究的主要負(fù)責(zé)人孔來(lái)自,世界上最大的古典鋼琴數(shù)據(jù)集GiantMIDI—Piano也是他在去年出版的。
那么他今天帶來(lái)了什么樣的AI音樂(lè)人呢。
讓我們來(lái)看看。
基于深度殘差網(wǎng)絡(luò)的聲源分離。
這是一個(gè)包括相位估計(jì)的音樂(lè)源分離系統(tǒng)。
首先,幅度和相位解耦以估計(jì)復(fù)理想比例掩模。
其次,為了實(shí)現(xiàn)更靈活的幅度估計(jì),結(jié)合了有界掩模估計(jì)和直接幅度預(yù)測(cè)。
最后,為MSS系統(tǒng)引入了一個(gè)143層深度殘差網(wǎng)絡(luò),并使用殘差編碼塊和殘差解碼塊將其深度增加:
在殘差編碼塊和殘差卷積塊之間引入中間卷積塊,以提高殘差網(wǎng)絡(luò)的表達(dá)能力。
每個(gè)殘差編碼塊由四個(gè)殘差卷積塊組成,殘差卷積塊由兩個(gè)大小為3倍的核組成3卷積層
每個(gè)殘差解碼塊由8個(gè)卷積層和1個(gè)卷積層組成。
接下來(lái),在MUSDB18數(shù)據(jù)集上對(duì)系統(tǒng)進(jìn)行測(cè)試。
MUSDB18中的訓(xùn)練/驗(yàn)證集包含100/50個(gè)完整的立體聲曲目,包括獨(dú)立的人聲,伴奏,低音,鼓和其他樂(lè)器。
以信號(hào)失真率為判斷標(biāo)準(zhǔn),可以看出resuenet解耦系統(tǒng)在分離人聲,低音,其他和伴奏方面明顯優(yōu)于之前的方法3360。
在燒蝕實(shí)驗(yàn)中,143層殘差網(wǎng)絡(luò)的性能也證明了有界掩模估計(jì)和直接幅度預(yù)測(cè)的結(jié)合確實(shí)可以提高聲源分離系統(tǒng)的性能。
作為本研究的第一篇論文孔,本碩畢業(yè)于華南理工大學(xué),博士畢業(yè)于英國(guó)薩里大學(xué)電子信息工程專(zhuān)業(yè)。
2019年加入字節(jié)跳動(dòng)語(yǔ)音,音頻和音樂(lè)智能研究組,主要負(fù)責(zé)音頻信號(hào)處理和聲音事件檢測(cè)的研究。
本文地址:http://www.dayishuiji.com/finance/13255.html - 轉(zhuǎn)載請(qǐng)保留原文鏈接。免責(zé)聲明:本文轉(zhuǎn)載上述內(nèi)容出于傳遞更多信息之目的,不代表本網(wǎng)的觀點(diǎn)和立場(chǎng),故本網(wǎng)對(duì)其真實(shí)性不負(fù)責(zé),也不構(gòu)成任何其他建議;本網(wǎng)站圖片,文字之類(lèi)版權(quán)申明,因?yàn)榫W(wǎng)站可以由注冊(cè)用戶自行上傳圖片或文字,本網(wǎng)站無(wú)法鑒別所上傳圖片或文字的知識(shí)版權(quán),如果侵犯,請(qǐng)及時(shí)通知我們,本網(wǎng)站將在第一時(shí)間及時(shí)刪除。 |