線上學習-數位學習- 數字學習－－終身學習: 不用人類介入，AI只要觀看60小時影片就能辨識超過20種樂器的聲音

2018年7月16日

2018-07-10

MIT發表稱為PixelPlayer的人工智慧系統，以影片的視覺元素代替人為標籤，讓系統達到自我監督學習的目的，自動辨識聲音與樂器間的關聯，不只可用於音樂的編輯與後製，還能用於機器人研究領域，幫助其理解環境聲音的來源。

Editing Music in Videos Using AI

Hang Zhao表示，他們原本預期系統的最佳案例，就只是讓系統分辨不同樂器的獨特聲音，而現在卻可以額外在空間中，以像素等級定位出樂器，這樣的能力開啟了更多可能，使用者可以直接透過點擊影片中的樂器，進行聲音編輯。

這項研究的貢獻在於，有助於工程師提高舊音樂的錄製音質，製作人甚至可以分開聆聽不同樂器演奏的聲音，除了可以單獨調整個別音量外，還可以於後製階段，更換演奏的樂器，另外，這項研究也能被應用在機器人開發上，使其能更好的理解環境物體所產生的聲音，像是正在吠叫的狗或是發出引擎聲的車輛。