科技

人工智慧分軌會不會改變DJ表演方式？

最近出現越來越多針對DJ的人工智慧分軌服務，這是什麼？你需要它嗎？

Rainbowchild
27 September 2020

在今年（2020年）的六月，Djay Pro（iOS版）與Virtual DJ在同一天引入了即時分軌功能。而後在九月，Djay Pro 的開發公司Algoriddim緊接著發表了Neural Mix Pro——在macOS上運行，可即時分軌的音樂播放與製作軟體，目標市場是一般DJ。不到半年間，過往認為只有專業工作室才會使用的分軌技術，似乎變得非常容易親近。

DJ們常會想要把一首歌的人聲混到另一首歌（尤其你寫的歌越多時你會越想這樣做），因此有了清唱（Acapella）版的需求。但並不是所有歌手都會發行Acapella，因此才會有人想破頭嘗試各種分軌技術。

到底什麼是分軌

讓我們先解釋一下分軌到底有什麼了不起。音樂製作有點像做麵包：你分別錄了很多樂器與人聲，最後把它們混在一起，然後就像混合了的麵粉、鹽、糖，你很難再把它們分開來。

理論上每個聲音（鼓、樂器、合成器與人聲）都有自己的頻率，因此你可以用過濾特定頻率的方式來取得特定聲音。但事實上每個聲音都有頻率變化，它們也會帶有不同的頻率。以常見的大鼓來說，教科書告訴你它的頻率是60-150 Hz，但事實上為了追求豐滿與力度，大鼓經常到6000 Hz還有聲音。因此使用頻率過濾，很難避免大量不需要的雜音。

用頻率取得人聲談不上分軌，甚至不能算抽出，只是勉強取得比較能嵌入其它歌曲的聲音。因此這一類創作通常特意把聲音弄得粗糙，用風格迴避不乾淨的人聲。直到人工智慧深度學習出現，才大幅改善了抽取成果。

人工智慧分軌的原理

想想看你是怎麼樣聽一首歌的。你聽得到大鼓、小鼓、合成器與人聲。但這些聲音明明經常有跨過的頻率，另外有時候同一個樂器會在不同的頻率演奏。你為何不會把這些聲音搞混？

認知心理學家說，這是因為大腦會捕捉聲音的動向，將有相同動向的聲音歸納為同一個來源。因此即使我們唱歌時包括聲帶震動、齒唇摩擦與胸鼻共鳴，這些聲音不會被我們認知為不同來源，而全部會被自動歸納成一個「人聲」。

程式設計師們就是透過類似的方式，教導人工智慧（AI）分辨一首歌裡的特定聲音；就像品嚐麵包的鹹味、甜味與澱粉口感，然後判斷它們是什麼。最後人工智慧再將被判定成同一個來源的波形從母波形中抽出，就完成了分軌（當然這只是非常簡單的說法，在背後其實有更複雜的運算技術）。

AI即時分軌的實用價值

不管是Djay Pro、Virtual DJ或是Neural Mix Pro，目前都還不算是專業工具。在抽取樂器比較簡單，頻率層次拉得很開的歌曲時，它們的成效還算不差。但當處理編曲很滿的流行歌曲或電音舞曲時，坦白說效果非常差強人意。

文章看到這裡，你可能會感到有點失望。請注意這些都只是幾百到一千多新台幣的東西，本質其實跟玩具差不多。另外由於要做到即時，它們想必會採用更簡單的運算方式。因此它們本來就不該被抱以專業期待。但你可以用這些工具做混音的嘗試，甚至有些歌曲效果也還算能端得上台面。

又或是其實你可以只用一兩句分離效果好的歌詞即可，這也是混音常用的手法。尤其在嘻哈類型的DJ表演時，經常會只使用很少的段落，在這種狀況下人工智慧即時分軌就是堪用的

AI分軌可能帶來的改變

DJ產業最早可見人工智慧分軌的討論大約起於2017年。當時NI的Traktor Pro剛加入STEM功能不到一年，野心勃勃的想要讓分軌混音成為DJ技術重要革新（取代EQ混音）。然而隨後大家也知道，NI推動STEM之路並不順暢；願意發行STEM的藝人不夠多，素材不足讓這種混音手法很難彰顯魅力，觀望的群眾便逐漸散去。

在人工智慧分軌出現以後，分軌混音技術似乎又看見一絲曙光。至少現在素材（勉強）不是問題了，也許會有更多人願意回過頭來看看，重新考慮嘗試。

當及時分軌的實用效果到一定程度時，說不定我們會在DJ Media Player如CDJ一類的器材看到它，譬如一鍵就能抽出Acapella。能用來抽出Acapella的技術也可以用來抽出鼓與其它樂器，大幅增加混音的靈活性。當然，以我們現在看到的實用效果，也許這一天還要五年以上才會到來。至少現在可以說我們正站在新世代的起頭。

另外值得注意的是，當前網路上分軌網站已經如雨後春筍般出現。有些網站是免費使用，有些則採取付月費模式經營。它們的經營模式無疑構成侵權，但以出現的數量來看需求確實龐大。也許這種現象最終會迫使唱片公司做出回應。

最後，對DJ們來說，很明顯的這種技術的出現會是好事。你的創意又少了一項限制，為什麼不立刻動手試試看呢？