人工智慧分軌會不會改變DJ表演方式?
最近出現越來越多針對DJ的人工智慧分軌服務,這是什麼?你需要它嗎?
在今年(2020年)的六月,Djay Pro(iOS版)與Virtual DJ在同一天引入了即時分軌功能。而後在九月,Djay Pro 的開發公司Algoriddim緊接著發表了Neural Mix Pro——在macOS上運行,可即時分軌的音樂播放與製作軟體,目標市場是一般DJ。不到半年間,過往認為只有專業工作室才會使用的分軌技術,似乎變得非常容易親近。
DJ們常會想要把一首歌的人聲混到另一首歌(尤其你寫的歌越多時你會越想這樣做),因此有了清唱(Acapella)版的需求。但並不是所有歌手都會發行Acapella,因此才會有人想破頭嘗試各種分軌技術。
到底什麼是分軌
讓我們先解釋一下分軌到底有什麼了不起。音樂製作有點像做麵包:你分別錄了很多樂器與人聲,最後把它們混在一起,然後就像混合了的麵粉、鹽、糖,你很難再把它們分開來。
理論上每個聲音(鼓、樂器、合成器與人聲)都有自己的頻率,因此你可以用過濾特定頻率的方式來取得特定聲音。但事實上每個聲音都有頻率變化,它們也會帶有不同的頻率。以常見的大鼓來說,教科書告訴你它的頻率是60-150 Hz,但事實上為了追求豐滿與力度,大鼓經常到6000 Hz還有聲音。因此使用頻率過濾,很難避免大量不需要的雜音。
用頻率取得人聲談不上分軌,甚至不能算抽出,只是勉強取得比較能嵌入其它歌曲的聲音。因此這一類創作通常特意把聲音弄得粗糙,用風格迴避不乾淨的人聲。直到人工智慧深度學習出現,才大幅改善了抽取成果。
人工智慧分軌的原理
想想看你是怎麼樣聽一首歌的。你聽得到大鼓、小鼓、合成器與人聲。但這些聲音明明經常有跨過的頻率,另外有時候同一個樂器會在不同的頻率演奏。你為何不會把這些聲音搞混?
認知心理學家說,這是因為大腦會捕捉聲音的動向,將有相同動向的聲音歸納為同一個來源。因此即使我們唱歌時包括聲帶震動、齒唇摩擦與胸鼻共鳴,這些聲音不會被我們認知為不同來源,而全部會被自動歸納成一個「人聲」。
程式設計師們就是透過類似的方式,教導人工智慧(AI)分辨一首歌裡的特定聲音;就像品嚐麵包的鹹味、甜味與澱粉口感,然後判斷它們是什麼。最後人工智慧再將被判定成同一個來源的波形從母波形中抽出,就完成了分軌(當然這只是非常簡單的說法,在背後其實有更複雜的運算技術)。
AI即時分軌的實用價值
不管是Djay Pro、Virtual DJ或是Neural Mix Pro,目前都還不算是專業工具。在抽取樂器比較簡單,頻率層次拉得很開的歌曲時,它們的成效還算不差。但當處理編曲很滿的流行歌曲或電音舞曲時,坦白說效果非常差強人意。
文章看到這裡,你可能會感到有點失望。請注意這些都只是幾百到一千多新台幣的東西,本質其實跟玩具差不多。另外由於要做到即時,它們想必會採用更簡單的運算方式。因此它們本來就不該被抱以專業期待。但你可以用這些工具做混音的嘗試,甚至有些歌曲效果也還算能端得上台面。
又或是其實你可以只用一兩句分離效果好的歌詞即可,這也是混音常用的手法。尤其在嘻哈類型的DJ表演時,經常會只使用很少的段落,在這種狀況下人工智慧即時分軌就是堪用的
AI分軌可能帶來的改變
DJ產業最早可見人工智慧分軌的討論大約起於2017年。當時NI的Traktor Pro剛加入STEM功能不到一年,野心勃勃的想要讓分軌混音成為DJ技術重要革新(取代EQ混音)。然而隨後大家也知道,NI推動STEM之路並不順暢;願意發行STEM的藝人不夠多,素材不足讓這種混音手法很難彰顯魅力,觀望的群眾便逐漸散去。
在人工智慧分軌出現以後,分軌混音技術似乎又看見一絲曙光。至少現在素材(勉強)不是問題了,也許會有更多人願意回過頭來看看,重新考慮嘗試。
當及時分軌的實用效果到一定程度時,說不定我們會在DJ Media Player如CDJ一類的器材看到它,譬如一鍵就能抽出Acapella。能用來抽出Acapella的技術也可以用來抽出鼓與其它樂器,大幅增加混音的靈活性。當然,以我們現在看到的實用效果,也許這一天還要五年以上才會到來。至少現在可以說我們正站在新世代的起頭。
另外值得注意的是,當前網路上分軌網站已經如雨後春筍般出現。有些網站是免費使用,有些則採取付月費模式經營。它們的經營模式無疑構成侵權,但以出現的數量來看需求確實龐大。也許這種現象最終會迫使唱片公司做出回應。
最後,對DJ們來說,很明顯的這種技術的出現會是好事。你的創意又少了一項限制,為什麼不立刻動手試試看呢?