人工智慧做了音樂之後？淺談 Google Magenta 與其藝術性

by Vibert Thio

2016.07.24

簡介

Google Brain 研發團隊在今年六月時發表了首款能夠自行創造音樂的人工智慧專案，並現場製作了一首歌曲。

這個專案的名字叫做 Magenta ，現階段由 Google 六名工程師組成，目的是希望可以增進人工智慧使用機器學習方法來製作音樂與繪畫等藝術的能力。除了發展能夠讓機器自行創作的演算法之外， Magenta也希望能夠藉此創造出一個集結藝術家、軟體設計師、機器學習研究者的社群。

關於 Magenta 的歌

歌曲連結

Google Brain 研發團隊在開發 Magenta 前期的架構使用的是 LSTM (long short-term memory) 的類神經網絡去訓練機器，其特長是可以根據過往輸入的數據去進行「分類」的工作，即便輸入的數據之間並非連續或是相隔時間很遠，並在這之後去計算並找出其中的一些規則，最後進行預測或說是「模仿」創作。其最基本的原理有點像是在簡單的類神經網絡模型當中，加入長期與短期記憶的功能，只要符合某一些條件就會被記錄下來，但還是會有隨著時間去隨機「遺忘」的作用，更接近人類大腦真實在學習時的狀態，LSTM 這套模型在辨識手寫字的工作上也相當出色。

「這套模型中，一個非常重要的部分就是『記憶』與『專注』，」 Google 的發言人 Jason Freidenfelds 說。「神經網路的模型發展已經可以觀察大範圍的資料，並找出其中哪些部分是值得聚焦的資料，並把這些特徵強化、重複。這也是為什麼這演算法適合用在分析具有特殊架構的『音樂』上面，並自行創造出類似的重複的樂句與結構。」

這首 Magenta 寫出來的歌，是由機器根據人輸入的一小段簡單的音符去創作出完整的歌曲，完全由鋼琴的聲音來表現，並搭配人工加上去的鼓伴奏去凸顯其中的節奏性。「這可以說是完全由機器自學，找出許多流行音樂中結構的即興創作。」Jason Freidenfelds 說。

示範的時候，由開發團隊中的成員亞當．羅伯茨（Adam Roberts）基於這個系統開發了簡單的程式，事前輸入一個只有四個音符的簡單樂句：C、C、G、G，人工智慧便根據這個「點子」發展出了完整的一首歌曲。（可以在開頭明顯聽到C、C、G、G的句子）

亞當也表示，Magenta團隊將從6月1日開始公佈更多有關它將要打造的資源的信息，在GitHub頁面上增加新軟體，以及定期在部落格上更新專案動態。

Magenta 計畫的負責人道格拉斯．埃克（Douglas Eck）說明，他會有這個計畫的發想是來自於 Google 前陣子有名小計畫 Google DeepDream，是將大量的圖片資料使用類神經網路的機器學習去分類和判別，自動找出圖片與圖片之間的關聯性與特徵。這樣好像並沒有太過特別的發展，但是在後來，計畫的工程師想到假如加上讓機器自行產生他知道的「鳥」、「啞鈴」該長什麼樣子會產生出什麼樣的圖片呢？有趣的現象是機器產生的「啞鈴」形象都會有一支肉色的手臂出現，想當然是因為幾乎所有啞鈴的圖片都會伴隨手臂出現。更進一步，工程師再加上一些讓機器可以自動配對他認為相似的圖形，例如假如在雲朵的圖片中看到類似鳥的形狀的圖形，就會自行將兩種圖案混合出來產生輸出。這不就像是夢或是人的聯想能力嗎？所以才稱為 Google DeepDream。

回到 Magenta 上來，埃克說到：「我們只有加上後面的節奏聲響去凸顯他創造出來的旋律當中的節奏性與和弦架構，但是所有的旋律都是機器產生的。我們也沒有給他任何關於音樂的規則，或是任何一些基本的流行音樂架構與經驗法則，通通沒有。許多以前的機器人創造音樂都是有這些規則的幫助，但是 Magenta 並沒有。」

在歌曲結構當中，可以發現機器對於樂句有相當深厚的認識，並且具有一定的節奏概念。整段音樂雖然沒有轉調或是高深的樂理應用，但是通篇符合一個調性也是其能力的重要證明。仔細觀察，整首歌有一個八小節的前奏，兩個八小節的Ａ段旋律，一個八小節的類似副歌的結構，最後尾奏就是Ａ段的點子再次重複一個八小節。這已經可以算是一首簡單的流行歌的架構，在Ａ段每次的重複當中，也可以找到一些小小的差異與變化，就像流行歌當中一樣的句子也會改變成另外一個了和弦內音，或是刻意加上些許轉音、裝飾音去加上多些顏色、表情。有趣的是，他甚至在Ａ段最後一次的旋律當中置入了即將出現在副歌的小句子，彷彿在提示即將到來的旋律變化。

Magenta 的下一步

計畫當中的程式架構都是建立在 Google 去年開始推行的開源機器學習引擎 TensorFlow， Magenta 小組也表示他們將會慢慢把一些開發工具還有他們目前使用的模型放上 GitHub 的頁面。他們也會陸續新增一些 demo 的範例，還有簡單的教學部落格文章與技術手冊，並會在短期內開始接受外部開發者的程式貢獻。

根據目前的計劃，研究團隊會先完成並釋出搭配數位音樂介面 MIDI，結合音訊還有影訊的支援工具。還有創建一個可以幫助藝術家使用機器學習模型來創作的平台。

Alpha 版的程式目前已經放上了 Magenta 的 GitHub 頁面，他們會在完成上述工具的開發之後開始接收外部貢獻。

當機器可以如此分析顏色、音符當中的特徵時，我們就可以餵給他時下流行的網站與百大流行音樂等等，去找出大家喜歡的東西到底在數據上具有什麼特性，如此一來就可能使機器自動製造出能夠吸引大多數人的簡單創作。

這是創作嗎？這是藝術嗎？

視覺藝術當中，古今中外有許多不同類型的創作型態與創作者，從米開朗基羅、畢卡索、盧本斯等，到安迪沃霍的普普藝術，還有抽象派畫家帕洛克，數不勝數。甚至還有動物也來參一咖。

那在音樂的世界裡，從貝多芬的第九號交響曲、麥克傑克森的流行勁曲道蔡依林的電子舞曲，舉凡搖滾、藍調、爵士、金屬等各種各樣，但我們都不會質疑其作為一種「音樂」。傳統對於「音樂」、「藝術」的定義並沒有考慮到人工智慧的因素，但對於這些的新定義要怎麼樣合理的對待這些由機器製造出來的東西呢，他們值得被標上「藝術」這樣的標籤嗎？

若簡單來說，通常對於藝術的定義裡面，會簡單區分成基本的兩種觀點，一種是觀者的角度與看法決定了其藝術性，二則是藝術作為創作者的情緒表達媒介而有了藝術性（先不論現今對於藝術的討論可能大部分都混合著這兩種觀點的狀況），好像第一種較能容納機器的作品變成一種藝術創作，第二種則完全屏除。

類似的質疑也發生在對於「電腦」的討論，像是「電腦是否可以思考」的問題，電腦科學家艾茲赫爾·戴克斯特拉（Edsger Wybe Dijkstra）就說：「若有人問電腦是否能思考，這個問題就像是在問潛水艇是否能夠游泳。」游泳這個行為本身確實是人類會具有的能力，但是透過製造出潛水艇可以擴展我們原本游泳能力的限制，像是潛入到一公里深的海底去探險，或是數十天都待在水底下生活，這是人本身完全不可能達到的「游泳」的境界。所以這個比喻當中，電腦就是我們創造出來延伸「思考」能力的機器，他快速的運算能力帶我們探索原本不可能進到的數據的世界，也看到了許多新奇的可能。

所以，你覺得機器能夠創作嗎？