音楽におけるデジタル革命は、1990年代に起こった。そして、音楽は今、次の段階へと進もうとしている。それは、創造性を持ったAIの開発だ。
その日によって気分が変化する人間に、より正確で効率の良い機械が取って代わる。そこに商業的成功の可能性を感じた大企業が、勝利をかけて競い合っている。その観点から言えば、必要最低限の予算で彼らをとうに抜き去ったサウンドアートデュオ、Emptyset(エンプティセット)の存在は頼もしい。
ロンドンとベルリンを拠点に活動するジェームズ・ギンズバーグとポール・パーガスは、新しいツールを使った作品制作を常に試みている。7枚目のアルバム『Blossoms』では、二人はニューラルネットワーク知能システム*を使うことに挑戦した。未知の過程を経て方向性を決めていくことに関しては、システムも人間のディレクターと変わらないくらい右往左往する。人間が動物や自然と一緒にアートを作り出してきたのと同じように、我々はAIとも音楽を作り出すことは可能なのだろうか。
*脳の神経回路の一部を模した数理モデル、または、パーセプトロンを複数組み合わせたものの総称
『Blossoms』は、骨の折れる、根気を必要とするテストとトレーニングを経て開発された、AIによる世界初のアルバムかもしれない。そのサウンドはダークで、耳を刺し、エイリアンのような、不穏な雰囲気を醸し出している。これが、新しい芸術的思考の扉を開くものなのだろうか。
音楽
失敗に隠された超自然的なプロセス
エンプティセット
英文:トバイアス・フィッシャー (Tobias Fischer)
和訳:ショコラ・ハートナイト (Chocolat Heartnight)

カバーアート:Clayton Welham、Emptyset『Bossoms』LPより、2019年
AI(人工知能)技術が急速に進歩している今、制作者、あるいは、創造性といった概念が揺らいでいる。AIを使っての制作作業について、ジェームズ・ギンズバーグとポール・パーガスのデュオ「Emptyset(エンプティセット)」に、トバイアス・フィッシャーが話を聞いた。

カバーアート:Clayton Welham、Emptyset『Bossoms』LPより、2019年
トバイアス・フィッシャー(以下TF): 『Blossoms』を制作してみて、AIベースならではの創造性といったものはありうると感じますか?
エンプティセット(以下ES): 機械学習システムは、科学的な研究に関連した膨大なデータセットの中でパターンを見つけるために使われてきています。
科学者たちには信じられないような結果が出ていたケースもあるようです。 データの中にはある種のパターンが現れていましたが、実際には彼らの研究と関連性のあるパターンではなかったことがあとで分かりました。製薬や医学研究のような場合、これは時に危険な錯乱になることもあります。
これらは、データセットの中に調和の可能性があることを示唆しています。実用的というよりもむしろ観賞用である、ということです。
システムのトレーニングに使ったオーディオのデータセットの中には、音楽とは関連のなさそうなデータもあったのですが、そのデータ内にもシステムはパターンを見つけたようでした。
TF: 音楽とは関連していなくても、システムはその情報を使って音を作った、と?
ES: その通りです。その結果、奇妙かつ誰も聞いたことがないようなロジックが生まれていました。
TF: 創造性に関連したAIという言葉についておうかがいしたいのですが、「知能」は音楽の制作に関してはどういった意味があると思いますか?
ES: 僕たちのアプローチの仕方では、「知能」というのは、データセットの中のパターンを認識して、カテゴライズできるシステムのことだと考えています。
たとえば、木製の楽器を演奏して録音するときの「木製っぽい」質感はどんなものだろうか、過去の作品の音の統一感やリズムの特徴はどんな感じだろうか、といったことですね。それを「理解」してから、新しいデータや表現を作ることです。
リアルな結果を作り出すためにシステムを使おうとしているというよりも、どのような思考過程を経てその結果になっているのかが分かるような方法で、システムに強くはたらきかけてみたかった、とも言えますね。
TF: オリジナリティーのある複雑な構造の音を機械に作り出してほしいと思う場合、機械独自の創造性を高めつつ、一方で、どういったものがオリジナリティーがあるものなのかを教えなければならないのではないかと思うのですが、それらはどのように行ったのでしょうか?
ES: 僕たちはもとの素材の模倣やマネといった範囲を超え、独自の音の表現だと感じられる新しい形や構造が具現化することを求めていました。
実際どのように行ったかというと、最初は大量の音の情報を使って、音楽に関連したものを前提としたシステムのトレーニングをしました。音楽的な構造や表現が入ったライブラリ・データセットを使ってのトレーニングです。
これは、ニューラルネットワーク**にもとづいて音を生成するためのプラットフォームで現在使われている既製品のライブラリ・システムで、音楽という概念そのものの本質的な部分を抽出するためのものです。
これを実行すると、システムは「音楽とはどういったものか」という基礎的な概念を持つようになりました。そこから、自分たち独自の素材でシステムのトレーニングを開始しました。
エンプティセット(以下ES): 機械学習システムは、科学的な研究に関連した膨大なデータセットの中でパターンを見つけるために使われてきています。
科学者たちには信じられないような結果が出ていたケースもあるようです。 データの中にはある種のパターンが現れていましたが、実際には彼らの研究と関連性のあるパターンではなかったことがあとで分かりました。製薬や医学研究のような場合、これは時に危険な錯乱になることもあります。
これらは、データセットの中に調和の可能性があることを示唆しています。実用的というよりもむしろ観賞用である、ということです。
システムのトレーニングに使ったオーディオのデータセットの中には、音楽とは関連のなさそうなデータもあったのですが、そのデータ内にもシステムはパターンを見つけたようでした。
TF: 音楽とは関連していなくても、システムはその情報を使って音を作った、と?
ES: その通りです。その結果、奇妙かつ誰も聞いたことがないようなロジックが生まれていました。
TF: 創造性に関連したAIという言葉についておうかがいしたいのですが、「知能」は音楽の制作に関してはどういった意味があると思いますか?
ES: 僕たちのアプローチの仕方では、「知能」というのは、データセットの中のパターンを認識して、カテゴライズできるシステムのことだと考えています。
たとえば、木製の楽器を演奏して録音するときの「木製っぽい」質感はどんなものだろうか、過去の作品の音の統一感やリズムの特徴はどんな感じだろうか、といったことですね。それを「理解」してから、新しいデータや表現を作ることです。
リアルな結果を作り出すためにシステムを使おうとしているというよりも、どのような思考過程を経てその結果になっているのかが分かるような方法で、システムに強くはたらきかけてみたかった、とも言えますね。
TF: オリジナリティーのある複雑な構造の音を機械に作り出してほしいと思う場合、機械独自の創造性を高めつつ、一方で、どういったものがオリジナリティーがあるものなのかを教えなければならないのではないかと思うのですが、それらはどのように行ったのでしょうか?
ES: 僕たちはもとの素材の模倣やマネといった範囲を超え、独自の音の表現だと感じられる新しい形や構造が具現化することを求めていました。
実際どのように行ったかというと、最初は大量の音の情報を使って、音楽に関連したものを前提としたシステムのトレーニングをしました。音楽的な構造や表現が入ったライブラリ・データセットを使ってのトレーニングです。
これは、ニューラルネットワーク**にもとづいて音を生成するためのプラットフォームで現在使われている既製品のライブラリ・システムで、音楽という概念そのものの本質的な部分を抽出するためのものです。
これを実行すると、システムは「音楽とはどういったものか」という基礎的な概念を持つようになりました。そこから、自分たち独自の素材でシステムのトレーニングを開始しました。

Emptyset 写真:James Ginzburg
TF: 具体的にどういったトレーニングだったのでしょう?
ES: 僕たちの過去の作品と、3日分の木製のパーカッションと、金属製のパーカッションの即興演奏をシステムに与えました。
これらの音は1~5秒の長さに細かく刻まれて、全てにそれぞれの音の特性を説明するメタデータがタグ付けされました。たとえば、音の素材、複雑さ、音量、周波数、明るさなどです。
その結果、システムはこれらの音質にどういった意味が含まれているのかをまず理解しようとし、その理解にもとづいて、新しい音の素材を合成することができるようになりました。
TF: その学習曲線はどのようになるのですか?
ES: 最初に始めたときは、まったく想像できなくて、どういった結果になるか、どんな相互作用になるか、何も期待できないくらいでした。最初の1年は、この考えが実現可能なものかどうかを見るためのテストのようなもので、ニューラルネットワークモデルが生成する音のクオリティーはかなり低かったです。
使えそうな音が聞こえ出し始め、決定的な突破口がようやく見えてきました。
実現可能なシステムができると、この段階から、機械学習のプロセスの中で最も興味を引かれた結果はどれか、あるいは、一番想像の余地があると感じられる結果はどれかを見つける作業になっていきました。
思考が発達している様子を耳で聞いたり、システムがどのようにアイデアを整理し音楽的な感覚を導き出すかを理解したりする方が、できあがった音を聞くよりもはるかにおもしろかったです。
学習プロセスの終わりに近づくころには、システムが考える時間が長くなっていて、結果自体はあまりおもしろみのあるものではなくなっていましたが。
ES: 僕たちの過去の作品と、3日分の木製のパーカッションと、金属製のパーカッションの即興演奏をシステムに与えました。
これらの音は1~5秒の長さに細かく刻まれて、全てにそれぞれの音の特性を説明するメタデータがタグ付けされました。たとえば、音の素材、複雑さ、音量、周波数、明るさなどです。
その結果、システムはこれらの音質にどういった意味が含まれているのかをまず理解しようとし、その理解にもとづいて、新しい音の素材を合成することができるようになりました。
TF: その学習曲線はどのようになるのですか?
ES: 最初に始めたときは、まったく想像できなくて、どういった結果になるか、どんな相互作用になるか、何も期待できないくらいでした。最初の1年は、この考えが実現可能なものかどうかを見るためのテストのようなもので、ニューラルネットワークモデルが生成する音のクオリティーはかなり低かったです。
使えそうな音が聞こえ出し始め、決定的な突破口がようやく見えてきました。
実現可能なシステムができると、この段階から、機械学習のプロセスの中で最も興味を引かれた結果はどれか、あるいは、一番想像の余地があると感じられる結果はどれかを見つける作業になっていきました。
思考が発達している様子を耳で聞いたり、システムがどのようにアイデアを整理し音楽的な感覚を導き出すかを理解したりする方が、できあがった音を聞くよりもはるかにおもしろかったです。
学習プロセスの終わりに近づくころには、システムが考える時間が長くなっていて、結果自体はあまりおもしろみのあるものではなくなっていましたが。

カバーアート:Clayton Welham、Emptyset『Bossoms』LPより、2019年
TF: どういった意味でおもしろみがなくなっていたのでしょう?
ES: システムが僕たちの作品をうまくコピーできることよりも、失敗することにおもしろみがあると感じていることに気付いたのです。失敗の中に、このプロセスの超自然的な何かがあるのだと分かりました。
システムはある種のスパイラルでものを考えます。徐々に高解像度化していく回転に沿って、ゆるやかにその複雑さを発達させていきます。
このスパイラルの中で、くり返す特定のフレーズを作り出していることが分かります。そのくり返しは10分ごとに聞こえてくることもあります。時間が経つにつれて変形したり、何らかの理由でシステムが固執するようになるフレーズに変化したり、結合したりしていくこともあります。
このため、最終的に100時間以上のアウトプットをしたにもかかわらず、決まったテーマのような音のかたまりが大量にあるだけになってしまいました。
システムの思考の初期段階の多くを捨ててしまうのは簡単なことでした。驚いたのは、取り組んだ月の終わりごろ、システムはまだ動いており、モデルを形成していましたが、結果は「うまくできすぎた」ものになっていたことです。システムが作る音は僕たちのもとの素材に近すぎるという意味で、僕たちにとってはおもしろいものではなくなっていました。
TF: ある意味、それは起こるべくして起こったのでしょう。つまるところ、自分たちの音楽で機械をトレーニングした結果、AIの目を反映して、自分たちの創造性に新しい視点が与えられるということなのですね。
ES: 僕たちにとっておもしろかったのは、アウトプットされた素材の中に、システムの思考の過程がどのように入っているのかということでした。トレーニング用のデータをシステムがどう解釈しているかを聞くと、素材と結果の違いが分かりました。その違いこそ、まさに機械認知とパターン認識のプロセスでした。
作り出された深い思考のイメージをいくつか見てみたら、それらは必ずしもソースである素材について何かを伝えるということではなく、これらのプロセスがいかに奇妙なものであるかをよりはっきりと気付かせてくれるのです。
また、人間のパターン認識における見かけ上の安定性や論理は、人間のデータ処理の一つの形態にすぎないということも分かります。たとえば、人が幻覚剤を使うと、データ処理の行程が変化し、人は自分の感覚的な体験を何か別の方法で解釈しようとします。
TF: 『The Quietus』のレビューでは、学習曲線について、AIが「自信をつける」と書いてありましたが、そういった感じを受けたのでしょうか?
ES: 自信をつけるというよりも、システムが音という言語のより優れたコマンドを運用できるようになっていく感じでした。
くり返しや模倣から始まって、認知のループに入り、最終的にそのフェーズから外へと踏み出して、システム独自のアイデアと表現を携えてそのループ外へ出るようになったんです。
僕たちは自分たちが知覚していることの明確性を保つために、AIを擬人化したり、人間的な特徴に当てはめようとしたりしていたわけではないのですが、それでも、学習プロセスの進行には、生命の誕生との類似点が確かにありました。それははっきりしています。
これから何年かのうちに、こういったシステムが発達し出現するにつれ、これらの行動の発達をどう解釈するか、はっきりと客観的な立場でい続けるのは非常に簡単なことなのかどうかを見るのはおもしろいと思いますね。
TF: プレスリリースには、この音楽の結果は「感動的」で「とまどう」ものだった、と書かれていました。どういった意味で「とまどう」ものだったのでしょうか?
ES: AIにもとづくシステムが生成できるだろうと予想していたものを超えていたので、とまどってしまうほどのものだった、ということです。
アウトプットの質と複雑さは段階を経て、大きく飛躍しました。まず最初は、音的におもしろい結果を聞いてテンションが上がりました。もとの素材に関連したものではありましたが、システム自体のロジックがそこにありました。
しかし、誰もが作品を作るために僕たちのこのシステムをトレーニングして、新しい素材を生成できることを考え始めると、すぐにテンションは下がっていきました。
これは原作についてのまったく新しい会話を聞くことを意味するので、同時に不安でもありました。未来の作曲はどうなっていくのかというような、未確定の領域に向かっていくことを暗示しているからです。
TF: けれども、制作者として、AIが作ったものをまとめ、聞けるものにアレンジする必要はありますよね。ネットワークは完成したアルバムをアウトプットするわけではありませんから。
ES: そうですね。一つの完成した作品として聞ける、構造的なロジックを持たせるために、『Blossoms』のコンテクスト内でアウトプットをアレンジする必要がありました。
それでもプロセスの終わりごろには、システムは音楽的構造のようなものがある長めのパッセージをアウトプットできるようになっていました。
SpotifyのようなシステムがAIシステムのトレーニングライブラリになったら、自分の好きな行動をインプットしハイブリッドを作るだけで、新しい音楽を合成できるようになるのは確実でしょう。そこから、ハイブリッドのハイブリッドを作り始めるようになっていくのかもしれません。
どんな音楽のハイブリッドでもなんでも生成できるシステムが現実に登場するまで、あと数年というところでしょう。人間がシステムに直接介入する必要すらもうなくなるのかもしれないですね。
ES: システムが僕たちの作品をうまくコピーできることよりも、失敗することにおもしろみがあると感じていることに気付いたのです。失敗の中に、このプロセスの超自然的な何かがあるのだと分かりました。
システムはある種のスパイラルでものを考えます。徐々に高解像度化していく回転に沿って、ゆるやかにその複雑さを発達させていきます。
このスパイラルの中で、くり返す特定のフレーズを作り出していることが分かります。そのくり返しは10分ごとに聞こえてくることもあります。時間が経つにつれて変形したり、何らかの理由でシステムが固執するようになるフレーズに変化したり、結合したりしていくこともあります。
このため、最終的に100時間以上のアウトプットをしたにもかかわらず、決まったテーマのような音のかたまりが大量にあるだけになってしまいました。
システムの思考の初期段階の多くを捨ててしまうのは簡単なことでした。驚いたのは、取り組んだ月の終わりごろ、システムはまだ動いており、モデルを形成していましたが、結果は「うまくできすぎた」ものになっていたことです。システムが作る音は僕たちのもとの素材に近すぎるという意味で、僕たちにとってはおもしろいものではなくなっていました。
TF: ある意味、それは起こるべくして起こったのでしょう。つまるところ、自分たちの音楽で機械をトレーニングした結果、AIの目を反映して、自分たちの創造性に新しい視点が与えられるということなのですね。
ES: 僕たちにとっておもしろかったのは、アウトプットされた素材の中に、システムの思考の過程がどのように入っているのかということでした。トレーニング用のデータをシステムがどう解釈しているかを聞くと、素材と結果の違いが分かりました。その違いこそ、まさに機械認知とパターン認識のプロセスでした。
作り出された深い思考のイメージをいくつか見てみたら、それらは必ずしもソースである素材について何かを伝えるということではなく、これらのプロセスがいかに奇妙なものであるかをよりはっきりと気付かせてくれるのです。
また、人間のパターン認識における見かけ上の安定性や論理は、人間のデータ処理の一つの形態にすぎないということも分かります。たとえば、人が幻覚剤を使うと、データ処理の行程が変化し、人は自分の感覚的な体験を何か別の方法で解釈しようとします。
TF: 『The Quietus』のレビューでは、学習曲線について、AIが「自信をつける」と書いてありましたが、そういった感じを受けたのでしょうか?
ES: 自信をつけるというよりも、システムが音という言語のより優れたコマンドを運用できるようになっていく感じでした。
くり返しや模倣から始まって、認知のループに入り、最終的にそのフェーズから外へと踏み出して、システム独自のアイデアと表現を携えてそのループ外へ出るようになったんです。
僕たちは自分たちが知覚していることの明確性を保つために、AIを擬人化したり、人間的な特徴に当てはめようとしたりしていたわけではないのですが、それでも、学習プロセスの進行には、生命の誕生との類似点が確かにありました。それははっきりしています。
これから何年かのうちに、こういったシステムが発達し出現するにつれ、これらの行動の発達をどう解釈するか、はっきりと客観的な立場でい続けるのは非常に簡単なことなのかどうかを見るのはおもしろいと思いますね。
TF: プレスリリースには、この音楽の結果は「感動的」で「とまどう」ものだった、と書かれていました。どういった意味で「とまどう」ものだったのでしょうか?
ES: AIにもとづくシステムが生成できるだろうと予想していたものを超えていたので、とまどってしまうほどのものだった、ということです。
アウトプットの質と複雑さは段階を経て、大きく飛躍しました。まず最初は、音的におもしろい結果を聞いてテンションが上がりました。もとの素材に関連したものではありましたが、システム自体のロジックがそこにありました。
しかし、誰もが作品を作るために僕たちのこのシステムをトレーニングして、新しい素材を生成できることを考え始めると、すぐにテンションは下がっていきました。
これは原作についてのまったく新しい会話を聞くことを意味するので、同時に不安でもありました。未来の作曲はどうなっていくのかというような、未確定の領域に向かっていくことを暗示しているからです。
TF: けれども、制作者として、AIが作ったものをまとめ、聞けるものにアレンジする必要はありますよね。ネットワークは完成したアルバムをアウトプットするわけではありませんから。
ES: そうですね。一つの完成した作品として聞ける、構造的なロジックを持たせるために、『Blossoms』のコンテクスト内でアウトプットをアレンジする必要がありました。
それでもプロセスの終わりごろには、システムは音楽的構造のようなものがある長めのパッセージをアウトプットできるようになっていました。
SpotifyのようなシステムがAIシステムのトレーニングライブラリになったら、自分の好きな行動をインプットしハイブリッドを作るだけで、新しい音楽を合成できるようになるのは確実でしょう。そこから、ハイブリッドのハイブリッドを作り始めるようになっていくのかもしれません。
どんな音楽のハイブリッドでもなんでも生成できるシステムが現実に登場するまで、あと数年というところでしょう。人間がシステムに直接介入する必要すらもうなくなるのかもしれないですね。