GAN(敵対的生成ネットワーク)とは?
仕組みや種類・活用例を解説

GAN(Generative Adversarial Network:敵対的生成ネットワーク)とは、AIが学習したデータを基に新たなデータを生み出す生成モデルの一つです。
実在しないデータの生成や、学習したデータの特徴に従ったデータの変換、あるいは、元データの特徴に沿った新しいデータの生成が可能な技術ですが、その仕組みや種類など詳細まではよく分からないという方もいるのではないでしょうか。

この記事ではGANに関する詳細を、仕組みや実現可能なこと、種類や課題の視点から解説します。

目次

1.GANとは|敵対的生成ネットワーク

2.GANの仕組み

3.GANを用いて出来ること

  • 低画質の画像を高画質に変換
  • テキストから画像を生成する
  • 画像のテイストを変更する
  • 動画を生成する

4.GANの種類

  • CycleGAN
  • CGAN(Conditional GAN)
  • DCGAN(Deep Convolutional GAN)
  • StyleGAN
  • PGGAN(Progressive GAN)
  • BigGAN
  • StackGAN
  • AGE-cGAN
  • AttnGAN

5.GANの課題?

  • 動作の不具合が多い
  • 判断の基準が明確でない

6.GANまとめ

1. GANとは|敵対的生成ネットワーク

GAN(Generative Adversarial Network)とは、与えられたデータから特徴を学習し、元データの特徴を沿った新たなデータの生成や、学習した特徴に沿ったデータ変換を可能にする生成モデルです。2014年にイアン・グッドフェロー氏を含む研究チームによって初めて発表されました。
GANは、日本語では敵対的生成ネットワークと訳され、モデル内に内包する2つの要素が、相互に競い合いながら学習を進めるという概念に基づいています。

AI(人工知能)や生成AIについて詳しくは、「AI(人工知能)とは?仕組み・使い方・ビジネスの活用事例を解説」や「生成AI(ジェネレーティブAI)とは?種類・仕組み・活用例を解説」をご覧ください。

2. GANの仕組み

GANの仕組みは、「ジェネレーター(Generator:生成器)」と「ディスクリミネーター(Discriminator:識別器)」という2つの異なるニューラルネットワークで構成されています。

ニューラルネットワークについて詳しくは、「ニューラルネットワークとは?仕組み・種類・活用例を解説」をご覧ください。

ジェネレーターは、既存のデータに基づいて新たなデータを生成する役割を担います。一方、ディスクリミネーターは、生成されたデータが実際に存在するデータかどうかを識別することが役割です。

この2つの要素は、相互に競い合いながら学習を進めていくことが識別する精度を高めるポイントです。ジェネレーターは、ディスクリミネーターを騙すようにデータを生成しようとし、ディスクリミネーターは、ジェネレータが生成したデータと実データの相違を見極めようとします。この相互作用の中で、双方の精度が向上していきます。

このように、ジェネレーターとディスクリミネーターの競合関係が敵対的生成ネットワークと呼ばれる所以です。

3. GANを用いて出来ること

GANは、主に画像や動画の生成・変換に用いられています。
ここでは、GANにより実施可能な画像に関する性能を、4つに分類して見てみましょう。

低画質の画像を高画質に変換

GANは、解像度が低い不鮮明な画像を鮮明で高解像度の画像へと変換する能力を有しています。例えば、ピンぼけやぼやけた画像を鮮明な状態へと復元する作業が該当します。

GANを適用することで、不鮮明な画像に明瞭さと細部の豊かさを付与し、画像の品質を顕著に向上させることができるため、画像処理分野における新たな価値を生み出すと言えるでしょう。
このような応用は、視覚的な情報の精度と利便性を大幅に向上させることにつながります。

テキストから画像を生成する

GANは、テキストデータの情報から画像を生成する技術の一環としても活用されています。

特定の単語や文章を入力として使用することで、それに基づいた視覚的表現の生成が可能です。

GANは、テキストデータでの学習を何度も繰り返すことで、より高精度かつ詳細な画像を作成する能力を高めていきます。つまり、同じテキストに対して複数回の画像生成を行うことで、生成過程の質が向上するのです。

テキストから直接視覚的な内容を創出するという点で、コンピュータビジョンや人工知能の分野における重要な進歩を示す技術と言えるでしょう。

画像のテイストを変更する

GANは元の画像に別の画像やデザインを加えることで、元の画像を希望する画風に変換することも可能です。このプロセスでは、元の画像の基本的な構成を保ちつつ、入力された理想の画風を反映させることにより、新たな視覚的表現を創出できます。

画像のテイストを変更する技術では、元の画像を基礎に芸術的なスタイルや雰囲気を付与させることができるため、画像編集やデジタルアートの分野で広く応用されています。

動画を生成する

画像生成と画像変換の技術を組み合わせることで、動画制作においても潜在能力を発揮し始めているのもGANの特徴です。

※出典:ICCV2019 「Everybody Dance Now」

連続する画像の生成・統合による、動画の形成が可能になります。それにより、メディアやニュースで取り上げられることも多いフェイク動画の製作にも、GANを利用されたことがありました。

ただし、GANを含む画像・動画生成の活用は、倫理的な問題や情報の真偽に関する懸念を引き起こすこともあり、注意深く取り扱う必要があります。

ここで紹介したもの以外にも、音声生成や異常検知、画像の欠損補完などへの利用が提案されています。

4. GANの種類

ここでは、GANの種類として挙げられる以下9つについて解説します。

  • CycleGAN
  • CGAN(Conditional GAN)
  • DCGAN(Deep Convolutional GAN)
  • StyleGAN
  • PGGAN(Progressive GAN)
  • BigGAN
  • StackGAN
  • AGE-cGAN
  • AttnGAN

CycleGAN

CycleGANは、2つの異なるカテゴリ(特定の特徴を持つデータの集まり)間での画像のスタイルを変換する生成対抗ネットワーク(GAN)の一種です。具体的には、1つの画像を別の画像スタイルに変換する能力を有しています。

※出典:ICCV2017 「Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks」

創造的な画像変換を実現することで、デジタルアートや画像編集の分野で注目を集めています。

CycleGANの応用は多岐にわたり、リアルなイメージの再現から芸術的な表現まで幅広い可能性を秘めているでしょう。

CGAN(Conditional GAN)

CGAN(条件付き敵対的生成ネットワーク)は、ジェネレーターに特定の条件情報を提供することで、条件に沿った画像を生成するよう設計されています。

ジェネレーターは入力として与えられた条件に基づいて、目的に応じた特定の特徴を持つ画像を生成します。CGANの特性により、画像生成のプロセスはより制御が容易になり、目的に合った結果を得ることが可能になりました。

なおCGANの技術は、特定の要件やガイドラインに基づくカスタマイズされた画像生成において非常に有効で、さまざまなアプリケーションでの応用が期待されています。

DCGAN(Deep Convolutional GAN)

DCGAN(深層畳み込み敵対的生成ネットワーク)は、畳み込みニューラルネットワーク(CNN)を活用して画像生成の効率と品質を高めたGANの一種で、ディープラーニング(深層学習)の一つでもあります。

ディープラーニングについては詳しくは「ディープラーニングとは?仕組みや活用例をわかりやすく解説」をご覧ください。

CNNの強力な特徴抽出能力を活用し、より精巧でリアルな画像を生成することを可能にしました。DCGANは、高度な生成能力により画像生成タスクにおいて広範囲にわたる使用が期待されています。

※出典:ICLR2016 「Unsupervised Representation Learning With Deep Convolutional Generative Networks」

特に、視覚的な詳細とリアリズムを要求する用途において顕著な成果を示しており、デジタルイメージングやアート、リアルタイムのグラフィックス生成などの分野で大きな影響を与えています。

StyleGAN

StyleGANは、顔画像などの生成された画像のスタイルを細かく制御できる能力を有するGANです。低い解像度から段階的に解像度を上げていく仕組みで、最終的には本物と区別がつかないほどリアルな写真を生成することができます。

※出典:CVPR 2019 「A Style-Based Generator Architecture for Generative Adversarial Networks」

リアルな顔画像の生成や、独自のスタイルを持つ画像の作成など幅広い分野で活用されています。

PGGAN(Progressive Growing GAN)

PGGAN(プログレッシブ敵対的生成ネットワーク)は、ジェネレーターとディスクリミネーターを以下の図のように徐々に拡張していく手法を用いることで、高解像度かつ詳細な画像の生成を可能にしたGANの一種です。

※出典:ICLR 2018「Progressive Growing of GANs for Improved Quality, Stability, and Variation」

低解像度から学習を開始し、段階的に複雑性を増す形で画像を生成していきます。このプロセスを経ることで、最終的には非常に高い解像度での画像生成が可能になるわけです。

PGGANの漸進的な学習プロセスは、よりリアルで細部にわたる精密な画像を生成するうえで効果的であり、画像生成技術の分野において顕著な進歩を示しています。視覚的なリアリズムと品質を重視するさまざまな用途において、PGGANは重宝されると言えるでしょう。

BigGAN

BigGANは、大規模なネットワーク構造と高い計算リソースを備えた、強力な生成モデルです。これにより、高解像度かつ多様なクラスに属する画像の生成が可能になりました。

※出典:ICLR2019 「Large Scale GAN Training for High Fidelity Natural Image Synthesis」

BigGANは、詳細かつリアルな画像を作り出す能力において、顕著な成果を示しています。

また、さまざまな種類の画像に対応できる柔軟性も持ち合わせていることもポイント。BigGANの応用範囲は広く、高品質なビジュアルコンテンツの需要が高いさまざまな分野での活用が期待できるでしょう。

StackGAN

StackGANは、テキスト記述から高品質な画像を生成可能にするGANです。画像生成を、2つの段階に分けて行うのが特徴。

※出典:ICCV 2017「StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks」

最初の段階である「Stage-I」では、テキスト情報に基づいて低解像度の画像が生成されます。その後、低解像度の画像が「Stage-Ⅱ」に渡され、ジェネレーターによってさらに精緻化され、高解像度の画像が仕上がる仕組みです。

StackGANは段階的なプロセスを通じ、よりリアルかつ詳細なビジュアルコンテンツの創出を可能にしました。テキストベースの情報を効果的に視覚的な表現に変換することで、画像生成技術の分野に新たな可能性をもたらしたとも言えるでしょう。

AGE-cGAN

AGE-cGANは、画像の中にいる人物の年齢を若返らせるモデルです。

画像中の顔の特徴を識別し、年齢に応じた変更を施すことで、人物の外見をより若々しく見せることができます。

※出典:ICIP 2017「Face Aging With Conditional Generative Adversarial Networks」

AGE-cGANは、画像にある顔を自然かつ信頼性の高い方法で年齢を変化させられるため、ビジュアルエフェクトやデジタルアート、さらには医学的な研究においても有用なツールとして注目されています。

AttnGAN

AttnGANは、テキストベースの記述から画像を生成することに特化したGANのことです。文章やフレーズを基にして、対応する視覚的なイメージを創出する能力を有しています。

※出典:CVPR 2017「AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks

AttnGANの特徴は、テキストの詳細な内容を精密に解析した情報を基に、具体的な画像を生成することです。

テキストから直接的に関連する画像を作成することで、コンピュータビジョンや人工知能の分野における新たな可能性を切り拓いたと言えるでしょう。

5. GANの課題

さまざまな機能を有した多種類のGANにより、多くの「可能性」が期待されるようになりました。しかしGANには、動作の不具合や判断基準に関する課題も残されています。

動作の不具合が多い

GANは、動作においていくつかの課題に直面することがあります。例えば、ある一定の学習段階を超えるとネットワークの学習が停滞し、十分な学習が行われなくなる「勾配消失問題」があります。また、入力された画像に類似した画像ばかりを生成する「モード崩壊」という課題も存在しています。

これらの不具合を解決するためには、GANの主要な要素である偽物を作り出すジェネレーターと偽物を見分けるディスクリミネーターの性能におけるバランスを適切に保つことが重要です。

ジェネレーターとディスクリミネーターのバランスを保つことで、正確かつ効果的な学習プロセスの実現や、動作における問題の軽減が可能になります。

判断の基準が明確でない

GANにおいて、生成された画像がどの程度「似ている」と判断されるかの基準が評価者によって異なるため、一定の不透明さが存在します。そのため、一部のユーザーは、GANが生成する画像が元の対象と全く異なって見える可能性があるでしょう。

より洗練されたアルゴリズムや学習方法が開発されていけば、GANにおける判断基準の精度は徐々に向上していくと予測されています。生成される画像の質と一貫性が改善されれば、より多くのユーザーの納得を得られる結果を生み出せるようになるでしょう。

6. GANまとめ

GANは、高品質な画像生成や画像スタイルの変更に加えて、他の技術と組み合わせることで、相乗効果をもたらす可能性がある技術です。その種類はさまざまで、それぞれが特定の用途に適しているため、応用範囲は多岐にわたります。

動作の不具合や判断基準に関する課題は存在しますが、これらの問題は将来的な技術の進化によって解決されるでしょう。

GANは、今後さらなる性能向上と共に、多様な分野での活用が期待される先進技術と言えます。また、新しい創造的な可能性だけでなく、既存の問題を解決する手段としても重要な役割を果たすでしょう。

【監修者】酒井 麻里子

ITライター/新技術ウォッチャー。XR、ジェネレーティブAIなどの新しいテクノロジーや企業のDX取材、技術者・経営者へのインタビュー、技術解説記事などを執筆。ビジネスを軸にしたXRと最新テクノロジーのWEBマガジン『TechComm-R』運営。Yahoo!ニュース公式コメンテーター(ITジャンル)。株式会社ウレルブン代表。

TOPページへ戻る

目次

1.GANとは|敵対的生成ネットワーク

2.GANの仕組み

3.GANを用いて出来ること

4.GANの種類

5.GANの課題?

6.GANまとめ