2025.07.03

AIにおける「深さ（Deep）」とは何か？

ojya

ChatGPT や Midjourney のような生成 AI が注目を集める中で、「ディープラーニング（深層学習）」という言葉を聞かない日はありません。しかし “深層” とは具体的に何が深いのでしょうか？　本記事では、深層学習を “ディープ” たらしめる構造的なポイントを３つに分けて解説します。

Contents

層（レイヤー）の階層構造が鍵
🔍 補足：専門用語解説
- 結び

層（レイヤー）の階層構造が鍵

「ディープラーニング」とは、従来の機械学習よりも多くの隠れ層（hidden layers）を持つニューラルネットワークを指します。IBMによると、入力層と出力層を含めて3層以上を持つ構造が「深い」と定義されます。

※IBMとはアメリカに本社を置くIT企業

2. なぜ層が深いと良いのか

特徴の階層的抽象化：浅い層が入力の基本的な特徴（例：画像でいう「エッジ」）を捉え、深い層へ進むほど複雑な特徴（「顔」「物体」など）を捉えるようになります。これはCNNやLSTMなどで一般的な原理です。

※CNNとは深い層のニュートラルネットワーク
※LSTMとは長期的な依存関係を持つデータの処理に適したニュートラルネットワーク構造

容量（Capacity）の増強：層を増やすことでモデルトレーニングの自由度が高まり、より複雑なパターンを学習できるようになります。

3. 代表的な「深い」アーキテクチャ(システム全体の設計・構造)

AlexNet（2012年）：
- 8層（5層の畳み込み+C層）、初めてGPUを活用し大成功を収めたCNN 。
  1. Inception（GoogLeNet）：
- 最大22層を持ち、“We need to go deeper”というフレーズで一躍有名に。
  1. ResNet（残差ネットワーク）：
- 152層以上でも学習可能にした構造。数百層を可能にした「スキップ接続」により、勾配消失問題を緩和。

4. 「なぜこれほど深くするのか？」の根拠

勾配消失・劣化問題：深くするほど学習は難しくなりますが、ResNetやHighway Networkのような構造により克服されています。

※ResNetやHighway Networkとはニュートラルネットワークのモデル

現実の応用で成果あり：画像認識、音声認識、NLPなど様々な領域で、浅いネットより深層構造の方が圧倒的に性能が高いという実績があります。

※NLPとは神経言語プログラミング

5. 「どれだけ深くすべきか？」

問題の性質によりますが、画像認識では10〜100層規模が標準、NLPにもTransformerなどで≥1000層という例もあります。

※Transformerとは機械学習における深層学習モデルの一種

太くする（各層のノード数を増やす）より、深さによる階層化がパラメータ効率的という研究もあります。

6. まとめ：なぜ「ディープ」なのか

特徴の多段階抽象化により、複雑なパターンを自動で見つける能力が飛躍的に伸びる。
隠れ層が増えることで単なる容量の向上以上の「階層表現」が獲得できる。
先進技術（ResNetなど）が勾配消失や学習困難性といった課題を技術的に克服。
実際のアプリケーションで浅い構造より優れた精度を出せる。

🔍 補足：専門用語解説

用語	説明
隠れ層（Hidden layer）	入力と出力の間にある中間層。
畳み込み層（Convolutional layer）	主に画像処理に用いられる層で、局所的な画像特徴を捉える。
残差接続（Skip connection/Residual）	深層の学習を安定させる技術。ResNetに組み込まれる。
勾配消失（Vanishing gradient）	深いネットワークで重要なパラメータ更新ができなくなる現象。