1. - AI (Artificial Intelligence)
1.1. AIの歴史
1.1.1. 初期の探索(1950年代 - 1980年代)
1.1.1.1. AIの歴史は1950年代に遡りますが、生成的なアプローチは主にパターン認識や言語生成に限られていました。1980年代には、ニューラルネットワークの研究が進み、シンプルな生成タスクに取り組む基盤が築かれました。
1.1.2. ニューラルネットワークの復興(1980年代 - 2000年代初頭)
1.1.2.1. 1980年代から1990年代にかけて、バックプロパゲーションの導入やコンピュータの計算能力の向上により、より複雑なニューラルネットワークが実現可能になりました。これにより、画像や音声データの生成が可能となり、生成AIの研究が活発化しました。
1.1.3. ディープラーニングの台頭(2010年代)
1.1.3.1. 2010年に入ると、ディープラーニングが生成AIの中心技術として登場。特に、GAN(Generative Adversarial Networks)やVAE(Variational Autoencoders)のようなモデルが登場し、高品質な画像や音声の生成が可能になりました。
1.1.4. GANの革命(2010年代中盤 - 現在)
1.1.4.1. 2014年にイアン・グッドフェローによって提案されたGANは、競合する二つのネットワーク(生成ネットワークと識別ネットワーク)を用いて、非常にリアルな画像を生成する技術として注目を集めました。これ以降、芸術、ファッション、エンターテインメントなど多岐にわたる分野で応用が進んでいます。
1.1.5. 大規模モデルの登場(2020年代)
1.1.5.1. 2020年代に入ると、GPT(Generative Pre-trained Transformer)やDALL-Eなどの大規模トランスフォーマーモデルが登場し、テキストだけでなく、画像や音声など複数のモダリティでの生成能力を持つモデルが開発されました。これらのモデルは、より広範な応用と、さらにリアルな生成結果をもたらしています。
1.1.6. AIブームを支える要因
1.1.6.1. ディープラーニングの進化
1.1.6.1.1. ディープラーニングは、AIの能力を飛躍的に向上させる技術です。特に、多層のニューラルネットワークを用いて複雑なデータパターンを学習することが可能になり、画像認識、自然言語処理、音声認識など多岐にわたる分野で実用的な応用が進んでいます。GoogleのAlphaGoや自動運転車など、ディープラーニングを核とした技術が社会に大きな影響を与えています。
1.1.6.2. 計算能力の向上
1.1.6.2.1. GPU(Graphics Processing Unit)の進化とクラウドコンピューティングの普及が、複雑なAIモデルを訓練するための計算資源を大幅に増加させました。これにより、以前は不可能だった大規模なデータセットを使用したトレーニングが可能になり、AIの精度と効率が向上しました。特に、NVIDIAやGoogleなどが提供する専用のAI計算プラットフォームが研究開発を加速させています。
1.1.6.3. データ量の増大
1.1.6.3.1. デジタル化の進展とインターネットの普及が、膨大な量のデータを生成しています。このビッグデータは、機械学習モデルの訓練に不可欠であり、より正確で汎用的なAIモデルを開発するための基盤となっています。ソーシャルメディア、Eコマース、IoTデバイスなどから収集されるデータは、AIが世界をどのように理解し、予測するかを変えています。
1.2. - 弱いAI (Narrow AI)
1.2.1. - 音声アシスタント (Siri, Alexa)
1.2.1.1. 情報検索: 天気の予報、ニュース、一般知識などの情報を提供します。
1.2.1.2. スマートホーム制御: 照明のオン/オフ、温度調整など、連携されたスマートデバイスの制御を行います。
1.2.1.3. スケジューリング: カレンダーの管理、リマインダーの設定、アラームの設定など、日々のスケジューリングを支援します。
1.2.1.4. エンターテイメント: 音楽の再生、オーディオブックの読み上げ、ジョークを言うなどの娯楽機能。
1.2.2. - 画像認識システム
1.2.2.1. 顔認識: スマートフォンのロック解除、警察の捜査、ソーシャルメディアでのタグ付けなど。
1.2.2.2. 医療画像分析: X線、MRI、CTスキャンなどの医療画像から病変を検出し、診断を支援します。
1.2.2.3. 交通監視: 交通カメラを通じて車両を識別し、交通違反を検出するために使用されます。
1.2.3. - 推薦システム (Netflix, Amazon)
1.2.3.1. 商品推薦: Amazonでは、購入履歴や閲覧履歴に基づいてユーザーに合った商品を推薦します。
1.2.3.2. コンテンツ推薦: NetflixやYouTubeでは、視聴履歴や評価に基づいて次に見るべき映画やビデオを推薦します。
1.2.3.3. 音楽推薦: SpotifyやApple Musicでは、リスニング履歴を分析して新しいアーティストやアルバムを提案します。
1.2.4. これらのAIアプリケーションは、日常生活の中で私たちの効率を向上させ、よりパーソナライズされた体験を提供するために設計されています。それぞれの技術は特定のタスクに特化しており、その領域での問題解決に特化しています。
1.3. - 強いAI (General AI)
1.3.1. - 人間と同等の知能を持つAI
1.3.1.1. 強いAIの特徴
1.3.1.1.1. 認知的柔軟性:新しい状況や問題に適応し、その場で新しい知識を学習して適用できる能力を持ちます。
1.3.1.1.2. 問題解決能力:複雑な論理的、数学的問題を解決するだけでなく、創造的な問題解決も行うことができます。
1.3.1.1.3. 意思決定:不確実性のある状況下での合理的な意思決定を行う能力を持ち、人間と同様に複雑な選択を行えます。
1.3.1.1.4. 感情の理解と表現:人間の感情を理解し、適切に反応することができるようになると予想されます。
1.3.1.2. 強いAIの応用可能性
1.3.1.2.1. 医療:診断から治療計画の立案、手術の実行まで、医療の各段階において人間の医師と同等のパフォーマンスを提供する。
1.3.1.2.2. 科学研究:新しい科学的理論の提案や、実験データからの洞察の抽出に寄与する。
1.3.1.2.3. 教育:個々の学生のニーズに合わせた教育プログラムを設計し、指導する。
1.3.1.2.4. ビジネス:市場分析、戦略立案、経営判断など、ビジネスリーダーとしての役割を担うことも考えられます。
1.3.1.3. 課題と懸念
1.3.1.3.1. 技術的課題
1.3.1.3.2. 倫理的課題
1.3.1.3.3. 社会的課題
1.4. - スーパーAI (Superintelligent AI)
1.4.1. スーパーAIの特性
1.4.1.1. 自己改善能力: 自らをプログラムし直し、自己最適化を行うことで、連続的に自身のパフォーマンスを向上させることができます。
1.4.1.2. 広範な知識とスキル: スーパーAIは、医学、工学、芸術、科学などあらゆる分野の知識を網羅し、それらを統合して新しい知識や技術を創出することができます。
1.4.1.3. 問題解決と意思決定: 高度に複雑な問題を瞬時に解決し、最適な意思決定を行うことが可能です。
1.4.1.4. 創造性: 新しいアイデアや解決策を生み出す能力が人間を超えるため、科学や芸術の分野で革新的な成果をもたらすことが期待されます。
1.4.2. スーパーAIの潜在的な応用例
1.4.2.1. 医療: 個々の患者の遺伝情報やライフスタイルに基づいたパーソナライズされた医療治療を設計する。
1.4.2.2. 科学研究: 現在人間には解明が困難な宇宙や量子物理の謎を解き明かす。
1.4.2.3. 技術開発: 新しい素材やエネルギー源の開発を通じて、環境問題やエネルギー危機に対処する。
1.4.2.4. 経済管理: 経済の予測と制御を行い、世界的な経済危機を未然に防ぐ。
1.4.3. 懸念事項
1.4.3.1. 倫理的および哲学的問題: スーパーAIの目標が人類の利益とどのように一致するか、また、人間の自由やプライバシーをどのように保護するかが主要な懸念です。
1.4.3.2. 制御問題: 人間の知能を超えたAIをどのようにして安全に制御するか、その逸脱を防ぐメカニズムの設計が必要です。
1.4.3.3. 社会的不安: スーパーAIによる仕事の自動化が進むことで、大規模な雇用問題が発生する可能性があります。
1.4.3.4. 不平等の拡大: AI技術へのアクセスが限られたグループに集中することで、社会的、経済的な不平等がさらに拡大するリスクがあります。
2. - AIのアプローチ
2.1. - 機械学習 (Machine Learning)
2.1.1. - 教師あり学習 (Supervised Learning)
2.1.1.1. 医療診断: 患者のデータ(症状、検査結果など)を用いて、特定の病気を診断するモデル。これにより、早期発見や治療の精度が向上します。
2.1.1.2. 金融詐欺の検出: クレジットカードの取引履歴データを分析し、不審なパターンを識別して詐欺を検出します。
2.1.1.3. 価格予測: 株価や不動産の価格など、将来の価格を予測するために使用されます。
2.1.2. - 教師なし学習(Unsupervised Learning)
2.1.2.1. 顧客セグメンテーション: 顧客データから購買行動や好みに基づくグループを作成し、マーケティング戦略を最適化します。
2.1.2.2. 異常検出: 製造業での品質管理やシステムモニタリングで、通常のパターンから逸脱するデータポイントを識別します。
2.1.2.3. トピックモデリング: 大量の文書から主要なトピックを抽出し、情報の整理や要約に利用されます。
2.1.3. - 強化学習(Reinforcement Learning)
2.1.3.1. 自動運転: 自動車が交通状況を理解し、安全な運転決定を行うためのアルゴリズム開発に使用されます。
2.1.3.2. ロボット工学: ロボットが特定のタスクを最適に実行する方法を学ぶために使われ、例えば倉庫での自動ピッキングなどに応用されます。
2.1.3.3. ゲームAI: チェスや囲碁などの戦略ゲームで、人間に対抗する高度な戦略を開発するのに使われます。
2.1.4. - 生成AI (Generative AI)
2.1.4.1. - GAN (Generative Adversarial Networks)
2.1.4.1.1. - This Person Does Not Exist
2.1.4.1.2. - DeepArt
2.1.4.2. - VAE (Variational Autoencoders)
2.1.4.2.1. - Landscapely
2.1.5. 主要なアルゴリズム
2.1.5.1. 線形回帰 (Linear Regression):
2.1.5.1.1. 数式:
2.1.5.1.2. 概念:
2.1.5.1.3. 例:
2.1.5.2. ロジスティック回帰 (Logistic Regression):
2.1.5.2.1. 例:
2.1.5.2.2. 概念:
2.1.5.2.3. 数式:
2.1.5.3. k-近傍法 (k-Nearest Neighbors, k-NN):
2.1.5.3.1. 方法:
2.1.5.3.2. 概念:
2.1.5.3.3. 例:
2.1.5.4. サポートベクターマシン (Support Vector Machine, SVM):
2.1.5.4.1. 概念:
2.1.5.4.2. 特徴:
2.1.5.4.3. 例:
2.1.5.5. クラスタリング (Clustering):
2.1.5.5.1. k-平均法 (k-Means Clustering):
2.2. - 深層学習 (Deep Learning)
2.2.1. - 多層のニューラルネットワークを使用
2.2.2. - 生成AI (Generative AI)
2.2.2.1. - Transformerモデル
2.2.2.1.1. - ChatGPT
2.2.2.1.2. - Google Translate
2.2.2.1.3. - Claude (by Anthropic)
2.2.2.2. - Deep Learning Models
2.2.2.2.1. - Jukebox
2.2.2.2.2. - Deep Dream
2.2.2.2.3. - DALL-E 3
2.2.2.3. それぞれの違い
2.2.2.3.1. トランスフォーマーモデル
2.2.2.3.2. ディープラーニングモデル
2.2.2.3.3. 注釈
2.2.2.3.4. どちらのモデルも特定のタスクに特化しており、利用するデータや目的によって選択されます。たとえば、画像処理にはディープラーニングが適しており、自然言語処理にはトランスフォーマーが適しています。したがって、どちらが「優れているか」はタスクの内容や目標に依存します。
2.3. - ルールベースAI (Rule-Based AI)
2.3.1. ルールベースAIの特徴
2.3.1.1. 透明性
2.3.1.1.1. 処理過程がルールに基づいているため、意思決定プロセスを追跡しやすいです。
2.3.1.2. 予測可能性:
2.3.1.2.1. システムの動作は定義されたルールに基づくため、予測可能です。
2.3.1.3. 簡潔さ
2.3.1.3.1. 特定の問題に対して簡単にカスタマイズできるルールを設定できます。
2.3.2. ルールベースAIの応用例
2.3.2.1. 業務自動化
2.3.2.1.1. 企業の業務プロセスを自動化するために、特定の業務ルールに従ってタスクを自動実行します。例えば、請求書処理、注文管理などに使用されます。
2.3.2.2. エキスパートシステム
2.3.2.2.1. 特定の専門分野における知識を模倣し、専門家レベルのアドバイスや意思決定サポートを提供します。例えば、医療診断、法的判断、金融アドバイスなどがあります。
2.3.2.3. チャットボット
2.3.2.3.1. 顧客サービスにおいて、質問に基づいて適切な回答を提供するために使われます。ルールに基づいて、特定のキーワードやフレーズに対応する回答を選び出します。
2.3.3. 制限と課題
2.3.3.1. 柔軟性の欠如
2.3.3.1.1. ルールベースAIは、定義されたルールに厳密に従うため、未知の状況や複雑な問題に対応する能力に限りがあります。
2.3.3.2. スケーラビリティ
2.3.3.2.1. 新しいルールを追加するにつれて、システムの管理が複雑になる可能性があります。また、予期しない相互作用や競合が発生することもあります。
2.3.3.3. 維持管理
2.3.3.3.1. 環境や要件が変わると、ルールの更新が必要になるため、継続的なメンテナンスが求められます。
2.4. - 自然言語処理 (Natural Language Processing)
2.4.1. - 人間の言語を理解し生成する
2.4.2. - 生成AI (Generative AI)
2.4.2.1. - テキスト生成
2.4.2.1.1. - GPT-3
2.4.2.1.2. - Quillbot
2.4.2.1.3. - Perplexity
2.4.2.2. - 対話システム
2.4.2.2.1. - Replika
2.4.2.2.2. - Microsoft Xiaoice
2.4.2.2.3. - Gemini (by OpenAI)
2.5. 各分野での違い
2.5.1. 目的の違い
2.5.1.1. 機械学習ではデータの再現や拡張が目的、深層学習では複雑なデータのリアルタイム生成、自然言語処理では言語の理解と流暢なテキスト生成。
2.5.2. データの種類
2.5.2.1. 機械学習と深層学習では画像や音声など多様なデータ、自然言語処理はテキストデータに特化。
2.5.3. 技術の適用
2.5.3.1. GANやVAEは画像や音声データに、Transformerはテキストや言語モデルに特化しています。
3. 生成AI
3.1. AIの中の生成AIの位置づけ
3.1.1. 図
3.2. 生成AIの簡単な説明
3.2.1. 生成AIとは
3.2.1.1. 生成AIは、コンピュータが学んだデータを基に、新しい画像、文章、音楽などを作り出す技術です。これは、機械学習と深層学習という二つの主な方法を使っています。
3.2.2. 2. 機械学習ベースの生成AI
3.2.2.1. 特徴: 比較的シンプルなアルゴリズムを使用し、データのパターンを学習して新しいデータを作ります。
3.2.2.2. 例:
3.2.2.2.1. VAE: データを小さくしてから再構築し、新しいものを作ります。たとえば、新しいスタイルの手書き文字を生成します。
3.2.2.2.2. GAN: 二つのモデルが互いに競い合い、非常にリアルな画像や動画を作ります。たとえば、インターネットで見る「実在しない人の顔」を作成します。
3.2.3. 3. 深層学習ベースの生成AI
3.2.3.1. 特徴: 複雑なデータや大規模なデータを使い、高度な学習を行います。
3.2.3.2. 例:
3.2.3.2.1. 拡散モデル: 高品質な画像を生成するためにノイズを減らす技術です。映画の特殊効果などで使用されます。
3.2.3.2.2. CNN: 画像データを扱い、絵画のスタイルを他の写真に適用することができます。
3.2.3.2.3. RNN: 文章や音楽のような連続したデータを生成します。たとえば、詩や歌詞を自動で作成します。
3.2.3.2.4. トランスフォーマー: 自然言語を理解し、文章を生成するのに優れています。例えば、ChatGPTのような対話型AIがこれを使っています。
3.2.4. 4. 特別なモデル
3.2.4.1. 基盤モデル(Foundation Models): さまざまなタスクに対応できる汎用的なモデルです。例えば、GPT-3は文章生成、CLIPは画像とテキストの関連付けに使われます。
3.2.4.2. 大規模言語モデル(LLM): 特に言語処理に特化したモデルで、非常に多くのデータを学習し、文脈を理解するのに優れています。例えば、GPT-3やBERTがあります。
3.2.5. 5. ルールベースAI
3.2.5.1. 特徴: 事前に定義されたルールに従って動作します。機械学習や深層学習とは異なり、データから学習するのではなく、決まったルールで動作します。
3.2.6. 5. 自然言語処理(NLP)
3.2.6.1. 自然言語処理(NLP)の役割
3.2.6.1.1. テキスト生成:
3.2.6.1.2. 翻訳:
3.2.6.1.3. 質問応答システム:
3.2.6.2. 生成AIにおけるNLPの位置づけ
3.2.6.2.1. 大規模言語モデル(LLM): 大量のテキストデータから学習し、文脈理解や自然なテキスト生成を行うモデルです。NLPの技術を駆使して、文章の内容理解や文脈の保持を行います。
3.2.6.2.2. トランスフォーマーモデル: 特に自然言語処理において強力なモデルであり、自己注意機構を使用して文脈を理解し、生成する文章の質を高めます。
3.2.7. ニューラルネットワーク
3.2.7.1. 画像
3.3. RAG「Retrieval-Augmented Generation」
3.3.1. 外部ツールを呼び出し、様々なアクションが可能なLangchain、また文書をIndex化してその文書を参照させることのできるLlamaIndexを活用することにより、これまで以上に幅広いタスクに対応することが可能
3.3.1.1. LangChain ・LangChainによりChatGPTから様々なツールの呼び出しが可能となり、実現できる作業の幅が大幅に広がる ・例えばメール文の読み込み、送信、Slackへの投稿など様々なタスクが可能
3.4. 生成AIの応用とツール
3.4.1. テキスト生成AI
3.4.1.1. プロンプトとは
3.4.1.1.1. 深津式プロンプト
3.4.1.1.2. プロンプト設計のベストプラクティス
3.4.1.1.3. プロンプトの種類と設定方法
3.4.1.1.4. プロンプトの役割
3.4.1.1.5. チェーンプロンプト
3.4.1.2. うまく使用するために大切な事は
3.4.1.2.1. 一回で求めてるものは出てこないので、回数を重ねて空間を狭めていくことが重要
3.4.1.2.2. 6. ユーザーの目的とコンテキストの理解
3.4.1.2.3. 5. 継続的なトレーニングとアップデート
3.4.1.2.4. 4. 技術的理解
3.4.1.2.5. 3. 倫理的考慮
3.4.1.2.6. 2. プロンプトの設計
3.4.1.2.7. 1. データの質と多様性
3.4.1.3. 何を基に出力?
3.4.1.3.1. 3. 事前学習と微調整
3.4.1.3.2. 2. 生成的敵対ネットワーク(GAN)
3.4.1.3.3. 1. 機械学習ベースのアプローチ
3.4.1.4. AIツール
3.4.1.4.1. テキスト生成AIツールの概要
3.4.1.4.2. GPT-3 (OpenAI)
3.4.1.5. 4. 会話応答生成
3.4.1.5.1. チャットボットや仮想アシスタントは、テキスト生成AIを活用してリアルタイムで人間との対話を行います。このAIは、ユーザーからの質問やコメントに対して適切で自然な回答を生成し、カスタマーサポート、情報提供、エンターテイメントなどの分野で広く使用されています。これにより、ユーザーとのインタラクションがよりスムーズに、かつ効率的に行われます。
3.4.1.6. 3. コード生成
3.4.1.6.1. プログラミング言語もまた一種の言語であり、テキスト生成AIはソースコードの自動生成にも応用されています。プログラマーが意図する機能に基づいて適切なコードを生成することで、ソフトウェア開発の効率を大幅に向上させることができます。例えば、自然言語で書かれた仕様から直接実行可能なコードを生成するなどが可能です。
3.4.1.7. 2. 詩や創作文学
3.4.1.7.1. AIは、特定の文学的スタイルやフォーマットに基づいて詩や物語を作成することができます。ユーザーからのプロンプトやテーマに応じて、創造的な内容を自動生成し、文学的な表現や感情を反映した作品を提供することが可能です。この技術は、創作プロセスにおける新しいアイデアの生成や、文学教育の補助ツールとしても利用されます。
3.4.1.8. 1. ニュース記事生成
3.4.1.8.1. テキスト生成AIは、事実に基づいた情報をもとに、リアルタイムでニュース記事を作成することができます。これにより、出版業界では人的リソースを節約しつつ、最新のを迅速に報道することが可能になります。AIは公開されているデータや既存のニュースソースから情報を収集し、一貫性のある、理解しやすい記事を生成します。
3.4.2. 画像生成AI
3.4.2.1. AIツール
3.4.2.1.1. This Person Does Not Exist (StyleGAN)
3.4.2.1.2. DALL-E (OpenAI)
3.4.2.1.3. PIKA
3.4.2.1.4. MidJourney
3.4.2.2. 3. 教育とトレーニング
3.4.2.2.1. 医学や科学教育において、リアルな3Dビジュアルを生成し、学生が複雑な概念を視覚的に理解するのを助けます。また、安全トレーニングや災害シミュレーションなど、リスクの高い環境を模擬するためにも利用されます。
3.4.2.3. 2. 写真リアリスティックな画像生成
3.4.2.3.1. 生成AIは、存在しない人物や風景のリアリスティックな画像を生成することができます。これは、広告やゲームデザインで特に有用で、実在しないモデルやシーンを作成するのに利用されます。また、ファッション業界では、仮想モデルを用いた衣服のプレビューに使用されることもあります。
3.4.2.4. 1. アートワーク生成
3.4.2.4.1. AIは学習した芸術スタイルを基に、独自のアートワークを生成することができます。ユーザーが指定したテーマやキーワードに基づいて、絵画、イラストレーション、デジタルアートなどを創出します。これにより、アーティストは新しいインスピレーションを得たり、創作プロセスを加速させることが可能です。
3.4.3. その他生成AI
3.4.3.1. ビデオ生成AI
3.4.3.1.1. AIツール
3.4.3.1.2. スポーツハイライト生成
3.4.3.1.3. DeepFake技術
3.4.3.2. 音楽生成AI
3.4.3.2.1. 3. パーソナライズされた音楽体験
3.4.3.2.2. 2. 音楽教育
3.4.3.2.3. 1. 自動作曲
3.4.3.2.4. AIツール
3.4.3.3. 詩と文学生成AI
3.4.3.3.1. AIツール
3.4.3.3.2. 自動詩生成
3.4.3.3.3. Shelley (MITメディアラボ)
3.4.3.4. フードデザイン生成AI
3.4.3.4.1. Gastrograph AI
3.4.3.4.2. Chef Watson (IBM)
3.4.3.5. アニメーションとCGI生成AI
3.4.3.5.1. AIツール
3.4.3.5.2. 仮想現実空間生成
3.4.3.5.3. キャラクターデザインAI
3.4.3.6. アーキテクチャデザイン生成AI
3.4.3.6.1. Autodesk Revit
3.4.3.6.2. ArchiCAD
3.4.3.7. 教育コンテンツ生成AI
3.4.3.7.1. Khan Academy
3.4.3.7.2. Coursera
3.4.3.8. 環境保全支援AI
3.4.3.8.1. Global Forest Watch
3.4.3.8.2. iNaturalist
3.4.3.9. - その他の生成AIツール
3.4.3.9.1. - MidJourney
3.4.3.9.2. - PIKA