Generative AI Tutorialダウンロード - Generative AI Tutorialソースコードのダウンロード

Generative AI Tutorial

その他のソースコード

1.0.0

ダウンロード

生成AIロードマップ

記事やプロジェクトのキュレーションリストを含む生成AI研究のための主観的な学習ガイド

生成AIは今日のホットトピックであり、このロードマップは、初心者が基本的な知識を迅速に獲得し、生成AIの有用なリソースを見つけるのに役立つように設計されています。専門家でさえ、このロードマップを参照して、古い知識を思い出し、新しいアイデアを開発することを歓迎します。

コンテンツの表

背景知識
- ニューラルネットワークの推論とトレーニング
- トランスアーキテクチャ
- 一般的な変圧器ベースのモデル
- その他
大きな言語モデル（LLMS）
- 事前に微調整されています
- プロンプト
- 評価
- 長い文脈を扱う
- 効率的な微調整
- モデルのマージ
- 効率的な生成
- 知識編集
- LLM駆動エージェント
- 調査結果
- オープンな課題
拡散モデル
- 画像生成
- ビデオ生成
- オーディオ生成
- 事前に微調整されています
- 評価
- 効率的な生成
- 知識編集
- オープンな課題
大型マルチモーダルモデル（LMMS）
- モデルアーキテクチャ
- 具体化されたエージェントに向けて
- オープンな課題
トランスを超えて
- 暗黙的に構造化されたパラメーター
- 新しいモデルアーキテクチャ

背景知識

このセクションは、ニューラルネットワーク（例えば、バックプロパゲーション）の基本的な知識を学習または取り戻し、トランスアーキテクチャに精通し、一般的な変圧器ベースのモデルを説明するのに役立ちます。

ニューラルネットワークの推論とトレーニング

次の古典的なニューラルネットワーク構造に非常に精通していますか？

多層パーセプトロン（MLP）
畳み込みニューラルネットワーク（CNN）
再発ニューラルネットワーク（RNN）

もしそうなら、あなたはこれらの質問に答えることができるはずです：

なぜCNNSは画像上でMLPよりもうまく機能するのですか？
なぜRNNは、タイムシリーズデータでMLPよりもうまく機能するのですか？
GRUとLSTMの違いは何ですか？

BackPropagation（BP）は、NNトレーニングのベースです。 BPを理解していなければ、AIの専門家にはなりません。 BPを教える多くの教科書やオンラインチュートリアルがありますが、残念ながら、それらのほとんどは、ベクトル化/テンソージ化されたフォームに式を提示しません。 NN層のBP式は、実際にその前方パスフォーミュラと同じくらいきれいです。これはまさにBPの実装方法であり、実装する必要があります。 BPを理解するには、次の資料をお読みください。

ニューラルネットワークとディープラーニング[第3.2章特に3.2.6]
MEPROP：過剰フィッティングの減少とともに加速された深い学習のための背中の伝播をスパースした（ICML 2017）[セクション2.1]
RESPROP：Sparsied Backpropagation（CVPR 2020）の再利用[セクション3.1]

BPを理解している場合は、これらの質問に答えることができるはずです。

畳み込み層のBPをどのように説明しますか？
密な層のフォワードパスとバックワードパスの間のコンピューティングコスト（つまり、浮動小数点操作の数）の比率はいくらですか？
同じ重量マトリックスを共有する2つの密な層を持つMLPのBPをどのように説明しますか？

トランスアーキテクチャ

トランスは、既存の大規模生成モデルの基本アーキテクチャです。トランス内のすべてのコンポーネントを理解する必要があります。次の資料をお読みください：

注意が必要です（Neurips 2017）[オリジナルペーパー]
トランスの説明：テキスト世代モデルのインタラクティブな学習[インタラクティブチュートリアル]
画像は16x16の価値があります：大規模な画像認識のためのトランス（ICLR 2021）[Vision Transformer]
トランスとケラスを使用したニューラルマシン翻訳[マルチヘッド注意の素晴らしい説明（MHA）]
トランスブロックのフロップ[フロップの計算を練習しましょう]
高速トランスデコード：1つの書き込みが必要です[マルチクエリの注意（MQA）]
GQA：マルチヘッドチェックポイントからの一般化されたマルチクエリトランスモデルのトレーニング[グループ化されたクエリの注意（GQA）]
回転位置の埋め込みを備えた強化された変圧器[位置埋め込みを理解]
回転式埋め込み：相対的な革命[位置埋め込みを理解する]
教師がスケジュールされたサンプリングと通常モードを強制する[トランストレーニングの教師の強制]
FLEXGEN：単一のGPUを使用した大規模な言語モデルのハイスループット生成推論
コンテキストの位置エンコーディング：重要なものを数えることを学ぶ[コンテキスト依存の位置エンコーディング]

トランスを理解している場合は、これらの質問に答えることができるはずです。

RNNS？と比較したTranformersの長所と短所は何ですか（同時に参加し、並行し、複雑さをトレーニングする）
GQAのフロップを包み込むことはできますか？ MHAとMQAにいつ劣化するのかわかりますか？
MQAとGQAの動機は何ですか？
因果的な注意マスクはどのように見えますか、そしてその理由は何ですか？
デコーダーのみのトランスフォーマーのトレーニングを段階的に説明しますか？
なぜロープは正弦波位置エンコードよりも優れているのですか？

一般的な変圧器ベースのモデル

自然言語監督からの転送可能な視覚モデルの学習[クリップ]
自己教師のビジョン変圧器の新しい特性（ICCV 2021）[dino]
マスクされた自動エンコーダーはスケーラブルなビジョン学習者です（CVPR 2022）[MAE]
専門家のまばらな混合物によるスケーリングビジョン（Neurips2021）[MOE]
混合物：トランスベースの言語モデルでのコンピューティングを動的に割り当てる[mod]

その他

うつは簡単で便利です[うつく/einopsを使用するための優れたチュートリアル]
無制限は人工超人知能（ICML 2024）に不可欠です[超人的AIの達成に関する考え]
AGIへの道の進捗状況を運用するためのAGIのレベル

大きな言語モデル（LLMS）

LLMは変圧器です。 [画像ソース]のLLM進化ツリーに示すように、それらはエンコーダーのみ、エンコーダデコーダー、デコーダーのみのアーキテクチャに分類できます。 LLMSのマイルストーンペーパーを確認してください。

LLM進化ツリー

エンコーダのみのモデルを使用して文の機能を抽出できますが、生成パワーがありません。エンコーダデコーダーとデコーダーのみのモデルは、テキスト生成に使用されます。特に、ほとんどの既存のLLMは、繰り返しの力が強いため、デコーダーのみの構造を好みます。直感的には、エンコーダーデコーダーモデルは、デコーダーのみのモデルのまばらなバージョンと見なすことができ、情報はエンコーダーからデコーダーまでより多く減衰します。詳細については、この論文を確認してください。

前脱出と微調整

LLMは通常、自然言語構造を内面化するために、モデルパブリッシャーによって数兆個のテキストトークンから前処理されます。また、今日のモデル開発者は、人間のフィードバック（RLHF）からの指導的微調整と強化学習を実施して、モデルに人間の指示に従い、人間の好みに合った答えを生成するように教えます。その後、ユーザーは公開されたモデルをダウンロードして、小さな個人データセット（ムービーのダイアログなど）でFinetuneそれを獲得できます。膨大な量のデータにより、事前削除には、個人が手に負えない大規模なコンピューティングリソース（たとえば、数千を超えるGPU）が必要です。一方、微調整はリソースに飢えが少なく、いくつかのGPUで行うことができます。

次の材料は、前削減と微調整プロセスを理解するのに役立ちます。

BERT：言語理解のための深い双方向変圧器の事前トレーニング[エンコーダのみのLLMの前脱めろう]
スケーリング命令fineTuned言語モデル[事前化および指導的微調整]
人間のフィードバックからの強化学習の説明（RLHF）
言語モデルは少ないショット学習者です[デコーダーのみのLLMS] [中文导读by]

その他のチュートリアルはこちらをご覧ください。

プロンプト

LLMSのプロンプト技術には、モデルをガイドして目的の応答または出力を生成する方法で入力テキストを作成することが含まれます。ここに、より良いプロンプトを書くのに役立つ有用なリソースがあります。

[dair.ai]プロンプトエンジニアリングガイド
Awesome ChatGptプロンプト - chatgptモデルで使用するプロンプトの例のコレクション
素晴らしい審議プロンプト - 信頼できる推論を作成し、理由に反応する決定を下すようにLLMSに依頼する方法
Autoprompt-勾配誘導検索に基づく自動化された方法で、多様なNLPタスクのプロンプトを作成します。

評価

大規模な言語モデルの評価ツールは、さまざまなタスクやデータセットにわたるパフォーマンス、機能、制限を評価するのに役立ちます。一般的な評価戦略は次のとおりです。

自動評価メトリック：これらのメトリックは、人間の介入なしにモデルのパフォーマンスを自動的に評価します。一般的なメトリックは次のとおりです。
- BLEU：n-gramのオーバーラップに基づいて、生成されたテキストと参照テキストの類似性を測定します。
- Rouge：生成された要約と参照要約の間で重複するn-Gramsを比較することにより、テキストの要約を評価します。
- 困惑：言語モデルがテキストのサンプルをどれだけうまく予測するかを測定します。低い困惑は、パフォーマンスの向上を示します。これは、データとモデルの予測との間の交差エントロピーの指数化と同等です。
- F1スコア：テキスト分類や名前付きエンティティ認識などのタスクでの精度とリコールのバランスを測定します。
人間の評価：人間の判断は、生成されたテキストの品質を包括的に評価するために不可欠です。一般的な人間の評価方法は次のとおりです。
- 人間の評価：人間のアノテーターは、流encyさ、一貫性、関連性、文法などの基準に基づいて生成されたテキストをレートします。
- クラウドソーシングプラットフォーム：Amazon Mechanical Turkや図8などのプラットフォームは、クラウドソーシング注釈による大規模な人間の評価を促進します。
- 専門家の評価：ドメインの専門家は、モデルの出力を評価して、特定のアプリケーションまたはタスクに対する適合性を評価します。
ベンチマークデータセット：標準化されたデータセットにより、さまざまなタスクやドメインにわたるモデルの公正な比較が可能になります。例は次のとおりです。
- Triviaqa：読解力のための大規模な遠い監視付きチャレンジデータセット
- Hellaswag：マシンは本当にあなたの文を終えることができますか？
- GSM8K：数学の問題を解決するための検証剤をトレーニングします
- 完全なリストはここにあります
モデル分析ツール：モデルの動作とパフォーマンスを分析するためのツールには以下が含まれます。
- 自動化された解釈可能性 - ニューロンの行動の説明を自動的に生成、シミュレート、スコアリングするためのコード
- LLM視覚化 - LLMSが低レベルで視覚化します。
- 注意分析 - Bert Transformerからの注意マップの分析。
- Neuron Viewer-ニューロンの活性化と説明を見るためのツール。

完全なリストはここにあります

既存のLLMの標準評価フレームワークは次のとおりです。

LM-Evaluation-Harness-言語モデルの少数のショット評価のフレームワーク。
Lighteval -Faceが内部で使用している軽量LLM評価スイート。
Olmo -Eval-オープン言語モデルを評価するためのリポジトリ。
Instruct-Eval-このリポジトリには、Hellow-OutタスクでAlpacaやFlan-T5などの命令チューニングモデルを定量的に評価するコードが含まれています。

長い文脈を扱う

長いコンテキストに対処することは、メモリと処理能力の制限により、大規模な言語モデルに課題をもたらします。既存の手法には次のものがあります。

効率的な変圧器
- Longformer：ロングドキュメントトランス
- 改革者：効率的な変圧器（ICLR 2020）
状態空間モデル
- 変圧器はRNNSです：線形注意を払った高速オートレーフレフな変圧器（ICML 2020）
- パフォーマーとの注意を再考します
長さの外挿
- MAMBA：選択的状態空間を使用した線形時間シーケンスモデリング
- Roformer：回転位置の埋め込みを備えた強化されたトランス
- 糸：大規模な言語モデルの効率的なコンテキストウィンドウ拡張
長期記憶
- MemoryBank：長期的なメモリで大きな言語モデルを強化します
- 自己制御メモリシステムを使用して、大規模な言語モデルの無限の長さの入力容量を解き放つ

完全なリストはここにあります

効率的な微調整

パラメーター効率の高い微調整（PEFT）メソッドは、すべてのモデルのパラメーターではなく、少数の（余分な）モデルパラメーターを微調整することにより、さまざまな下流アプリケーションに大規模な前提型モデルを効率的に適応させることができます。

プロンプトチューニング：パラメーター効率の高いプロンプトチューニングのスケールの力
プレフィックスチューニング：プレフィックスチューニング：生成の連続プロンプトの最適化
LORA：LORA：大規模な言語モデルの低ランク適応
パラメーター効率の高い転送学習の統一ビューに向けて
Loraは学習が少なく、忘れが少なくなります

Huggingface Peft Paper Collectionにはさらに多くの作業があり、Huggingface PEFT APIで練習することを強くお勧めします。

モデルのマージ

モデルのマージとは、異なるタスクでトレーニングされた2つ以上のLLMを単一のLLMに統合することを指します。この手法は、さまざまなモデルの長所と知識を活用して、より堅牢で有能なモデルを作成することを目的としています。たとえば、コード生成用のLLMと数学プロレム解決のための別のLLMをマージすることができ、合併モデルがコード生成と数学の問題解決の両方を実行できるようにすることができます。

モデルのマージは、非常にシンプルで安価なアルゴリズム（モデル重量の線形組み合わせ）で効果的に実現できるため、興味深いです。代表的な論文と読書資料は次のとおりです。

モデルスープ：複数の微調整されたモデルの平均重量は、推論時間を増やすことなく精度を向上させる
タスク算術を使用したモデルの編集
大規模な言語モデルをMergekitとマージします

モデルの合併に関するその他の論文は、こちらをご覧ください

効率的な生成

LLMSのデコードを加速することは、特にリアルタイムまたは潜伏に敏感なアプリケーションで、推論の速度と効率を改善するために重要です。 LLMSのデコードプロセスをスピードアップする代表的な作業を以下に示します。

Deja Vu：推論時間での効率的なLLMの文脈スパース（ICML 2023 Oral）
llmlingua：大規模な言語モデルの加速推論のプロンプトを圧縮する（EMNLP 2023）
注意シンクを備えた効率的なストリーミング言語モデル
SpecInfer：投機的推論とトークンツリーの検証を伴う生成LLMの加速LLM
Medusa：複数のデコードヘッドを備えた簡単なLLM推論アクセラレーションフレームワーク
マルチトークン予測を介して、より良く、より高速な大手言語モデル
レイヤースキップ：早期出口推論と自己識別デコードを有効にします

LLMデコードの加速に関するその他の作業は、リンク1とリンク2を介して見つけることができます。

知識編集

知識の編集は、バイアスの削減や学習した相関の改訂など、LLMSの動作を効率的に変更することを目的としています。知識のローカリゼーションや学習など、多くのトピックが含まれています。代表的な仕事には以下が含まれます。

大規模なメモリベースのモデル編集（ICML 2022）
トランスパッチャー：1つのニューロンに値する1つの間違い（ICLR 2023）
メタ学習による大規模な言語モデルの大規模な編集（ICLR 2024）
モデル編集のための統一されたフレームワーク
トランスフィードフォワードレイヤーはキー価値の記憶です（EMNLP 2021）
トランス内の大量編集メモリ

ここには、その他の論文があります。

LLM駆動エージェント

大規模なトレーニングを受けることにより、LLMSは世界の知識を消化し、入力命令に正確に従うことができます。これらの驚くべき機能により、LLMは複雑なタスクを自律的に（そして協力して）解決したり、人間の相互作用をシミュレートすることができるエージェントとして再生できます。 LLMエージェントの代表的な論文は次のとおりです。

生成エージェント：人間の行動のインタラクティブなシミュレーション（UIST 2023）[LLMSビデオゲームで人間社会をシミュレートする]
ソトピア：言語エージェントにおける社会的知能のインタラクティブ評価（ICLR 2024）[LLMSは社会的相互作用をシミュレートする]
Voyager：大規模な言語モデルを備えたオープンエンドの具体化されたエージェント[LLMSはMinecraftの世界に住んでいます]
ツールメーカーとしての大規模な言語モデル（ICLR 2024）[LLMSは、問題解決のための独自の再利用可能なツール（Python関数など）を作成します]
Metagpt：Multi-Agent Collaborative Frameworkのメタプログラミング[自動化されたソフトウェア開発のチームとしてのLLMS]
WebArena：自律エージェントを構築するための現実的なWeb環境（ICLR 2024）[LLMSはWebアプリケーションを使用します]
モバイルENV：LLM-GUIインタラクションの評価プラットフォームとベンチマーク[LLMはモバイルアプリケーションを使用します]
hugginggpt：hugging faceのchatgptとその友人とのAIタスクを解決する（Neurips2023）[LLMSは、問題解決のためにハグするフェイスでモデルを求めます]
AgentGym：多様な環境を横切る大規模な言語モデルベースのエージェントを進化させる[LLMベースのエージェントのための多様なインタラクティブな環境とタスク]

ここには、論文、プラットフォーム、評価ツールの完全なリストがあります。

調査結果

あなたの変圧器は密かに線形です
すべての言語モデル機能が線形ではありません
KanまたはMLP：より公平な比較
画家としての変圧器層
ビジョン言語モデルは盲目です

オープンな課題

LLMSは、研究者と開発者が積極的に取り組むために取り組んでいるいくつかのオープンな課題に直面しています。これらの課題には次のものがあります。

幻覚
- 大規模な言語モデルにおける幻覚緩和技術の包括的な調査
モデル圧縮
- 言語モデルの圧縮アルゴリズムの包括的な調査
評価
- 大規模な言語モデルの評価：包括的な調査
推論
- 基礎モデルを使用した推論の調査
説明可能性
- 理解から利用まで：大規模な言語モデルの説明可能性に関する調査
公平性
- 大規模な言語モデルの公平性に関する調査
事実
- 大規模な言語モデルにおける事実性に関する調査：知識、検索、ドメイン特異性
知識統合
- 知識と大規模な言語モデルの統合の傾向：方法、ベンチマーク、およびアプリケーションの調査と分類法

完全なリストはここにあります。

拡散モデル

拡散モデルは、特定のデータドメインの確率分布を近似し、近似分布からサンプルを生成する方法を提供することを目指しています。彼らの目標は、VAE、GAN、正規化フローなど、他の一般的な生成モデルに似ています。

拡散モデルのワーキングフローは、2つのプロセスで紹介されています。

フォワードプロセス（拡散プロセス）：データが完全にノイズになるまで、元の入力データにノイズを段階的に段階的に適用します。
逆プロセス（プロセス除去）： NNモデル（例：CNNまたはTranformer）は、フォワードプロセス中に各ステップで適用されているノイズを推定するように訓練されています。このトレーニングされたNNモデルを使用して、ノイズ入力からデータを生成できます。既存の拡散モデルは、データ生成を条件付けるために、他の信号（ユーザーからのテキストプロンプトなど）を受け入れることもできます。

この素晴らしいブログをチェックしてください。詳細なチュートリアルはこちらをご覧ください。拡散モデルを使用して画像、オーディオ、ビデオなどを生成することができ、以下に示すように拡散モデルに関連する多くのサブフィールドがあります。

拡散モデルの分類法

画像生成

画像生成のための拡散モデルの代表的な論文を次に示します。

潜在的拡散モデルを使用した高解像度画像合成（CVPR 2022）
パレット：画像間拡散モデル（Siggraph2022）
イメージの繰り返し洗練による超解像度
拡散拡散確率モデルを使用した開始（CVPR 2022）
テキスト間拡散モデルに条件付きコントロールを追加する（ICCV 2023）

ここには、その他の論文があります。

ビデオ生成

ビデオ生成のための拡散モデルのいくつかの代表的な論文を次に示します。

ビデオ拡散モデル
長いビデオの柔軟な拡散モデリング（Neurips2022）
潜在的なビデオ拡散モデルを大規模なデータセットにスケーリングします
I2VGEN-XL：カスケード拡散モデルを介した高品質の画像間合成

ここには、その他の論文があります。

オーディオ生成

オーディオ生成のための拡散モデルの代表的な論文を以下に示します。

Grad-TTS：テキストからスピーチの拡散確率モデル
命令チューニングLLMおよび潜在的拡散モデルを使用したテキストからオーディオの生成
拡散TTSモデルを形成するためのゼロショット音声調整
編集：制御可能なテキストからスピーチのスコアベースの編集
Prodiff：高品質のテキストからスピーチのためのプログレッシブファスト拡散モデル

ここには、その他の論文があります。

前脱出と微調整

他の大規模な生成モデルと同様に、拡散モデルも大量のWebデータ（Laion-5Bデータセットなど）で前提とされ、大規模なコンピューティングリソースを消費します。ユーザーは、リリースされたウェイトをダウンロードできます。個人データセットでモデルをさらに微調整できます。

拡散モデルの効率的な微調整の代表的な論文を以下に示します。

DreamBooth：対象主導の生成のための微調整テキストから画像間拡散モデル（CVPR 2023）
画像は一言で言えば、テキストの反転を使用したテキストからイメージの生成のパーソナライズ（ICLR 2023）
カスタム拡散：テキスト間拡散のマルチコンセプトカスタマイズ（CVPR 2023）
直交微調ューによるテキスト間拡散の制御（Neurips2023）

ここには、その他の論文があります。

Huggingface Diffusers APIでいくつかの練習をすることを強くお勧めします。

評価

ここでは、画像生成の拡散モデルの評価について説明します。多くの既存の画質メトリックを適用できます。

クリップスコア：クリップスコアは、画像キャプションペアの互換性を測定します。クリップスコアが高いほど、互換性が高いことを意味します。クリップスコアは、人間の判断と高い相関関係があることがわかりました。
FréchetInception Distance（FID）：FIDは、画像の2つのデータセットがどれほど似ているかを測定することを目的としています。 Inceptionネットワークの表現を特徴とするためにフィットする2つのガウスの間のフレシェ距離を計算することによって計算されます
クリップ方向の類似性：2つの画像（クリップ空間）間の変化の一貫性を測定し、2つの画像キャプション間の変化を測定します。

より多くの画質メトリックと計算ツールは、こちらをご覧ください。

効率的な生成

拡散モデルでは、データを生成するために複数のフォワードステップオーバーが必要です。これは高価です。効率的な生成のための拡散モデルの代表的な論文を以下に示します。

スコアベースのモデルでデータを生成するときに速く進まなければなりません
指数積分器を使用した拡散モデルの高速サンプリング
サンプルの品質を区別することにより、拡散モデルの高速サンプラーを学習する
拡散プロセスの早期停止による拡散モデルの加速

ここには、その他の論文があります。

知識編集

拡散モデルの知識編集の代表的な論文を以下に示します。

拡散モデルから概念を消去する（ICCV 2023）
テキスト間拡散モデルの大規模な概念の編集
Me-Notを忘れてください：テキストから画像への拡散モデルで忘れることを学ぶ

ここには、その他の論文があります。

オープンな課題

拡散モデルが直面する課題について話している調査論文をいくつか紹介します。

拡散ベースの画像生成モデルの調査
ビデオ拡散モデルに関する調査
視覚コンピューティングのための拡散モデルに関する最先端
NLPの拡散モデル：調査

大型マルチモーダルモデル（LMMS）

典型的なLMMは、既存の事前に処理されたユニモーダルモデルを接続および微調整することにより構築されます。いくつかもゼロから前もってされています。 [画像ソース]の下の画像でLMMSがどのように進化するかを確認してください。

拡散モデルの分類法

モデルアーキテクチャ

LMMに対処するには、さまざまな方法があります。代表的なアーキテクチャは次のとおりです。

言語モデルは、汎用インターフェイスです
フラミンゴ：少数の学習のための視覚言語モデル（Neurips2022）
ブリップ：統一されたビジョン言語の理解と生成のためのブートストラップ言語イメージ事前トレーニング（ICML 2022）
BLIP-2：フローズン画像エンコーダーと大規模な言語モデルを使用したブートストラップ言語イメージプリトレーニング（ICML 2023）
mplug-owl2：モダリティコラボレーションでマルチモーダルの大手言語モデルに革命をもたらします
Florence-2：さまざまなビジョンタスクの統一された表現を進める
MLLMの密なコネクタ

より多くの論文は、リンク1およびリンク2を介して見つけることができます。

具体化されたエージェントに向けて

LMMとロボットを組み合わせることにより、研究者は、ロボット工学、仮想アシスタント、自律車両などにまたがる潜在的なアプリケーションを使用して、より自然で直感的な方法で世界に行動することができるAIシステムを開発することを目指しています。 LMMSを使用して具体化されたAIを実現する代表的な作業を次に示します。