godot dodoダウンロード-Godot godot dodoソースコードのダウンロード

godot dodo

その他のソースコード

1.0.0

ダウンロード

godot-dodo

Midjourney V5が想像したGodot-Dodoロゴ

Godot-Dodoプロジェクトは、Githubから取得された人間が作成した言語固有のコードに関するパイプラインからオープンソース言語モデルを微調整することを提示します。

この場合、ターゲット言語はGDScriptですが、同じ方法論を他の言語に適用できます。

このリポジトリには次のものが含まれています。

Finetuningデータセットを組み立てるスクリプト
事前に組み立てられた生データセット（60k行のサイズまで）
モデルを微調整するスクリプト
モデルの重みへのリンク
Finetunedモデルを比較するパフォーマンスレポート

パフォーマンス

使用された方法論を説明する包括的な結果とすべての結果の完全なリストについては、こちらの完全なパフォーマンスレポートを参照してください。

要約すると、 godot_dodoモデルは、正確なGDScriptの構文を生成することに関して、 gpt-4 / gpt-3.5-turboよりも大幅に大きな一貫性を達成し、コード固有のベースモデルでトレーニングされたバリアントは、複雑な命令でそれらを上回ることさえできます。

このアプローチの主要な残りの弱点は、方法を作成する際の適切な冗長性の損失です。人間が作成したサンプルには、サンプルメソッドの範囲外で初期化されたオブジェクトへの参照が含まれることが多いため、モデルは同じことを行うことを学び、命令に関連する機能がすでに実装されていると想定される場合になります。これは、より洗練されたデータセットによって大幅に改善される可能性が高いです。

コンセプト

どうやって？

Stanford-AlpacaなどのFinetuningモデルに対する他の同様のアプローチとは異なり、このアプローチでは、Finetuning-Datasetの出力値に既存の大きな言語モデルを使用しません。使用されるすべてのコードは人間が作成しています。代わりに、言語モデルは各コードスニペットにラベルを付けるためにのみ使用されます。

そのため、 comment:codeデータペア。強力な既存のモデルを利用して、高品質の人間が作成したコードに注釈を付けます。

なぜ？

gpt-4などの一部の既存の言語モデルは優れたコーダーです。ただし、その能力の多くは、PythonやJavaScriptなどの最も人気のある言語のみに集中しています。

あまり広く使用されていない言語は、トレーニングデータで過小評価されており、モデルが存在しない構文や幻覚言語の機能を日常的に間違えるという大規模なパフォーマンスのドロップオフを経験します。

これは、最初のトライでコンパイルするコードを確実に生成するために使用できる、はるかに堅牢な言語固有のモデルを提供することを目的としています。

デモ

事前に訓練されたモデルを試すには、Inference_demo.ipynbノートブックを使用できます。

Google Colabでそのノートブックを使用するには、このリンクに従ってください。

データセット生成

このアプローチが人間が作成したデータに依存しているため、GitHub検索APIを使用してGitHubリポジトリをスクレイします。

language:gdscript検索用語では、GDScriptコードを含むリポジトリのリストを取得します。

また、 license:mitを使用して、データセットを適切なリポジトリに制限します。トレーニングにはMITライセンスコードのみが使用されます！

次に、それぞれをクローンして、次のロジックを適用します。

project.godotファイルを見つけます
3.xまたは4.x Godotエンジンバージョン用にプロジェクトが作成されているかどうかを検出します
リポジトリにあるすべての.gdファイルを繰り返します
それぞれについて、ファイルを個々の関数に分割します
見つかった各関数について、機能の目的を説明する詳細なコメントを求めて、既存のLLM（ gpt-3.5-turbo ）に尋ねます
instruction:responseデータペア

コードブロックの上にある既存の人間が作成したコメントは、 instruction値には使用されていないことに注意してください。私たちは、潜在的に高品質の人間が書いたものを維持しようとするのではなく、コメントの一貫した詳細に興味があります。

ただし、コードブロック内の人間のコメントは保持されています。

走る

自分でデータセットを組み立てるには、次の手順に従ってください。

python data/generate_unlabeled_dataset.pyを実行します
python data/label_dataset.pyを実行します

これらのスクリプトを使用するには、GitHubとOpenai APIキーが必要であることに注意してください。

事前に組み立てられたデータセット

このリポジトリに含まれる事前に組み立てられたデータセット：

godot_dodo_4x_60k
- 4.x Godotプロジェクトを使用して組み立てられました - 〜60k行

将来、さらにデータセットが追加される可能性があります（特に3.xデータに関して）

微調整

微調整プロセスは、Stanford_alpacaによって導入されたプロセスを密接に反映しています。

ラマの微調整バージョンを再現するには、以下の手順に従ってください。

ハードウェア要件

llama-7bまたはllama-13bモデルを効果的に微調整するには、少なくとも2つのA100 80GB GPUを使用することを強くお勧めします。それ以外の場合は、メモリエラーから遭遇したり、非常に長いトレーニング時間を経験したりする可能性があり、トレーニングパラメーターを調整する必要があります。

Finetuning godot_dodo_4x_60k_llama_13bには、8つのA100 80GB GPUが使用されました。

もう1つの重要な考慮事項は、GPU通信に使用されるプロトコルです。 PCIeではなくNVLinkセットアップを使用することをお勧めします。

PCIeセットアップのみにアクセスできる場合は、 torchrunコマンドのshard_grad_opにfull-shardを置き換えてください。これにより、メモリの使用量が高い可能性があるため、トレーニングの実行が大幅に高速化される場合があります。

設定

Finetuningの前に、以下を使用してすべての要件をインストールしてください。

pip install -r requirements.txt

走る

微調整モデルに使用される正確なコマンドについては、個々のモデルページを参照してください。

モデル/godot_dodo_4x_60k_llama_7b
モデル/godot_dodo_4x_60k_llama_13b

推論

Finetunedモデルをテストするには、 eval.pyスクリプトを使用できます。単純に実行：

python finetune/eval.py --model_name_or_path PATH_TO_FINETUNED_MODEL/

Huggingfaceへの公開

FINETUNEDモデルをハグFaceに簡単にアップロードするには、以下を使用できます。

python finetune/push_to_hub.py --model_name_or_path PATH_TO_FINETUNED_MODEL/ --push_name HF_MODEL_NAME --auth_token HF_ACCESS_TOKEN

Finetunedモデルの重み

Huggingfaceでホストされているモデル重量へのリンクは、それぞれのモデルページで提供されています。

モデル/godot_dodo_4x_60k_llama_7b
モデル/godot_dodo_4x_60k_llama_13b

料金

利用可能な各データセットを組み立て、各モデルを獲得するドルコストの下。

データセット

godot_dodo_4x_60k
- 30$ （ gpt-3.5-turbo APIコスト）

Finetunedモデル

モデル/godot_dodo_4x_60k_llama_7b
- 24$ （8x A100 80GBインスタンスコスト）
モデル/godot_dodo_4x_60k_llama_13b
- 84$ （8x A100 80GBインスタンスコスト）

Godot-Copilotで使用します

編集者のためのGodot-Copilotを使用したFinetunedモデルの使用、完全にローカルコード生成が将来サポートされる場合があります。

謝辞

すべてのMITライセンスのGodotプロジェクトに感謝します！これはあなたなしでは不可能です。

含まれているFinetuningデータのアセンブリ中に削られたすべてのプロジェクトは、データのそれぞれのデータセットフォルダーにリストされています。

これらのモデルを微調整するために使用された信頼できる安価なGPUインスタンスについて、fluidstack.ioに感謝します。

引用

このプロジェクトを引用したい場合は、以下を使用してください。

 @misc{godot-dodo,
  author = {Markus Sobkowski},
  title = {Godot-Dodo: Finetuned language models for GDScript generation},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/minosvasilias/godot-dodo}},
}

また、オリジナルのLlama PaperとStanford-Alpacaを引用する必要があります。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-02-27
サイズ 8.05MB
から Github

godot dodo

godot-dodo

パフォーマンス

コンセプト

どうやって？

なぜ？

デモ

データセット生成

走る

事前に組み立てられたデータセット

微調整

ハードウェア要件

設定

走る

推論

Huggingfaceへの公開

Finetunedモデルの重み

料金

データセット

Finetunedモデル

Godot-Copilotで使用します

謝辞

引用

GitHub sgrebnov/cordova plugin background download

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

DoDoプラネットアプリ

ドードー

ドーナツドードー

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf