GPT-3少数の学習でreadme.mdを生成します
既にme-ai-researchは、任意のリポジトリでソースコードからREADME.mdを生成するためのコアプロジェクトです。 AIモデルは、ソースコードの一部を読み取り、対応するREADME.mdドキュメントを書き込みます。既にMe.mdチームはこの機能に関するサービスを提供しており、このページで結果を見つけることができます。
このリポジトリにはいくつかのサブプロジェクトが含まれています。ディレクトリで詳細な説明を見ることができます。
GPT-3のような大規模なモデルが示しているように、少ないショット学習は、一般化された言語モデルを構築するための最も重要な鍵です。彼らは、以前のプロンプトと少数のショットの例に従って、何を書く必要があるかを理解することができます。この機能を使用すると、微調整なしでほとんど何でもできます。彼らはニュースを要約したり、質問に答えたり、会話をすることもできます!
Openai Codexは、GPT-3を微調整することにより、言語をプログラミングするための新しい大規模なランゲージモデルを導入しました。これで、プログラミング言語で一般化されたパフォーマンス(少数のショット学習)が期待できます。たとえば、ソースコードからドキュストリングを作成し、説明から新しいコードを記述し(これがCopilotの仕組みです)、PythonからJavaに翻訳します。
大規模な言語モデルのオープンサイエンスとオープンアクセス用のブルームを使用しています。 Bloomは、自然言語だけでなく、プログラミング言語でもある多言語をサポートしています。プロンプトテンプレートを設計し、それらの最高のバージョンを見つけました。
&&&&&&
$ head -n 30 model-finetuning/src/data.py
from __future__ import annotations
from dataclasses import dataclass
import torch
[...]
&&&&&&
$ head -n 37 model-finetuning/src/train.py
from __future__ import annotations
import argparse
import os
[...]
&&&&&&
$ git config --get remote.origin.url
https://github.com/readme-generator/alreadyme-ai-research.git
&&&&&&
$ cat README.md
[...]
すべての例は、 &&&&&&によって分離されます。 Linux Bashコマンドを実行(またはシミュレート)するためにBloomを作成するように設計しました。 Bloomは、指定されたプロンプトからソースコードの一部を読み取り、適切なREADME.mdファイルを生成します。
詳細については、モデル獲得サブプロジェクトをご覧ください。
既にMe-Ai-ResearchはApacheライセンス2.0の下でリリースされます。ライセンスはこちらにあります。
@misc { https://doi.org/10.48550/arxiv.2005.14165 ,
title = { Language Models are Few-Shot Learners } ,
author = { Brown, Tom B. and Mann, Benjamin and Ryder, Nick and Subbiah, Melanie and Kaplan, Jared and Dhariwal, Prafulla and Neelakantan, Arvind and Shyam, Pranav and Sastry, Girish and Askell, Amanda and Agarwal, Sandhini and Herbert-Voss, Ariel and Krueger, Gretchen and Henighan, Tom and Child, Rewon and Ramesh, Aditya and Ziegler, Daniel M. and Wu, Jeffrey and Winter, Clemens and Hesse, Christopher and Chen, Mark and Sigler, Eric and Litwin, Mateusz and Gray, Scott and Chess, Benjamin and Clark, Jack and Berner, Christopher and McCandlish, Sam and Radford, Alec and Sutskever, Ilya and Amodei, Dario } ,
year = 2020 ,
publisher = { arXiv } ,
doi = { 10.48550/ARXIV.2005.14165 } ,
url = { https://arxiv.org/abs/2005.14165 } ,
copyright = { arXiv.org perpetual, non-exclusive license } ,
keywords = { Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences }
} @misc { https://doi.org/10.48550/arxiv.2107.03374 ,
title = { Evaluating Large Language Models Trained on Code } ,
author = {Chen, Mark and Tworek, Jerry and Jun, Heewoo and Yuan, Qiming and Pinto, Henrique Ponde de Oliveira and Kaplan, Jared and Edwards, Harri and Burda, Yuri and Joseph, Nicholas and Brockman, Greg and Ray, Alex and Puri, Raul and Krueger, Gretchen and Petrov, Michael and Khlaaf, Heidy and Sastry, Girish and Mishkin, Pamela and Chan, Brooke and Gray, Scott and Ryder, Nick and Pavlov, Mikhail and Power, Alethea and Kaiser, Lukasz and Bavarian, Mohammad and Winter, Clemens and Tillet, Philippe and Such, Felipe Petroski and Cummings, Dave and Plappert, Matthias and Chantzis, Fotios and Barnes, Elizabeth and Herbert-Voss, Ariel and Guss, William Hebgen and Nichol, Alex and Paino, Alex and Tezak, Nikolas and Tang, Jie and Babuschkin, Igor and Balaji, Suchir and Jain, Shantanu and Saunders, William and Hesse, Christopher and Carr, Andrew N. and Leike, Jan and Achiam, Josh and Misra, Vedant and Morikawa, Evan and Radford, Alec and Knight, Matthew and Brundage, Miles and Murati, Mira and Mayer, Katie and Welinder, Peter and McGrew, Bob and Amodei, Dario and McCandlish, Sam and Sutskever, Ilya and Zaremba, Wojciech},
year = 2021 ,
publisher = { arXiv } ,
doi = { 10.48550/ARXIV.2107.03374 } ,
url = { https://arxiv.org/abs/2107.03374 } ,
copyright = { arXiv.org perpetual, non-exclusive license } ,
keywords = { Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences }
} @misc { https://doi.org/10.48550/arxiv.2106.09685 ,
title = { LoRA: Low-Rank Adaptation of Large Language Models } ,
author = { Hu, Edward J. and Shen, Yelong and Wallis, Phillip and Allen-Zhu, Zeyuan and Li, Yuanzhi and Wang, Shean and Wang, Lu and Chen, Weizhu } ,
year = 2021 ,
publisher = { arXiv } ,
doi = { 10.48550/ARXIV.2106.09685 } ,
url = { https://arxiv.org/abs/2106.09685 } ,
copyright = { arXiv.org perpetual, non-exclusive license } ,
keywords = { Computation and Language (cs.CL), Artificial Intelligence (cs.AI), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences }
} @misc { bigscience_2022 ,
title = { Bigscience large open-science openaccess multilingual language model. } ,
author = { BigScience } ,
year = 2022 ,
journal = { bigscience/bloom · Hugging Face } ,
url = { https://huggingface.co/bigscience/bloom }
}