CodeAssistダウンロード - CodeAssistソースコードのダウンロード

CodeAssist

その他のソースコード

v0.1.0

ダウンロード

??中国語|

CodeasSist：高度なコード完了ツール

導入

CodeasSistは、Python、Java、C ++などに高品質のコード完了をインテリジェントに提供する高度なコード完了ツールです。

CodeasSistは、Python、Java、C ++などのプログラミング言語のコードを完成させる高品質のコード完了ツールです。

特徴

GPTベースのコード完了
Python 、 Java 、 C++ 、 javascriptなどのコード完了
コードの完了をラインとブロックします
独自のデータでモデルをトレーニング（微調整）し、予測します

モデルをリリースします

アーチ	ベースモデル	モデル	モデルサイズ
gpt	GPT2	Shibing624/code-autocomplete-gpt2-base	487MB
gpt	distilgpt2	Shibing624/code-autocomplete-distilgpt2-python	319MB
gpt	BigCode/StarCoder	wizardlm/wizardcoder-15b-v1.0	29GB

デモ

Huggingfaceデモ：https：//huggingface.co/spaces/shibing624/code-autocomplete

バックエンドモデル： shibing624/code-autocomplete-gpt2-base

インストール

pip install torch # conda install pytorch
pip install -U codeassist

または

git clone https://github.com/shibing624/codeassist.git
cd CodeAssist
python setup.py install

使用法

ウィザードコダーモデル

WizardCoder-15Bは、ALPACAコードデータを備えた微調整されたbigcode/starcoderです。次のコードを使用してコードを生成できます。

例：例/wizardcoder_demo.py

 import sys

sys . path . append ( '..' )
from codeassist import WizardCoder

m = WizardCoder ( "WizardLM/WizardCoder-15B-V1.0" )
print ( m . generate ( 'def load_csv_file(file_path):' )[ 0 ])

出力：

 import csv

def load_csv_file ( file_path ):
    """
    Load data from a CSV file and return a list of dictionaries.
    """
    # Open the file in read mode
    with open ( file_path , 'r' ) as file :
        # Create a CSV reader object
        csv_reader = csv . DictReader ( file )
        # Initialize an empty list to store the data
        data = []
        # Iterate over each row of data
        for row in csv_reader :
            # Append the row of data to the list
            data . append ( row )
    # Return the list of data
    return data

モデル出力は印象的に効果的であり、現在英語と中国語の入力をサポートしており、必要に応じて手順またはコードプレフィックスを入力できます。

Distilgpt2モデル

Distilgpt2微調整コードオートコンプリートモデル、次のコードを使用できます。

例：例/distilgpt2_demo.py

 import sys

sys . path . append ( '..' )
from codeassist import GPT2Coder

m = GPT2Coder ( "shibing624/code-autocomplete-distilgpt2-python" )
print ( m . generate ( 'import torch.nn as' )[ 0 ])

出力：

import torch.nn as nn
import torch.nn.functional as F

Huggingface/Transformersで使用：

例：例/use_transformers_gpt2.py

列車モデル

トレーニングウィザードコダーモデル

例：Examples/Training_WizardCoder_MyData.py

 cd examples
CUDA_VISIBLE_DEVICES=0,1 python training_wizardcoder_mydata.py --do_train --do_predict --num_epochs 1 --output_dir outputs-wizard --model_name WizardLM/WizardCoder-15B-V1.0

GPUメモリ：31GB
Finetuneニーズ2*V100（32GB）
推論には1*V100（32GB）

Distilgpt2モデルを訓練します

例：Examples/Training_gpt2_mydata.py

 cd examples
python training_gpt2_mydata.py --do_train --do_predict --num_epochs 15 --output_dir outputs-gpt2 --model_name gpt2

PS：微調整された結果モデルはGPT2-Python：Shibing624/code-autocomplete-gpt2-baseです。V100で約24時間を費やして微調整しました。

サーバ

FASTAPIサーバーを開始します：

例：例/server.py

 cd examples
python server.py

オープンURL：http：//0.0.0.0:8001/docs

API

データセット

これにより、データセットの構築をカスタマイズできます。

Awesome-Pytorch-ListのPythonコードを使用しましょう

モデルが一般的なレベルで自動コンプリートコードを支援することを望んでいます。
このプロジェクトのこのコードはよく書かれています（高品質のコード）。

データセットツリー：

examples/download/python
├── train.txt
└── valid.txt
└── test.txt

データセットを構築するには3つの方法があります。

Huggingface/Datasetsライブラリを使用するデータセットHuggingface Datasets https://huggingface.co/datasets/shibing624/source_codeをロードする

 from datasets import load_dataset
dataset = load_dataset ( "shibing624/source_code" , "python" ) # python or java or cpp
print ( dataset )
print ( dataset [ 'test' ][ 0 : 10 ])

出力：

DatasetDict({
    train: Dataset({
        features: [ ' text ' ],
        num_rows: 5215412
    })
    validation: Dataset({
        features: [ ' text ' ],
        num_rows: 10000
    })
    test: Dataset({
        features: [ ' text ' ],
        num_rows: 10000
    })
})
{ ' text ' : [
"            {'max_epochs': [1, 2]},n " , 
'            refit=False,n ' , '            cv=3,n ' , 
"            scoring='roc_auc',n " , '        )n ' , 
'        search.fit(*data)n ' , 
' ' , 
'    def test_module_output_not_1d(self, net_cls, data):n ' , 
'        from skorch.toy import make_classifiern ' , 
'        module = make_classifier(n '
]}

クラウドからデータセットをダウンロードします

名前	ソース	ダウンロード	サイズ
Python+Java+CPPソースコード	Awesome-Pytorch-List（522万行）	github_source_code.zip	105m

データセットをダウンロードして解凍し、 examples/を掲載します。

ゼロからソースコードを取得し、データセットを作成します

prepare_code_data.py

 cd examples
python prepare_code_data.py --num_repos 260

接触

問題（提案）：
私にメールしてください：xuming：[email protected]
Wechat Me：Me Wechat IDを追加：Xuming624、注：個人名-Company -NLP To NLP Exchange Group。

引用

研究でCodeasSistを使用している場合は、次の形式で引用してください。

APA：

Xu, M. codeassist: Code AutoComplete with GPT model (Version 1.0.0) [Computer software]. https://github.com/shibing624/codeassist

bibtex：

@software{Xu_codeassist,
author = {Ming Xu},
title = {CodeAssist: Code AutoComplete with Generation model},
url = {https://github.com/shibing624/codeassist},
version = {1.0.0}
}

ライセンス

このリポジトリは、Apacheライセンス2.0に基づいてライセンスされています。

Attribution-NonCommercial 4.0 Internationalに従って、WizardCoderモデルを使用してください。

貢献する

プロジェクトコードはまだ非常にラフです。

testsに対応する単体テストを追加します
python setup.py testを使用してすべてのユニットテストを実行して、すべての単一テストが渡されるようにします

後でPRを送信できます。

参照

GPT-2-シンプル
Galois-autocompleteter
wizardlm/wizardcoder-15b-v1.0

拡大する

追加情報

バージョン v0.1.0
タイプその他のソースコード
更新時間 2025-03-06
サイズ 741.3KB
から Github

CodeAssist

CodeasSist：高度なコード完了ツール

導入

特徴

モデルをリリースします

デモ

インストール

使用法

ウィザードコダーモデル

Distilgpt2モデル

Huggingface/Transformersで使用：

列車モデル

トレーニングウィザードコダーモデル

Distilgpt2モデルを訓練します

サーバ

データセット

接触

引用

ライセンス

貢献する

参照

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express