language_modeling_via_stochastic_processes下載language_modeling_via_stochastic_processes源代碼下載

中文(繁体)

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

首頁>編程相關>Ai源碼

language_modeling_via_stochastic_processes

Ai源碼

1.0.0

下載

通過隨機過程進行語言建模

[紙] [開放評論] [長視頻]

ICLR口服2022

Rose E Wang，Esin Durmus，Noah Goodman，Tatsunori Hashimoto

介紹

摘要：現代語言模型可以生成高質量的短文。但是，它們在生成更長的文本時通常蜿蜒曲折或不連貫。這些問題是由下一步的語言建模目標引起的。自學學習的最新工作表明，模型可以通過對比度學習學習良好的潛在表示，這對於歧視性任務可能是有效的。我們的工作分析了對比表示在生成任務（如長文本生成）中的應用。我們提出了一種利用約束表示的方法，我們稱之為時間控制（TC）。 TC首先了解目標文本域的對比表示，然後通過解碼這些表示形式生成文本。與各種文本域中的特定於域特異性方法和微調GPT2相比，TC競爭性地針對有關話語相干性學習句子表示的特定方法。在長期文本生成設置上，TC在訂購方面保留文本結構（增強 +15％）和文本長度一致性（高達 +90％更好）。

內容：

安裝
數據集
編碼器
解碼器
一代
分析

安裝

按照setup.sh中的命令遵循
確保您處於虛擬環境中： conda activate language_modeling_via_stochastic_processes
安裝解碼器的版本的變形金剛庫：

 cd decoder # enter the decoder repo
pip install -e . # Installing transformers locally; I modified their GPT2 module to take in our learned embeddings for decoding.

確保您有一個WandB帳戶！

數據集

此存儲庫包含除兩個數據集（Wikihow和配方NLG）以外的所有數據集。說明如下。

其他四個數據集已經在此存儲庫中。

維基霍

Wikihow數據集需要從此鏈接下載。這是一個PKL文件，應作為path/2/repo/data/wikihow/wiki_how_data.pkl下達。

Wikisection

本文中使用的Wikisection數據集已經包含。

它來自先前的工作 - 特別是我們使用了英國城市Wikipedia文章。

食譜NLG

需要下載配方NLG數據集。下載食譜NLG數據集，並將數據放在encoder/data/recipe_nlg下。

TM2

本文中使用的TM2數據集已包含。它來自TM2餐廳搜索數據集。

tickettalk

本文中使用的tickettalk數據集已包含。
可以找到作為tickettalk數據集（所有JSON文件）。

編碼器

在運行實驗之前， cd encoder/code; source init_env.sh

在encoder/code/scripts/run_ou.py中，將變量名稱ckpt_dir設置為您的檢查點目錄。

可以在encoder/code/scripts/train_encoders.sh上找到訓練編碼器（TC，VAE，Brownian，Infonce）的腳本。

編碼器實驗

在運行實驗之前， cd encoder/code; source init_env.sh

在encoder/code/scripts/run_discourse.py和encoder/code/src/systems/discourse_system.py中，將正確的路徑設置為數據目錄和repo。

可以在encoder/code/scripts/discourse.sh上找到用於運行話語連貫實驗的腳本。

解碼器

為了培訓解碼器，您需要使用目錄decoder/examples/pytorch/language-modeling/ 。

訓練腳本可以在decoder/examples/pytorch/language-modeling/train_encoders.sh找到解碼器。確保更改path2repo變量。

您需要在run_time_clm.py中適當地將目錄更改為數據目錄

一代

對於decoder/transformers/examples/pytorch/text-generation/ 。

可以在decoder/transformers/examples/pytorch/text-generation/toy_wikisection_generation.sh找到用於生成文本和測量每節不匹配的文本和測量不匹配的腳本。

可以在decoder/transformers/examples/pytorch/text-generation/long_generation.sh中找到用於生成長文本的腳本。

分析

要收集所有指標，請查看analysis/run_analysis.sh 。您可以通過source analysis/run_analysis.sh運行所有評估。

請記住，將WANDB用戶名和項目名稱更改為您在編碼器和解碼器實驗中列出的內容。

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2025-09-07
大小 109.1MB
來自於 Github

相關應用

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
狗_狐狸_兔子

2022-08-01
麗華資料分析引擎免費版3.0_搜尋_導航_採集_輿情_排行_api

2022-06-28

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部