decryptprompt
LLMの突然の到着がイライラすると感じる場合、ホームディレクトリで落ち込んだAIアカデミックの武器サバイバル戦略を選択することもできます。更新を維持するスター〜
LLMリソースの概要
- オープンソースモデルとレビューリスト
- オープンソースの推論、微調整、エージェント、ぼろ、プロップフレームワーク
- オープンソースSFT、RLHF、プレレインデータセット
- AIGCのさまざまな分野でのアプリケーションの概要
- 迅速なチュートリアル、クラシックブログ、AIカンファレンスインタビュー
あなたのブログで論文を読んでください
- プロンプトシリーズ1を復号化します。
- プロンプトシリーズ2を復号化します。フリーズプロンプトファインチューニングLM:T5&PET&LM-BFF
- プロンプトシリーズ3を復号化します。フリーズLM微調整プロンプト:プレフィックスチューニング&プロンプトチューニング&P調整
- プロンプトシリーズ4を復号化します。アップグレード命令チューニング:flan/t0/instructgpt/tkinstruct
- PROPTシリーズ5の復号化5。APE+Self =自動化された命令セット建設コードの実装
- プロンプトシリーズ6を復号化します。LORAコマンド微調整ボタンの詳細 - 落ち着いてください、1時間は本当に十分ではありません〜
- 復号化プロンプトシリーズ7。優先アライメントRLHF-Openai・DeepMind・人類の比較分析
- プロンプトシリーズ8を復号化します。LLMが超長い入力をサポートできるようにするためにトレーニングは必要ありません:知識ベース&Unlimiformer&PCW&nbce
- プロンプトシリーズ9を復号化するCOT:モデルの複雑な推論基底思考チェーンと高度な再生
- プロンプトシリーズ10を復号化する。ベッドコット:シンシングチェーンコットの原則の探索
- プロンプトシリーズ11を復号化します。コット:小さなモデルもベビーベッドを使用でき、生来の欠乏は出生後に補完されます
- プロンプトシリーズ12。LLMエージェントゼロファインチューニングパラダイム反応&セルフアスクを復号化する
- プロンプトシリーズ13。LLMエージェント命令微調整ソリューション:Toolformer&Gorillaを復号化する
- プロンプトシリーズ14。LLMエージェントの検索アプリケーションデザイン:WebGPT&WebGlm&WebCPMを復号化する
- プロンプトシリーズ15。LLMエージェントのデータベースアプリケーションデザイン:DIN&C3&SQL-PALM&BIRD
- プロンプトシリーズ16を復号化します。LLMアライメントエクスペリエンスのデータが少ないほど良いですか? Ltd&Lima&Alpagasus
- プロンプトシリーズ17。LLMアライメントソリューションを復号化し、WizardLM&Back Translation&Self Alignをアップグレードします
- プロンプトシリーズ18。LLMエージェントの世界の唯一のエージェントを復号化する
- プロンプトシリーズ19。LLMエージェントのデータ分析の分野でのアプリケーション:Data-Copilot&InsightPilot
- プロンプトシリーズ20を復号化する。
- プロンプトシリーズ21。Ragのリコール情報密度と品質に関するRagのリトーク
- 復号化プロンプトシリーズ22。Ragの反射:圧縮またはインテリジェンスをあきらめましたか?
- プロンプトシリーズ23を復号化します。大きなモデルの幻覚分類と帰属と検出&緩和ソリューションの脳図を完全に図
- Proptシリーズの復号24。新しいRLHFソリューションのトレーニング戦略:SLIC-HF&DPO&RRHF&RSO
- Proptシリーズ25を復号化します。RLHF改善スキームのサンプルラベル:RLAIF&SALMON
- プロンプトシリーズ26の復号化。人間の思考vsモデル思考:抽象的で異なる思考
- PROPTシリーズ27の復号化。LLMアライメントエクスペリエンスの一般的な能力損失を減らす方法
- プロンプトシリーズ28。LLMエージェントの金融エージェント:Finmem&Finagentを復号化する
- プロンプトシリーズ29。LLMエージェントの大規模な現実世界のAPIソリューション:Toolllm&Anytool
- プロンプトシリーズ30。LLMエージェントのインターネットサーフィンエージェントを復号化する
- 復号化プロンプトシリーズ31。LLMエージェントの敏ility性に関する継続的な学習
- プロンプトシリーズ32。LLMのテーブル理解タスク - テキストモーダル
- プロンプトシリーズ33。LLMのチャート理解タスク - マルチモーダルの章
- Proptシリーズ34を復号化します。RLHFトレーニングは別のアプローチを取ります:ステップごとに&Beyond
- Proptシリーズ35を復号化します。プロンプト標準化が進行中です! dspy紙串とコードの例
- プロンプトシリーズ36を復号化します。
- プロンプトシリーズ37の復号化
- プロンプトシリーズ38の復号化。マルチエージェントルーティングポリシー
- PROPTシリーズ39を復号化します。RAGは、LLMの助けを借りて細かいスケジュールプロセスを最適化します
- PROPTシリーズ40。LLM推論スケーリング法の復号化
- Proptシリーズ41を復号化します。GraphRagは本当に銀の弾丸ですか?
- PROPTシリーズ42の復号化42。LLMの動的な複雑な思考チェーンへの道
- Proptシリーズ43。LLM自己批評家を復号化します
- Proptシリーズ44。RAG探査モードを復号化しますか?ディープ思考モード?
- プロンプトシリーズ45を復号化します。LLMスケーラブルな監視を探索します - ディベートとゲームの方が良いです
- Proptシリーズ46。LLM構造化出力コードの例と原則分析の復号化
- Proptシリーズ47を復号化します。O1長い思考のいくつかの特徴分析
論文の概要
ペーパーリスト
- https://github.com/dongguanting/in-context-learning_paperlist
- https://github.com/thunlp/promptpapers
- https://github.com/timothyxxx/chain-of-thoughtspapers
- https://github.com/thunlp/toolearningpapers
- https://github.com/mlgroupjlu/llm-eval-survey
- https://github.com/thu-coai/paperforonlg
- https://github.com/khuangaf/awesome-chart-understanding
思考のチェーン(prompt_chain_of_thought)
- 基本的および高度な使用法
- 【Zero-Shot-Cot】大規模な言語モデルはゼロショットの推論です
- 【数個のショットコット
- 【自己整合性ranugance言語モデルの一連の思考推論を改善します
- ollight少なくとも、大規模な言語モデルで複雑な推論を可能にします
- 【Tot】思考の木:大規模な言語モデルでの慎重な問題解決
- plan-and-solve】プロンプト:大規模な言語モデルによるゼロショットチェーンの推論の改善
- berify-and-edit】:知識が強化されたチェーンオブサブフレームワーク
- wath orは、大規模な言語モデルで、考え方のある効果的なグラフの推論を超えています
- 【tomt】ミクシードの樹木:マルチホップの視覚的推論のための高速とゆっくりした思考の組み合わせ
- 【ランバダ:自然言語での自動化された推論のための後方チェーン
- 【aot】アルゴリズムのアルゴリズム:大規模な言語モデルでのアイデアの探求の強化
- 【】inthonessのグラフを取得しました:大規模な言語モデルで精巧な問題を解決する
- php】進歩的なヒントプロンプトは、大規模な言語モデルの推論を改善します
- htt】大規模な言語モデルはルールを学ぶことができます
- 【ディビジョンの思考の多様性は、大きな言語モデルの推論能力を向上させる
- cogtree複合体からシンプルまで:小さな言語モデルで推論するために認知ツリーを解き放つ
- 【ステップバック
- oproオプティマイザーとしての大規模な言語モデル
- 【ボット】思考のバッファー:大規模な言語モデルを使用した思考能力の推論
- 抽象化は、言語モデルをより良い推論者にします
- symbcot】象徴的なチェーンを介した忠実な論理的推論
- 【xot
- 【IoT思考の反復:自律的な大手言語モデルの推論のための内なる対話を活用する
- dot思考の図の上に
- rot rot】思考の逆転:優先誘導逆推論のウォームアップで大規模な言語モデルを強化します。
- 前後に考える:大規模な言語モデルを使用した効果的な後方計画
- 【KR】Kレベルの推論:戦略的推論のために大規模な言語モデルで高次の信念を確立する
- 【自己発見】自己発見:大規模な言語モデル自己構成の推論構造
- 【理論の理論】理論を持つ大規模な言語モデルからの大規模な言語モデルはどれくらい離れていますか?
- pc-subq
- 逆の思考により、LLMSは推論を強くします
- 非伝統的なCOTの問題を解決するための方向
- 分解された複雑なタスクを解決するためのモジュラーアプローチを促しました
- 複雑な質問の分解のための連続したプロンプト
- cot [数学、コード、表形式、QA]
- 言語モデルの定量的推論の問題を解決します
- あなたの作品を示す:言語モデルを使用した中間計算用のスクラッチパッド
- プロセスと結果ベースのフィードバックで数学の単語の問題を解決します
- Coderl:冒険モデルと深い補強学習を通じてコード生成をマスターする
- T-SCIQ:科学の質問に応答するための大規模な言語モデルシグナルを介して、マルチモーダルのチェーンオブ考えの推論を教える
- パフォーマンスを改善するコード編集を学習します
- コードのチェーン:言語モデルの高級コードエミュレーターを使用した推論
- 原則分析
- 思考の連鎖は、トランスが本質的にシリアルの問題を解決できるようにする
- 考え方の促しを理解することに向けて:重要なことの経験的研究
- テキストとパターン:効果的な思考の連鎖には、タンゴに2つかかります
- 思考の連鎖の背後にある謎を明らかにすることに向けて:理論的に視点
- 大規模な言語モデルは、無関係なコンテキストによって簡単に気を散らすことができます
- プロンプトなしのチェーンの推論
- 帰納的または演ductive? LLMの基本的な推論能力を再考する
- チェーンを超えて:LLMSのチェーンオブXパラダイムの調査
- COTにかかっていないか?考え方の連鎖は、主に数学と象徴的な推論に役立ちます
- なぜ段階的に考えるのですか?推論は、経験の地域から生まれます
- 大規模な言語モデルにおける内部一貫性とセルフフィードバック:調査
- 反復ヘッド:考え方の機構的研究
- 大きな言語モデルに対する推論ステップ長の影響
- 大規模な言語モデルは、ショートカットを悪用することなく潜在的なマルチホップ推論を実行しますか?
- 圧縮された思考チェーン:密な表現による効率的な推論
- LLMSは、暗黙の推論で本当に段階的に考えていますか?
- 小型モデルのベッド蒸留
- 多段階の推論に向けて小言語モデルを専門とする
- 推論するために小さな言語モデルを教える
- 大規模な言語モデルは教師を推論しています
- 推論機能を小規模な言語モデルに蒸留します
- COTコレクション:ゼロショットと少数のショット学習の改善された微調整による言語モデルの学習
- システム2をシステム1に蒸留します
- COTサンプルの自動構造/選択
- オートコット:大規模な言語モデルでプロンプトを促す自動思考チェーン
- 大規模な言語モデルについては、考え方をチェーンでアクティブなプロンプトにします
- マルチステップ推論のための複雑さベースのプロンプト
- コット能力学習
- 大規模な言語モデルは自己改善できます
- 潜在的な変数の推論を介した訓練チェーン
- 静かな星:言語モデルは、話す前に考えるように自分自身を教えることができます
- スター:独学の推論者ブートストラップの推論と推論
- V-STAR:独学の推論者のためのトレーニング検証剤
- あなたが話す前に考えてください:一時停止トークンで言語モデルをトレーニングする
- 自主的な合成対話と改訂技術レポート
- その他
- LLMSに人間のような問題解決能力を強化するOlagpt
- 挑戦に挑戦する大手タスクと、チェーンの考え方がそれらを解決できるかどうか
- 大規模な言語モデルは、自己検証を伴うより良い推論です
- 大規模な言語モデルの推論データのための中央ハブを思考
- LLMSのマルチステップ推論における自己整合性の2つの失敗
rlhf
- deepmind
- 検証済みの引用で回答をサポートするための言語モデルを教える
- Sparrow、ターゲットの人間の判断を介したダイアログエージェントの調整の改善
- 統計的拒絶サンプリングにより、好みの最適化が改善されます
- 言語モデリングのための強化自己訓練(REST)
- SLIC-HF:人間のフィードバックによるシーケンス尤度キャリブレーション
- 校正シーケンスの尤度は、条件付き言語生成を改善します
- 言語モデルを使用した報酬設計
- 最終回答RLプロセスと結果ベースのフィードバックで数学の単語の問題を解決する
- プロセスおよび結果ベースのフィードバックで数学の単語の問題を解決します
- 人間のデータを超えて:言語モデルを使用した問題解決のためのセルフトレーニングのスケーリング
- ボンド:LLMSをベストn蒸留に合わせます
- 誤った合成データのRLは、LLM数学の推論の効率を8倍に拡張します
- 生成検証器:次のトークン予測としての報酬モデリング
- 強化学習を介して自己修正するための言語モデルのトレーニング
- Openai
- PPO:近位ポリシー最適化アルゴリズム
- 人間の好みのための深い強化学習
- 人間の好みからの微調整言語モデル
- 人間のフィードバックから要約することを学ぶ
- instructgpt:人間のフィードバックで指示に従うための言語モデルのトレーニング
- 最適化に関する報酬モデルの法則のスケーリング
- 弱くて強力な一般化:監督が弱い強力な能力を引き出す
- PRM:段階的に確認しましょう
- 数学の単語の問題を解決するための検証剤をトレーニングする[PRMの前依存性]
- Openai Super Alignmentブログ
- LLM批評家は、LLMのバグをキャッチするのに役立ちます
- Prover-Verifierゲームは、LLM出力の読みやすさを向上させます
- 言語モデルの安全性に対するルールベースの報酬
- 人間の評価者を支援するための自己批判モデル
- 人類
- alignmenの研究室としての一般的な言語アシスタント
- スケーラブル監視または大規模な言語モデルの進捗状況の測定
- Red Teaming Language Models Harms Methods、Scaling Behavion、Lessonsが学んだレッスンを減らす
- 人間のフィードバックからの補強学習で役立つ無害なアシスタントをトレーニングする
- 憲法上のAI AIフィードバックからの無害
- 人間の好みを持つ前の言語モデル
- 大規模な言語モデルにおける道徳的自己修正の能力
- スリーパーエージェント:安全性トレーニングを通じて持続する欺ceptiveLLMをトレーニングする
- Allenai、RL4LM:自然言語処理ベンチマークの補強学習(そうではない)
- 改善計画
- RRHF:涙のない人間のフィードバックと言語モデルを調整するためのランク応答
- 後知恵のチェーンは、言語モデルをフィードバックに合わせます
- Alpacafarm:人間のフィードバックから学習する方法のシミュレーションフレームワーク
- RAFT:生成基盤モデルのアライメントに対して、微調整された報酬
- rlaif:AIフィードバックを使用した人間のフィードバックからの補強補強学習
- シミュレートされた人間社会における社会的に整合した言語モデルのトレーニング
- 雨:あなたの言語モデルは、微調整せずに自分自身を調整できます
- アライメントを評価するための生成裁判官
- 好みを覗き込む:大規模な言語モデルを調整するためのフィードバックの獲得の解明
- サーモン:原則に従う報酬モデルによる自己調整
- 大規模な言語モデルの学習
- 敵対的な好みの最適化
- 人間のアライメントの優先ランキング最適化
- 長い道のり:RLHFでの長さの相関を調査する
- 言語モデルがデータから自己改善を暗黙的に学習できるようにします
- 報酬モデルアンサンブルは、過剰な最適化を軽減するのに役立ちます
- 好みから最適な利点を学び、それを報酬と間違えます
- Ultrafeedback:高品質のフィードバックを備えた言語モデルの向上
- モチーフ:人工知能のフィードバックからの固有の動機
- アドバンテージモデルと選択的リハーサルを通じてRLHFを安定化します
- シェパード:言語モデル生成の批評家
- LLMよりも優れた生成を学ぶ
- 細い人間のフィードバックは、言語モデルのトレーニングに対してより良い報酬を与えます
- 人間の監督を最小限に抑えて、ゼロから言語モデルの原則主導型の自己整理
- 直接選好最適化:あなたの言語モデルは密かに報酬モデルです
- hir後知恵の知恵は言語モデルをより良い指導者にする
- aligner:弱い補正から効率的なアライメントを達成します
- 人間のフィードバックから学習を強化するためのミニマリストアプローチ
- Panda:LLMSのドメイン固有の能力を高めるための優先適応
- 弱いから強い検索:小さな言語モデルを検索することで大きな言語モデルを調整する
- 弱くて強い外挿が整合します
- DPOはLLMアライメントのPPOよりも優れていますか?包括的な研究
- トークンレベルの直接選好最適化
- SIMPO:リファレンスフリーの報酬を使用した単純な優先最適化
- AutoDeTect:大規模な言語モデルでの自動脱力感の検出のための統一されたフレームワークに向けて
- メタリワード言語モデル:LLM-As-A-Meta-Judgeとの自己改善アライメント
- helpSteer:steerlmのマルチアトリブの有用なデータセット
- 再帰的内省:言語モデルのエージェントに自己改善の方法を教える
- 直接Q機能の最適化を通じて言語モデルのマルチステップ推論能力を向上させる
- deepseekmath:オープン言語モデルの数学的推論の限界を押し上げる
- グロア:グローバルおよびローカルの改良を介してLLMの推論を改善する時期、どこで、どのように
- reft:強化された微調整による推論
- SCPO:自己整合性の好みの最適化
- RL探査
- LLMの一般化と多様性に対するRLHFの影響を理解する
- 長い道のり:RLHFでの長さの相関を調査する
- RLHFに対する報酬(in-)一貫性のトリクルダウンの影響
- 人間のフィードバックからの強化学習の未解決の問題と基本的な制限
- 人間のフィードバックはゴールドスタンダードではありません
- データカリキュラム上の対照的なトレーニング後の大規模な言語モデル
- 言語モデルはアライメントに抵抗します
電車(ベッド、コット、RL)
- 推論スケーリング
- 言語モデルを使用した問題解決のための計算最適な推論の経験的分析
- より多くのLM呼び出しが必要ですか?化合物AIシステムのスケーリング特性に向けて
- 大規模な言語サル:スケーリング推論は、サンプリングを繰り返して計算します
- LLMテスト時間計算のスケーリング最適
- Q*:審議計画でLLMのマルチステップ推論を改善します
- 自然言語の計画により、コード生成のLLM検索が改善されます
- REST-MCTS ∗:Process Reward Guided Tree Searchを介したLLMセルフトレーニング
- Alphazero-like Tree-Searchは、大規模な言語モデルのデコードとトレーニングを導くことができます
- より小さく、弱い、しかしより良い:コンピューティングオプティマルサンプリングを介したLLMの推論者のトレーニング
- 抽象的な推論のためのテスト時間トレーニングの驚くべき有効性
- 長いコンテキスト検索の増強された生成のための推論スケーリング
- 想像力、検索、批判を介したLLMの自己改善に向けて
- ゆっくりと思うベッド
- O1レプリケーションジャーニー:戦略的進捗レポート - パート1
- Marco-O1:オープンエンドソリューションのオープン推論モデルに向けて
- OpenaiのO1モデルの推論パターンに関する比較研究
- 模倣、探索、自己改善:ゆっくりと考えている推論システムに関する複製レポート
- デュアルフォーマー:ランダム化された推論の痕跡を使用して学習することにより、制御可能な高速およびゆっくりした思考
- 連続的な潜在空間で推論するために大きな言語モデルをトレーニングする
- ∗を超えて:検索ダイナミクスのブートストラップを介してトランスを使用したより良い計画
- O1-Coder:コーディング用のO1レプリケーション
- 検索と学習のスケーリング:強化学習の観点からO1を再現するためのロードマップ
- Sky-T1:450ドル以内に独自のO1プレビューモデルをトレーニングします
- LLMSでのシステム2の推論に向けて:メタのチェーンと考え方を学ぶ
命令微調整とアラインメント(destisting_tunning)
- 古典的なソリューション
- Flan:Finetuned Languageモデルはゼロショット学習者です
- FLAN-T5:指導義理の言語モデルのスケーリング
- Ext5:転送学習のための極端なマルチタスクスケーリングに向けて
- instruct-gpt:人間のフィードバックで指示に従うための言語モデルのトレーニング
- T0:マルチタスクは、トレーニングを促し、ゼロショットタスクの一般化を可能にします
- 自然指示:自然言語のクラウドソーシングの指示によるクロスタスク一般化
- TK-Instruct:Super-NaturalInstructions:1600以上のNLPタスクに関する宣言的指示による一般化
- Zeroprompt:1,000タスクに向けてプロンプトベースの事前測定をスケーリングすると、ゼロショットの一般化が改善されます
- 不自然な指示:(ほとんど)人間の労働なしで言語モデルを調整する
- 指示に向けて命令調整された大規模な言語モデルの総合的な評価に向かっています
- SFTデータスケーリング法
- リマ:アライメントの方が多い
- たぶん0.5%のデータが必要です:低トレーニングデータ命令のチューニングの予備調査
- Alpagasus:より少ないデータでより良いアルパカをトレーニングします
- InstructionGPT-4:微調整Minigpt-4の200のインストラクションパラダイム
- 命令マイニング:大規模な言語モデルの高品質の命令データ選択
- 丁寧なフラミンゴによる視覚的な指導チューニング
- 大規模な言語モデルに対する命令データスケーリングの影響の調査:実際のユースケースに関する経験的研究
- 大規模な言語モデルで数学的推論を学ぶことに関する関係のスケーリング
- スケーリングがLLM Finetuningを満たしている場合:データ、モデル、およびFinetuningメソッドの効果
- 新しいアライメント/微調整スキーム
- wizardlm:複雑な指示に従うように大規模な言語モデルを強化します
- 自己内容になる:最小限の指示のための早期停止基準を導入する
- 命令の逆翻訳との自己調整
- 混合の専門家は指導の調整を満たしています:大規模な言語モデルの勝利の組み合わせ
- ヤギ:微調整されたラマは、算術タスクでGPT-4を上回ります
- PROMPT2MODEL:自然言語の指示から展開可能なモデルを生成します
- OpinionGPT:命令チューニングLLMの明示的なバイアスのモデリング
- AIフィードバックからの自己プレイとコンテキスト内学習との言語モデルの交渉の改善
- メタ学習ニューラルネットワークを介した人間のような系統的一般化
- MagicOder:ソースコードが必要です
- 人間のデータを超えて:言語モデルを使用した問題解決のためのセルフトレーニングのスケーリング
- 生成表現指示の調整
- INSCL:指示付きの大規模な言語モデルを微調整するためのデータ効率の高い継続的な学習パラダイム
- 命令階層:特権的な指示に優先順位を付けるためのLLMSのトレーニング
- カササギ:アライメントデータの合成は、アライメントされたLLMSを何もプロンプトに促して
- 命令データ生成
- APE:大規模な言語モデルは、人間レベルのプロンプトエンジニアです
- 自己インストラクション:自己生成命令を使用した言語モデルを調整します
- IPROMPT:解釈可能な自動拡散を介して自然言語のデータパターンを説明する
- 反転学習:指示を推測してください!反転した学習により、言語モデルはゼロショット学習者を強くします
- 大規模な言語モデルを求める公平性ガイドのいくつかのショット
- 命令誘導:いくつかの例から自然言語タスクの説明まで。
- 監視されていない知識ガイド付きアラインメント。
- より良いデータアノテーターのためのGPT Self-Supervision
- データと方法を設計するFLANコレクション
- 自己消費モデルは狂っています
- Instructeval:命令選択方法の体系的な評価
- 微調整されたデータを使用して、事前に保護されたバイアスを上書きします
- 大規模な言語モデルを使用したテキストの埋め込みの改善
- カササギ:アライメントデータの合成は、アライメントされたLLMSを何もプロンプトに促して
- 1,000,000,000のペルソナを使用した合成データ作成のスケーリング
- ゼロからスケーラブルな質問統合を介してLLMSの推論能力を解き放つ
- 大規模な言語モデルのデータ統合と増強に関する調査
- AgentInstruct:エージェントフローによる生成教育に向けて
- 欠陥の発表:合成データの不完全性と大規模な言語モデルの緩和戦略の調査
- 一般容量の損失を減らす方法
- 大規模な言語モデルの能力が監視されている微調整データ構成によってどのように影響を受けるか
- 2段階のLLM微調整は、専門化が少なく、一般化が増加します
- 微調整エクスペリエンス/実験レポート
- ベル:大規模な言語モデルに対する指導データのスケーリングの影響を調査:実際のユースケースに関する経験的研究
- Baize:Baize:セルフチャットデータのパラメーター効率の高いチューニングを備えたオープンソースチャットモデル
- 大規模なLMの中国語指導データに関するフルパラメーターとLORAベースの微調整の比較研究
- CHATGPTのコンテンツをランク付けする能力の調査:人間の好みとの一貫性に関する予備研究
- 中国語の言語モデルに続くより良い指導に向けて:トレーニングデータと評価の影響の調査
- エンタープライズ向けの微調整LLM:実用的なガイドラインと推奨事項
- その他
- MultiTask Finetuningを介した相互一般化
- 自然言語のクラウドソーシングの指示によるクロスタスクの一般化
- UnifiedSkg:テキスト間言語モデルを使用した統一およびマルチタスク構造化された知識の基礎
- プロンプトソース:自然言語の統合開発環境とリポジトリ
- Rolellm:大規模な言語モデルのロールプレイング能力のベンチマーク、誘発、および強化
LLMエージェントモデルに使用するツール(LLM_AGENT)
- エージェントAI:マルチモーダル相互作用の視野を調査します
- 大規模な言語モデルベースの自律エージェントに関する調査
- パーソナルLLMエージェント:能力、効率、セキュリティに関する洞察と調査
- Proptに基づく一般的なソリューション
- React:言語モデルでの相乗効果と行動
- セルフアスク:言語モデルの組成ギャップの測定と狭窄
- MRKL Systemsaモジュラー、大規模な言語モデル、外部の知識ソース、離散推論を組み合わせたニューロ - シンボリックアーキテクチャ
- PAL:プログラム支援言語モデル
- アート:大規模な言語モデルの自動マルチステップ推論とツール使用
- Rewoo:効率的な拡張言語モデルの観察からの推論の分離
- 知識集約型のマルチステップの質問に対する考え方の推論を伴うインターリーブ検索
- Chameleon:大規模な言語モデルを使用したプラグアンドプレイ構成の推論
- 忠実なチェーンの考え方
- 反射:口頭での強化学習を伴う言語エージェント
- Verify-and-Edit:知識が強化されたチェーンの枠組み
- RESTGPT:大規模な言語モデルを実際のRESTFUL APIに接続します
- ChatCot:チャットベースの大型言語モデルに関するツールの熟成されたチェーンの推論
- InstructTods:エンドツーエンドのタスク指向のダイアログシステムの大規模な言語モデル
- TPTU:大規模な言語モデルベースのAIエージェントのタスク計画とツールの使用
- ControllLM:グラフで検索して、ツールで言語モデルを増強する
- 反射:動的な記憶と自己反省を備えた自律剤
- Autoagents:自動エージェント生成のフレームワーク
- Gitagent:ツール拡張によりGithubを使用して自律剤を促進します
- 事前に:Reactの将来を予測すると、エージェントの計画能力が向上します
- toolllm:16000以上の現実世界のAPIを習得するための大規模な言語モデルの促進-Anytool:大規模なAPI呼び出しのための自己反射性、階層エージェント
- AIOS:LLMエージェントオペレーティングシステム
- LLMコンパイラ並列関数呼び出し用のLLMコンパイラ
- 再インボーク:ゼロショットツールの取得のツールの呼び出し書き換え
- 微調整に基づく一般的なソリューション
- タルム:ツール拡張言語モデル
- ツールフォーマー:言語モデルは、ツールを使用するように自分自身を教えることができます
- ファンデーションモデルを使用したツール学習
- ツールメーカー:ツールメーカーとしての大規模な言語モデル
- TaskMatrix.ai:ファンデーションモデルを何百万ものAPIに接続することでタスクを完了しました
- AgentTuning:LLMSの一般化エージェントAabilityを有効にします
- SwiftSage:複雑なインタラクティブなタスクを迅速かつゆっくりと考えている生成エージェント
- FireAct:言語エージェントの微調整に向けて
- Pangu-Agent:構造化された推論を備えた微調整可能なジェネラリストエージェント
- REST MEETS REACT:Multi-Step Reasoning LLMエージェントの自己改善
- チェーンオブアブストリェクトの推論を使用した効率的なツール使用
- エージェントフラン:大規模な言語モデル向けの効果的なエージェントチューニングのデータと方法の設計
- Agentohana:効果的なエージェント学習のための統一データとトレーニングパイプラインを設計する
- エージェントルモス:オープンソース言語エージェント向けの統一されたモジュラートレーニング
- Toolgen:統一されたツールの取得と発電による呼び出し
- モデルスキームを呼び出します
- hugginggpt:huggingfaceでchatgptとその友達とのAIタスクを解決する
- Gorilla:大規模なAPIに接続された大きな言語モデル
- Openagi:LLMがドメインの専門家に会うとき
- 垂直フィールド
- データ分析
- DS-Agent:大規模な言語モデルにケースベースの推論を強化することにより、自動化されたデータサイエンス
- Insightlens:大規模なモデル駆動のデータ分析で会話の文脈から洞察を発見して探求する
- データコピロット:自律的なワークフローで数十億のデータと人間を橋渡しする
- InsightPilotのデモンストレーション:LLMエンパワーメント自動データ探索システム
- TaskWeaver:コードファーストエージェントフレームワーク
- 自動化された社会科学:科学者および主題としての言語モデル
- データインタープリター:データサイエンスのLLMエージェント
- ファイナンス
- Weaverbird:大規模な言語モデル、知識ベース、および検索エンジンを使用して、財務上の意思決定を強化する
- FINGPT:オープンソースの金融大規模な言語モデル
- Finmem:階層化されたメモリとキャラクターデザインを備えたパフォーマンス強化LLMトレーディングエージェント
- アルファフィン:検索強化されたストックチェーンフレームワークを使用した財務分析のベンチマーク
- 金融取引のためのマルチモーダルファンデーションエージェント:ツールの高級、多様化、およびゼネラリスト
- 大規模な言語モデルはウォール街を倒すことができますか?在庫選択におけるAIの可能性を明らかにする
- LLMベースのマルチエージェントフレームワークで金融市場での異常検出の強化
- TradingGpt:階層化されたメモリと独特のキャラクターを備えたマルチエージェントシステム
- Finrobot:大規模な言語モデルを使用した金融アプリケーション用のオープンソースAIエージェントプラットフォーム
- LLMFactor:説明可能なストック運動予測のプロンプトを通じて収益性のある要因を抽出する
- Alpha-Gpt:定量的投資のための人間のインタラクティブなアルファマイニング
- 前進異常検出:LLMSでエンコードする非セマンチックな財務データ
- Tradexpert:専門家のLLMSの混合との革新的な取引
- Finvision:株式市場予測のためのマルチエージェントフレームワーク
- 投資分析のAI:株式株式評価のためのLLM
- AAPM:大手言語モデルエージェントベースの資産価格設定モデル
- バイオメディシン
- Genegpt:生物医学情報へのアクセスを改善するためのドメインツールを使用して大規模な言語モデルを増強する
- 化学モデルを化学ツールで増強する化学群
- 証拠に対する期待最大化の推論による医学的質問に説明する説明を生成する
- エージェント病院:進化可能な医療剤を持つ病院のsimulacrum
- 迅速なエンジニアリングを介して、大規模な言語モデルで化学知識を統合する
- Web/モバイルエージェント
- AutoWebglm:大規模な言語モデルベースのWebナビゲーションエージェントをブートストラップして強化する
- 計画、長いコンテキストの理解、プログラムの統合を備えた現実世界のウェブゲント
- Mind2Web:Webのジェネラリストエージェントに向けて
- ワークフロー誘導探索を使用したWebインターフェイスでのMiniWOB ++強化学習
- WebArena:自律エージェントを妨害する現実的なWeb環境
- Autocrawler:Web Crawler Generationの進歩的な理解Webエージェント
- Weblinx:マルチターンダイアログを備えた実際のWebサイトナビゲーション
- WebVoyager:大規模なマルチモーダルモデルでエンドツーエンドのWebエージェントを構築する
- Cogagent:GUIエージェントの視覚言語モデル
- モバイルエージェント-V2:マルチエージェントコラボレーションによる効果的なナビゲーションを備えたモバイルデバイス操作アシスタント
- WebCanvas:オンライン環境でWebエージェントのベンチマーク
- GUIエージェントの夜明け:Claude3.5コンピューターの使用による予備的なケーススタディ
- ソフトウェアエンジニア
- ソフトウェアエンジニアリングのエージェント:調査、景観、ビジョン
- ChatDev:ソフトウェア開発のためのコミュニケーションエージェント
- 他の
- エージェント研究所:LLMエージェントを研究助手として使用します
- ResearchAgent:大規模な言語モデルを使用した科学文献をめぐる反復研究アイデア生成
- WebShop:根拠のある言語エージェントとのスケーラブルな現実世界のWebインタラクションに向けて
- ToolKengpt:ツール埋め込みを介して大規模なツールを使用して凍結言語モデルを増強する
- Pointllm:大規模な言語モデルにポイントクラウドを理解できるようになります
- 検索された大規模な言語モデルを使用した解釈可能なロングフォームの法的質問応答
- Carexpert:車内の会話型質問に応答するための大規模な言語モデルを活用する
- Sciagents:マルチエージェントインテリジェントグラフの推論を通じて科学的発見を自動化します
- 評価する
- Evaluating Verifiability in Generative Search Engines
- Auto-GPT for Online Decision Making: Benchmarks and Additional Opinions
- API-Bank: A Benchmark for Tool-Augmented LLMs
- ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs
- Automatic Evaluation of Attribution by Large Language Models
- Benchmarking Large Language Models in Retrieval-Augmented Generation
- ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems
- Agent-as-a-Judge: Evaluate Agents with Agents
- MultiAgent
- GENERATIVE AGENTS
- LET MODELS SPEAK CIPHERS: MULTIAGENT DEBATE THROUGH EMBEDDINGS
- War and Peace (WarAgent): Large Language Model-based Multi-Agent Simulation of World Wars
- Small LLMs Are Weak Tool Learners: A Multi-LLM Agent
- Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models
- Generative Agents: Interactive Simulacra of Human Behavior
- AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors in Agents
- System-1.x: Learning to Balance Fast and Slow Planning with Language Models
- Agents Thinking Fast and Slow:A Talker-Reasoner Architecture
- Generative Agent Simulations of 1,000 People
- Advanced Reasoning and Learning for Autonomous AI Agents
- 多智能体系统
- Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence
- MULTI-AGENT COLLABORATION: HARNESSING THE POWER OF INTELLIGENT LLM AGENTS
- Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks
- 任务型智能体协作
- METAAGENTS: SIMULATING INTERACTIONS OF HUMAN BEHAVIORS FOR LLM-BASED TASK-ORIENTED COORDINATION VIA COLLABORATIVE
- CAMEL: Communicative Agents for "Mind" Exploration of Large Scale Language Model Society
- Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf
- Communicative Agents for Software Development
- MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning
- METAGPT: META PROGRAMMING FOR A MULTI-AGENT COLLABORATIVE FRAMEWORK
- 智能体路由
- One Agent To Rule Them All: Towards Multi-agent Conversational AI
- A Multi-Agent Conversational Recommender System
- 基座模型路由&Ensemble
- Large Language Model Routing with Benchmark Datasets
- LLM-BL ENDER: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion
- RouteLLM: Learning to Route LLMs with Preference Data
- More Agents Is All You Need
- Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models
- 自主学习和探索进化
- AppAgent: Multimodal Agents as Smartphone Users
- Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent Self-Evolution
- LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error
- Empowering Large Language Model Agents through Action Learning
- Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents
- OS-COPILOT: TOWARDS GENERALIST COMPUTER AGENTS WITH SELF-IMPROVEMENT
- LLAMA RIDER: SPURRING LARGE LANGUAGE MODELS TO EXPLORE THE OPEN WORLD
- PAST AS A GUIDE: LEVERAGING RETROSPECTIVE LEARNING FOR PYTHON CODE COMPLETION
- AutoGuide: Automated Generation and Selection of State-Aware Guidelines for Large Language Model Agents
- A Survey on Self-Evolution of Large Language Models
- ExpeL: LLM Agents Are Experiential Learners
- ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy
- PROACTIVE AGENT: SHIFTING LLM AGENTS FROM REACTIVE RESPONSES TO ACTIVE ASSISTANCE
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning
- 他の
- LLM+P: Empowering Large Language Models with Optimal Planning Proficiency
- Inference with Reference: Lossless Acceleration of Large Language Models
- RecallM: An Architecture for Temporal Context Understanding and Question Answering
- LLaMA Rider: Spurring Large Language Models to Explore the Open World
- LLMs Can't Plan, But Can Help Planning in LLM-Modulo Frameworks
ぼろきれ
- 经典论文
- WebGPT:Browser-assisted question-answering with human feedback
- WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences
- WebCPM: Interactive Web Search for Chinese Long-form Question Answering
- REPLUG: Retrieval-Augmented Black-Box Language Models
- RETA-LLM: A Retrieval-Augmented Large Language Model Toolkit
- Atlas: Few-shot Learning with Retrieval Augmented Language Models
- RRAML: Reinforced Retrieval Augmented Machine Learning
- FRESHLLMS: REFRESHING LARGE LANGUAGE MODELS WITH SEARCH ENGINE AUGMENTATION
- 微调
- RLCF:Aligning the Capabilities of Large Language Models with the Context of Information Retrieval via Contrastive Feedback
- RA-DIT: RETRIEVAL-AUGMENTED DUAL INSTRUCTION TUNING
- CHAIN-OF-NOTE: ENHANCING ROBUSTNESS IN RETRIEVAL-AUGMENTED LANGUAGE MODELS
- RAFT: Adapting Language Model to Domain Specific RAG
- Rich Knowledge Sources Bring Complex Knowledge Conflicts: Recalibrating Models to Reflect Conflicting Evidence
- 其他论文
- Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation
- PDFTriage: Question Answering over Long, Structured Documents
- Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading
- Active Retrieval Augmented Generation
- kNN-LM Does Not Improve Open-ended Text Generation
- Can Retriever-Augmented Language Models Reason? The Blame Game Between the Retriever and the Language Model
- DORIS-MAE: Scientific Document Retrieval using Multi-level Aspect-based Queries
- Factuality Enhanced Language Models for Open-Ended Text Generation
- KwaiAgents: Generalized Information-seeking Agent System with Large Language Models
- Complex Claim Verification with Evidence Retrieved in the Wild
- Retrieval-Augmented Generation for Large Language Models: A Survey
- ChatQA: Building GPT-4 Level Conversational QA Models
- RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture
- Benchmarking Large Language Models in Retrieval-Augmented Generation
- T-RAG: Lessons from the LLM Trenches
- ARAGOG: Advanced RAG Output Grading
- ActiveRAG: Revealing the Treasures of Knowledge via Active Learning
- OpenResearcher: Unleashing AI for Accelerated Scientific Research
- Contextual.ai-RAG2.0
- Mindful-RAG: A Study of Points of Failure in Retrieval Augmented Generation
- Memory3 : Language Modeling with Explicit Memory
- 优化检索
- IAG: Induction-Augmented Generation Framework for Answering Reasoning Questions
- HyDE:Precise Zero-Shot Dense Retrieval without Relevance Labels
- PROMPTAGATOR : FEW-SHOT DENSE RETRIEVAL FROM 8 EXAMPLES
- Query Rewriting for Retrieval-Augmented Large Language Models
- Query2doc: Query Expansion with Large Language Models
- Query Expansion by Prompting Large Language Models
- Anthropic Contextual Retrieval
- Multi-Level Querying using A Knowledge Pyramid
- A Survey of Query Optimization in Large Language Models
- ランキング
- A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking with Large Language Models
- RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large Language Models
- Improving Passage Retrieval with Zero-Shot Question Generation
- Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting
- RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs
- Ranking Manipulation for Conversational Search Engines
- Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents
- Opensource Large Language Models are Strong Zero-shot Query Likelihood Models for Document Ranking
- T2Ranking: A large-scale Chinese Benchmark for Passage Ranking
- Learning to Filter Context for Retrieval-Augmented Generation
- 传统搜索方案
- ASK THE RIGHT QUESTIONS:ACTIVE QUESTION REFORMULATION WITH REINFORCEMENT LEARNING
- Query Expansion Techniques for Information Retrieval a Survey
- Learning to Rewrite Queries
- Managing Diversity in Airbnb Search
- 新向量模型用于Recall和Ranking
- Augmented Embeddings for Custom Retrievals
- BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation
- 网易为RAG设计的BCE Embedding技术报告
- BGE Landmark Embedding: A Chunking-Free Embedding Method For Retrieval Augmented Long-Context Large Language Models
- D2LLM: Decomposed and Distilled Large Language Models for Semantic Search
- Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training
- 优化推理结果
- Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting
- 动态RAG(When to Search & Search Plan)
- SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION
- Self-Knowledge Guided Retrieval Augmentation for Large Language Models
- Self-DC: When to retrieve and When to generate Self Divide-and-Conquer for Compositional Unknown Questions
- Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs
- Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity
- REAPER: Reasoning based Retrieval Planning for Complex RAG Systems
- When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively
- PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers
- ONEGEN: EFFICIENT ONE-PASS UNIFIED GENERATION AND RETRIEVAL FOR LLMS
- Probing-RAG: Self-Probing to Guide Language Models in Selective Document Retrieval
- Graph RAG
- GRAPH Retrieval-Augmented Generation: A Survey
- From Local to Global: A Graph RAG Approach to Query-Focused Summarization
- GRAG: Graph Retrieval-Augmented Generation
- GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning
- THINK-ON-GRAPH: DEEP AND RESPONSIBLE REASONING OF LARGE LANGUAGE MODEL ON KNOWLEDGE GRAPH
- LightRAG: Simple and Fast Retrieval-Augmented Generation
- THINK-ON-GRAPH: DEEP AND RESPONSIBLE REASON- ING OF LARGE LANGUAGE MODEL ON KNOWLEDGE GRAPH
- StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization
- Multistep RAG
- SYNERGISTIC INTERPLAY BETWEEN SEARCH AND LARGE LANGUAGE MODELS FOR INFORMATION RETRIEVAL
- Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions
- Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy
- RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation
- IM-RAG: Multi-Round Retrieval-Augmented Generation Through Learning Inner Monologues
- Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP
- Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks
- MindSearch 思·索: Mimicking Human Minds Elicits Deep AI Searcher
- RQ-RAG: LEARNING TO REFINE QUERIES FOR RETRIEVAL AUGMENTED GENERATION
- AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via Controllable Question Decomposition
- Timeline RAG
- Unfolding the Headline: Iterative Self-Questioning for News Retrieval and Timeline Summarization
Other Prompt Engineer(prompt_engineer)
- Calibrate Before Use: Improving Few-Shot Performance of Language Models
- In-Context Instruction Learning
- LEARNING PERFORMANCE-IMPROVING CODE EDITS
- Boosting Theory-of-Mind Performance in Large Language Models via Prompting
- Generated Knowledge Prompting for Commonsense Reasoning
- RECITATION-AUGMENTED LANGUAGE MODELS
- kNN PROMPTING: BEYOND-CONTEXT LEARNING WITH CALIBRATION-FREE NEAREST NEIGHBOR INFERENCE
- EmotionPrompt: Leveraging Psychology for Large Language Models Enhancement via Emotional Stimulus
- Causality-aware Concept Extraction based on Knowledge-guided Prompting
- LARGE LANGUAGE MODELS AS OPTIMIZERS
- Prompts As Programs: A Structure-Aware Approach to Efficient Compile-Time Prompt Optimization
- Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
- RePrompt: Automatic Prompt Editing to Refine AI-Generative Art Towards Precise Expressions
- MedPrompt: Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine
- DSPy Assertions: Computational Constraints for Self-Refining Language Model Pipelines
- Prompts as Auto-Optimized Training Hyperparameters: Training Best-in-Class IR Models from Scratch with 10 Gold Labels
- In-Context Learning for Extreme Multi-Label Classification
- Optimizing Instructions and Demonstrations for Multi-Stage Language Model Programs
- DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines
- CONNECTING LARGE LANGUAGE MODELS WITH EVOLUTIONARY ALGORITHMS YIELDS POWERFUL PROMP OPTIMIZERS
- TextGrad: Automatic "Differentiation" via Text
- Task Facet Learning: A Structured Approach to Prompt Optimization
- LangGPT: Rethinking Structured Reusable Prompt Design Framework for LLMs from the Programming Language
- PAS: Data-Efficient Plug-and-Play Prompt Augmentation System
- Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models
- From Pen to Prompt: How Creative Writers Integrate AI into their Writing Practice
- Does Prompt Formatting Have Any Impact on LLM Performance?
- AUTO-DEMO PROMPTING: LEVERAGING GENERATED OUTPUTS AS DEMONSTRATIONS FOR ENHANCED BATCH PROMPTING
- PROMPTBREEDER: SELF-REFERENTIAL SELF-IMPROVEMENT VIA PROMPT EVOLUTION
大模型图表理解和生成
- 調査
- Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study
- Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding - A Survey
- Exploring the Numerical Reasoning Capabilities of Language Models: A Comprehensive Analysis on Tabular Data
- プロンプト
- Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning
- Tab-CoT: Zero-shot Tabular Chain of Thought
- Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding
- fintuning
- TableLlama: Towards Open Large Generalist Models for Tables
- TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios
- multimodal
- MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning
- ChartLlama: A Multimodal LLM for Chart Understanding and Generation
- ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning
- ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning
- ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning
- MATCHA : Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering
- UniChart: A Universal Vision-language Pretrained Model for Chart Comprehension and Reasoning
- TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning
- Tables as Texts or Images: Evaluating the Table Reasoning Ability of LLMs and MLLMs
- TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains
- TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy
LLM+KG
- 概要
- Unifying Large Language Models and Knowledge Graphs: A Roadmap
- Large Language Models and Knowledge Graphs: Opportunities and Challenges
- 知识图谱与大模型融合实践研究报告2023
- KG用于大模型推理
- Using Large Language Models for Zero-Shot Natural Language Generation from Knowledge Graphs
- MindMap: Knowledge Graph Prompting Sparks Graph of Thoughts in Large Language Models
- Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge Graph Question Answering
- Domain Specific Question Answering Over Knowledge Graphs Using Logical Programming and Large Language Models
- BRING YOUR OWN KG: Self-Supervised Program Synthesis for Zero-Shot KGQA
- StructGPT: A General Framework for Large Language Model to Reason over Structured Data
- 大模型用于KG构建
- Enhancing Knowledge Graph Construction Using Large Language Models
- LLM-assisted Knowledge Graph Engineering: Experiments with ChatGPT
- ITERATIVE ZERO-SHOT LLM PROMPTING FOR KNOWLEDGE GRAPH CONSTRUCTION
- Exploring Large Language Models for Knowledge Graph Completion
Humanoid Agents
- HABITAT 3.0: A CO-HABITAT FOR HUMANS, AVATARS AND ROBOTS
- Humanoid Agents: Platform for Simulating Human-like Generative Agents
- Voyager: An Open-Ended Embodied Agent with Large Language Models
- Shaping the future of advanced robotics
- AUTORT: EMBODIED FOUNDATION MODELS FOR LARGE SCALE ORCHESTRATION OF ROBOTIC AGENTS
- ROBOTIC TASK GENERALIZATION VIA HINDSIGHT TRAJECTORY SKETCHES
- ALFWORLD: ALIGNING TEXT AND EMBODIED ENVIRONMENTS FOR INTERACTIVE LEARNING
- MINEDOJO: Building Open-Ended Embodied Agents with Internet-Scale Knowledge
- LEGENT: Open Platform for Embodied Agents
pretrain_data & pretrain
- DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining
- The Pile: An 800GB Dataset of Diverse Text for Language Modeling
- CCNet: Extracting High Quality Monolingual Datasets fromWeb Crawl Data
- WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models
- CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model
- In-Context Pretraining: Language Modeling Beyond Document Boundaries
- Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance
- Zyda: A 1.3T Dataset for Open Language Modeling
- Entropy Law: The Story Behind Data Compression and LLM Performance
- Data, Data Everywhere: A Guide for Pretraining Dataset Construction
- Data curation via joint example selection further accelerates multimodal learning
- IMPROVING PRETRAINING DATA USING PERPLEXITY CORRELATIONS
- AI models collapse when trained on recursively generated data
领域模型SFT(domain_llms)
- ファイナンス
- BloombergGPT: A Large Language Model for Finance
- FinVis-GPT: A Multimodal Large Language Model for Financial Chart Analysis
- CFGPT: Chinese Financial Assistant with Large Language Model
- CFBenchmark: Chinese Financial Assistant Benchmark for Large Language Model
- InvestLM: A Large Language Model for Investment using Financial Domain Instruction Tuning
- BBT-Fin: Comprehensive Construction of Chinese Financial Domain Pre-trained Language Model, Corpus and Benchmark
- PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance
- The FinBen: An Holistic Financial Benchmark for Large Language Models
- XuanYuan 2.0: A Large Chinese Financial Chat Model with Hundreds of Billions Parameters
- Towards Trustworthy Large Language Models in Industry Domains
- When AI Meets Finance (StockAgent): Large Language Model-based Stock Trading in Simulated Real-world Environments
- A Survey of Large Language Models for Financial Applications: Progress, Prospects and Challenges
- 生物医疗
- MedGPT: Medical Concept Prediction from Clinical Narratives
- BioGPT:Generative Pre-trained Transformer for Biomedical Text Generation and Mining
- PubMed GPT: A Domain-specific large language model for biomedical text
- ChatDoctor:Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge
- Med-PaLM:Large Language Models Encode Clinical Knowledge[V1,V2]
- SMILE: Single-turn to Multi-turn Inclusive Language Expansion via ChatGPT for Mental Health Support
- Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language Model through Expert Feedback and Real-world Multi-turn Dialogue
- 他の
- Galactia:A Large Language Model for Science
- Augmented Large Language Models with Parametric Knowledge Guiding
- ChatLaw Open-Source Legal Large Language Model
- MediaGPT : A Large Language Model For Chinese Media
- KITLM: Domain-Specific Knowledge InTegration into Language Models for Question Answering
- EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task Tasks for E-commerce
- TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT
- LLEMMA: AN OPEN LANGUAGE MODEL FOR MATHEMATICS
- MEDITAB: SCALING MEDICAL TABULAR DATA PREDICTORS VIA DATA CONSOLIDATION, ENRICHMENT, AND REFINEMENT
- PLLaMa: An Open-source Large Language Model for Plant Science
- ADAPTING LARGE LANGUAGE MODELS VIA READING COMPREHENSION
LLM超长文本处理(long_input)
- 位置编码、注意力机制优化
- Unlimiformer: Long-Range Transformers with Unlimited Length Input
- Parallel Context Windows for Large Language Models
- 苏剑林, NBCE:使用朴素贝叶斯扩展LLM的Context处理长度
- Structured Prompting: Scaling In-Context Learning to 1,000 Examples
- Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens
- Scaling Transformer to 1M tokens and beyond with RMT
- TRAIN SHORT, TEST LONG: ATTENTION WITH LINEAR BIASES ENABLES INPUT LENGTH EXTRAPOLATION
- Extending Context Window of Large Language Models via Positional Interpolation
- LongNet: Scaling Transformers to 1,000,000,000 Tokens
- https://kaiokendev.github.io/til#extending-context-to-8k
- 苏剑林,Transformer升级之路:10、RoPE是一种β进制编码
- 苏剑林,Transformer升级之路:11、将β进制位置进行到底
- 苏剑林,Transformer升级之路:12、无限外推的ReRoPE?
- 苏剑林,Transformer升级之路:15、Key归一化助力长度外推
- EFFICIENT STREAMING LANGUAGE MODELS WITH ATTENTION SINKS
- Ring Attention with Blockwise Transformers for Near-Infinite Context
- YaRN: Efficient Context Window Extension of Large Language Models
- LM-INFINITE: SIMPLE ON-THE-FLY LENGTH GENERALIZATION FOR LARGE LANGUAGE MODELS
- EFFICIENT STREAMING LANGUAGE MODELS WITH ATTENTION SINKS
- 上文压缩排序方案
- Lost in the Middle: How Language Models Use Long Contexts
- LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models
- LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
- Learning to Compress Prompts with Gist Tokens
- Unlocking Context Constraints of LLMs: Enhancing Context Efficiency of LLMs with Self-Information-Based Content Filtering
- LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration
- PCToolkit: A Unified Plug-and-Play Prompt Compression Toolkit of Large Language Models
- Are Long-LLMs A Necessity For Long-Context Tasks?
- 训练和模型架构方案
- Never Train from Scratch: FAIR COMPARISON OF LONGSEQUENCE MODELS REQUIRES DATA-DRIVEN PRIORS
- Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon
- Never Lost in the Middle: Improving Large Language Models via Attention Strengthening Question Answering
- Focused Transformer: Contrastive Training for Context Scaling
- Effective Long-Context Scaling of Foundation Models
- ON THE LONG RANGE ABILITIES OF TRANSFORMERS
- Efficient Long-Range Transformers: You Need to Attend More, but Not Necessarily at Every Layer
- POSE: EFFICIENT CONTEXT WINDOW EXTENSION OF LLMS VIA POSITIONAL SKIP-WISE TRAINING
- LONGLORA: EFFICIENT FINE-TUNING OF LONGCONTEXT LARGE LANGUAGE MODELS
- LongAlign: A Recipe for Long Context Alignment of Large Language Models
- Data Engineering for Scaling Language Models to 128K Context
- MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length
- Make Your LLM Fully Utilize the Context
- Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models
- 効率の最適化
- Efficient Attention: Attention with Linear Complexities
- Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention
- HyperAttention: Long-context Attention in Near-Linear Time
- FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
- With Greater Text Comes Greater Necessity: Inference-Time Training Helps Long Text Generation
LLM长文本生成(long_output)
- Re3 : Generating Longer Stories With Recursive Reprompting and Revision
- RECURRENTGPT: Interactive Generation of (Arbitrarily) Long Text
- DOC: Improving Long Story Coherence With Detailed Outline Control
- Weaver: Foundation Models for Creative Writing
- Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models
- Into the Unknown Unknowns: Engaged Human Learning through Participation in Language Model Agent Conversations
NL2SQL
- 大模型方案
- DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction
- C3: Zero-shot Text-to-SQL with ChatGPT
- SQL-PALM: IMPROVED LARGE LANGUAGE MODEL ADAPTATION FOR TEXT-TO-SQL
- BIRD Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQL
- A Case-Based Reasoning Framework for Adaptive Prompting in Cross-Domain Text-to-SQL
- ChatDB: AUGMENTING LLMS WITH DATABASES AS THEIR SYMBOLIC MEMORY
- A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability
- Few-shot Text-to-SQL Translation using Structure and Content Prompt Learning
- Tool-Assisted Agent on SQL Inspection and Refinement in Real-World Scenarios
- Domain Knowledge Intensive
- Towards Knowledge-Intensive Text-to-SQL Semantic Parsing with Formulaic Knowledge
- Bridging the Generalization Gap in Text-to-SQL Parsing with Schema Expansion
- Towards Robustness of Text-to-SQL Models against Synonym Substitution
- FinQA: A Dataset of Numerical Reasoning over Financial Data
- その他
- RESDSQL: Decoupling Schema Linking and Skeleton Parsing for Text-to-SQL
- MIGA: A Unified Multi-task Generation Framework for Conversational Text-to-SQL
主流LLMS和预训练
- GLM-130B: AN OPEN BILINGUAL PRE-TRAINED MODEL
- PaLM: Scaling Language Modeling with Pathways
- PaLM 2 Technical Report
- GPT-4 Technical Report
- Backpack Language Models
- LLaMA: Open and Efficient Foundation Language Models
- Llama 2: Open Foundation and Fine-Tuned Chat Models
- Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning
- OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch
- Mistral 7B
- Ziya2: Data-centric Learning is All LLMs Need
- MEGABLOCKS: EFFICIENT SPARSE TRAINING WITH MIXTURE-OF-EXPERTS
- TUTEL: ADAPTIVE MIXTURE-OF-EXPERTS AT SCALE
- Phi1- Textbooks Are All You Need
- Phi1.5- Textbooks Are All You Need II: phi-1.5 technical report
- Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
- Gemini: A Family of Highly Capable Multimodal Models
- In-Context Pretraining: Language Modeling Beyond Document Boundaries
- LLAMA PRO: Progressive LLaMA with Block Expansion
- QWEN TECHNICAL REPORT
- Fewer Truncations Improve Language Modeling
- ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools
- Phi-4 Technical Report
- Byte Latent Transformer: Patches Scale Better Than Tokens
- Qwen2.5 Technical Report
- DeepSeek-V3 Technical Report
- Mixtral of Experts
Code Generation
- Code Generation with AlphaCodium: From Prompt Engineering to Flow Engineering
- Codeforces as an Educational Platform for Learning Programming in Digitalization
- Competition-Level Code Generation with AlphaCode
- CODECHAIN: TOWARDS MODULAR CODE GENERATION THROUGH CHAIN OF SELF-REVISIONS WITH REPRESENTATIVE SUB-MODULES
- AI Coders Are Among Us: Rethinking Programming Language Grammar Towards Efficient Code Generation
降低模型幻觉(reliability)
- 調査
- Large language models and the perils of their hallucinations
- Survey of Hallucination in Natural Language Generation
- Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models
- A Survey of Hallucination in Large Foundation Models
- A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
- Calibrated Language Models Must Hallucinate
- Why Does ChatGPT Fall Short in Providing Truthful Answers?
- Prompt or Tunning
- R-Tuning: Teaching Large Language Models to Refuse Unknown Questions
- PROMPTING GPT-3 TO BE RELIABLE
- ASK ME ANYTHING: A SIMPLE STRATEGY FOR PROMPTING LANGUAGE MODELS
- On the Advance of Making Language Models Better Reasoners
- RefGPT: Reference → Truthful & Customized Dialogues Generation by GPTs and for GPTs
- Rethinking with Retrieval: Faithful Large Language Model Inference
- GENERATE RATHER THAN RETRIEVE: LARGE LANGUAGE MODELS ARE STRONG CONTEXT GENERATORS
- Large Language Models Struggle to Learn Long-Tail Knowledge
- Decoding Strategy
- Trusting Your Evidence: Hallucinate Less with Context-aware Decoding
- SELF-REFINE:ITERATIVE REFINEMENT WITH SELF-FEEDBACK
- Enhancing Self-Consistency and Performance of Pre-Trained Language Models through Natural Language Inference
- Inference-Time Intervention: Eliciting Truthful Answers from a Language Model
- Enabling Large Language Models to Generate Text with Citations
- Factuality Enhanced Language Models for Open-Ended Text Generation
- KL-Divergence Guided Temperature Sampling
- KCTS: Knowledge-Constrained Tree Search Decoding with Token-Level Hallucination Detection
- CONTRASTIVE DECODING IMPROVES REASONING IN LARGE LANGUAGE MODEL
- Contrastive Decoding: Open-ended Text Generation as Optimization
- Probing and Detection
- Automatic Evaluation of Attribution by Large Language Models
- QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization
- Zero-Resource Hallucination Prevention for Large Language Models
- LLM Lies: Hallucinations are not Bugs, but Features as Adversarial Examples
- Language Models (Mostly) Know What They Know
- LM vs LM: Detecting Factual Errors via Cross Examination
- Do Language Models Know When They're Hallucinating References?
- SELFCHECKGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models
- SELF-CONTRADICTORY HALLUCINATIONS OF LLMS: EVALUATION, DETECTION AND MITIGATION
- Self-consistency for open-ended generations
- Improving Factuality and Reasoning in Language Models through Multiagent Debate
- Selective-LAMA: Selective Prediction for Confidence-Aware Evaluation of Language Models
- Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs
- Reviewing and Calibration
- Truth-o-meter: Collaborating with llm in fighting its hallucinations
- RARR: Researching and Revising What Language Models Say, Using Language Models
- CRITIC: LARGE LANGUAGE MODELS CAN SELFCORRECT WITH TOOL-INTERACTIVE CRITIQUING
- VALIDATING LARGE LANGUAGE MODELS WITH RELM
- PURR: Efficiently Editing Language Model Hallucinations by Denoising Language Model Corruptions
- Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback
- Adaptive Chameleon or Stubborn Sloth: Unraveling the Behavior of Large Language Models in Knowledge Clashes
- Woodpecker: Hallucination Correction for Multimodal Large Language Models
- Zero-shot Faithful Factual Error Correction
- LARGE LANGUAGE MODELS CANNOT SELF-CORRECT REASONING YET
- Training Language Models to Self-Correct via Reinforcement Learning
大模型评估(evaluation)
- 事实性评估
- TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR EVALUATING LARGE LANGUAGE MODELS' ALIGNMENT
- TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models
- TRUE: Re-evaluating Factual Consistency Evaluation
- FACTSCORE: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation
- KoLA: Carefully Benchmarking World Knowledge of Large Language Models
- When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories
- FACTOOL: Factuality Detection in Generative AI A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios
- LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS
- 检测任务
- Detecting Pretraining Data from Large Language Models
- Scalable Extraction of Training Data from (Production) Language Models
- Rethinking Benchmark and Contamination for Language Models with Rephrased Samples
推理优化(inference)
- Fast Transformer Decoding: One Write-Head is All You Need
- Fast Inference from Transformers via Speculative Decoding
- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
- Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding
- SkipDecode: Autoregressive Skip Decoding with Batching and Caching for Efficient LLM Inference
- BatchPrompt: Accomplish more with less
- You Only Cache Once: Decoder-Decoder Architectures for Language Models
- XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models
- Precise Length Control in Large Language Models
- Top-nσ: Not All Logits Are You Need
- Prompt Cache: Modular Attention Reuse for Low-Latency Inference
模型知识编辑黑科技(model_edit)
- ROME:Locating and Editing Factual Associations in GPT
- Transformer Feed-Forward Layers Are Key-Value Memories
- MEMIT: Mass-Editing Memory in a Transformer
- MEND:Fast Model Editing at Scale
- Editing Large Language Models: Problems, Methods, and Opportunities
- Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch
- Automata-based constraints for language model decoding
- SGLang: Efficient Execution of Structured Language Model Programs
模型合并和剪枝(model_merge)
- Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
- DARE Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch
- EDITING MODELS WITH TASK ARITHMETIC
- TIES-Merging: Resolving Interference When Merging Models
- LM-Cocktail: Resilient Tuning of Language Models via Model Merging
- SLICEGPT: COMPRESS LARGE LANGUAGE MODELS BY DELETING ROWS AND COLUMNS
- Checkpoint Merging via Bayesian Optimization in LLM Pretrainin
- Arcee's MergeKit: A Toolkit for Merging Large Language Models
MOE
- Tricks for Training Sparse Translation Models
- ST-MoE: Designing Stable and Transferable Sparse Expert Models
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
- GLaM: Efficient Scaling of Language Models with Mixture-of-Experts
- GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
- OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER
- DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale
- Dense-to-Sparse Gate for Mixture-of-Experts
- Efficient Large Scale Language Modeling with Mixtures of Experts
マルチモーダル
- InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
- Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
- LLava Visual Instruction Tuning
- MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
- BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions
- mPLUG-Owl : Modularization Empowers Large Language Models with Multimodality
- LVLM eHub: A Comprehensive Evaluation Benchmark for Large VisionLanguage Models
- Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities
- PaLM-E: An Embodied Multimodal Language Model
- TabLLM: Few-shot Classification of Tabular Data with Large Language Models
- AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
- Sora tech report
- Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study
- OCR
- Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
- Large OCR Model:An Empirical Study of Scaling Law for OCR
- ON THE HIDDEN MYSTERY OF OCR IN LARGE MULTIMODAL MODELS
- PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers
- Many-Shot In-Context Learning in Multimodal Foundation Models
- Adding Conditional Control to Text-to-Image Diffusion Models
- Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent
まとめ
- A Survey of Large Language Models
- Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing
- Paradigm Shift in Natural Language Processing
- Pre-Trained Models: Past, Present and Future
- What Language Model Architecture and Pretraining objects work best for zero shot generalization
- Towards Reasoning in Large Language Models: A Survey
- Reasoning with Language Model Prompting: A Survey
- An Overview on Language Models: Recent Developments and Outlook
- A Survey of Large Language Models[6.29更新版]
- Unifying Large Language Models and Knowledge Graphs: A Roadmap
- Augmented Language Models: a Survey
- Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey
- Challenges and Applications of Large Language Models
- The Rise and Potential of Large Language Model Based Agents: A Survey
- Large Language Models for Information Retrieval: A Survey
- AI Alignment: A Comprehensive Survey
- Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications
- Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook
- A Survey on Language Models for Code
- Model-as-a-Service (MaaS): A Survey
大模型能力探究
- In Context Learning
- LARGER LANGUAGE MODELS DO IN-CONTEXT LEARNING DIFFERENTLY
- How does in-context learning work? A framework for understanding the differences from traditional supervised learning
- Why can GPT learn in-context? Language Model Secretly Perform Gradient Descent as Meta-Optimizers
- Rethinking the Role of Demonstrations What Makes incontext learning work?
- Trained Transformers Learn Linear Models In-Context
- In-Context Learning Creates Task Vectors
- FUNCTION VECTORS IN LARGE LANGUAGE MODELS
- 涌现能力
- Sparks of Artificial General Intelligence: Early experiments with GPT-4
- Emerging Ability of Large Language Models
- LANGUAGE MODELS REPRESENT SPACE AND TIME
- Are Emergent Abilities of Large Language Models a Mirage?
- 能力评估
- IS CHATGPT A GENERAL-PURPOSE NATURAL LANGUAGE PROCESSING TASK SOLVER?
- Can Large Language Models Infer Causation from Correlation?
- Holistic Evaluation of Language Model
- Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
- Theory of Mind May Have Spontaneously Emerged in Large Language Models
- Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models
- Do Models Explain Themselves? Counterfactual Simulatability of Natural Language Explanations
- Demystifying GPT Self-Repair for Code Generation
- Evidence of Meaning in Language Models Trained on Programs
- Can Explanations Be Useful for Calibrating Black Box Models
- On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective
- Language acquisition: do children and language models follow similar learning stages?
- Language is primarily a tool for communication rather than thought
- 领域能力
- Capabilities of GPT-4 on Medical Challenge Problems
- Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine
- Understanding LLM Embeddings for Regression
Prompt Tunning范式
- Tunning Free Prompt
- GPT2: Language Models are Unsupervised Multitask Learners
- GPT3: Language Models are Few-Shot Learners
- LAMA: Language Models as Knowledge Bases?
- AutoPrompt: Eliciting Knowledge from Language Models
- Fix-Prompt LM Tunning
- T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
- PET-TC(a): Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
- PET-TC(b): PETSGLUE It's Not Just Size That Matters Small Language Models are also few-shot learners
- GenPET: Few-Shot Text Generation with Natural Language Instructions
- LM-BFF: Making Pre-trained Language Models Better Few-shot Learners
- ADEPT: Improving and Simplifying Pattern Exploiting Training
- Fix-LM Prompt Tunning
- Prefix-tuning: Optimizing continuous prompts for generation
- Prompt-tunning: The power of scale for parameter-efficient prompt tuning
- P-tunning: GPT Understands Too
- WARP: Word-level Adversarial ReProgramming
- LM + Prompt Tunning
- P-tunning v2: Prompt Tuning Can Be Comparable to Fine-tunning Universally Across Scales and Tasks
- PTR: Prompt Tuning with Rules for Text Classification
- PADA: Example-based Prompt Learning for on-the-fly Adaptation to Unseen Domains
- Fix-LM Adapter Tunning
- LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
- LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning
- Parameter-Efficient Transfer Learning for NLP
- INTRINSIC DIMENSIONALITY EXPLAINS THE EFFECTIVENESS OF LANGUAGE MODEL FINE-TUNING
- DoRA: Weight-Decomposed Low-Rank Adaptation
- Representation Tuning
- ReFT: Representation Finetuning for Language Models
Timeseries LLM
- TimeGPT-1
- Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook
- TIME-LLM: TIME SERIES FORECASTING BY REPROGRAMMING LARGE LANGUAGE MODELS
- Large Language Models Are Zero-Shot Time Series Forecasters
- TEMPO: PROMPT-BASED GENERATIVE PRE-TRAINED TRANSFORMER FOR TIME SERIES FORECASTING
- Generative Pre-Training of Time-Series Data for Unsupervised Fault Detection in Semiconductor Manufacturing
- Lag-Llama: Towards Foundation Models for Time Series Forecasting
- PromptCast: A New Prompt-based Learning Paradigm for Time Series Forecasting
Quanization
- AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration
- LLM-QAT: Data-Free Quantization Aware Training for Large Language Models
- LLM.int8() 8-bit Matrix Multiplication for Transformers at Scale
- SmoothQuant Accurate and Efficient Post-Training Quantization for Large Language Models
Adversarial Attacking
- Curiosity-driven Red-teaming for Large Language Models
- Red Teaming Language Models with Language Models
- EXPLORE, ESTABLISH, EXPLOIT: RED-TEAMING LANGUAGE MODELS FROM SCRATCH
対話モデル
- LaMDA: Language Models for Dialog Applications
- Sparrow: Improving alignment of dialogue agents via targeted human judgements
- BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage
- How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation
- DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI
- Enhancing Chat Language Models by Scaling High-quality Instructional Conversations
- DiagGPT: An LLM-based Chatbot with Automatic Topic Management for Task-Oriented Dialogue
その他
- Pretraining on the Test Set Is All You Need 哈哈作者你是懂讽刺文学的
- Learnware: Small Models Do Big
- The economic potential of generative AI
- A PhD Student's Perspective on Research in NLP in the Era of Very Large Language Models