LLMSのパラメトリック知識はまだほとんど未開拓の領域であると信じており、このリポジトリがあなたにいくつかの貴重な洞察を提供することを願っています!?
最終投影層を使用してLLMSの特殊な特徴ニューロンをデコードする
[ロジッツレンズ、クエリニューロンの分析]
知識ニューロンの論文は知識と何の関係がありますか?
Jingcheng Niu、Andrew Liu、Zining Zhu、Gerald Penn。 ICLR'24(スポットライト)
大規模な言語モデルの知識メカニズム:調査と視点
Mengru Wang、Yunzhi Yao、Ziwen Xu、Shuofei Qiao、Shumin Deng、Peng Wang、Xiang Chen、Jia-Chen Gu、Yong Jiang、Pengjun Xie、Fei Huang、Huajun Chen、Ningyu Zhang。 EMNLP'24調査結果
大規模な言語モデルにおけるメモリと推論能力を解き放つ
Mingyu Jin、Weidi Luo、Sitao Cheng、Xinyi Wang、Wenyue Hua、Ruixiang Tang、William Yang Wang、Yongfeng Zhang。 PREPRINT'24
言語崩壊:(大)言語モデルの神経崩壊
ロバート・ウー、ヴァルダン・パピアン。 NIPS'24
大規模な言語モデルのパラメトリックとコンテキストの知識の相互作用を理解する
シタオ・チェン、リアンミング・パン、Xunjian Yin、Xinyi Wang、William Yang Wang。 PREPRINT'24
大規模な言語モデルの外部およびパラメトリックの知識融合の評価
Hao Zhang、Yuyang Zhang、Xiaoguang Li、Wenxuan Shi、Haonan Xu、Huanshuo Liu、Yasheng Wang、Lifeng Shang、Qun Liu、Yong Liu、Ruiming Tang。 PREPRINT'24
適応型カメレオンまたは頑固なナマケモノ:知識の対立における大規模な言語モデルの行動を明らかにする
Jian Xie、Kai Zhang、Jiangjie Chen、Renze Lou、Yu Su。 ICLR'24スポットライト
知識エントロピー崩壊言語モデル中の事前トレーニング中の新しい知識の習得は妨げられます
ジヨン・キム、ヒョンジ・リー、ハイオン・チョー、ジョエル・チャン、ヒョンビン・ファン、スンピル・ウォン、ユビン・アン、ドーハエン・リー、ミンジョン・ソ。 PREPRINT'24
コンテキストがリードしますが、パラメトリックメモリは大きな言語モデルで続きます
Yufei Tao、Adam Hiatt、Erik Haake、Antonie J. Jetter、Ameeta Agrawal。 emnlp'24
大規模な言語モデルにおけるニューロンレベルの知識の帰属
Zeping Yu、ソフィア・アナニアドゥ。 emnlp'24
自動回帰言語モデルでの事実上の関連性のリコールを分析する[コード]
Mor Geva、Jasmijn Bastings、Katja Filippova、Amir Globerson。 emnlp'23
トランスフィードフォワードレイヤーは、キー価値の記憶です
Mor Geva、Roei Schuster、Jonathan Berant、Omer Levy。 emnlp'21
知識のローカリゼーションは真実ですか?言語モデルのエンティティと関係の視点の驚くべき違い
Yifan Wei、Xiaoyan Yu、Yixuan Weng、Huanhuan MA、Yuanzhe Zhang、Jun Zhao、Kang Liu。 Cikm'24
GPTで事実上の協会を見つけて編集します
Kevin Meng、David Bau、Alex Andonian、Yonatan Belinkov。 NIPS'22
長い形式のテキストの大きな言語モデルでクエリ関連ニューロンを識別する
Lihu Chen、Adam Dejl、Francesca Toni。 PREPRINT'24
言語モデルのパラメトリック知識を明らかにする:帰属方法のための統一されたフレームワーク
Haeun Yu、Pepa Atanasova、Isabelle Augenstein。 ACL'24
大規模な言語モデルにはタスク固有のニューロンが含まれていますか。
走った歌、shizhu He、江、Yantuan Xian、Shengxiang Gao、Kang Liu、Zhengtao Yuを閉じて。 emnlp'24
知識ニューロンの中心への旅:言語に依存しない知識ニューロンと退化した知識ニューロンの発見
Yuheng Chen、Pengfei Cao、Yubo Chen、Kang Liu、Jun Zhao。 aaai'24
前処理された変圧器の知識ニューロン
Damai Dai、Li Dong、Yaru Hao、Zhifang Sui、Baobao Chang、Furu Wei。 ACL'22
舌を思考から分離する:アクティベーションパッチングは、変圧器の言語に依存しない概念表現を明らかにします
ClémentDumas、Chris Wendler、Veniamin Veselovsky、Giovanni Monea、Robert West。 ICLR'24スポットライト
はいから、ピンポイントチューニング付きの大規模な言語モデルでのサイコファンシーに対処する真実のテラーまで
Wei Chen、Zhen Huang、Liang Xie、Binbin Lin、Houqiang Li、Le Lu、Xinmei Tian、Deng Cai、Yonggang Zhang、Wenxiao Wang、Xu Shen、Jieping Ye。 ICML'24
言語固有のニューロン:大規模な言語モデルにおける多言語機能の鍵。
Tianyi Tang、Wenyang Luo、Haoyang Huang、Dongdong Zhang、Xiaolei Wang、Xin Zhao、Furu Wei、Ji-Rong Wen。 ACL'24
動的アクティベーション組成を備えた大規模な言語モデルのマルチプロパティステアリング
ダニエル・スカレーナ、ガブリエレ・サルティ、マルヴィナ・ニシム。 ACL'24 Blackboxnlpワークショップ
トレーニング前の活性化スパースの利点を探る
[MOE、活性化スパース、活性化パターン、推論スピードアップ] Zhengyan Zhang、Chaojun Xiao、Qiujieli Qin、Yankai Lin、Zhiyuan Zeng、Xu Han、Zhiyuan Liu、Ruobing Xie、Maosong Sun、Jie Zhou。 ICML'24
アクティベーションの追加:最適化のないステアリング言語モデル
アレクサンダー・マット・ターナー、リサ・ティエガート、ギャビン・リーチ、デビッド・ウデル、フアン・J・バスケス、ウリス・ミニ、モンテ・マクディアミッド。 PREPRINT'23
Deja Vu:推論時に効率的なLLMのコンテキストスパース
[スパース、推論のスピードアップ] Zichang Liu、Jue Wang、Tri Dao、Tianyi Zhou、Binhang Yuan、Zhao Song、Anshumali Shrivastava、Ce Zhang、Yuandong Tian、Christopher Re、Beidi Chen。 ICML'23
大規模な言語モデルの知識編集の包括的な研究
Ningyu Zhang、Yunzhi Yao、Bozhong Tian、Peng Wang、Shumin Deng、Mengru Wang、Zekun XI、Shengyu Mao、Jintian Zhang、Yuansheng Ni、Siyuan Cheng、Ziwen Xu、Xin Xu、Jia-chen Gu、Yong jiang、pegjun Liang、Zhiqiang Zhang、Xiaowei Zhu、Jun Zhou、Huajun Chen。 PREPRINT'24
名声:事実上のマルチタスクモデル編集に向けて、 Li Zeng、Yingyu Shan、Zeming Liu、Jiashu Yao、Yuhang Guo。 emnlp'24
忘れるかどうか?大規模な言語モデルの実用的な知識を解き放つために
Bozhong Tian、Xiaozhuan Liang、Siyuan Cheng、Qingbin Liu、Mengru Wang、Dianbo Sui、Xi Chen、Huajun Chen、Ningyu Zhang。 EMNLP'24調査結果
モデル編集におけるLLMの崩壊を理解する
Wanli Yang、Fei Sun、Jiajun Tan、Xinyu Ma、Du Su、Dawei Yin、Huawei Shen。 EMNLP'24調査結果
大規模な言語モデルを堅牢に編集することは可能ですか?
Xinbei Ma、Tianjie Ju、Jiyang Qiu、Zhuosheng Zhang、Hai Zhao、Lifeng Liu、Yulong Wang。 PREPRINT'24
マルチホップ質問の回答のための言語モデルでの検索強化知識編集
Yucheng Shi、Qiaoyu Tan、Xuansheng Wu、Shaochen Zhong、Kaixiong Zhou、Ninghao Liu。 Cikm'24
潜在的な言い換え:層の摂動は、言語モデルの知識の注入を改善する
Minki Kang、Sung Ju Hwang、Gibbeum Lee、Jaewoong Cho。 NIPS'24
編集の学習:LLMを知識編集に合わせます
Yuxin Jiang、Yufei Wang、Chuhan Wu、Wanjun Zhong、Xingshan Zeng、Jiahui Gao、Liangyou Li、Xin Jiang、Lifeng Shang、Ruiming Tang、Qun Liu、Wei Wang。 ACL'24
言語モデルの知識表現の検査と編集
エヴァン・ヘルナンデス、ベリンダ・Z・リー、ジェイコブ・アンドレアス。 colm'24
学習前に忘れる:大規模な言語モデルでの知識の更新にパラメトリック算術を利用する
Shiwen Ni、Dingwei Chen、Chengming Li、Xiping Hu、Ruifeng Xu、Min Yang。 ACL'24
ETHOS:直交パラメーター空間で言語モデルを修正します
[Toxic/Bias Ulderning、SVD、パラメトリック知識の分析、タスクベクトル]
NAACL'24調査結果
大規模な言語モデルの編集:問題、方法、機会
Yunzhi Yao、Peng Wang、Bozhong Tian、Siyuan Cheng、Zhoubo Li、Shumin Deng、Huajun Chen、Ningyu Zhang。 emnlp'23
GPTで事実上の協会を見つけて編集します
Kevin Meng、David Bau、Alex Andonian、Yonatan Belinkov。 NIPS'22
大規模なメモリベースのモデル編集
エリック・ミッチェル、チャールズ・リン、アントワーヌ・ボッサルート、クリストファー・D・マニング、チェルシー・フィン。 ICLR'22
言語モデルでの事実知識の編集
ニコラ・デ・カオ、ウィルカー・アジズ、イヴァン・ティトフ。 emnlp'21
編集可能なニューラルネットワーク。
Anton Sinitsin、Vsevolod Plokhotnyuk、Dmitriy Pyrkin、Sergei Popov、Artem Babenko。 ICLR'20
Ming Zhong、Chenxin an、Weizhu Chen、Jiawei Han、Pengcheng He。 ICLR'24
大きいモデルを使用した初期化モデル
Zhiqiu Xu、Yanjie Chen、Kirill Vishniakov、Yida Yin、Zhiqiang Shen、Trevor Darrell、Lingjie Liu、Zhuang Liu。 ICLR'24スポットライト
クロスモデルコントロール:1回限りのトレーニングで複数の大手言語モデルを改善する
Jiayi Wu、Hao Sun、Hengyi Cai、Lixin SU、Shuaiqiang Wang、Dawei Yin、Xiang Li、Ming Gao。 NIPS'24
大規模な言語モデルの知識融合
fanqi wan、xinting huang、deng cai、xiaojun quan、wei bi、shuming shi。 ICLR'24
プロキシによる調整言語モデル
アリサ・リュー、Xiaochuang Han、Yizhong Wang、Yulia Tsvetkov、Yejin Choi、Noah A. Smith。 colm'24
チャットベクトル:LLMSに新しい言語での指示とモデルのアラインメントを装備するための簡単なアプローチ
[タスクベクトル、パラメトリック知識、知識移転]
ACL'24
FEDMKT:大小の言語モデルのフェデレーション相互知識移転
[連合学習、知識移転、不均一なトークンアライメント]
Coling'25
大規模な言語モデルの関数ベクトル
[関数ベクトル、因果調停、メカニズムの解釈]
ICLR'24
命令ベクトルを介して大規模な言語モデルの微調整を改善します
[壊滅的な忘却、関数ベクトル、因果調停]
PREPRINT'24
KLF:言語モデルの継続的な学習のための知識のローカリゼーションと融合
[壊滅的な忘却、継続的な学習、感覚ベースの場所]
ACL'24
言語モデルはスーパーマリオです:無料のランチとしての相同モデルからの吸収能力
[知識移転、モデルの合併、効率的なスキル] ICML'24
タスクベクトルを超えて:重要性メトリックに基づく選択的タスク算術
[タスクベクトル、感覚ベースの重要性スコア、モデルのマージ] Preprint'24
クロスシロの知識移転による大小の言語モデルの相互強化
Yongheng Deng、Ziqing Qiao、Ju Ren、Yang Liu、Yaoxue Zhang。 PREPRINT'23
効率的な変圧器トレーニングのための前提型モデルを栽培することを学ぶ
ペイハオ・ワン、ラムズワル・パンダ、ルーカス・トロバ・ヘニゲン、フィリップ・グリーンガード、レオニド・カルリンスキー、ロゲリオ・フェリス、デビッド・D・コックス、張陽王、ユン・キム。 ICLR'23
検索ベースの知識転送:極端な大規模な言語モデルの圧縮のための効果的なアプローチ
Jiduan Liu、Jiahao Liu、Qifan Wang、Jingang Wang、Xunliang Cai、Dongyan Zhao、Ran Lucien Wang、Rui Yan。 EMNLP'23調査結果
タスク算術を使用したモデルの編集
[タスクvecotr、パラメトリック知識、知識移転、マルチタスク学習]
ICLR'23
微調整された言語モデルにおけるタスク固有のスキルローカリゼーション
[知識転送、モデルグラフト、スキルパラメーターのローカリゼーション]
ICML'23
算術操作を備えたパラメーター効率の高いモジュールを作成します
[PEFT、タスクベクトル、モデルマージ]
NIPS'23
言語モデルの重みを統合することによるデータレスの知識融合
[モデルマージ]
ICLR'23
重量蒸留:ニューラルネットワークパラメーターの知識を転送します
Ye Lin、Yanyang Li、Ziyang Wang、Bei Li、Quan du、Tong Xiao、Jingbo Zhu。 ACL'21
動的アクティベーション組成を備えた大規模な言語モデルのマルチプロパティステアリング
ダニエル・スカレーナ、ガブリエレ・サルティ、マルヴィナ・ニシム。 ACL'24 Blackboxnlpワークショップ
単語の埋め込みは、言語モデルのステアです
[単語埋め込みステアリング、生成コントロール] ACL'24
アレクサンダー・マット・ターナー、リサ・ティエガート、ギャビン・リーチ、デビッド・ウデル、フアン・J・バスケス、ウリス・ミニ、モンテ・マクディアミッド。 PREPRINT'23
PROMPTKD:プロンプトチューニングを介して生成言語モデルの学生にやさしい知識を蒸留する(注:パラメトリックではない)
Gyeongman Kim、Doohyuk Jang、Eunho Yang。 EMNLP'24調査結果
インスタンストレーニングから指導学習まで:タスクアダプターの生成は指示から
Huanxuan Liao、Yao Xu、Shizhu He、Yuanzhe Zhang、Yanchao Hao、Shengping Liu、Kang Liu、Jun Zhao。 NIPS'24
赤ちゃんが赤ちゃんを教えるとき:生徒の知識共有は、小さなデータセットで教師誘導蒸留を上回ることができますか?
Srikrishna Iyer。 EMNLP'24 CONLLワークショップ
OneBit:非常に低ビットの大型言語モデルに向けて
Yuzhuang Xu、Xu Han、Zonghan Yang、Shuo Wang、Qingfu Zhu、Zhiyuan Liu、Weidong Liu、Wanxiang Che。 NIPS'24
圧縮コスト:言語モデルのパラメトリック知識に対する圧縮の影響の調査
Satya Sai Srinath Namburi、Myshh Sreedhar、Srinath Srinivasan、Frederic Sala。 EMNLP'23調査結果
目覚める拡張生成:質問に答えるための大規模な言語モデルの内部知識を目覚めることを学ぶ
[ハイパーネット、ラグ、コンテキスト圧縮]
Huanxuan liao、Shizhu He、Yao Xu、Yuanzhe Zhang、Kang Liu、Shengping Liu、Jun Zhao。 aaai'25
メモリインジェクション:トランスベースの言語モデルの推論中のマルチホップ推論の障害の修正
Mansi Sakarvadia、Aswathy Ajith、Arham Khan、Daniel Grzenda、Nathaniel Hudson、AndréBauer、Kyle Chard、Ian Foster。 EMNLP'23のBlackBoxNLPワークショップでの口頭発表
プラグアンドプレイ言語モデリングのパラメーターからの知識を切り離します
Xin Cheng、Yankai Lin、Xiuing Chen、Dongyan Zhao、Rui Yan。 ACL'23調査結果
パラメーターの知識インジェクション:一時的なコンテキスト情報をモデルパラメーターに統合する
ICLR'25に提出
Kformer:トランスフィードフォワード層の知識注入
Yunzhi Yao、Shaohan Huang、Li Dong、Furu Wei、Huajun Chen、Ningyu Zhang。 NLPCC'22
KASA:大規模な言語モデルの知識を認識している特異値の適応
[知識を認識しているロラ、SVD]
ファン・ワン、ジュヨン・ジャン、チャンソン・パーク、スングン・キム、ジン・タン。 PREPRINT'24
CORDA:タスクを意識するパラメーター効率の高い微調整のための大規模な言語モデルのコンテキスト指向の分解適応
[知識を認識しているロラ、SVD]
Yibo Yang、Xiaojie Li、Zhongzhu Zhou、Shuaiwen Leon Song、Jianlong Wu、Liqiang Nie、Bernard Ghanem。 NIPS'24
DORA:減量の低いランク適応
[重量分解ロラ、SVD、FTおよびLORAの分析]シハヤンリウ、チエンイウワン、ホンクスゥイイン、パブロモルチャノフ、ユウチャンフランクワン、クワン - チェン、ミンハンチェン。 ICML'24オーラル
微調整言語モデルのためのタスク関連機能強化による低ランクの適応
[タスクアウェアロラ、隠された表現の強化] aaai'25 coloraiワークショップ
詳細については、わざわざ少なくなっています。パラメーター効率的な継続学習
[継続的な学習、パラメーター効率、知識転送] NIPS'24
私のモデルは何を忘れますか?言語モデルの洗練における忘れられた例を予測します
[壊滅的な忘却、予測忘却、分析] ICML'24スポットライト
XRAG:1つのトークンを使用した検索された生成のための極端なコンテキスト圧縮
[コンテキスト圧縮、RAG、マルチモーダル融合] NIPS'24
Longembed:長いコンテキストの取得のための埋め込みモデルを拡張します
[長いコンテキスト、埋め込みモデル、ベンチマーク] emnlp'24
LLM Muyce LongLM:チューニングせずにLLMコンテキストウィンドウを自己拡張します
[長いコンテキスト拡張、プラグアンドプレイ方法] ICML'24スポットライト
2つの石が1つの鳥に当たります:より良い長さの外挿のための二重型位置エンコード
[長いコンテキスト拡張、絶対PE +相対PE、プラグアンドプレイですが、トレーニングベースの方法] ICML'24
糸:大規模な言語モデルの効率的なコンテキストウィンドウ拡張[http://arxiv.org/abs/2309.00071]
[長いコンテキスト拡張、ロープのバリエーション] ICLR'24
短いトレーニング、テスト長:線形バイアスを使用して注意が入力された長さの外挿を可能にします
[alibi、長いコンテキスト外挿、トレーニングベースの方法] ICLR'22
Roformer:回転位置の埋め込みを備えた強化されたトランス。
[ロータリー位置埋め込み、クラシック]