Мы считаем, что параметрические знания в LLMS по -прежнему остаются в значительной степени неисследованной областью, и мы надеемся, что этот репозиторий предоставит вам какую -то ценную информацию!? ? ️
Декодирование специализированных нейронов в LLM с конечным проекционным слоем
[Logits Lins, анализ нейрона запроса]
Какое отношение к знанию тезиса нейрона имеет знание?
Джингченг Ниу, Эндрю Лю, Зининг Чжу, Джеральд Пенн. IClr'24 (прожектор)
Механизмы знаний в крупных языковых моделях: опрос и перспектива
Менгру Ван, Юньчхи Яо, Зивен Сюй, Шуофей Цяо, Шумин Денг, Пенг Ванг, Сян Чен, Цзя-Чен Гу, Юн Цзян, Пенгжун Се, Фей Хуанг, Хуадзюн Чен, Нингю Чжан. EMNLP'24 выводы
Уничтожение памяти и способности рассуждать в больших языковых моделях
Минью Джин, Вейди Луо, Ситао Ченг, Синьи Ван, Вени Хуа, Руиксан Тан, Уильям Ян Ванг, Юнфенг Чжан. Preprint'24
Лингвистический коллапс: нервное коллапс в (крупных) языковых моделях
Роберт Ву, Вардан Папьян. Nips'24
Понимание взаимодействия между параметрическими и контекстуальными знаниями для крупных языковых моделей
Ситао Ченг, Лянгинг Пан, Сюньцзян Инь, Синьи Ван, Уильям Ян Ванг. Preprint'24
Оценка внешнего и параметрического слияния знаний крупных языковых моделей
Хао Чжан, Юян Чжан, Сяогуан Ли, Венксуан Ши, Хаонан Сюй, Хуанхуо Лю, Яшенг Ван, Лифенг Шан, Кун Лю, Юн Лю, Руиминг Тан. Preprint'24
Адаптивный хамелеон или упрямый ленив: раскрытие поведения крупных языковых моделей в конфликтах знаний
Цзянь Си, Кай Чжан, Цзянджи Чен, Рензе Лу, Ю Су. ICLR'24 Spotlight
Знание энтропии распад во время языковой модели, предварительная подготовка, препятствует получению новых знаний
Jiyeon Kim, Hyunji Lee, Hyowon Cho, Joel Jang, Hyonbin Hwang, Seungpil Won, Youbin Ahn, Dohaeng Lee, Minjoon Seo. Preprint'24
Когда контекст ведет, но параметрическая память следует в больших языковых моделях
Юфэй Тао, Адам Хиатт, Эрик Хааке, Энтони Дж. Джеттер, Амита Агравал. Emnlp'24
Атрибуция знаний на уровне нейронов в моделях крупных языков
Зепинг Ю, София Ананиаду. Emnlp'24
Расширение отзывов фактических ассоциаций в авторегрессивных языковых моделях [CODE]
Mor Geva, Jasmijn Bastings, Katja Filippova, Amir Globerson. Emnlp'23
Слои перевода трансформатора-это воспоминания о ключевых значениях
Мор Гева, Рои Шустер, Джонатан Берант, Омер Леви. Emnlp'21
Верна ли локализация знаний? Удивительные различия между перспективами сущности и отношения в языковых моделях
Йифан Вей, Сяаян Ю, Иксуан Венг, Хуанхуан М.А., Юаньцхе Чжан, Джун Чжао, Кан Лю. Cikm'24
Расположение и редактирование фактических ассоциаций в GPT
Кевин Мэн, Дэвид Бау, Алекс Андониан, Йонатан Белинков. Nips'22
Выявление нейронов-релевантных запросов в моделях крупных языков для длинных текстов
Лиху Чен, Адам Дежл, Франческа Тони. Preprint'24
Выявление параметрического знания языковых моделей: унифицированная структура для методов атрибуции
Хейн Ю, Пепа Атанасова, Изабель Аугенштейн. Acl'24
Содержит ли большая языковая модель, специфичные для задачи нейроны.
Ран Сонг, Шучжу Хе, закрывающий Цзян, Янтуан Сянь, Шенгксиан Гао, Кан Лю и Чжэнтао Ю. Emnlp'24
Путешествие в центр нейронов знаний: открытия независимых от языка нейронов знаний и вырожденных нейронов знаний
Юхенг Чен, Пенгфей Цао, Юбо Чен, Кан Лю, Джун Чжао. Aaai'24
Нейроны знаний у предварительно проведенных трансформаторов
Дамай Дай, Ли Донг, Яру Хао, Жифанг Суй, Баобао Чанг, Фуру Вэй. Acl'22
Отделение языка от мышления: исправление активации раскрывает языковые концептуальные представления в трансформаторах
Климент Дюмас, Крис Вендлер, Вениамин Веселовский, Джованни МОНЕА, Роберт Уэст. ICLR'24 Spotlight
От да-людей до истинных режимов, обращающихся к сикофантности в крупных языковых моделях с точечной настройкой
Вэй Чен, Чжэнь Хуанг, Лян Си, Бинбин Лин, Хуцян Ли, Ле Лу, Синми Тянь, Денг Кай, Юнганг Чжан, Венсиао Ван, Сюй Шен, Цзипинг Йе. ICML'24
Нейроны, специфичные для языка: ключ к многоязычным возможностям в крупных языковых моделях.
Tianyi Tang, Wenyang Luo, Haoyang Huang, Dongdong Zhang, Xiaolei Wang, Xin Zhao, Furu Wei, Ji-Rong Wen. Acl'24
Мультипрофессиональное рулевое управление большими языковыми моделями с динамической активационной композицией
Даниэль Скальена, Габриэле Сарти, Мальвина Ниссим. ACL'24 Blackboxnlp Workshop
Изучение пользы активационной разреженности в предварительном тренировке
[Moe, Activation Sparsity, схема активации, ускорение вывода] Чжэнэнгян Чжан, Чаоджун Сяо, Цюдзиэли Цин, Янкай Лин, Чжиюан Зенг, Сюдж Хан, Чжийюан Лю, Рубинг Се, Маосонг Солн, Джи Чжоу. ICML'24
Дополнение активации: модели рулевого языка без оптимизации
Александр Мэтт Тернер, Лиза Тьергарт, Гэвин Лич, Дэвид Уделл, Хуан Дж. Васкес, Mini, Monte Macdiarmid. Preprint'23
Deja Vu: контекстуальная редкость для эффективных LLM во время вывода
[Sparsity, Sparsepup] Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song, Anshumali Shrivastava, CE Zhang, Yuandong Tian, Cristopher RE, Beidi Chen. ICML'23
Комплексное исследование редактирования знаний для моделей крупных языков
Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuanssheng Ni, Siyuan Cheng, Ziwen Xu, Fei Hung, пенж, пенгюн, пенгя, пенж, пенгя, пенж, пенгя, пенгя, пенгя, пенж, пенгя, пенж, пенгя, пенж, пенгюн Лян, Чжицан Чжан, Сяоуей Чжу, Джун Чжоу, Хуаджун Чен. Preprint'24
Слава: к фактическому многозадачному редактированию модели Ли Зенг, Йиню Шан, Земин Лю, Цзяшу Яо, Юханг Го. Emnlp'24
Забыть или нет? На пути к практическому обучению знаний для больших языковых моделей
Божонт Тянь, Сяочюан Лян, Сиюань Ченг, Цинбин Лю, Менгра Ван, Дайанбо Суй, Си Чен, Хуаджун Чен, Ниню Чжан. EMNLP'24 выводы
Понимание коллапса LLMS в модели редактирования
Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Du Su, Dawei Yin, Huawei Shen. EMNLP'24 выводы
Можно ли надежно редактировать модели с большими языками?
Xinbei MA, Tianjie Ju, Jiyang Qiu, Zhuosheng Zhang, Hai Zhao, Lifeng Liu, Yulong Wang. Preprint'24
Редактирование знаний с получением поиска в языковых моделях для ответа на вопрос с несколькими ходами
Юченг Ши, Циаою Тан, Сюансхенг Ву, Шаохен Чжун, Кайсион Чжоу, Нингхао Лю. Cikm'24
Скрытая перефразирование: возмущение на слоях улучшает инъекцию знаний в языковых моделях
Минки Канг, Сун Джу Хван, Гиббеум Ли, Jaewoong Cho. Nips'24
Обучение редактированию: выравнивание LLM с редактированием знаний
Yuxin Jiang, Юфэй Ван, Чухан Ву, Ванджун Чжун, Сингшан Зенг, Цзяхуи Гао, Лиангьи Ли, Синь Цзян, Lifeng Shang, Ruiming Tang, Qun Liu, Wei Wang. Acl'24
Проверка и редактирование представлений знаний в языковых моделях
Эван Эрнандес, Белинда З. Ли, Джейкоб Андреас. Colm'24
Забыть перед обучением: использование параметрической арифметики для обновления знаний в моделях крупных языков
Шивен Н.И., Дингвей Чен, Ченминг Ли, XIPing Ху, Руфенг Сюй, Мин Ян. Acl'24
Этос: выпрямление языковых моделей в ортогональном пространстве параметров
[Toxic/BIAS Underning, SVD, Анализ параметрических знаний, вектор задач]
NAACL'24 выводы
Редактирование больших языковых моделей: проблемы, методы и возможности
Юньчхи Яо, Пенг Ванг, Божонг Тянь, Сиюан Ченг, Чжоу Ли, Шумин Денг, Хуаджун Чен, Ниню Чжан. Emnlp'23
Расположение и редактирование фактических ассоциаций в GPT
Кевин Мэн, Дэвид Бау, Алекс Андониан, Йонатан Белинков. Nips'22
Редактирование модели на основе памяти в масштабе
Эрик Митчелл, Чарльз Лин, Антуан Босселут, Кристофер Д. Мэннинг, Челси Финн. ICLR'22
Редактирование фактических знаний в языковых моделях
Никола де Као, Уилкер Азиз, Иван Титов. Emnlp'21
Редактируемые нейронные сети.
Антон синицин, Vsevolod Plokhotnyuk, Dmitriy Pyrkin, Sergei Povov, Artem Babenko. ICLR'20
Мин Чжун, Ченксин А.Н., Вайуху Чен, Цзявей Хан, Пенгенг Хе. ICLR'24
Инициализация моделей с более крупными
Zhiqiu Xu, Yanjie Chen, Kirill Vishniakov, Yida Yin, Zhiqiang Shen, Trevor Darrell, Lingjie Liu, Zhuang Liu. ICLR'24 Spotlight
Поперечное управление: улучшение нескольких крупных языковых моделей в одноразовом обучении
Jiayi Wu, Hao Sun, Hengyi Cai, Lixin Su, Shuaiqiang Wang, Dawei Yin, Xiang Li, Ming Gao. Nips'24
Слияние знаний крупных языковых моделей
Фанки Ван, Синьтинг Хуан, Дэн Кай, Сяоджун Куан, Вэй Би, Шуминг Ши. ICLR'24
Настройка языковых моделей по доверенности
Алиса Лю, Сяочуан Хан, Йижонг Ванг, Юлия Цветков, Йецзин Чой, Ноа А. Смит. Colm'24
Вектор чата: простой подход к оборудованию LLMS с помощью инструкций и выравнивания модели на новых языках
[Вектор задач, параметрические знания, передача знаний]
Acl'24
Fedmkt: Федеративная передача взаимных знаний для моделей крупных и малых языков
[Федеративное обучение, передача знаний, гетерогенное выравнивание токенов]
Coling'25
Функциональные векторы в моделях крупных языков
[Вектор функций, причинно -следственная связь, интерпретация механизма]
ICLR'24
Уточнить большую языковую модель тонкой настройки с помощью вектора инструкций
[Катастрофическое забывание, функциональный вектор, причинное посредничество]
Preprint'24
KLF: локализация знаний и слияние для языковой модели Непрерывное обучение
[Катастрофическое забывание, постоянное обучение, местоположение на основе чувствительности]
Acl'24
Языковые модели - это супер марио: поглощающие способности из гомологичных моделей в качестве бесплатного обеда
[Передача знаний, слияние модели, эффективное навык] ICML'24
Помимо векторов задач: арифметика избирательной задачи на основе значений метриков
[Вектор задач, оценка важности, основанная на чувствительности, модель слияния] Preprint'24
Взаимное улучшение моделей крупных и малых языков с перекрестной передачей знаний
Йонгенг Денг, Зики Циао, Джу Рен, Ян Лю, Яоксю Чжан. Preprint'23
Обучение выращиванию предварительно проведенных моделей для эффективного обучения трансформаторам
Пейхао Ван, Рамсвар Панда, Лукас Торроба Хенниген, Филипп Грингард, Леонид Карлинский, Рожерио Ферис, Дэвид Д. Кокс, Чжангьян Ван, Юн Ким. ICLR'23
Передача знаний на основе поиска: эффективный подход к экстремальному сжатию модели языка
Джидуань Лю, Цзяоо Лю, Цифан Ванг, Джинганг Ван, Сюнлян Кай, Донньян Чжао, Ран Лейсиен Ван, Руи Ян. EMNLP'23 выводы
Редактирование моделей с помощью арифметики задачи
[Task Vecotr, Параметрические знания, передача знаний, многозадачное обучение]
ICLR'23
Локализация навыков, специфичная
[Передача знаний, модельный трансплантат, локализация параметров навыка]
ICML'23
Создание модулей, эффективных параметров с арифметическими операциями
[PEFT, вектор задач, модель слияния]
Nips'23
Слияние знаний дата путем слияния весов языковых моделей
[Модель слияния]
ICLR'23
Веса дистилляция: передача знаний в параметрах нейронной сети
Ye Lin, Yanyang Li, Ziyang Wang, Bei Li, Quan Du, Tong Siao, Jingbo Zhu. Acl'21
Мультипрофессиональное рулевое управление большими языковыми моделями с динамической активационной композицией
Даниэль Скальена, Габриэле Сарти, Мальвина Ниссим. ACL'24 Blackboxnlp Workshop
Слово встраивания - это рулевые для языковых моделей
[Слово встроенное рулевое управление, управление генерацией] ACL'24
Александр Мэтт Тернер, Лиза Тьергарт, Гэвин Лич, Дэвид Уделл, Хуан Дж. Васкес, Mini, Monte Macdiarmid. Preprint'23
QuickKD: дистилляция знаний, благоприятных для студентов, для генеративных языковых моделей с помощью настройки быстрого настройки (примечание: не параметричный)
Gyeongman Ким, Дохьюк Джанг, Юнхо Ян. EMNLP'24 выводы
От обучения экземпляра до обучения обучению: генерация адаптеров задач из инструкций
Huanxuan Liao, Yao Xu, Shizhu HE, Yuanzhe Zhang, Yanchao Hao, Shenging Liu, Kang Liu, Jun Zhao. Nips'24
Когда дети преподают детей: может ли обмен знаниями учащихся превзойти дистилляцию под руководством учителей на небольших наборах данных?
Шрикришна Айер. Emnlp'24 Conll Workshop
Onebit: к очень низкому большим языковым моделям
Юзхуан Сюй, Сюй Хан, Зонган Ян, Шуо Ван, Цинфу Чжу, Чжиюань Лю, Вейдонг Лю, Вансиан Че. Nips'24
Стоимость сжатия: исследование влияния сжатия на параметрические знания в языковых моделях
Сатья Сай Сринатх Намбури, Мейш -Сридхар, Сринатх Шринивасан, Фредерик Сала. EMNLP'23 выводы
Пробуждение дополненного поколения: обучение пробуждению внутренних знаний о крупных языковых моделях для ответа на вопрос
[Гипернет, тряпка, сжатие контекста]
Huanxuan Liao, Shizhu He, Yao Xu, Yuanzhe Zhang, Kang Liu, Shenging Liu, Jun Zhao. AAAI'25
Инъекции памяти: исправление сбоев с несколькими ходами во время вывода в языковых моделях на основе трансформатора
Манси Сакарвадия, Асвати Аджит, Архам Хан, Даниэль Грзенда, Натаниэль Хадсон, Андре Бауэр, Кайл Чард, Ян Фостер. Устная презентация на мастерской Blackboxnlp в EMNLP'23
Отправить знания от параметров для моделирования языка подключения и игры
Синь Ченг, Янкай Лин, Xiuying Chen, Dongyan Zhao, Rui Yan. ACL'23 выводы
Внедрение знаний в параметрах: интеграция временной контекстной информации в параметры модели
отправлено в ICLR'25
Kmormer: инъекция знаний в трансформер-кормовые слои
Юньчхи Яо, Шаохан Хуанг, Ли Донг, Фуру Вэй, Хуаджун Чен, Нинью Чжан. Nlpcc'22
KASA: Адаптация по уникальной стоимости с знаниями больших языковых моделей
[Знание-Лора, SVD]
Фан Ван, Джуйонг Цзян, Чансунг Парк, Сангун Ким, Цзин Тан. Preprint'24
Corda: контекстно-ориентированная адаптация разложения крупных языковых моделей для эффективного настройки с помощью задач.
[Знание-Лора, SVD]
Ибо Ян, Сяоджи Ли, Чжунжу Чжоу, Шуайвен Леон Сонг, Цзянлонг Ву, Лицян Ни, Бернард Ганем. Nips'24
Дора: сбоя в весах с низким уровнем ранга
[Расположенный весом Лора, SVD, Анализ FT и LORA] Ших-Янг Лю, Чиен-Йи Ван, Хонгсу Инь, Павло Мольчанов, Ю-Чиан Фрэнк Ван, Кван-Тин Ченг, Мин-Хен Чен. ICML'24 Oral
Адаптация с низким рейтингом с улучшением функций, связанных с задачей для моделей с тонкой настройкой языка
[Задача Лора, Скрытое Усовершенствование представления] AAAI'25 Colorai Workshop
Узнайте больше, но меньше: Parametere Efficiity Continual Learning
[Непрерывное обучение, эффективное параметр, передача знаний] NIPS'24
Что моя модель забудет? Прогнозирование забытых примеров в уточнении языковой модели
[Катастрофическое забывание, прогнозирование забывания, анализ] ICML'24 Spotlight
XRAG: экстремальное сжатие контекста для получения поколения из поиска с одним токеном
[Сжатие контекста, тряпка, мультимодальное слияние] Nips'24
Longembed: расширение моделей встраивания для длинного поиска контекста
[Длинный контекст, модель встраивания, эталон] Emnlp'24
LLM, может быть, Longlm: Context window SelfExtend LLM без настройки
[Long Context Extend, метод подключения и игры] ICML'24 Spotlight
Два камня попали в одну птицу: двузначное положение для лучшей экстраполяции длины
[Long Context Extend, Absolute PE + Относительный PE, подключаемое и тренировочное метод] ICML'24
Пряжа: эффективное расширение окна контекста больших языковых моделей [http://arxiv.org/abs/2309.00071]
[Длинный контекст расширяется, вариация веревки] iClr'24
Тренируйся короткий, тестирование длинного: внимание с линейными смещениями обеспечивает экстраполяцию входной длины
[Alibi, Long Context Extrapolate, обучающий метод] ICLR'22
ROFORMER: Улучшенный трансформатор с внедрением вращаемого положения.
[Роторное положение внедрения, классика]