Лама-лист
Коллекция бумаг с использованием Llama в качестве модели магистрали.
Участники
Оглавление
- Оригинальная лама
- Связанная теория с ламой
- Лама с эффективностью параметров
- Тонкая настройка Llama на нижестоящих задачах
- Лама в сочетании с мультимодальным
- Лама с поиском
- Лама использует обучение подкреплению
- Количественный анализ ламы
- Побуждая ламу
Документы
Оригинальная лама
- Llama: открытые и эффективные модели языка фундамента. Arxiv 2023. Бумага. код
Хьюго Туврон, Тибо Лаврил, Гаутье Изакард, Ксавье Мартинет, Мари-Энн Лахау, Тимофеи Лакруа, Баптист Розьер, Наман Гойал, Эрик Хамбру, Гуал Ажар, Аурелен Родригес, Арманд Джулин, Эдуард Грейв, Гуллум Лейл. - Llama 2: Open Foundation и тонкие модели чата. Meta ai 2023. Бумага. код
Хьюго Тувров, Луи Мартин, Кевин Стоун и соавт. - Лама 3 стадо моделей. Arxiv 2024. Бумага. код
Абхиманю Дубей, Абхинав Джаури, Абхинав Пандей и соавт.
Связанная теория с ламой
- Большие языковые модели представляют собой синоптики временных рядов с нулевым выстрелом. Neurips 2023. Бумага. код
Нейт Грувер, Марк Финзи, Шикай Цю, Эндрю Гордон Уилсон - Обучение вычислительно-оптимально больших языковых моделей. Neurips 2022. Бумага.
Джордан Хоффманн, Себастьян Борджи, Артур Менш, Елена Бучатская, Тревор Кай, Элиза Рутерфорд, Диего де Лас Касас, Лиза Энн Хендрикс, Йоханнес Велбл, Эйдан Кларк, Том Хенниган, Эрик Ноланд, Кати Милликан, Джордж ван Денесс, Айменч, Айменч, Даменч, Айдока, Айдана, Даменхан, Даменч. Гай, Саймон Осиндеро, Карен Саймоньян, Эрих Эльсен, Джек В. Рей, Ориол Виналс, Лоран Сифре - Средний квадратный слой нормализация. Neurips 2019. Бумага. код
Biao Zhang, Rico Sennrich - Варианты Glu улучшают трансформатор. Arxiv 2020. Бумага. код
Ноам Шейзер - ROFORMER: Улучшенный трансформатор с внедрением вращаемого положения. Arxiv 2021. Бумага. код
Цзянлин Су, Ю Лу, Шенгфенг Пан, Ахмед Муртадха, Бо Вэнь, Юнфенг Лю - Разрешенная регуляризация распада веса. ICLR 2019. Бумага. код
Илья Лошчилов, Фрэнк Хаттер - Самоализация не нуждается $ O (n^2) $ Память Arxiv 2021. Бумага. код
Маркус Н. Рабе и Чарльз Стаат - Флэштри: быстрое и эффективное память точное внимание с i-avessence. Arxiv 2022. Бумага. код
Три Дао, Даниэль Ю. Фу, Стефано Эрмон, Атри Рудра, Кристофер Рене - Сокращение активации реформирования в крупных моделях трансформатора. Arxiv 2022. Бумага.
Виджай Кортиканти, Джаред Каспер, Сангкуг Лайм, Лоуренс Макафи, Майкл Андерш, Мохаммад Шоейби, Брайан Катанзаро
Лама с эффективностью параметров
- Лама-адаптер: эффективная тонкая настройка языковых моделей с нулевым вниманием. Arxiv 2023. Бумага. код
Чжан, Ренруи и Хан, Цзямин и Чжоу, Аоджун и Ху, Сянфей и Ян, Шилин и Лу, Пан и Ли, Хонгшенг и Гао, Пенг и Цяо, Ю. - Llama-Adapter V2: Параметр-эффективная модель визуальной инструкции. Arxiv 2023. Бумага. код
Пенг Гао, Джиамин Хан, Ренруи Чжан, Зийи Лин, Шиджи Генг, Аоджун Чжоу, Вэй Чжан, Пан Лу, Конгуи Х. Х., Сяньгу Юэ, Хоншенг Ли, Ю Циао - Адаптеры LLM: семейство адаптеров для эффективной настройки параметров крупных языковых моделей. Arxiv 2023. Бумага.
Zhiqiang Hu, Yihuai Lan, Lei Wang, Wanyu Xu, Ee-Peng Lim, Roy Ka-Wei Lee, Lidong Bing, Xing Xu, Soujanya Poria - Простой и эффективный подход обрезки для крупных языковых моделей. Arxiv 2023. Бумага. код
Mingjie Sun, Zhuang Liu, Anna Bair, J. Zico Kolter - LLM-Pruner: О структурной обрезке крупных языковых моделей. Arxiv 2023. Бумага. код
Синьин М.А., Гонгфан Фанг, Синчао Ван
Тонкая настройка Llama на нижестоящих задачах
- График мыслей: решение сложных проблем с большими языковыми моделями. AAAI 2024. Бумага. код.
Maciej Besta, Nils Blach, Ales Kubicek et al. - Как далеко могут зайти верблюды? Изучение состояния настройки инструкций на открытых ресурсах. Neurips 2023. Бумага. код
Yizhong Wang, Hamish Ivison, Pradeep Dasigi et al. - Принцип, управляемая самооплатой языковых моделей с нуля с минимальным человеческим надзором. Neurips 2023. Бумага. код
Чжикин Солнце, Йиканг Шен, Цинхонг Чжоу и соавт. - Чатхатор: модель медицинского чата, настраиваемой на крупной языковой модели Meta-AI (LLAMA) с использованием знаний в области медицинской области. Arxiv 2023. Бумага.
Юнсиан Ли, Зихан Ли, Кай Чжан, Руилонг Дэн, Стив Цзян, ты Чжан - Эффективный и эффективный текст, кодирующий китайскую ламу и альпаку. Arxiv 2023. Бумага. код
Yiming Cui, Ziqing Yang, Xin Yao - PMC-Llama: Дальнейшая создания ламы в медицинских бумагах. Arxiv 2023. Бумага.
Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie - Доктор Лама: улучшение малых языковых моделей на PubMedQA посредством увеличения генеративных данных. Arxiv 2023. Бумага.
Жен Го, Пейки Ван, Янвей Ван, Шанди Ю - Коза: тонкая настраиваемая Llama превосходит GPT-4 по арифметическим задачам. Arxiv 2023. Бумага.
Тидонг Лю, Брайан Киан Сян Лоу - Wizardlm: расширение возможностей крупных языковых моделей, чтобы следовать сложным инструкциям. Arxiv 2023. Бумага. код
Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, Dxaxin Jiang - Улучшение языковых моделей чата за счет масштабирования высококачественных учебных разговоров. Arxiv 2023. Бумага. код
Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, Боуэн Чжоу - Longform: оптимизация настройки инструкций для длинного генерации текста с извлечением корпуса. Arxiv 2023. Бумага. код
Абдуллатиф Кёксал, Тимо Шик, Анна Корхонен, Хинрих Шюцце - Внутренние контексты обучения пользователи симуляторы для систем диалогов, ориентированных на задачи. Arxiv 2023. Бумага. код
Сильвия Террагни, Модестас Филипавиций, Нгия Хау, Бруна Гедес, Андре Мансо, Роланд Матис - Netgpt: сетевая архитектура Native-AI, помимо предоставления персонализированных генеративных услуг. Arxiv 2023. Бумага. код
Юксуан Чен, Ронгпенг Ли, Чифенг Чжао, Ченхуи Пенг, Цзяньджун Ву, Экрам Хоссейн, Хонганг Чжан - На архитектуре только для декодера для интеграции модели речи к тексту и большой языковой модели. Arxiv 2023. Бумага. код
Цзянь Ву, Яшеш Гаур, Чжуо Чен, Лонг Чжоу, Йиманг Чжу, Тянруи Ван, Цзинью Ли, Шуджи Лю, Бо Рен, Линкуан Лю, Ю Ву
Лама в сочетании с мультимодальным
- MMMU: массовый многодисциплинальный многомодальный эталон и рассуждения для экспертов AGI. CVPR 2024. Бумага. код
Сян Юэ, Юансхенг Н.И., Кай Чжан и соавт.
Лама с поиском
- Полиглот или нет? Измерение многоязычного энциклопедического поиска знаний из моделей языка фундамента. Arxiv 2023. Бумага. код
Тим Шотт, Даниэль Фурман, Шрешта Бхат - Rewoo: отделение рассуждений от наблюдений для эффективных моделей с дополненным языком . код
Binfeng Xu, Zhiyuan Peng, Bowen Lei, Subhabrata Mukherjee, Yuchen Liu, Dongkuan Xu - Внимание знакового: случайный доход в бесконечный контекст для трансформаторов. Arxiv 2023. Бумага. код
Амиркеван Мохташами, Мартин Джагги
Лама использует обучение подкреплению
- Лима: меньше для выравнивания. Arxiv 2023. Бумага. код
Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia efrat, Ping Yu, Lili Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer, Omer - RRHF: Ранные реакции на выравнивание языковых моделей с человеческой обратной связью без слез. бумага. код
Zheng Yuan, Hongyi Yuan, Chuanqi Tan, Wei Wang, Songfang Huang, Fei Huang
Количественный анализ ламы
- SPQR: разреженное квалифицированное представление для сжатия веса LLM, почти без луча. Arxiv 2023. Бумага. код
Тим Деттмерс, Руслан Свирчевски, Вейдж Эгиазарян, Денис Кузнделев, Элиас Франтар, Салех Ашкбуос, Александр Борзунов, Торстен Хофлер, Дэн Алистарх - Squeezellm: квантование с плотным и спадом. Arxiv 2023. Бумага. код
Sehoon Kim, Coleman Hooper, Amir Gholami, Zhen Dong, Xiuyu Li, Sheng Shen, Michael W. Mahoney, Kurt Keutzer
Побуждая ламу
- Побуждение к большим языковым моделям для адаптации с нулевым выстрелом в распознавании речи. Полем Arxiv 2023. Бумага.
Юанг Ли, Ю Ву, Цзинью Ли, Шуджи Лю
Как внести свой вклад
Взносы приветствуются! Пожалуйста, обратитесь к Appling.md для руководящих принципов вклада.