LLM · NLP
Text2all · All2all
Многомодальная · многозадачная
Человеческий интеллект процветает в концепции когнитивной синергии, где сотрудничество и интеграция информации между различными когнитивными процессами дают превосходные результаты по сравнению с отдельными когнитивными процессами в изоляции. Хотя крупные языковые модели (LLMS) продемонстрировали многообещающую производительность в качестве общих агентов, выполняющих задачи, они по-прежнему борются с задачами, которые требуют интенсивных знаний в области и сложных рассуждений. В этой работе мы предлагаем сольную производительность (SPP), которая превращает один LLM в когнитивный синергист, участвуя в многообразительном самообладании с несколькими персонажами. Когнитивный синергист относится к интеллектуальному агенту, который сотрудничает с множественными умами, объединяя их индивидуальные сильные стороны и знания, для повышения решения проблем и общей производительности в сложных задачах. Динамически идентифицируя и моделируя различные персонажи, основанные на входах задач, SPP раскрывает потенциал когнитивной синергии в LLMS. Мы обнаружили, что назначение нескольких, мелкозернистых персонажей в LLMS вызывает лучшие способности к решению проблем по сравнению с использованием одного или фиксированного количества персонажей. Мы оцениваем SPP по трем сложным задачам: Precia Creative Writing, CodeNames Collaborative и логической сети, охватывающей как интенсивные знания, так и рассуждающие типы. В отличие от предыдущих работ, таких как цепочка мыслей, которые исключительно улучшают способности рассуждений в LLM, SPP эффективно вызывает внутренние способности приобретать знания, снижает галлюцинацию и поддерживает сильные способности. Код, данные и подсказки могут быть найдены по адресу: Этот HTTPS URL.
Мы представляем LLM-Blender, ансамбирующую структуру, предназначенную для достижения постоянной превосходной производительности путем использования разнообразных сильных сторон множества моделей крупных языков с открытым исходным кодом (LLMS). Наша структура состоит из двух модулей: Pairranker и Genfuser, обращаясь к наблюдению, что оптимальные LLM для разных примеров могут значительно варьироваться. Parranker использует специализированный метод парного сравнения, чтобы различить тонкие различия между выходами кандидатов. Он совместно кодирует входной текст и пару кандидатов, используя перекрестные атмосферные кодеры для определения превосходного. Наши результаты показывают, что Parranker демонстрирует самую высокую корреляцию с рейтингом на основе CHATGPT. Затем Genfuser стремится объединить кандидатов с высшим количеством высокопоставленных кандидатов, генерируя улучшенный объем производства, используя свои сильные стороны и смягчая их слабости. Чтобы облегчить крупномасштабную оценку, мы вводим контрольный набор данных, MixInstruct, который представляет собой смесь нескольких наборов данных инструкций, в которых можно сравнить пары Oracle. Наш LLM-Blender значительно превосходит отдельные LLMS и базовые методы по различным показателям, что создает значительный разрыв в производительности.
Большие языковые модели (LLMS) показали перспективу в доказательстве официальных теорем с использованием доказательств, таких как Lean. Тем не менее, существующие методы трудно воспроизвести или наращивать из -за частного кода, данных и крупных вычислительных требований. Это создало существенные барьеры для исследования методов машинного обучения для доказывания теоремы. Эта статья устраняет эти барьеры, внедряя Leandojo: Lean Playground с открытым исходным кодом, состоящую из инструментов, данных, моделей и критериев. Leandojo извлекает данные из Lean и позволяет программно взаимодействовать с доказательственной средой. Он содержит мелкозернистые аннотации помещений в доказательствах, предоставляя ценные данные для выбора предпосылок-ключевое узкое место в доказывании теоремы. Используя эти данные, мы разрабатываем репроверцию (Pollieval-Augment Prover): первая прогулка на основе LLM, которая дополняется поиском для выбора помещений из обширной математической библиотеки. Это недорого и требует только одной недели обучения. Наш ретривер использует возможность анализа программы Leandojo для выявления доступных помещений и жестких негативных примеров, что делает поиск гораздо более эффективным. Кроме того, мы строим новый эталон, состоящий из 96 962 теорем и доказательств, извлеченных из математической библиотеки Лин. В нем есть сложное разделение данных, требующее, чтобы повернут обобщение теоремы, полагаясь на новые помещения, которые никогда не используются при обучении. Мы используем этот эталон для обучения и оценки, и экспериментальные результаты демонстрируют эффективность репрессии по сравнению с не-переизмечимыми базовыми показателями и GPT-4. Таким образом, мы предоставляем первый набор плановых пособий на основе LLM с открытым исходным кодом без каких-либо проприетарных наборов данных и выпускаем его по разрешающей лицензии MIT для облегчения дальнейших исследований.
Ответ на визуальные запросы - это сложная задача, которая требует как визуальной обработки, так и рассуждения. Скводительные модели, доминирующий подход для этой задачи, явно не различают между ними, ограничивая интерпретацию и обобщение. Обучение модульным программам представляет собой многообещающую альтернативу, но оказалось сложной задачей из -за сложности изучения как программ, так и модулей одновременно. Мы вводим Vipergpt, структуру, которая использует модели генерации кода для составления моделей зрения и языка в подпрограммы для получения результата для любого запроса. Vipergpt использует предоставленный API для доступа к доступным модулям и сочиняет их путем генерации кода Python, который впоследствии выполняется. Этот простой подход не требует дальнейшего обучения и достигает современных результатов по различным сложным визуальным задачам.
Длина последовательности масштабирования стала критическим спросом в эпоху крупных языковых моделей. Однако существующие методы борются либо с вычислительной сложностью, либо с выразительностью модели, что ограничивает максимальную длину последовательности. В этой работе мы вводим Longnet, вариант трансформатора, который может масштабировать длину последовательности до более чем 1 миллиарда токенов, не жертвуя производительностью на более коротких последовательностях. В частности, мы предлагаем расширенное внимание, которое расширяет внимательное поле в геометрической прогрессии по мере роста расстояния. Longnet имеет значительные преимущества: 1) имеет линейную сложность вычислений и зависимость логарифма между токенами; 2) его можно подавать в качестве распределенного тренера для чрезвычайно длинных последовательностей; 3) Его расширенное внимание-это замена для стандартного внимания, которая может быть легко интегрирована с существующей оптимизацией на основе трансформаторов. Результаты экспериментов демонстрируют, что Longnet дает сильную производительность как по моделированию длительной последовательности, так и для общих языковых задач. Наша работа открывает новые возможности для моделирования очень длинных последовательностей, например, рассматривать целый корпус или даже весь Интернет как последовательность.
Появляется большая конвергенция языка, видения и мультимодальной предварительной подготовки. В этой работе мы вводим модель мультимодального фонда общего назначения BEIT-3, которая достигает современных результатов передачи как по задачам зрения, так и на языке зрения. В частности, мы продвигаем большую конвергенцию из трех аспектов: архитектура магистралей, задача предварительного подготовки и масштабирование модели. Мы вводим мульти-трансформаторы для моделирования общего назначения, где модульная архитектура обеспечивает как глубокое слияние, так и модально-специфическое кодирование. Основываясь на общей основе, мы выполняем моделирование «языка» в масках на изображениях (imglish), текстах (английский) и текстовые пары с изображением («параллельные предложения») в единой манере. Экспериментальные результаты показывают, что BEIT-3 обеспечивает современную производительность по обнаружению объектов (COCO), семантической сегментации (ADE20K), классификации изображений (ImageNet), визуальной рассуждении (NLVR2), визуальном ответе на вопрос (VQAV2), подпись изображения (COCO) и кросс-модальный перевод (FlickR30K, Coco).
В последнее время на крупных языковых моделях (LLMS) была впечатляющая волна достижений, причем модели теперь превосходят различные задачи, такие как математические рассуждения и синтез программы. Тем не менее, их потенциал для эффективного использования инструментов с помощью вызовов API остается невыполненным. Это сложная задача даже для современных современных LLM, таких как GPT-4, в основном из-за их неспособности генерировать точные входные аргументы и их тенденцию галлюцинации неправильного использования вызова API. Мы выпускаем Gorilla, созданную модель на основе ламы, которая превосходит производительность GPT-4 при написании вызовов API. В сочетании с Rectiver Document Gorilla демонстрирует сильную возможность адаптироваться к изменениям документа тестирования, позволяя гибким обновлениям пользователей или изменениям версий. Это также существенно смягчает проблему галлюцинации, обычно встречающуюся при напряжении побуждения LLMS. Чтобы оценить способность модели, мы вводим Apibench, комплексный набор данных, состоящий из API API Huggingface, Torchhub и Tensorhub. Успешная интеграция системы поиска с гориллой демонстрирует потенциал для LLMS более точно использовать инструменты, идти в ногу с часто обновленной документацией и, следовательно, повысить надежность и применимость их выходов. Модель и код гориллы доступны по адресу https://github.com/shishirpatil/gorilla.
Большие языковые модели (LLMS) достигли замечательного прогресса в различных задачах обработки естественного языка с возникающими способностями. Тем не менее, они сталкиваются с неотъемлемыми ограничениями, такими как неспособность получить доступ к актуальной информации, использовать внешние инструменты или выполнять точные математические рассуждения. В этой статье мы вводим Chameleon, фонд композиционных рассуждений Plug-и Play, которая дополняет LLMS, чтобы помочь решить эти проблемы. Chameleon синтезирует программы по составлению различных инструментов, включая модели LLM, готовые модели зрения, веб-поисковые системы, функции Python и модули, основанные на правилах, адаптированные к интересам пользователей. Построенный на вершине LLM в качестве планировщика естественного языка, Хамелеон делает соответствующую последовательность инструментов для сочинения и выполнения, чтобы генерировать окончательный отклик. Мы демонстрируем адаптивность и эффективность хамелеона по двум задачам: ScienceQA и TabMWP. Примечательно, что Хамелеон с GPT-4 достигает точность 86,54% в ScienceQA, значительно улучшив лучшую опубликованную модель с несколькими выстрелами на 11,37%; Используя GPT-4 в качестве основного LLM, Хамелеон достигает увеличения на 17,8% по сравнению с современной моделью, что приводит к общей точности на 98,78% на TABMWP. Дальнейшие исследования показывают, что использование GPT-4 в качестве планировщика демонстрирует более последовательный и рациональный выбор инструментов и способен вывести потенциальные ограничения, учитывая инструкции по сравнению с другими LLM, такими как CHATGPT.
Как эффективно превратить модели крупных языков (LLMS) в последователи обучения в последнее время является популярным направлением исследования, в то время как обучение LLM для мультимодальных рассуждений остается менее изученным. Хотя недавний адаптер Llama демонстрирует потенциал для обработки визуальных входов с LLMS, он все еще не может хорошо обобщать для открытых визуальных инструкций и отстает от GPT-4. В этой статье мы представляем Llama-Adapter V2, модель визуальной инструкции, эффективной для параметров. В частности, мы сначала увеличиваем адаптер Llama, разблокируя более участые параметры (например, норму, смещение и масштаб), которые распределяют способность к срабатыванию инструкций по всей модели Llama, кроме адаптеров. Во -вторых, мы предлагаем раннюю стратегию слияния для подачи визуальных токенов только в ранние слои LLM, способствуя лучшему визуальному включению знаний. В-третьих, совместная обучающая парадигма пар и данных, связанных с инструкциями, вводится путем оптимизации непересекающих групп обучаемых параметров. Эта стратегия эффективно облегчает вмешательство между двумя задачами выравнивания текста изображений и инструкциями, следующим образом, и достигает сильных мультимодальных рассуждений только с небольшим набором данных и инструкциями. Во время вывода мы включаем дополнительные экспертные модели (например, Speptioning/OCR-системы) в адаптер LLAMA, чтобы дополнительно повысить свои возможности для понимания имиджа без затрат на обучение. По сравнению с оригинальным адаптером ламы, наш лама-адаптер V2 может выполнять открытые многомодальные инструкции, просто введя 14-метровые параметры по ламе. Недавно разработанная структура также демонстрирует более сильные возможности для обучения на языке и даже превосходно в взаимодействии в чате. Наш код и модели доступны на этом URL HTTPS.
Возможные прокси человеческого поведения могут расширить возможности интерактивных применений, начиная от иммерсивных сред до репетиционных пространств для межличностного общения и инструментов для прототипирования. В этой статье мы вводим агенты генеративных агентов-компьютерные программные агенты, которые имитируют правдоподобное человеческое поведение. Генеративные агенты просыпаются, готовят завтрак и отправляются на работу; Художники рисуют, в то время как авторы пишут; Они формируют мнения, замечают друг друга и инициируют разговоры; Они помнят и размышляют о прошлых днях, когда планируют на следующий день. Чтобы включить генеративные агенты, мы описываем архитектуру, которая расширяет большую языковую модель для хранения полной записи опыта агента с использованием естественного языка, синтезируя эти воспоминания с течением времени в размышлениях более высокого уровня и динамически извлекаем их для планирования поведения. Мы создаем создание генеративных агентов для заполнения интерактивной среды песочницы, вдохновленной SIMS, где конечные пользователи могут взаимодействовать с небольшим городом из двадцати пяти агентов, используя естественный язык. В оценке эти генеративные агенты создают правдоподобное индивидуальное и возникающее социальное поведение: например, начиная только с единственного определенного пользователя представления о том, что один агент хочет бросить партию Дня святого Валентина, агенты автономно распространяют приглашения к партии в течение следующих двух дней, создать новые знакомые, пригласить друг друга на даты партии и координировать для того, чтобы выступить за партию вместе. С помощью абляции мы демонстрируем, что компоненты нашей агентской архитектуры-поддержка, планирование и размышления-каждый способствует правдоподобности поведения агента. Сплав крупных языковых моделей с вычислительными, интерактивными агентами, эта работа вводит архитектурные модели и модели взаимодействия для обеспечения правдоподобного моделирования поведения человека.
Недавние достижения в принятии решений агентами модели крупной языковой модели (LLM) продемонстрировали впечатляющую производительность по различным критериям. Тем не менее, эти современные подходы обычно требуют внутренней модели точной настройки, точной настройки внешней модели или оптимизации политики в отношении определенного пространства состояний. Реализация этих методов может оказаться сложной из-за нехватки высококачественных данных обучения или отсутствия четко определенного пространства состояний. Более того, эти агенты не обладают определенными качествами, присущими процессам принятия решений человеком, в частности, способностью учиться на ошибках. Саморефлексия позволяет людям эффективно решать новые проблемы в процессе проб и ошибок. Опираясь на недавние исследования, мы предлагаем Reflexion, подход, который наделяет агента с динамической памятью и возможностями саморефлексии для улучшения существующих следов рассуждений и способностей выбора действий, специфичных для задач. Чтобы достичь полной автоматизации, мы вводим прямую, но эффективную эвристику, которая позволяет агенту определять экземпляры галлюцинации, избегать повторения в последовательностях действий и, в некоторых средах, строить внутреннюю карту памяти данной среды. Чтобы оценить наш подход, мы оцениваем способность агента выполнять задачи принятия решений в средах Alfworld и знаниях, основанных на поисковых вопросах и ответах в средах HotPotqa. Мы наблюдаем показатели успеха 97% и 51% соответственно и проводим обсуждение возникающего свойства саморефлексии.
Как и люди, LLM не всегда генерируют лучший текст для заданной проблемы поколения с первой попытки (например, резюме, ответы, объяснения). Точно так же, как люди затем уточняют свой текст, мы вводим саморефина, структуру для аналогичного улучшения начальных выходов от LLMS за счет итеративной обратной связи и уточнения. Основная идея состоит в том, чтобы генерировать выход с использованием LLM, а затем позволить одной и той же модели обеспечить многоацитирующую обратную связь для собственного вывода; Наконец, та же модель уточняет свой ранее сгенерированный выход, учитывая его собственную обратную связь. В отличие от более ранней работы, наша итерационная структура уточнения не требует контролируемых данных обучения или обучения подкреплению и работает с одним LLM. Мы экспериментируем с 7 разнообразными задачами, от переписывания обзора до математических рассуждений, демонстрируя, что наш подход превосходит прямое поколение. Во всех задачах выходы, генерируемые с саморефином, предпочтительны людьми, и автоматизированными метриками по сравнению с тем, что генерируются непосредственно с GPT-3,5 и GPT-4, улучшая в среднем на 20% в разных задачах.
Решение сложных задач ИИ с различными областями и методами является ключевым шагом к продвинутому искусственному интеллекту. Несмотря на то, что существует множество моделей ИИ, доступных для различных областей и методов, они не могут выполнять сложные задачи искусственного интеллекта. Учитывая, что крупные языковые модели (LLMS) демонстрируют исключительную способность в понимании языка, генерации, взаимодействии и рассуждениях, мы выступаем за то, чтобы LLMS мог действовать как контроллер для управления существующими моделями ИИ для решения сложных задач ИИ и языка, которые могут стать общим интерфейсом для расширения возможностей. Основываясь на этой философии, мы представляем HuggingGpt, структуру, которая использует LLMS (например, CHATGPT) для соединения различных моделей искусственного интеллекта в сообществах машинного обучения (например, обнимающегося лицо) для решения задач ИИ. В частности, мы используем CHATGPT для проведения планирования задач при получении пользовательского запроса, выбирайте модели в соответствии с описаниями их функций, доступных при обнимании, выполнять каждую подзадачу с выбранной моделью ИИ и суммируем ответ в соответствии с результатами выполнения. Используя сильные языковые возможности для CHATGPT и обильных моделей ИИ в обнимании лица, HuggingGPT может охватывать многочисленные сложные задачи искусственного интеллекта в различных методах и областях и достигать впечатляющих результатов в языке, видении, речи и других сложных задачах, которые пробираются новый путь к расширенному искусственному интеллекту.
Auto-GPT-это экспериментальное приложение с открытым исходным кодом, демонстрирующее возможности языковой модели GPT-4. Эта программа, управляемая GPT-4, цепей вместе LLM «мысли», чтобы автономно достичь любой цели, которую вы поставили. В качестве одного из первых примеров GPT-4, работающих полностью автономно, Auto-GPT раздвигает границы того, что возможно с ИИ.
Существует быстро растущее число крупных языковых моделей (LLMS), которые пользователи могут запросить за плату. Мы рассмотрим стоимость, связанные с запросом популярных API LLM, например, GPT-4, Chatgpt, J1-Jumbo, и обнаруживаем, что эти модели имеют гетерогенные структуры ценообразования, с комиссиями, которые могут отличаться по двум порядкам. В частности, использование LLM для больших коллекций запросов и текста может быть дорогостоящим. Мотивированным этим, мы обрисовываем и обсудим три типа стратегии, которые пользователи могут использовать, чтобы снизить стоимость вывода, связанные с использованием LLMS: 1) Адаптацию, 2) приближение LLM и 3) каскад LLM. Например, мы предлагаем Frugalgpt, простой, но гибкий экземпляр каскада LLM, который узнает, какие комбинации LLM для использования для различных запросов для снижения затрат и повышения точности. Наши эксперименты показывают, что Frugalgpt может соответствовать производительности лучшего отдельного LLM (например, GPT-4) с снижением затрат до 98% или повышением точности по сравнению с GPT-4 на 4% с той же стоимостью. Идеи и результаты, представленные здесь, закладывают основу для устойчивого и эффективного использования LLMS.
Большие языковые модели (LLMS) показали перспективу в доказательстве официальных теорем с использованием доказательств, таких как Lean. Тем не менее, существующие методы трудно воспроизвести или наращивать из -за частного кода, данных и крупных вычислительных требований. Это создало существенные барьеры для исследования методов машинного обучения для доказывания теоремы. Эта статья устраняет эти барьеры, внедряя Leandojo: Lean Playground с открытым исходным кодом, состоящую из инструментов, данных, моделей и критериев. Leandojo извлекает данные из Lean и позволяет программно взаимодействовать с доказательственной средой. Он содержит мелкозернистые аннотации помещений в доказательствах, предоставляя ценные данные для выбора предпосылок-ключевое узкое место в доказывании теоремы. Используя эти данные, мы разрабатываем репроверцию (Pollieval-Augment Prover): первая прогулка на основе LLM, которая дополняется поиском для выбора помещений из обширной математической библиотеки. Это недорого и требует только одной недели обучения. Наш ретривер использует возможность анализа программы Leandojo для выявления доступных помещений и жестких негативных примеров, что делает поиск гораздо более эффективным. Кроме того, мы строим новый эталон, состоящий из 96 962 теорем и доказательств, извлеченных из математической библиотеки Лин. В нем есть сложное разделение данных, требующее, чтобы повернут обобщение теоремы, полагаясь на новые помещения, которые никогда не используются при обучении. Мы используем этот эталон для обучения и оценки, и экспериментальные результаты демонстрируют эффективность репрессии по сравнению с не-переизмечимыми базовыми показателями и GPT-4. Таким образом, мы предоставляем первый набор плановых пособий на основе LLM с открытым исходным кодом без каких-либо проприетарных наборов данных и выпускаем его по разрешающей лицензии MIT для облегчения дальнейших исследований.
Недавняя работа показала, что подготовка языковых моделей с кодовыми представлениями естественного языка приводит к улучшению производительности в задачах структурированных рассуждений. Тем не менее, такие задачи включают только небольшую подмножество всех задач естественного языка. В нашей работе мы стремимся ответить, является ли снижение кода предпочтительным способом взаимодействия с языковыми моделями в целом. Мы сравниваем подсказки кода и текста в трех популярных моделях GPT (Davinci, Code-Davinci-002 и Text-Davinci-002) по более широкому выбору задач (например, QA, настроения, суммирование) и обнаруживаем, что, за исключением нескольких исключений, подсказка кода не постоянно превосходит текстовые подсказки. Кроме того, мы показываем, что стиль кодовой подсказки оказывает большое влияние на производительность для некоторых, но не для всех задач, и что точная настройка текстовых инструкций приводит к лучшей относительной производительности кода.
Большие языковые модели (LLMS) выполняют сложные рассуждения, генерируя объяснения их прогнозов. Тем не менее, дополнительной целью объяснений является также сообщить полезные знания, которые улучшают более слабые агенты. Следовательно, мы исследуем, делают ли LLMS хороших учителей для более слабых агентов. В частности, мы рассмотрим структуру студентов-учителя между двумя агентами LLM и изучаем, если, когда и то, как учитель должен вмешиваться в объяснения естественного языка для улучшения успеваемости ученика. Поскольку общение стоит дорого, мы определяем бюджет, так что учитель сообщает только об объяснении доли данных, после чего ученик должен хорошо работать самостоятельно. Мы разлагаем проблему преподавания по четырем осям: (1) Если вмешательство учителя в тестирование улучшит прогнозы ученика, (2) Когда стоит объяснить точку данных, (3) как учитель должен персонализировать объяснения, чтобы лучше преподавать ученика, и (4), если учитель также улучшает эффективность ученика по будущим необъяснимым данным. Сначала мы показываем, что Учительские LLM действительно могут вмешаться на то, чтобы ученики могли улучшить свою работу. Далее мы предлагаем подход теории разума, в котором учитель строит две несколько умственных моделей ученика. Первая модель определяет функцию вмешательства, которая имитирует полезность вмешательства, позволяя учителю вмешиваться, когда эта утилита является самой высокой и повышающей успеваемость ученика при более низких бюджетах. Вторая модель позволяет учителю персонализировать объяснения для конкретного ученика и превосходить лишних учителей. Мы также демонстрируем, что во взаимодействиях с несколькими поворотами объяснения учителей обобщают и обучение на объяснении данных повышает успеваемость учащихся в будущих необъяснимых данных. Наконец, мы также проверяем, что смещенные учителя могут снизить успеваемость учащихся до случайной шансы, намеренно вводив их в заблуждение.
Мы вводим Kosmos-2, мультимодальную большую языковую модель (MLLM), обеспечивая новые возможности восприятия описаний объектов (например, ограничивающие ящики) и заземлять текст в визуальный мир. В частности, мы представляем выражения ссылки как ссылки в разметке, то есть `` [Text Span] (ограничивающие поля) '', где описания объектов являются последовательностями токенов местоположения. Вместе с мультимодальными корпусами мы строим крупномасштабные данные заземленных пар изображений (называемый GRIT) для обучения модели. В дополнение к существующим возможностям MLLMS (например, восприятие общими модальностями, следующими инструкциями и выполнения в контекстовом обучении), KOSMOS-2 интегрирует возможности заземления в приложения вниз по течению. Мы оцениваем космос-2 по широкому диапазону задач, включая (i) мультимодальное заземление, такие как ссылка на понимание выражения и основание фразы, (ii) мультимодальное ссылку, такие как ссылка на генерацию выражения, (iii) задачи на языке восприятия и (iv) понимание языка и получение поколения. Эта работа излагает основу для разработки воплощения ИИ и проливает свет на большую конвергенцию языка, мультимодальное восприятие, действие и мировое моделирование, что является ключевым шагом к искусственному общему интеллекту. Код и предварительные модели доступны на этом URL -адресе HTTPS.
Мы вводим Palm 2, новую современную языковую модель, которая обладает лучшими многоязычными возможностями и рассуждением и более эффективна, чем ее предшественник Palm. Palm 2-это модель на основе трансформатора, обучаемая с использованием смесью целей. Благодаря обширным оценкам по английскому и многоязычному языку и рассуждениям, мы демонстрируем, что PALM 2 значительно улучшил качество в нижестоящих задачах по разным размерам моделей, одновременно демонстрируя более быстрый и более эффективный вывод по сравнению с PALM. Эта улучшенная эффективность обеспечивает более широкое развертывание, а также позволяет модели реагировать быстрее, для более естественных темпов взаимодействия. Palm 2 демонстрирует надежные возможности рассуждения, иллюстрируемые большими улучшениями по сравнению с PALM по большим и другим задачам. PALM 2 демонстрирует стабильные характеристики на наборе ответственных оценок ИИ и позволяет контролировать время вывода над токсичностью без дополнительных накладных расходов или влияния на другие возможности. В целом, Palm 2 достигает современной производительности в рамках разнообразного набора задач и возможностей.
Создание реалистичного человеческого движения от данных описаний действий достигло значительных достижений из -за возникающих требований цифровых людей. Хотя недавние работы достигли впечатляющих результатов в создании движения непосредственно из описаний текстовых действий, они часто поддерживают только одну модальность управляющего сигнала, который ограничивает их применение в реальной цифровой индустрии человека. В этой статье представлен генератор общего назначения движения (MotionGPT), который может использовать мультимодальные управляющие сигналы, например, текстовые и однократные позиции, для генерации последовательных движений человека путем обработки мультимодальных сигналов как специальных входных токенов в моделях крупных языков (LLMS). В частности, мы сначала определяем мультимодальные контрольные сигналы в дискретные коды, а затем формулируем их в единой инструкции по приглашению, чтобы попросить LLMS генерировать ответ Motion. Наш MotionGPT демонстрирует унифицированную модель генерации движения человека с мультимодальными контрольными сигналами путем настройки всего 0,4% параметров LLM. Насколько нам известно, MotionGPT является первым методом генерирования человеческого движения с помощью мультимодальных контрольных сигналов, которые, как мы надеемся, сможет пролить свет на это новое направление. Коды должны быть опубликованы при принятии.
Большие языковые модели (LLMS) показали впечатляющие показатели сложных рассуждений, используя цепочку мыслей (COT), чтобы создать промежуточные цепочки рассуждений в качестве обоснования, чтобы вывести ответ. Тем не менее, существующие исследования COT были сосредоточены на языковой модальности. Мы предлагаем мультимодальный COT, который включает в себя методы языка (текста) и видения (изображения) в двухэтапную структуру, которая разделяет обоснование генерации и вывода ответов. Таким образом, вывод ответов может использовать более сгенерированные обоснования, основанные на мультимодальной информации. С помощью мультимодального COT наша модель менее 1 миллиарда параметров превосходит предыдущий современный LLM (GPT-3,5) на 16 процентных пунктов (75,17%-> 91,68% точности) по сравнению ScienceQA и даже превосходит производительность человека. Код общедоступен доступен на этом URL -адресе HTTPS.
Llama 2: Open Foundation и тонкие модели чата
Unilm: крупномасштабная самоотверженная предварительная тренировка по задачам, языкам и модальностям
Возмутительно крупные нейронные сети: редко управляемая смесь-эксперт слоя
Гламур: Эффективное масштабирование языковых моделей со смесей экспертов
Масштабирование зрения с редкой смесью экспертов
Текстовая классификация «с низким ресурсом»: метод классификации без параметров с компрессорами
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
Textbooks Are All You Need
Model Card and Evaluations for Claude Models
Full Parameter Fine-tuning for Large Language Models with Limited Resources
Augmenting Language Models with Long-Term Memory
Unifying Large Language Models and Knowledge Graphs: A Roadmap
Knowledge Distillation of Large Language Models
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression
QLoRA: Efficient Finetuning of Quantized LLMs
LIMA: Less Is More for Alignment
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
RWKV: Reinventing RNNs for the Transformer Era
Dr. LLaMA: Improving Small Language Models Through Generative Data Augmentation
The FLAN Instruction Tuning Repository
Phoenix: Democratizing ChatGPT across Languages
Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
RedPajama-INCITE
China's Baidu claims its Ernie Bot beats ChatGPT on key tests as AI race heats up
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
LTM-1: an LLM with a 5,000,000 token context window
Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM
StarCoder: may the source be with you!
Cross-lingual Language Model Pretraining
Language Is Not All You Need: Aligning Perception with Language Models
Tackling multiple tasks with a single visual language model
Large Language Models are Zero-Shot Reasoners
Larger language models do in-context learning differently
GPT Understands, Too
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
Понимают ли быстрые модели смысл их подсказок?
∞-former: Infinite Memory Transformer
Improving language models by retrieving from trillions of tokens
Augmented Language Models: a Survey
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Structure and Content-Guided Video Synthesis with Diffusion Models
MusicLM: Generating Music From Text
InstructGPT : Training language models to follow instructions with human feedback
BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
Multimodal Chain-of-Thought Reasoning in Language Models
Constitutional AI: Harmlessness from AI Feedback
Provable Copyright Protection for Generative Models
What learning algorithm is in-context learning? Investigations with linear models
A Path Towards Autonomous Machine Intelligence
PAL: Program-aided Language Models
Toolformer: Language Models Can Teach Themselves to Use Tools
LLaMA: Open and Efficient Foundation Language Models
Improving alignment of dialogue agents via targeted human judgements
Training Compute-Optimal Large Language Models
LLaMA-based ChatGPT training, ChatLLaMA
RLHF: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
BaGuaLu: Targeting Brain Scale Pretrained Models with over 37 Million Cores
LLaMA-7B, LLAMA Up-data, LLaMA: INT8 edition, UForm
Flamingo: a Visual Language Model for Few-Shot Learning, Blog
Multimodal Chain-of-Thought Reasoning in Language Models
How to use UForm
How to create KoChatLLaMA
Competition-Level Code Generation with AlphaCode
Scaling Language Models: Methods, Analysis & Insights from Training Gopher
GPU and learning method required for KoChatLlaMA fine-tuning
Advantages and Problems of UForm
GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
PaLM-E: An Embodied Multimodal Language Model
Tightly-Integrated Generative Encoder-Decoder Representation
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
PaLM: Scaling Language Modeling with Pathways
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks
LoRA: Low-Rank Adaptation of Large Language Models
Language Models are Few-Shot Learners
Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning
Improving language models by retrieving from trillions of tokens
FLAN: Finetuned Language Models Are Zero-Shot Learners
T0: Multitask Prompted Training Enables Zero-Shot Task Generalization
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
The Wisdom of Hindsight Makes Language Models Better Instruction Followers
Exploring the Benefits of Training Expert Language Models over Instruction Tuning
Unsupervised Imputation of Non-ignorably Missing Data Using Importance-Weighted Autoencoders
The Power of Scale for Parameter-Efficient Prompt Tuning
Constitutional AI: Harmlessness from AI Feedback
Deep reinforcement learning from human preferences
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
Large Language Models with Controllable Working Memory
Понимают ли быстрые модели смысл их подсказок?
Muse: Text-To-Image Generation via Masked Generative Transformers
Structure and Content-Guided Video Synthesis with Diffusion Models
Generative Pretraining from Pixels
A hunt for the Snark: Annotator Diversity in Data Practices
Accurate global machine learning force fields for molecules with hundreds of atoms
Algorithms with More Granular Differential Privacy Guarantees
Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types
Are we cobblers without shoes? Making Computer Science data FAIR
Code Generation for In-Place Stencils
Creating, Calibrating, and Validating Large-Scale Microscopic Traffic Simulation
Increasing Impact of Mobile Health Programs: SAHELI for Maternal and Child Care
Designing Responsible AI: Adaptations of UX Practice to Meet Responsible AI Challenges
Developer Productivity for Humans: A Human-Centered Approach to Developer Productivity
Development of a Machine Learning Model for Sonographic Assessment of Gestational Age
Drug Design on Quantum Computers
Estimates of broadband upwelling irradiance from GOES-16 ABI
Information Processing and Management
Flake Aware Culprit Finding
Flexible Budgets in Restless Bandits: A Primal-Dual Algorithm for Efficient Budget Allocation
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
High-Performance GPU-to-CPU Transpilation and Optimization via High-Level Parallel Constructs
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
Infrastructuring Care: How Trans and Non-Binary People Meet Health and Well-Being Needs through Technology
KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals
Learning to Bid in Contextual First Price Auctions
Machine Learning for Healthcare: A Bibliometric Study of Contributions from Africa
Scalable Decision-Focused Learning in Restless Multi-Armed Bandits with Application to Maternal and Child Health
Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program
Recitation-Augmented Language Models
RL4ReAl: Reinforcement Learning for Register Allocation
Quantum Simulation of Exact Electron Dynamics can be more Efficient than Classical Mean-Field Methods
Quantum simulation of exact electron dynamics can be more efficient than classical mean-field methods
Propeller: A Profile Guided, Relinking Optimizer for Warehouse-Scale Applications
Deepmind: Improving language models by retrieving from trillions of tokens
Deepmind: Building safer dialogue agents
Deepmind: Competitive programming with AlphaCode
Deepmind: Mastering Stratego, the classic game of imperfect information
Deepmind: DeepMind's latest research at NeurIPS 2022
Deepmind: Building interactive agents in video game worlds
Deepmind: Discovering novel algorithms with AlphaTensor
Deepmind: AlphaFold reveals the structure of the protein universe
Deepmind: Exploring the beauty of pure mathematics in novel ways
Deepmind: Nowcasting the next hour of rain
Deepmind: Putting the power of AlphaFold into the world's hands
Google Research: Deciphering clinical abbreviations with privacy protecting ML
Google Research: Google Research, 2022 & beyond: Language, vision and generative models
Google Research: Google Research, 2022 & beyond: Responsible AI
Google Research: Learning with queried hints
Google Research: Open Source Vizier: Towards reliable and flexible hyperparameter and blackbox optimization
Google Research: Google Research, 2022 & beyond: ML & computer systems
Google Research: Real-time tracking of wildfire boundaries using satellite imagery
Google Research: Breaching the 2 LMP Approximation Barrier for Facility Location with Applications to k-Median
Google Research: Chimane-Mosetén
Google Research: Differentially Private All-Pairs Shortest Path Distances: Improved Algorithms and Lower Bounds
Google Research: Differentially Private Fair Division
Google Research: DiffQG: Generating Questions on Paired Sentences
Google Research: Assessment of Security Defense of Native Programs Against Software Faults
Google Research: Adaptive mixing of auxiliary losses in supervised learning
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: DALL·E: Creating Images from Text
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: Jukebox
OpenAI: Solving Rubik's Cube with a Robot Hand
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: MuseNet
OpenAI: Emergent Tool Use from Multi-Agent Interaction
[2013/01] Efficient Estimation of Word Representations in Vector Space
[2014/12] Dependency-Based Word Embeddings
[2015/07] Neural Machine Translation of Rare Words with Subword Units
[2014/07] GloVe: Global Vectors for Word Representation : GloVe
[2016/06] Siamese CBOW: Optimizing Word Embeddings for Sentence Representations : Siamese CBOW
[2016/07] Enriching Word Vectors with Subword Information : fastText
[2014/09] Sequence to Sequence Learningwith Neural Networks : seq2seq
[2017/07] Attention Is All You Need : Transformer
[2017/08] Learned in Translation: Contextualized Word Vectors : CoVe
[2018/01] Universal Language Model Fine-tuning for Text Classification : ULMFIT
[2018/02] Deep contextualized word representations : ELMo
[2018/06] Improving Language Understanding by Generative Pre-Training : GPT-1
[2018/10] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding : BERT
[2019/02] Language Models are Unsupervised Multitask Learners : GPT-2
[2019/04] Language Models with Transformers
[2019/08] Neural Text Generation with Unlikelihood Training
[2019/01] Cross-lingual Language Model Pretraining XLM
[2019/01] Multi-Task Deep Neural Networks for Natural Language Understanding : MT-DNN
[2019/01] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context : Transformer-XL
[2019/06] XLNet: Generalized Autoregressive Pretraining for Language Understanding : XLNet
[2019/04] The Curious Case of Neural Text Degeneration
[2019/09] Fine-Tuning Language Models from Human Preferences
[2019/01] BioBERT: a pre-trained biomedical language representation model for biomedical text mining : BioBERT
[2019/03] SciBERT: A Pretrained Language Model for Scientific Text : SciBERT
[2019/04] ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission : ClinicalBERT
[2019/06] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization : HIBERT
[2019/07] SpanBERT: Improving Pre-training by Representing and Predicting Spans : SpanBERT
[2019/04] Publicly Available Clinical BERT Embeddings
[2019/08] Pre-Training with Whole Word Masking for Chinese BERT
[2019/07] Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment
[2019/07] R-Transformer: Recurrent Neural Network Enhanced Transformer : R-Transformer
[2019/09] FREELB: ENHANCED ADVERSARIAL TRAINING FOR LANGUAGE UNDERSTANDING : FREELB
[2019/09] Mixup Inference: Better Exploiting Mixup to Defend Adversarial Attacks
[2019/10] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer : T5
[2018/07] Subword-level Word Vector Representations for Korean
[2019/08] Zero-shot Word Sense Disambiguation using Sense Definition Embeddings
[2019/06] Bridging the Gap between Training and Inference for Neural Machine Translation
[2019/06] Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts
[2019/07] A Simple Theoretical Model of Importance for Summarization
[2019/05] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems
[2019/07] We need to talk about standard splits
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2019/05] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems : SuperGLUE
[2020/01] Towards a Human-like Open-Domain Chatbot + Google AI Blog
[2020/03] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators : ELECTRA
[2019/04] Mask-Predict: Parallel Decoding of Conditional Masked Language Models : Mask-Predict
[2020/01] Reformer: The Efficient Transformer : Reformer
[2020/04] Longformer: The Long-Document Transformer : Longformer
[2019/11] DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation : DialoGPT
[2020/01] Towards a Human-like Open-Domain Chatbot
[2020/04] You Impress Me: Dialogue Generation via Mutual Persona Perception
[2020/04] Recipes for building an open-domain chatbot
[2020/04] ToD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogues : ToD-BERT
[2020/04] SOLOIST: Few-shot Task-Oriented Dialog with A Single Pre-trained Auto-regressive Model : SOLOIST
[2020/05] A Simple Language Model for Task-Oriented Dialogue
[2019/07] ReCoSa: Detecting the Relevant Contexts with Self-Attention for Multi-turn Dialogue Generation : ReCoSa
[2020/04] FastBERT: a Self-distilling BERT with Adaptive Inference Time : FastBERT
[2020/01] PoWER-BERT: Accelerating BERT inference for Classification Tasks : PoWER-BERT
[2019/10] DistillBERT, a distilled version of BERT: smaller, faster, cheaper and lighter : DistillBERT
[2019/10] TinyBERT: Distilling BERT for Natural Language Understanding : TinyBERT
[2019/11] Not Enough Data? Deep Learning to the Rescue!
[2018/12] Conditional BERT Contextual Augmentation
[2020/03] Data Augmentation using Pre-trained Transformer Models
[2020/04] FLAT: Chinese NER Using Flat-Lattice Transformer : FLAT
[2019/12] Big Transfer (BiT): General Visual Representation Learning : BiT
[2019/04] ERNIE: Enhanced Representation through Knowledge Integration : ERNIE
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2020/06] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph : ERNIE-ViL
[2020/12] ERNIE-Doc: A Retrospective Long-Document Modeling Transformer : ERNIE-Doc
[2021/07] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation : ERNIE 3.0
[2022/10] Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning
[2017/03] Distilling Task-Specific Knowledge from BERT into Simple Neural Networks
[2020/10] DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching and Pair Modeling : DiPair
[2021/08] Distilling Transformers for Neural Cross-Domain Search
[2020/06] DeBERTa: Decoding-enhanced BERT with Disentangled Attention : DeBERTa
[2020/11] VEGA: Towards an End-to-End Configurable AutoML Pipeline : VEGA
[2020/12] FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding : FILTER
[2019/12] StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding : StructBERT
[2019/04] Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding : MT-DNN
[2021/05] Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation
중지
최신 MLLM 관련 스터디. 기본 오후에 진행. 논문, 강의, 코드, 뉴스, 블로그 등 다양한 자료로 학습.
MLLM, LLM, NLG, Dialogue, Reinforcement learning, Distillation, Efficient, Sentence similarity, multiple tasks, multimodal, Stable diffusion, TTS, Text-To-Video, All-To-All, 우주, 생명, 지능, 윤리, 규제, 법, 노화, 의학, 투자, 개발, 인프라, 디자인, 경영, ETC...
유망 스타트업 C레벨, 국내외 탑티어 연구자, 국내외 탑티어 대학, 대학원 재학생과 졸업생, 석학, 교수 등 A급 인재들이 최신 논문, 강의 등 스터디 및 프로젝트 진행.
기본 매주 수요일 오후 7시반. 사전 학습 없이 논문 읽기 최대 20분, 토론 최대 40분. 한 번에 1 ~ 10개 논문, 강의 등 진행. 지금까지는 항상 3개. 주제 논문 선정은 자유. 탑티어 학회 논문 및 프로젝트 제작 예정.
주말을 포함하여, 거의 매일 추가 스터디 존재. 흥미로운 주제거나 참여 되는 날만 중간에 들어와서 중간에 나가도 무관. 모든 규칙은 협의 가능. 오프라인 모임도 예정. 자율 참여.
| Математика | machine learning | Transformer | Обнимающееся лицо |
|---|---|---|---|
![]() | ![]() | ![]() | |
| mathematics for machine learning | Pattern Recognition and Machine Learning | Getting Started with Google BERT | Обработка естественного языка с трансформаторами |