AGI Papers下载 - AGI Papers源代码下载

AGI Papers

其他源码

1.0.0

下载

？ agipapers？

llm·nlp
text2All·All2All
多模式·多任务

_{让我们找出最新和各种LLM相关的论文。？}

新论文

MOMA：有效的早期融合预培训与模态感知专家的混合物
Mova：将视觉专家的混合物调整为多模式环境
通过想象，搜索和批评自我改善LLMS
聊天矢量：一种简单的方法，用于配备LLM的指令以下和模型对齐方式
从r到q ∗：您的语言模型是秘密的Q功能
Mamba：具有选择性状态空间的线性时间序列建模
PHI-3技术报告：手机本地有能力的语言模型
朵拉：重量分解的低级适应
许多镜头中的学习

2024年之前

在大语模型中释放认知协同作用：通过多人自行车解决任务的代理

人类智能在认知协同的概念上蓬勃发展，与孤立的个人认知过程相比，不同认知过程之间的协作和信息整合产生了较高的结果。尽管大型语言模型（LLMS）表现出有希望的表现作为一般任务解决代理，但他们仍然在需要密集的领域知识和复杂推理的任务上挣扎。在这项工作中，我们提出了独奏绩效提示（SPP），它通过与多个角色从事多转变自我合作来将单个LLM转化为认知协同作用。认知协同作用是指与多种思维合作的智能代理，结合了他们的个人优势和知识，以增强问题解决问题和整体绩效。通过基于任务输入来动态识别和模拟不同角色，SPP释放了LLMS认知协同作用的潜力。我们发现，与使用单个或固定数量的角色相比，在LLMS中分配多个，精细的角色可以更好地解决问题的能力。我们在三个具有挑战性的任务上评估了SPP：Trivia创意写作，代号协作和逻辑网格拼图，包括知识密集型和推理密集型类型。与以前的著作（例如，经过思考链）不同，它仅增强了LLM的推理能力，SPP有效地引起了内部知识的获取能力，降低了幻觉并保持强大的推理能力。代码，数据和提示可以在以下位置找到：此HTTPS URL。

LLM-Blender：结合具有成对排名和生成融合的大型语言模型

我们提出了LLM-Blender，这是一个结合框架，旨在通过利用多种开源大型语言模型（LLMS）的多样性优势来始终如一地实现卓越的性能。我们的框架由两个模块组成：Pairranker和Genfuser，解决了以下观察结果：不同示例的最佳LLM可能会大大变化。 Pairranker采用专门的成对比较方法来区分候选输出之间的细微差异。它共同编码输入文本和一对候选物，并使用交叉注意编码来确定上级。我们的结果表明，Pairranker与基于CHATGPT的排名表现出最高的相关性。然后，Genfuser的目标是合并排名最高的候选人，通过利用其优势并减轻其弱点来提高产出。为了促进大规模评估，我们介绍了一个基准数据集MixinStruct，该数据集是多个指令数据集的混合物，其中包含Oracle成对比较。我们的LLM-Blender在各种指标上的表现明显优于单个LLM和基线方法，建立了巨大的性能差距。

LeanDojo：定理通过检索型语言模型证明

大型语言模型（LLMS）在使用诸如精益之类的证明助理证明正式定理方面表现出了希望。但是，由于私人代码，数据和庞大的计算要求，现有方法难以复制或构建。这为研究定理证明的机器学习方法的研究造成了重大障碍。本文通过引入LeanDojo：一个由工具包，数据，模型和基准组成的开源精益游乐场来消除这些障碍。 LeanDojo从Lean中提取数据，并可以通过编程方式与证明环境进行互动。它包含证据中前提的细粒度注释，提供了有价值的数据以进行前提选择，这是定理中的关键瓶颈。使用此数据，我们开发了Reprover（检索仪式的供奉献者）：第一个基于LLM的供者，该摊子可通过检索进行增强，以从庞大的数学库中选择场所。它很便宜，只需要一个GPU周的培训。我们的检索员利用LeanDojo的计划分析能力来识别可访问的前提和硬性否定示例，这使得检索更加有效。此外，我们构建了一个新的基准测试，该基准由从Lean的数学库中提取的96,962个定理和证明组成。它具有挑战性数据拆分的具有挑战性，要求供者推广到依靠从未在培训中使用的新型前提的定理。我们使用此基准进行培训和评估，实验结果证明了rebrover对非回归基准和GPT-4的有效性。因此，我们在没有任何专有数据集的情况下提供了第一组开源LLM定理抛弃，并根据宽松的MIT许可将其释放，以促进进一步的研究。

Vipergpt：通过Python执行进行推理的视觉推断

回答视觉查询是一项复杂的任务，需要视觉处理和推理。端到端模型是该任务的主要方法，不能明确区分两者，从而限制了解释性和概括。学习模块化程序提出了一个有希望的替代方案，但由于难以同时学习程序和模块，因此被证明是具有挑战性的。我们介绍了Vipergpt，该框架利用代码生成模型将视觉和语言模型构成子例程，以产生任何查询的结果。 Vipergpt利用提供的API访问可用的模块，并通过生成后来执行的Python代码来组成它们。这种简单的方法不需要进一步的培训，并且可以在各种复杂的视觉任务中实现最先进的结果。

Longnet：将变压器扩展到1,000,000,000代币

在大型语言模型时代，缩放顺序长度已成为关键需求。但是，现有方法在计算复杂性或模型表达性方面遇到困难，从而限制了最大序列长度。在这项工作中，我们介绍了Longnet，这是一种可以将序列长度扩展到超过10亿代币的变压器变体，而无需牺牲较短序列的性能。具体而言，我们提出了扩张的注意力，随着距离的增长，该注意力会呈指数增长。长网具有显着的优势：1）它具有线性计算的复杂性和令牌之间的对数依赖性； 2）可以用作非常长的序列的分布式教练； 3）其扩张的注意力是标准注意力的置换替代品，可以将其与现有的基于变压器的优化无缝集成。实验结果表明，长网络在长期序列建模和一般语言任务上都产生了强劲的性能。我们的工作为建模很长的序列，例如，将整个语料库甚至整个互联网视为序列开辟了新的可能性。

作为外语的图像：为所有视觉和视觉语言任务进行预训练

语言，视觉和多模式预处理的大量融合正在出现。在这项工作中，我们介绍了通用多模式基础模型BEIT-3，该模型BEIT-3，该模型在视觉和视觉任务上都实现了最先进的转移性能。具体来说，我们从三个方面提出了很大的融合：骨干架构，预处理任务和模型扩展。我们介绍了多道路变压器进行通用建模，其中模块化体系结构可以实现深融合和模态特定的编码。基于共享的骨干，我们以统一的方式对图像（Imglish），文本（英语）和图像文本对（“平行句子”）进行蒙版的“语言”建模。实验结果表明，BEIT-3在对象检测（COCO），语义细分（ADE20K），图像分类（ImagEnet），视觉推理（NLVR2），视觉询问答录（VQAV2），图像字幕（COCO）（COCO）和交叉模式检索（Flickr30k，coco，coco，coco，coco）中获得最先进的性能。

？大猩猩：与大型API相连的大语言模型

大型语言模型（LLM）最近看到了令人印象深刻的进步浪潮，现在模型在各种任务中都表现出色，例如数学推理和程序综合。但是，他们通过API调用有效使用工具的潜力仍然无法实现。即使对于当今最先进的LLM，例如GPT-4，这也是一项艰巨的任务，这主要是由于它们无法产生准确的输入论点及其倾向于幻觉API呼叫的错误用法。我们发布了Gorilla，这是一种基于Llama的易遍性模型，它超过了GPT-4在编写API呼叫方面的性能。当与文档提带器结合使用时，大猩猩表现出强大的功能，可以适应测试时间文档更改，从而实现灵活的用户更新或版本更改。它还大大减轻了幻觉的问题，这通常是直接提示LLM时遇到的。为了评估模型的能力，我们介绍了APIBENCH，这是一个由拥抱面，Torchhub和Tensorhub API组成的综合数据集。将检索系统与大猩猩的成功集成在一起，证明了LLM可以更准确地使用工具，跟上经常更新的文档，并因此提高其产出的可靠性和适用性。大猩猩的模型和代码可在https://github.com/shishirpatil/gorilla上找到。

÷？变色龙：使用GPT-4的插件构图推理

大型语言模型（LLM）在具有紧急能力的各种自然语言处理任务中取得了显着进步。但是，他们面临固有的局限性，例如无法访问最新信息，使用外部工具或执行精确的数学推理。在本文中，我们介绍了Chameleon，这是一个插件的构图推理框架，可增强LLMS以帮助应对这些挑战。 Chameleon合成了编写各种工具的程序，包括LLM型号，现成的视觉模型，Web搜索引擎，Python功能以及针对用户兴趣的基于规则的模块。 Chameleon建立在LLM之上，作为自然语言规划师，它渗透了适当的工具序列，以创建和执行以产生最终响应。我们展示了变色龙对两个任务的适应性和有效性：ScienceQA和TABMWP。值得注意的是，具有GPT-4的变色龙在ScienceQA上的精度达到了86.54％，在最佳发表的几杆模型上显着提高了11.37％； Chameleon使用GPT-4作为基础LLM，比最先进的模型增长了17.8％，导致TABMWP的总体准确性为98.78％。进一步的研究表明，与其他LLM相比，使用GPT-4作为计划者表现出更加一致，更合理的工具选择，并能够推断出潜在的限制。

Llama-apapter V2：参数效率高效的视觉指导模型

最近，如何有效地将大型语言模型（LLM）转变为指导关注者是一个流行的研究方向，而培训LLM用于多模式推理的培训仍然较少探索。尽管最近的Llama-Audapter证明了使用LLMS处理视觉输入的潜力，但它仍然无法很好地推广到GPT-4后面的开放式视觉说明和滞后。在本文中，我们介绍了Llama-Adapter V2，这是一种参数有效的视觉指导模型。具体而言，我们首先通过解锁更多可学习的参数（例如，规范，偏见和比例）来增强骆驼适配器，该参数除了适配器以外，在整个Llama模型上分布了指令跟随能力。其次，我们提出了一种早期的融合策略，仅将视觉令牌馈入早期的LLM层，从而有助于更好的视觉知识融合。第三，通过优化可学习参数的不连接组，引入了图像文本对和指导跟随数据的联合训练范式。该策略有效地减轻了图像文本对齐的两个任务和随后的两项任务之间的干扰，并仅使用一个小规模的图像文本和指令数据集实现了强大的多模式推理。在推断期间，我们将其他专家模型（例如字幕/OCR系统）纳入Llama-Adapter，以进一步增强其图像理解能力而不会导致培训成本。与原始的骆驼适配器相比，我们的骆驼适配器V2可以通过仅在骆驼上引入1400万参数来执行开放式的多模式指令。新设计的框架还表现出更强大的语言指导遵循功能，甚至表现出擅长聊天互动。我们的代码和模型可在此HTTPS URL上找到。

生成代理：人类行为的互动模拟

可信的人类行为的代理可以增强从沉浸式环境到练习空间的交互式应用，以进行人际交流，再到原型工具。在本文中，我们介绍了生成剂 - 模拟可信人类行为的竞争软件代理。生成的特工醒来，煮早餐，然后上班；艺术家绘画，而作者写道；他们形成意见，互相注意并发起对话；他们记得第二天计划过去的几天。为了启用生成代理，我们描述了一种扩展大型语言模型的体系结构，以使用自然语言来存储代理商的经历，将这些记忆随时间综合为高级反射，并动态地检索它们以计划行为。我们实例化生成代理，以填充受模拟人生启发的交互式沙盒环境，最终用户可以使用自然语言与一个25个代理商的小镇进行互动。在评估中，这些生成的代理人产生了可信的个人和新兴的社交行为：例如，首先要从一个用户指定的观念开始，即一个代理商想举办情人节聚会，代理商在接下来的两天内自主向聚会自主传播邀请，在接下来的两天内，结识新的熟人，在派对上互相求婚，并为派对搭档，并在派对上齐心协力。我们通过消融证明，我们的代理体系结构的组成部分 - 观察，计划和反思 - 都为代理行为的可信度做出了巨大贡献。通过将大型语言模型与计算，互动代理融合在一起，这项工作引入了建筑和互动模式，以实现可信的人类行为模拟。

反射：具有动态记忆和自我反射的自治药物

决策大语模型（LLM）代理商的最新进步表现出了各种基准的令人印象深刻的表现。但是，这些最先进的方法通常需要内部模型微调，外部模型微调或对定义状态空间的策略优化。由于缺乏高质量的培训数据或缺乏定义明确的状态空间，实施这些方法可能会挑战。此外，这些代理人没有人类决策过程固有的某些品质，特别是从错误中学习的能力。自我反射使人类可以通过反复试验的过程有效地解决新的问题。在最新研究的基础上，我们提出了反射，这种方法赋予了代理具有动态记忆和自我反射能力的方法，以增强其现有的推理痕迹和特定于任务的动作选择能力。为了实现完整的自动化，我们引入了一种直接而有效的启发式措施，该启发式使代理商能够查明幻觉实例，避免在动作序列中重复重复，并且在某些环境中，构建了给定环境的内部记忆图。为了评估我们的方法，我们评估了代理在ALFWORLD环境中完成决策任务的能力，以及在HOTPOTQA环境中的知识密集型，基于搜索的问答任务。我们分别观察到97％和51％的成功率，并就自我反省的新兴特性提供了讨论。

自我refine：迭代精致和自我反馈

像人们一样，LLM并不总是在第一次尝试时为给定一代问题生成最佳文本（例如，摘要，答案，解释）。正如人们然后完善文本一样，我们引入了自我申请，这是一个框架，用于通过迭代反馈和改进来改善LLM的初始输出。主要思想是使用LLM生成输出，然后允许相同的模型为其自己的输出提供多光值反馈；最后，相同的模型根据自己的反馈来完善其先前生成的输出。与较早的工作不同，我们的迭代改进框架不需要监督的培训数据或强化学习，并且可以与单个LLM合作。我们尝试了7项不同的任务，从评论重写到数学推理，表明我们的方法表现优于直接生成。在所有任务中，用自我申请产生的输出受到人类的首选，自动化指标比直接使用GPT-3.5和GPT-4生成的指标首选，在整个任务中，绝对20％的量平均提高了20％。

Hugginggpt：与Chatgpt及其朋友在Huggingface中解决AI任务

解决具有不同领域和方式的复杂的AI任务是迈向高级人工智能的关键步骤。尽管有大量的AI模型可用于不同的域和模式，但它们无法处理复杂的AI任务。考虑到大型语言模型（LLM）在语言理解，产生，互动和推理方面表现出了非凡的能力，我们提倡LLM可以充当控制现有的AI模型来解决复杂的AI任务和语言的控制器，这可能是一种通用界面，可以增强此功能。基于这种理念，我们提出了HuggingGpt，该框架利用LLMS（例如ChatGpt）将机器学习社区中的各种AI模型（例如，拥抱面孔）连接起来解决AI任务。具体来说，我们使用CHATGPT在接收用户请求时进行任务计划，请根据其功能描述在拥抱面中可用的功能描述，使用选定的AI模型执行每个子任务，并根据执行结果汇总响应。通过利用Chatgpt和丰富的AI模型的强大语言能力来拥抱面孔，HuggingGpt能够涵盖不同方式和领域中的许多复杂的AI任务，并在语言，愿景，语音和其他具有挑战性的任务中取得了令人印象深刻的成果，这为高级人工智能铺平了新的方式。

自动GPT：自动GPT-4实验

Auto-GPT是一个实验性开源应用程序，展示了GPT-4语言模型的功能。该程序由GPT-4驱动，将LLM“ Thought”链接在一起，以自主实现您设定的任何目标。作为GPT-4完全自动运行的第一个示例之一，Auto-GPT推动了AI可能的边界。

frugalgpt：如何使用大语言模型，同时降低成本和提高性能

用户可以收取费用迅速增长的大型语言模型（LLM）。我们回顾了与查询流行的LLM API相关的成本，例如GPT-4，CHATGPT，J1-JUMBO，发现这些模型具有异质定价结构，费用可能会通过两个数量级而有所不同。特别是，在大量查询和文本中使用LLM可能很昂贵。在此激励的情况下，我们概述并讨论了用户可以利用的三种策略，以减少与使用LLMS相关的推理成本：1）及时适应，2）LLM近似和3）LLM Cascade。例如，我们提出了Frugalgpt，这是LLM Cascade的简单而灵活的实例化，它了解了用于不同查询的LLM的组合，以降低成本并提高准确性。我们的实验表明，Frugalgpt可以匹配最佳个人LLM（例如GPT-4）的性能，其成本降低高达98％，或者以相同的成本提高了GPT-4的准确性4％。这里提出的思想和发现为可持续有效地使用LLM的基础。

LeanDojo：定理通过检索型语言模型证明

大型语言模型（LLMS）在使用诸如精益之类的证明助理证明正式定理方面表现出了希望。但是，由于私人代码，数据和庞大的计算要求，现有方法难以复制或构建。这为研究定理证明的机器学习方法的研究造成了重大障碍。本文通过引入LeanDojo：一个由工具包，数据，模型和基准组成的开源精益游乐场来消除这些障碍。 LeanDojo从Lean中提取数据，并可以通过编程方式与证明环境进行互动。它包含证据中前提的细粒度注释，提供了有价值的数据以进行前提选择，这是定理中的关键瓶颈。使用此数据，我们开发了Reprover（检索仪式的供奉献者）：第一个基于LLM的供者，该摊子可通过检索进行增强，以从庞大的数学库中选择场所。它很便宜，只需要一个GPU周的培训。我们的检索员利用LeanDojo的计划分析能力来识别可访问的前提和硬性否定示例，这使得检索更加有效。此外，我们构建了一个新的基准测试，该基准由从Lean的数学库中提取的96,962个定理和证明组成。它具有挑战性数据拆分的具有挑战性，要求供者推广到依靠从未在培训中使用的新型前提的定理。我们使用此基准进行培训和评估，实验结果证明了rebrover对非回归基准和GPT-4的有效性。因此，我们在没有任何专有数据集的情况下提供了第一组开源LLM定理抛弃，并根据宽松的MIT许可将其释放，以促进进一步的研究。

探索好奇的代码提示案例

最近的工作表明，促使语言模型具有自然语言的类似代码的表示，从而在结构化推理任务上改善了性能。但是，这些任务仅包含所有自然语言任务的一小部分。在我们的工作中，我们试图回答是否是与语言模型进行交互的首选方式。我们在更广泛的任务选择（例如，QA，情感，摘要）中比较了三种流行的GPT模型（Davinci，Code-Davinci-002和Text-Davinci-002）的代码和文本提示，并发现少数例外，代码提示并不能始终如一地均优于文本提示。此外，我们表明，代码提示的样式对某些但所有任务的性能都有很大的影响，并且对文本说明的微调会导致代码提示的相对性能更好。

语言模型可以教导较弱的代理人吗？教师解释通过心理理论改善学生

大型语言模型（LLMS）通过为其预测产生解释来执行复杂的推理。但是，解释的互补目标是传达有用的知识，以改善弱者。因此，我们研究了LLM是否也为较弱的代理人做好教师。特别是，我们考虑了两个LLM代理商之间的学生教师框架，并研究了何时，何时以及如何干预自然语言解释以改善学生的表现。由于沟通很昂贵，我们定义了一个预算，使教师仅通过一小部分数据传达解释，然后学生应该自己表现良好。我们沿着四个轴分解了教学问题：（1）如果教师的测试时间干预改善了学生的预测，（2）值得解释数据点时，（3）教师应如何个性化解释以更好地教学学生，以及（4）教师解释还提高了学生对未来未解释的数据的绩效。我们首先表明LLM老师确实可以干预学生的推理以提高其表现。接下来，我们提出了一种心理理论方法，其中教师建立了两个学生的两个精神模型。第一个模型定义了一个干预功能，该功能模拟了干预措施的实用性，从而使教师在该效用是最高的，并且在较低预算下的学生绩效时可以进行干预。第二个模型使教师可以个性化特定学生的解释，并且表现优于不人道的老师。我们还证明，在多转变的互动中，教师解释概括和从解释中学习可以提高学生对未来无法解释的数据的绩效。最后，我们还验证了错过的老师可以通过故意误导他们的误解来将学生的表现降低到随机的机会。

[KOSMOS-2：将多模式的大型语言模型扎到世界上]

我们介绍了Kosmos-2，这是一种多模式的大语言模型（MLLM），使感知对象描述的新功能（例如，边界框）和将文本接地到视觉世界。具体来说，我们将表达式指定为Markdown中的链接，即，``[text Span]（边界框）''，其中对象描述是位置令牌的序列。我们与多模式的语料库一起构建了接地图像文本对（称为砂纸）的大规模数据，以训练模型。除了MLLM的现有功能（例如，按照说明感知一般模式，并执行中文学习）之外，KOSMOS-2还将接地能力集成到下游应用程序中。我们在多种任务上评估KOSMOS-2，包括（i）多模式接地，例如参考表达理解和短语接地，（ii）多模式参考，例如参考表达产生，（iii）感知语言任务，以及（iv）语言理解和产生。这项工作为实施体AI的开发奠定了基础，并阐明了语言，多模式感知，行动和世界建模的巨大融合，这是迈向人工通用情报的关键一步。该HTTPS URL可用代码和预估计的模型。

棕榈2技术报告

我们介绍了Palm 2，这是一种新的最先进的语言模型，具有更好的多语言和推理功能，并且比其前身Palm更有效率。 Palm 2是一种基于变压器的模型，该模型使用目标混合物训练。通过对英语和多语言语言以及推理任务的广泛评估，我们证明了Palm 2在不同型号尺寸的下游任务上的质量显着提高，同时表现出与Palm相比的更快，更有效的推断。这种提高的效率使得更广泛的部署，同时还可以使模型更快地响应，以更自然的交互作用。 Palm 2展示了强大的推理能力，例如在大板凳和其他推理任务上对Palm的大幅度改进来体现。 Palm 2在一系列负责的AI评估中表现出稳定的性能，并可以对毒性进行推理时间控制，而无需额外的开销或对其他功能的影响。总体而言，Palm 2在各种任务和功能中实现了最先进的表现。

Motiongpt：固定的LLM是通用运动发生器

由于数字人类的新需求，从给定的动作描述中产生现实的人类运动已经取得了重大进步。尽管最近的作品在直接从文本动作描述中产生运动方面取得了令人印象深刻的结果，但它们通常仅支持控制信号的单一模式，这限制了他们在实际数字人类工业中的应用。本文提出了一种运动通用发电机（Motiongpt），该发电机可以使用多模式控制信号，例如，文本和单帧姿势，通过将多模态信号作为大语言模型（LLMS）中的特殊输入标记来生成连续的人类运动。具体而言，我们首先将多模式控制信号量化为离散代码，然后在统一的提示指令中制定它们，要求LLMS生成运动答案。我们的Motiongpt通过仅调谐0.4％的LLM参数，展示了具有多模式控制信号的统一人类运动产生模型。据我们所知，MotionGpt是通过多模式控制信号产生人类运动的第一种方法，我们希望这可以阐明这个新方向。代码应在接受后释放。

语言模型中的多模式链中的推理

大型语言模型（LLMS）通过利用思想链（COT）提示产生中间推理链作为推断答案的基本原理，在复杂的推理上表现出了令人印象深刻的表现。但是，现有的COT研究集中在语言方式上。我们建议将语言（文本）和视觉（图像）模态纳入一个两阶段的框架，将基本原理生成和回答推理分开。这样，答案推理可以利用基于多模式信息的更好生成的理由。借助多模式-COT，我们的10亿个参数的模型优于先前的最先前的LLM（GPT-3.5），在ScienceQA基准上的模型高于16个百分点（75.17％ - > 91.68％的准确性），甚至超过了人类绩效。代码可在此HTTPS URL上公开可用。

骆驼2：开放基础和微调聊天模型
UNILM：跨任务，语言和方式的大规模自我监管的预训练
较大的大神经网络：稀疏门控的混合物层
Glam：具有专家混合物的语言模型的有效缩放
缩放视力与专家的稀疏混合物
“低资源”文本分类：带有压缩机的无参数分类方法
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
Textbooks Are All You Need
Model Card and Evaluations for Claude Models
Full Parameter Fine-tuning for Large Language Models with Limited Resources
Augmenting Language Models with Long-Term Memory
Unifying Large Language Models and Knowledge Graphs: A Roadmap
Knowledge Distillation of Large Language Models
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression
QLoRA: Efficient Finetuning of Quantized LLMs
LIMA: Less Is More for Alignment
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
RWKV: Reinventing RNNs for the Transformer Era
Dr. LLaMA: Improving Small Language Models Through Generative Data Augmentation
The FLAN Instruction Tuning Repository
Phoenix: Democratizing ChatGPT across Languages
Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
RedPajama-INCITE
China's Baidu claims its Ernie Bot beats ChatGPT on key tests as AI race heats up
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
LTM-1: an LLM with a 5,000,000 token context window
Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM
StarCoder: may the source be with you!
Cross-lingual Language Model Pretraining
Language Is Not All You Need: Aligning Perception with Language Models
Tackling multiple tasks with a single visual language model
Large Language Models are Zero-Shot Reasoners
Larger language models do in-context learning differently
GPT Understands, Too
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
Do Prompt-Based Models Really Understand the Meaning of their Prompts?
∞-former: Infinite Memory Transformer
Improving language models by retrieving from trillions of tokens
Augmented Language Models: a Survey
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Structure and Content-Guided Video Synthesis with Diffusion Models
MusicLM: Generating Music From Text
InstructGPT : Training language models to follow instructions with human feedback
BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
Multimodal Chain-of-Thought Reasoning in Language Models
Constitutional AI: Harmlessness from AI Feedback
Provable Copyright Protection for Generative Models
What learning algorithm is in-context learning? Investigations with linear models
A Path Towards Autonomous Machine Intelligence
PAL: Program-aided Language Models
Toolformer: Language Models Can Teach Themselves to Use Tools
LLaMA: Open and Efficient Foundation Language Models
Improving alignment of dialogue agents via targeted human judgements
Training Compute-Optimal Large Language Models
LLaMA-based ChatGPT training, ChatLLaMA
RLHF: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
BaGuaLu: Targeting Brain Scale Pretrained Models with over 37 Million Cores
LLaMA-7B, LLAMA Up-data, LLaMA: INT8 edition, UForm
Flamingo: a Visual Language Model for Few-Shot Learning, Blog
Multimodal Chain-of-Thought Reasoning in Language Models
How to use UForm
How to create KoChatLLaMA
Competition-Level Code Generation with AlphaCode
Scaling Language Models: Methods, Analysis & Insights from Training Gopher
GPU and learning method required for KoChatLlaMA fine-tuning
Advantages and Problems of UForm
GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
PaLM-E: An Embodied Multimodal Language Model
Tightly-Integrated Generative Encoder-Decoder Representation
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
PaLM: Scaling Language Modeling with Pathways
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks
LoRA: Low-Rank Adaptation of Large Language Models
Language Models are Few-Shot Learners
Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning
Improving language models by retrieving from trillions of tokens
FLAN: Finetuned Language Models Are Zero-Shot Learners
T0: Multitask Prompted Training Enables Zero-Shot Task Generalization
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
The Wisdom of Hindsight Makes Language Models Better Instruction Followers
Exploring the Benefits of Training Expert Language Models over Instruction Tuning
Unsupervised Imputation of Non-ignorably Missing Data Using Importance-Weighted Autoencoders
The Power of Scale for Parameter-Efficient Prompt Tuning
Constitutional AI: Harmlessness from AI Feedback
Deep reinforcement learning from human preferences
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
Large Language Models with Controllable Working Memory
Do Prompt-Based Models Really Understand the Meaning of their Prompts?
Muse: Text-To-Image Generation via Masked Generative Transformers
Structure and Content-Guided Video Synthesis with Diffusion Models
Generative Pretraining from Pixels
A hunt for the Snark: Annotator Diversity in Data Practices
Accurate global machine learning force fields for molecules with hundreds of atoms
Algorithms with More Granular Differential Privacy Guarantees
Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types
Are we cobblers without shoes? Making Computer Science data FAIR
Code Generation for In-Place Stencils
Creating, Calibrating, and Validating Large-Scale Microscopic Traffic Simulation
Increasing Impact of Mobile Health Programs: SAHELI for Maternal and Child Care
Designing Responsible AI: Adaptations of UX Practice to Meet Responsible AI Challenges
Developer Productivity for Humans: A Human-Centered Approach to Developer Productivity
Development of a Machine Learning Model for Sonographic Assessment of Gestational Age
Drug Design on Quantum Computers
Estimates of broadband upwelling irradiance from GOES-16 ABI
Information Processing and Management
Flake Aware Culprit Finding
Flexible Budgets in Restless Bandits: A Primal-Dual Algorithm for Efficient Budget Allocation
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
High-Performance GPU-to-CPU Transpilation and Optimization via High-Level Parallel Constructs
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
Infrastructuring Care: How Trans and Non-Binary People Meet Health and Well-Being Needs through Technology
KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals
Learning to Bid in Contextual First Price Auctions
Machine Learning for Healthcare: A Bibliometric Study of Contributions from Africa
Scalable Decision-Focused Learning in Restless Multi-Armed Bandits with Application to Maternal and Child Health
Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program
Recitation-Augmented Language Models
RL4ReAl: Reinforcement Learning for Register Allocation
Quantum Simulation of Exact Electron Dynamics can be more Efficient than Classical Mean-Field Methods
Quantum simulation of exact electron dynamics can be more efficient than classical mean-field methods
Propeller: A Profile Guided, Relinking Optimizer for Warehouse-Scale Applications
Deepmind: Improving language models by retrieving from trillions of tokens
Deepmind: Building safer dialogue agents
Deepmind: Competitive programming with AlphaCode
Deepmind: Mastering Stratego, the classic game of imperfect information
Deepmind: DeepMind's latest research at NeurIPS 2022
Deepmind: Building interactive agents in video game worlds
Deepmind: Discovering novel algorithms with AlphaTensor
Deepmind: AlphaFold reveals the structure of the protein universe
Deepmind: Exploring the beauty of pure mathematics in novel ways
Deepmind: Nowcasting the next hour of rain
Deepmind: Putting the power of AlphaFold into the world's hands
Google Research: Deciphering clinical abbreviations with privacy protecting ML
Google Research: Google Research, 2022 & beyond: Language, vision and generative models
Google Research: Google Research, 2022 & beyond: Responsible AI
Google Research: Learning with queried hints
Google Research: Open Source Vizier: Towards reliable and flexible hyperparameter and blackbox optimization
Google Research: Google Research, 2022 & beyond: ML & computer systems
Google Research: Real-time tracking of wildfire boundaries using satellite imagery
Google Research: Breaching the 2 LMP Approximation Barrier for Facility Location with Applications to k-Median
Google Research: Chimane-Mosetén
Google Research: Differentially Private All-Pairs Shortest Path Distances: Improved Algorithms and Lower Bounds
Google Research: Differentially Private Fair Division
Google Research: DiffQG: Generating Questions on Paired Sentences
Google Research: Assessment of Security Defense of Native Programs Against Software Faults
Google Research: Adaptive mixing of auxiliary losses in supervised learning
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: DALL·E: Creating Images from Text
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: Jukebox
OpenAI: Solving Rubik's Cube with a Robot Hand
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: MuseNet
OpenAI: Emergent Tool Use from Multi-Agent Interaction

before 2023

[2013/01] Efficient Estimation of Word Representations in Vector Space
[2014/12] Dependency-Based Word Embeddings
[2015/07] Neural Machine Translation of Rare Words with Subword Units
[2014/07] GloVe: Global Vectors for Word Representation : GloVe
[2016/06] Siamese CBOW: Optimizing Word Embeddings for Sentence Representations : Siamese CBOW
[2016/07] Enriching Word Vectors with Subword Information : fastText
[2014/09] Sequence to Sequence Learningwith Neural Networks : seq2seq
[2017/07] Attention Is All You Need : Transformer
[2017/08] Learned in Translation: Contextualized Word Vectors : CoVe
[2018/01] Universal Language Model Fine-tuning for Text Classification : ULMFIT
[2018/02] Deep contextualized word representations : ELMo
[2018/06] Improving Language Understanding by Generative Pre-Training : GPT-1
[2018/10] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding : BERT
[2019/02] Language Models are Unsupervised Multitask Learners : GPT-2
[2019/04] Language Models with Transformers
[2019/08] Neural Text Generation with Unlikelihood Training
[2019/01] Cross-lingual Language Model Pretraining XLM
[2019/01] Multi-Task Deep Neural Networks for Natural Language Understanding : MT-DNN
[2019/01] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context : Transformer-XL
[2019/06] XLNet: Generalized Autoregressive Pretraining for Language Understanding : XLNet
[2019/04] The Curious Case of Neural Text Degeneration
[2019/09] Fine-Tuning Language Models from Human Preferences
[2019/01] BioBERT: a pre-trained biomedical language representation model for biomedical text mining : BioBERT
[2019/03] SciBERT: A Pretrained Language Model for Scientific Text : SciBERT
[2019/04] ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission : ClinicalBERT
[2019/06] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization : HIBERT
[2019/07] SpanBERT: Improving Pre-training by Representing and Predicting Spans : SpanBERT
[2019/04] Publicly Available Clinical BERT Embeddings
[2019/08] Pre-Training with Whole Word Masking for Chinese BERT
[2019/07] Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment
[2019/07] R-Transformer: Recurrent Neural Network Enhanced Transformer : R-Transformer
[2019/09] FREELB: ENHANCED ADVERSARIAL TRAINING FOR LANGUAGE UNDERSTANDING : FREELB
[2019/09] Mixup Inference: Better Exploiting Mixup to Defend Adversarial Attacks
[2019/10] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer : T5
[2018/07] Subword-level Word Vector Representations for Korean
[2019/08] Zero-shot Word Sense Disambiguation using Sense Definition Embeddings
[2019/06] Bridging the Gap between Training and Inference for Neural Machine Translation
[2019/06] Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts
[2019/07] A Simple Theoretical Model of Importance for Summarization
[2019/05] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems
[2019/07] We need to talk about standard splits
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2019/05] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems : SuperGLUE
[2020/01] Towards a Human-like Open-Domain Chatbot + Google AI Blog
[2020/03] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators : ELECTRA
[2019/04] Mask-Predict: Parallel Decoding of Conditional Masked Language Models : Mask-Predict
[2020/01] Reformer: The Efficient Transformer : Reformer
[2020/04] Longformer: The Long-Document Transformer : Longformer
[2019/11] DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation : DialoGPT
[2020/01] Towards a Human-like Open-Domain Chatbot
[2020/04] You Impress Me: Dialogue Generation via Mutual Persona Perception
[2020/04] Recipes for building an open-domain chatbot
[2020/04] ToD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogues : ToD-BERT
[2020/04] SOLOIST: Few-shot Task-Oriented Dialog with A Single Pre-trained Auto-regressive Model : SOLOIST
[2020/05] A Simple Language Model for Task-Oriented Dialogue
[2019/07] ReCoSa: Detecting the Relevant Contexts with Self-Attention for Multi-turn Dialogue Generation : ReCoSa
[2020/04] FastBERT: a Self-distilling BERT with Adaptive Inference Time : FastBERT
[2020/01] PoWER-BERT: Accelerating BERT inference for Classification Tasks : PoWER-BERT
[2019/10] DistillBERT, a distilled version of BERT: smaller, faster, cheaper and lighter : DistillBERT
[2019/10] TinyBERT: Distilling BERT for Natural Language Understanding : TinyBERT
[2019/11] Not Enough Data? Deep Learning to the Rescue!
[2018/12] Conditional BERT Contextual Augmentation
[2020/03] Data Augmentation using Pre-trained Transformer Models
[2020/04] FLAT: Chinese NER Using Flat-Lattice Transformer : FLAT
[2019/12] Big Transfer (BiT): General Visual Representation Learning : BiT
[2019/04] ERNIE: Enhanced Representation through Knowledge Integration : ERNIE
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2020/06] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph : ERNIE-ViL
[2020/12] ERNIE-Doc: A Retrospective Long-Document Modeling Transformer : ERNIE-Doc
[2021/07] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation : ERNIE 3.0
[2022/10] Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning
[2017/03] Distilling Task-Specific Knowledge from BERT into Simple Neural Networks
[2020/10] DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching and Pair Modeling : DiPair
[2021/08] Distilling Transformers for Neural Cross-Domain Search
[2020/06] DeBERTa: Decoding-enhanced BERT with Disentangled Attention : DeBERTa
[2020/11] VEGA: Towards an End-to-End Configurable AutoML Pipeline : VEGA
[2020/12] FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding : FILTER
[2019/12] StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding : StructBERT
[2019/04] Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding : MT-DNN
[2021/05] Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation

중지

MLLMArxivTalk

최신 MLLM 관련 스터디. 기본 오후에 진행. 논문, 강의, 코드, 뉴스, 블로그 등 다양한 자료로 학습.

MLLM, LLM, NLG, Dialogue, Reinforcement learning, Distillation, Efficient, Sentence similarity, multiple tasks, multimodal, Stable diffusion, TTS, Text-To-Video, All-To-All, 우주, 생명, 지능, 윤리, 규제, 법, 노화, 의학, 투자, 개발, 인프라, 디자인, 경영, ETC...

유망 스타트업 C레벨, 국내외 탑티어 연구자, 국내외 탑티어 대학, 대학원 재학생과 졸업생, 석학, 교수 등 A급 인재들이 최신 논문, 강의 등 스터디 및 프로젝트 진행.

기본 매주 수요일 오후 7시반. 사전 학습 없이 논문 읽기 최대 20분, 토론 최대 40분. 한 번에 1 ~ 10개 논문, 강의 등 진행. 지금까지는 항상 3개. 주제 논문 선정은 자유. 탑티어 학회 논문 및 프로젝트 제작 예정.

주말을 포함하여, 거의 매일 추가 스터디 존재. 흥미로운 주제거나 참여 되는 날만 중간에 들어와서 중간에 나가도 무관. 모든 규칙은 협의 가능. 오프라인 모임도 예정. 자율 참여.

스터디 규칙

영어만 사용은 금지. 한국어 중심 사용. 특수 용어는 영어 사용.
1주일에 논문 2개 이상 스터디. 되는 사람은 10개 이상.
3분에서 20분 현장에서 논문 읽기. 5분에서 30분 토론.
1시간 스터디 시, 바로 나가도 됨. 원할 때 10분 이하 참여도 무관. 자유롭게 진행. 2시간 매일도 가능.
각자 더 뛰어난 게 있다는 것을 인지. 다들 대단한 분들이니 질문 많이 하고, 정보 공유 자주.
본인이 하기로 한 일만은 수행. 한다고 말하고, 안 하는 것은 민폐다.
기본적으로 녹화 후 내부 공유.
정보를 혼자 알게 쓰지 말고, 다 같이 알게 말하기.
개인 사정으로 스터디 탈퇴 시, 자기소개에 인사 작성.
여러 기관 좋은 규칙 붙여넣기.
팀에 도움이 된다고 판단하면, 위 규칙을 모두 무시하고 행동.
추가.

Basic knowledge

数学	机器学习	变压器	Hugging Face

mathematics for machine learning	Pattern Recognition and Machine Learning	Getting Started with Google BERT	Natural Language Processing with Transformers