aka.ms/generai
雇用
我们正在各个级别(包括FTE研究人员和实习生)招聘!如果您有兴趣与我们一起使用基础模型(又称大规模预培训模型)和一般AI,NLP,MT,Speech,Document AI和多模式AI,请将您的简历发送到[email protected]。
基础体系结构
Torchscale-基础体系结构库(repo)
为基础模型和AI开发新体系结构的基础研究,重点是建模一般性和能力,以及训练稳定性和效率。
稳定性 -深网:将变压器缩放到1,000层及以后
通用性 -基础变压器(Magneto) :朝着跨任务和模式(包括语言,视觉,语音和多模式)进行真正的通用建模
功能 -长度可驱动的变压器
效率和可传递性 - X-MOE :可伸缩和可芬太的稀疏混合物(MOE)
模型架构的革命
比特网:大语言模型的1位变压器
retnet :保留网络:大语言模型变压器的继任者
Longnet :将变压器扩展到1,000,000,000代币
基础模型
(M)LLM(多模式LLM)的演变
KOSMOS-2.5 :多模式识字模型
KOSMOS-2 :将多模式的大型语言模型扎根
KOSMOS-1 :一种多模式大语模型(MLLM)
METIALM :语言模型是通用界面
大融合- 跨tasks (预测性和生成性), languages (100多种语言)和modalities (语言,图像,图像,音频,布局/格式/格式 +语言,视觉 +语言,音频 +语言等)的大规模自我监管的预训练预训练
语言和多语言
UNILM :统一的语言理解和发电的预训练
Infoxlm/XLM-E :100多种语言的多语言/跨语性预训练模型
DELTALM/MT6 :编码器 - 编码器预训练,用于100多种语言的语言生成和翻译
Minilm :用于语言理解和发电的小型和快速训练的模型
Adalm :预训练模型的领域,语言和任务适应
Edgelm ( NEW ):边缘/客户端设备上的小型预训练模型
SIMLM ( NEW ):相似性匹配的大规模预训练
E5 ( NEW ):文本嵌入
Minillm ( NEW ):大语言模型的知识蒸馏
想象
BEIT / BEIT-2 :图像变压器的视觉 / BERT预训练的生成自我监管的预训练
DIT :文档图像变形金刚的自我监督预训练
textdiffuser / textdiffuser-2 ( NEW ):作为文本画家的扩散模型
演讲
WAVLM :完整堆栈任务的语音预培训
VALL-E :TTS的神经编解码器语言模型
多模式(x +语言)
layoutlm / layoutlmv2 / layoutlmv3 :多模式(文本 +布局 /格式 +图像)文档AI的文档基础模型(例如扫描文档,PDF等)
layoutxlm :多模式(文本 +布局/格式 +图像)多语言文档AI的文档基础模型
Markuplm :标记语言模型预培训,以了解视觉富裕文档的理解
XDOC :统一的预培训,用于跨格式文档理解
UNISPEECH :统一的预培训,用于自我监督的学习和ASR的监督学习
Unispeech-SAT :通用语音表示学习,以说话者意识到预培训
SECTERTT5 :语言处理的编码器培训预培训
语音LM :使用未配对的文本数据增强的语音预训练
VLMO :统一视力语言预训练
VL-BEIT ( NEW ):生成视觉语言预训练 - BEIT向多模式的演变
BEIT-3 ( NEW ):通用多模式模型,以及跨任务,语言和方式大规模预训练的大规模融合的主要里程碑。
工具包
S2S-FT :序列到序列微调工具包
激进的解码( NEW ):无损,有效的序列到序列解码算法
申请
TROCR :带有预训练模型的基于变压器的OCR
layoutreader :文本和布局的预培训,用于阅读顺序检测
XLM-T :多语言NMT,带验证的跨语义编码器
链接
llmops(repo)
启用具有LLMS和MLLM的AI功能的通用技术。
红石(仓库)
为大语言模型策划一般,代码,数学和质量检查数据。
消息
- 2024年12月: Redstone发行了!
- 2023年12月: Longnet和Longvit发行
- [模型发布] 12月,2023年: TextDiffuser-2型号,代码和演示。
- 9月,2023年: KOSMOS-2.5-一种用于文本密集型图像的机器读数的多模式识字模型。
- [模型发布] 5月,2023年: TextDiffuser模型和代码。
- [模型发布] 2023年3月: BEIT-3预处理的型号和代码。
- 2023年3月: KOSMOS-1-一种多模式的大语言模型(MLLM),可以感知一般方式,在上下文中学习(即,很少射击)并遵循说明(即,零照片)。
- 2023年1月: VALL-E用于语音综合文本(TTS)的语言建模方法,该方法实现了最先进的零照片TTS性能。请参阅https://aka.ms/valle有关我们作品的演示。
- [模型发布] 2023年1月: E5-通过弱监督对比预训练的文本嵌入。
- 2022年11月:释放了Torchscale 0.1.1 !
- 2022年11月:特罗克(Trocr)被AAAI 2023年接受。
- [模型发布] 2022年11月: XDOC基本模型,用于跨格式文档的理解。
- [模型发布] 2022年9月: Trocr基础和场景文本识别的大型模型(STR)。
- [模型发布] 2022年9月: BEIT V2代码和预验证的型号。
- 2022年8月: BEIT-3-通用多模式模型,在视觉和视力语言任务上都实现了最先进的转移性能
- 2022年7月: SIMLM-大规模自我监督的预训练以匹配相似性
- 2022年6月: DIT和LayoutlMV3被ACM Multimedia 2022接受。
- 2022年6月: Metalm-语言模型是基础模型的通用接口(语言/多语言,视觉,语音和多模式)
- 2022年6月: VL-BEIT-双向多模式变压器通过一项统一的预处理任务,一个共用的骨干和一个阶段训练从头开始学习,支持视觉和视觉语言任务。
- [模型发行] 2022年6月: Layoutlmv3中文- 中文版本的Layoutlmv3
- [代码发布] 2022年5月:激进的解码- SEQ2SEQ生成的无损速度
- 2022年4月:变压器的规模= deepnet + x-moe
- [模型发布] 2022年4月: Layoutlmv3-带有统一文本和图像掩蔽的文档AI的预培训
- [型号发布] 2022年3月: EdgeFormer -Device Seq2Seq生成的参数效率变压器
- [模型发布] 2022年3月: DIT-自我监督的文档图像变压器。演示:文档布局分析,文档图像分类
- 2022年1月: BEIT被ICLR 2022作为口头表现(3391分中的54)接受。
- [模型发布] 2021年12月16日:手写和印刷文本的Trocr小型型号,带有3倍的推理加速。
- 2021年11月24日: VLMO作为VQA挑战的新SOTA
- 2021年11月:大规模的多语言翻译:10000语言对及以后
- [模型发布] 2021年11月: Markuplm-文本和标记语言的预培训(例如HTML/XML)
- [模型发布] 2021年11月: VLMO-统一视力语言预训练与BEIT
- 2021年10月: Wavlm大型在精湛的基准上取得了最先进的表现
- [模型发布] 2021年10月: WAVLM-大规模自我监管的言语预训练模型。
- [模型发布] 2021年10月: Trocr在拥抱面上
- 2021年9月28日:T-ULRV5(又名XLM-E/Infoxlm)作为Xtreme排行榜上的SOTA。 // 博客
- [型号发布] 2021年9月: layoutlm持续的huggingface
- [模型发布] 2021年9月:带有预训练的Beit和Roberta模型的TROR-TROCR-基于变压器的OCR。
- 2021年8月: layoutlmv2和layoutxlm在huggingface上
- [模型发布] 2021年8月: Layoutreader-使用Layoutlm构建,以改善一般阅读订单检测。
- [模型发行] 2021年8月: Deltalm-语言生成和翻译的编码器训练预训练。
- 2021年8月: Beit在Huggingface上
- [模型发布] 2021年7月: Beit-迈向CV的BERT时刻
- [模型发布] 2021年6月: Layoutlmv2 , LayoutXLM , Minilmv2和Adalm 。
- 2021年5月:ACL 2021接受了Layoutlmv2,InfoxlMV2,Minilmv2,Unilmv3和Adalm。
- 2021年4月:LayoutXLM即将扩展到多语言支持中,即可到达。还引入了一种多语言形式,理解基准Xfund,其中包括具有7种语言(中文,日语,西班牙语,法语,意大利语,德语,葡萄牙语)的人类标记的钥匙值对的形式。
- 2021年3月:Infoxlm被NAACL 2021接受。
- 2020年12月29日:Layoutlmv2与新的SOTA一起执行了各种文档AI任务,包括DocvQA和Sroie Lefferboard。
- 2020年10月8日:T-ULRV2(又名Infoxlm)作为Xtreme排行榜上的SOTA。 // 博客
- 2020年9月:Minilm被2020年Neurips接受。
- 2020年7月16日: Infoxlm (多语言Unilm)ARXIV
- 2020年6月:unilmv2被ICML 2020接受; Layoutlm被KDD 2020接受。
- 2020年4月5日:发行的多语言微小!
- 2019年9月:UNILMV1被Neurips 2019接受。
执照
该项目是根据此源树的根目录中的许可证文件中发现的许可证的。源代码的部分基于变形金刚项目。
微软开源行为代码
联系信息
有关使用预训练模型的帮助或问题,请提交GitHub问题。
有关其他通信,请联系Furu Wei( [email protected] )。