AKA.MS/GENERALAI
雇用
私たちはあらゆるレベルで雇用しています(FTE研究者やインターンを含む)!基礎モデル(別名大規模な事前訓練モデル)および一般的なAI、NLP、MT、スピーチ、ドキュメントAIおよびマルチモーダルAIで私たちと一緒に協力することに興味がある場合は、履歴書を[email protected]に送ってください。
財団アーキテクチャ
トーチスケール - 財団アーキテクチャのライブラリ(レポ)
基礎モデルとAIの新しいアーキテクチャを開発するための基本的な研究、一般性と能力のモデリング、およびトレーニングの安定性と効率性に焦点を当てています。
安定性 -ディープネット:変圧器を1,000層以上にスケーリングする
一般性 -ファンデーショントランス(マグネトー) :タスクとモダリティ全体の真の汎用モデリング(言語、ビジョン、音声、マルチモーダルを含む)に向けて
能力 -長さ抽出可能な変圧器
効率と転送可能性-X-Moe :スケーラブル&Finetunableスパース混合物の混合物(MOE)
モデルアーキテクチャの革命
ビットネット:大規模な言語モデル用の1ビット変圧器
RetNet :Retrentive Network:大規模な言語モデルのためのトランスの後継者
Longnet :トランスを1,000,000,000トークンにスケーリングします
基礎モデル
(M)LLM(マルチモーダルLLM)の進化
KOSMOS-2.5 :マルチモーダルリテラシーモデル
KOSMOS-2 :マルチモーダルの大手言語モデルを世界に接地する
KOSMOS-1 :マルチモーダルの大手言語モデル(MLLM)
Metalm :言語モデルは汎用インターフェイスです
ビッグコンバージェンス- tasks (予測と生成的)、 languages (100+言語)、およびmodalities (言語、画像、レイアウト/フォーマット +言語、ビジョン +言語、オーディオ +言語など)を越えた大規模な自己監視前トレーニング前トレーニング
言語と多言語
Unilm :言語の理解と生成のための統一事前トレーニング
InfoxLM/XLM-E :100以上の言語の多言語/横断前訓練モデル
Deltalm/MT6 :100以上の言語の言語生成と翻訳用のエンコーダーデコーダー事前トレーニング
ミニルム:言語の理解と生成のための小規模かつ高速の事前訓練モデル
Adalm :事前に訓練されたモデルのドメイン、言語、およびタスクの適応
edgelm ( NEW ):エッジ/クライアントデバイスの小さな訓練を受けたモデル
SIMLM ( NEW ):類似性マッチングのための大規模な事前トレーニング
E5 ( NEW ):テキスト埋め込み
ミニルム( NEW ):大きな言語モデルの知識蒸留
ビジョン
beit / beit-2 :ビジョンのための生成的自己監視前トレーニング /画像変圧器のバートの事前トレーニング
DIT :ドキュメント画像変圧器用の自己監視前トレーニング
textdiffuser / textdiffuser-2 ( NEW ):テキスト画家としての拡散モデル
スピーチ
WAVLM :フルスタックタスクのスピーチ事前トレーニング
Vall-E :TTSのニューラルコーデック言語モデル
マルチモーダル(x +言語)
layoutlm / layoutlmv2 / layoutlmv3 :Multimodal(Text + Layout / Format + Image)ドキュメントAIの基礎モデル(スキャンドキュメント、PDFなど)
layoutxlm :マルチモーダル(テキスト +レイアウト/フォーマット +画像)ドキュメントファンデーションモデル多言語ドキュメントAI
Markuplm :視覚的に豊富なドキュメント理解のためのマークアップ言語モデル事前トレーニング
XDOC :クロスフォーマットドキュメントの理解のための統一された事前トレーニング
Unispeech :ASRの自己学習学習と監督された学習のための統一事前トレーニング
Unispeech-Sat :スピーカーを認識した事前トレーニングによる普遍的な音声表現学習
SpeechT5 :音声言語処理のためのエンコーダーデコーダープリトレーニング
SpeechLM :不対のテキストデータを使用したスピーチを強化しました
VLMO :統一されたビジョン言語の事前トレーニング
VL-beit ( NEW ):Generative Vision-Language Pre-Training- beitのマルチモーダルへの進化
BEIT-3 ( NEW ):汎用マルチモーダルファンデーションモデル、およびタスク、言語、およびモダリティを横切る大規模なトレーニングの大きな収束の主要なマイルストーン。
ツールキット
S2S-FT :シーケンスからシーケンス微調整ツールキット
アグレッシブデコード( NEW ):ロスレスで効率的なシーケンスからシーケンスデコードアルゴリズム
アプリケーション
TROCR :トランスベースのOCR w/事前に訓練されたモデル
LayouTreader :注文検出を読むためのテキストとレイアウトの事前トレーニング
XLM-T :事前に処理された横断的エンコーダー付き多言語NMT
リンク
llmops(repo)
AI機能を有効にするための一般的な技術とMLLMS。
レッドストーン(レポ)
大規模な言語モデルの一般、コード、数学、およびQAデータをキュレーションします。
ニュース
- 2024年12月:レッドストーンがリリースされました!
- 2023年12月:ロングネットとロングビットがリリースされました
- [モデルリリース] 2023年12月: textdiffuser-2モデル、コード、デモ。
- 2023年9月: KOSMOS-2.5-テキスト集約型画像を読むためのマルチモーダルリテラシーモデル。
- [モデルリリース] 2023年5月: TextDiffuserモデルとコード。
- [モデルリリース] 2023年3月: BEIT-3事前に抑制されたモデルとコード。
- 2023年3月: KOSMOS-1-一般的なモダリティを知覚し、コンテキストで学習する(つまり、少数のショット)、および指示(つまり、ゼロショット)に従うことができるマルチモーダル大手言語モデル(MLLM)。
- 2023年1月: Vall-Eは、最先端のゼロショットTTSパフォーマンスを実現するテキストから音声合成(TTS)の言語モデリングアプローチです。私たちの作品のデモについては、https://aka.ms/valleを参照してください。
- [モデルのリリース] 2023年1月: E5-監視された弱体化した対照的なトレーニングによるテキスト埋め込み。
- 2022年11月: Torchscale 0.1.1がリリースされました!
- 2022年11月: TROCRはAAAI 2023に受け入れられました。
- [モデルリリース] 2022年11月:クロスフォーマットドキュメントの理解のためのXDOCベースモデル。
- [モデルリリース] 2022年9月:シーンテキスト認識(STR)のTROCRベースと大規模モデル。
- [モデルリリース] 2022年9月: BEIT V2コードと前提型モデル。
- 2022年8月: BEIT-3-ビジョンとビジョン言語の両方のタスクで最先端の転送パフォーマンスを達成する汎用マルチモーダルファンデーションモデル
- 2022年7月: SIMLM-類似性マッチングのための大規模な自己監視前トレーニング
- 2022年6月: DITおよびlayoutlMv3はACMマルチメディア2022によって受け入れられました。
- 2022年6月: Metalm-言語モデルは、基礎モデル(言語/多言語、ビジョン、音声、マルチモーダルへの汎用インターフェイスです)
- 2022年6月: VL-beit-統一された事前トレーニングタスク、1つの共有バックボーン、および1段階のトレーニングでゼロから学習し、ビジョンとビジョン言語の両方のタスクをサポートします。
- [モデルリリース] 2022年6月: layoutlmv3中国語- layoutlmv3の中国語版
- [コードリリース] 2022年5月:積極的なデコード- seq2seq生成のためのロスレススピードアップ
- 2022年4月:スケールの変圧器= deepnet + x-moe
- [モデルリリース] 2022年4月: layoutlmv3-統一されたテキストと画像マスキングを備えたドキュメントAIの事前トレーニング
- [モデルリリース] 2022年3月: EdgeFormer -Device On-Device seq2seq生成のためのパラメーター効率の高い変圧器
- [モデルリリース] 2022年3月: DIT-自己監視ドキュメント画像トランス。デモ:ドキュメントレイアウト分析、ドキュメント画像分類
- 2022年1月: BEITはICLR 2022に口頭発表として受け入れられました(3391のうち54)。
- [モデルリリース] 2021年12月16日:3倍の推論スピードアップを備えた手書きおよび印刷されたテキスト用のTROCRスモールモデル。
- 2021年11月24日:VQAチャレンジの新しいソタとしてのVLMO
- 2021年11月:大規模な多言語翻訳:10000言語のペアなど
- [モデルリリース] 2021年11月: Markuplm-テキストおよびマークアップ言語のトレーニング前(HTML/XMLなど)
- [モデルリリース] 2021年11月: VLMO-統一されたビジョン言語事前トレーニングW/ BEIT
- 2021年10月: Wavlm Largeは、素晴らしいベンチマークで最先端のパフォーマンスを達成します
- [モデルリリース] 2021年10月: WAVLM-スピーチのための大規模な自己監督の事前訓練モデル。
- [モデルのリリース] 2021年10月: TROCRはハギングフェイスにあります
- 2021年9月28日:XTREMEリーダーボードのSOTAとしてのT-ULRV5(別名XLM-E/InfoxLM)。 //ブログ
- [モデルリリース] 2021年9月: layoutlm-casedはハギングフェイスにあります
- [モデルリリース] 2021年9月: TROCR-トランスベースのOCR w/事前に訓練されたBeitおよびRobertaモデル。
- 2021年8月: layoutlmv2とlayoutxlmがHuggingfaceにあります
- [モデルリリース] 2021年8月: LayouTreader -Layoutlmで構築されて、一般的な読み取り順序検出を改善します。
- [モデルリリース] 2021年8月: Deltalm -Encoder-Decoder言語生成と翻訳のための事前トレーニング。
- 2021年8月: BeitはHuggingfaceにあります
- [モデルリリース] 2021年7月: Beit- CVのBert Momentに向けて
- [モデルリリース] 2021年6月: layoutlmv2 、 layoutxlm 、 minilmv2 、およびadalm 。
- 2021年5月:layoutlmv2、infoxlmv2、minilmv2、unilmv3、およびadalmは、ACL 2021によって受け入れられました。
- 2021年4月:layoutxlmは、layoutlmを多言語サポートに拡張することで来ています! Xfundの多言語の理解ベンチマークXfundも導入されています。これには、7つの言語(中国語、日本語、スペイン語、フランス語、イタリア語、ドイツ語、ポルトガル語)で人間のラベル付けされたキー価値ペアを含むフォームが含まれています。
- 2021年3月:InfoxlmはNAACL 2021によって受け入れられました。
- 2020年12月29日:Layoutlmv2は、DOCVQAやSROIEリーダーボードなど、さまざまなドキュメントAIタスクに新しいSOTAを搭載しています。
- 2020年10月8日:XtremeリーダーボードのSOTAとしてのT-Ulrv2(別名Infoxlm)。 //ブログ
- 2020年9月:ミニルムはニューリップス2020に受け入れられました。
- 2020年7月16日: infoxlm (多言語Unilm)arxiv
- 2020年6月:Unilmv2はICML 2020によって受け入れられました。 layoutlmはKDD 2020によって受け入れられました。
- 2020年4月5日:多言語ミニルムがリリースされました!
- 2019年9月:Unilmv1はNeurips 2019に受け入れられました。
ライセンス
このプロジェクトは、このソースツリーのルートディレクトリのライセンスファイルにあるライセンスに基づいてライセンスされています。ソースコードの一部は、トランスフォーマープロジェクトに基づいています。
Microsoftオープンソース行動規範
連絡先
事前に訓練されたモデルを使用したヘルプまたは問題については、GitHubの問題を提出してください。
他の通信については、Furu Wei( [email protected] )にお問い合わせください。