ソッキー
Sockeyeはメンテナンスモードに入り、新機能を追加しなくなりました。私たちは、プルリクエスト、発行レポートなど、開発中にSockeyeに貢献したすべての人に感謝しています。
Sockeyeは、Pytorchに基づいて構築された神経機械翻訳のオープンソースシーケンスからシーケンスフレームワークです。分散トレーニングと最先端のモデルに対する最適化された推論を実装し、Amazon翻訳やその他のMTアプリケーションをパワーします。最近の開発と変更は、Changelogで追跡されています。
任意のサイズのデータに関する標準のNMTモデルをトレーニングするためのクイックスタートガイドについては、WMT 2014 English-Germanチュートリアルを参照してください。
質問や発行レポートについては、githubで問題を提出してください。
バージョン3.1.x:Pytorchのみ
バージョン3.1.xを使用すると、MXNET 2.xのサポートを削除します。 PytorchとSockeye 3.0.xでトレーニングされたモデルは、Sockeye 3.1.xと互換性があり続けます。 2.3.x(MXNETを使用)でトレーニングされ、Sockeye 3.0.xの変換ツールを使用してPytorchに変換されたモデルは、Sockeye 3.1.xでは使用できません。
バージョン3.0.0:同時PytorchとMxNetサポート
バージョン3.0.0から始めて、SockeyeはPytorchにも基づいています。 3.0.xでバージョン2.3.xのMXNETモデルとの後方互換性を維持します。 MXNET 2.xがインストールされている場合、SockeyeはPytorchまたはMXNetの両方で実行できます。
2.3.xでトレーニングされたすべてのモデル(MXNETを使用)は、コンバーターCLI( sockeye.mx_to_pt )を使用してPytorchで実行されるモデルに変換できます。これにより、pytorchパラメーターファイル( <model>/params.best )を作成し、既存のmxnetパラメーターファイルを<model>/params.best.mxにバックアップします。これは、推論に使用される完全に訓練されたモデルにのみ適用されることに注意してください。 Pytorchを使用したMXNETモデルの継続的なトレーニングはサポートされていません(トレーニングとオプティマイザーの状態を変換しないため)。 sockeye.mx_to_ptでは、mxnetを環境にインストールする必要があります。
バージョン3.0.0のすべてのCLIは、デフォルトでPytorchを使用するようになりました。たとえば、 sockeye-{train,translate,score}使用します。 MXNETベースのCLIS/モジュールはsockeye-{train,translate,score}-mxを介して動作可能であり、アクセス可能です。
Sockeye 3はMXNETなしでインストールして実行できますが、インストールされた場合、PytorchモデルとMXNETモデル間の同等性を確保するために拡張テストスイートが実行されます。 MXNETでSockeye 3.0.0を実行するには、MXNET 2.xをインストールする必要があることに注意してください( pip install --pre -f https://dist.mxnet.io/python 'mxnet>=2.0.0b2021' )
インストール
Sockeyeの現在のバージョンをダウンロードしてください:
git clone https://github.com/awslabs/sockeye.git
Sockeyeモジュールとその依存関係をインストールします。
cd sockeye && pip3 install --editable .
GPUトレーニングを速くするには、nvidia apexをインストールします。 Nvidiaは、頂点を含むPytorch Dockerコンテナも提供します。
ドキュメント
- Sockeyeの使用方法については、ドキュメントをご覧ください。
- 開発者は、開発者のガイドラインに興味がある場合があります。
古いバージョン
- Pytorch&Mxnet 2.xに基づくSockeye 3.0は、
sockeye_30ブランチで入手できます。 - MXNet Gluon APIに基づくSockeye 2.xは、
sockeye_2ブランチで入手できます。 - MXNETモジュールAPIに基づくSockeye 1.xは、
sockeye_1ブランチで入手できます。
引用
Sockeyeの詳細については、論文(Bibtex)を参照してください。
Sockeye 3.x
フェリックス・ヒーバー、マイケル・デンコフスキー、トビアス・ドンハン、バーバラ・ダーケス・バロス、セリーナ・ドン・イェ、Xing niu、cuong Hoang、Ke Tran、ベンジャミン・フス、マリア・ナデイデ、スラフェル・レイク、プラシャント・マトゥール、アンナ・カレー、マルチェロ・フェデリコ。 Sockeye 3:Pytorchを使用した高速ニューラルマシン翻訳。 arxive-prints。
Sockeye 2.x
Tobias Domhan、Michael Denkowski、David Vilar、Xing Niu、Felix Hieber、Kenneth Heaffield。 AMTA 2020のSockeye 2 Neural Machine Tlooskit。
フェリックス・ヒーバー、トビアス・ドンハン、マイケル・デンコウスキー、デビッド・ヴィラー。 Sockeye 2:神経機械翻訳のためのツールキット。欧州機械翻訳協会の第22回年次会議の議事録、プロジェクトトラック(EAMT'20)。
Sockeye 1.x
フェリックス・ヒーバー、トビアス・ドンハン、マイケル・デンコウスキー、デビッド・ヴィラー、アルテム・ソコロフ、アン・クリフトン、マット・ポスト。 AMTA 2018のSockeye Neural Machine Tralenkit。
フェリックス・ヒーバー、トビアス・ドンハン、マイケル・デンコウスキー、デビッド・ヴィラー、アルテム・ソコロフ、アン・クリフトン、マット・ポスト。 2017。Sockeye:神経機械翻訳のためのツールキット。 arxive-prints。
Sockeyeでの研究
Sockeyeは、学術研究と産業研究の両方に使用されています。 Sockeyeを使用する既知の出版物のリストを以下に示します。詳細を知っている場合は、プルリクエストをお知らせするか、提出してください(最終更新:2022年5月)。
2023
- Zhang、Xuan、Kevin Duh、Paul McNamee。 「神経機械翻訳研究のためのハイパーパラメーター最適化ツールキット」。 ACLの議事録(2023)。
2022
- Currey、Anna、Marian弁、Raghavendra Pappagari、Mia Mayer、Stanislas Lauly、Xing Niu、Benjamin Hsu、Georgiana Dinu。 「MT-Geneval:機械翻訳の性別の精度を評価するための反事実的でコンテキストデータセット」。 EMNLPの議事録(2022)。
- Domhan、Tobias、Eva Hasler、Ke Tran、Sony Trenous、Bill Byrne、Felix Hieber。 「悪魔は詳細にあります:神経機械翻訳における語彙選択の落とし穴について」。 NAACL-HLTの議事録(2022)
- フィッシャー、ルーカス、パトリシアシューラー、ラファエルシュウィッター、マーティンボルク。 「ラテンからドイツ語への16世紀の手紙の機械翻訳」。歴史的および古代言語のための言語技術に関するワークショップ(2022)。
- Knowles、Rebecca、Patrick Littell。 「低リソースの機械翻訳のベースラインとしての翻訳記憶」。 LRECの議事録(2022)
- McNamee、Paul、Kevin Duh。 「多言語のマイクロブログ翻訳コーパス:ユーザー生成テキストの翻訳の改善と評価」。 LRECの議事録(2022)
- Nadejde Maria、Anna Currey、Benjamin Hsu、Xing Niu、Marcello Federico、Georgiana Dinu。 「Cocoa-MT:形式への適用を備えた対照的な制御MTのデータセットとベンチマーク」。 NAACLの議事録(2022)。
- ウェラー・マルコ、マリオン、マティアス・ハック、アレクサンダー・フレイザー。 「神経機械翻訳におけるターゲット側の形態のモデリング:戦略の比較」。 arxiv preprint arxiv:2203.13550(2022)
2021
- Bergmanis、Toms、MārcisPinnis。 「ターゲット補題アノテーションによる用語翻訳の促進」。 arxiv preprint arxiv:2101.10035(2021)
- Briakou、Eleftheria、Marine Carpuat。 「騒音を超えて:細かいセマンティックの発散が神経機械の翻訳に与える影響を軽減します」。 arxiv preprint arxiv:2105.15087(2021)
- Hasler、Eva、Tobias Domhan、Sony Trenous、Ke Tran、Bill Byrne、Felix Hieber。 「ニューラルマシン翻訳のマルチドメイン適応の品質トレードオフの改善」。 EMNLPの議事録(2021)
- Tang、Gongbo、PhilippRönchen、Rico Sennrich、Joakim Nivre。 「神経機械の翻訳における否定の再訪」。協会の計算言語学9(2021)の取引
- Vu、Thuy、Alessandro Moschitti。 「Webからの自動トレーニングデータの選択による機械翻訳のカスタマイズ」。 arxiv preprint arxiv:2102.1024(2021)
- Xu、Weijia、Marine Carpuat。 「編集者:柔らかい語彙的制約を備えた神経機械翻訳の再配置を備えた編集ベースのトランス。」協会の計算言語学9(2021)の取引
- ミュラー、マティアス、リコ・センリッヒ。 「神経機械翻訳における最小ベイズのリスクデコードの特性を理解する」。第59回計算言語学会協会の年次総会と第11回自然言語加工に関する国際合同会議(第1巻:長い論文)(2021)
- ポポビッチ、マジャ、アルベルト・ポンセラス。 「ユーザーレビューの機械翻訳について。」 RANLPの議事録(2021)
- ポポビッチ、マジャ。 「観察されたMTエラーの性質と原因について。」第18回MTサミットの議事録(第1巻:研究トラック)(2021)
- ジャイン、ニシュタ、マジャポポビッチ、デクラングローブス、エヴァヴァンマッセンホーブ。 「NLPの性別増強データを生成します。」自然言語処理における性別バイアスに関する第3回ワークショップの議事録(2021)
- Vilar、David、Marcello Federico。 「バイトペアエンコーディングの統計的拡張。」 IWSLTの議事録(2021)
2020
- ディヌ、ジョージアナ、プラシャント・マトゥール、マルチェロ・フェデリコ、スタニスラス・ラーリー、ヤセル・アル・オナイザン。 「エンドツーエンドのローカリゼーションのための共同翻訳とユニット変換。」 IWSLTの議事録(2020)
- Exel、Miriam、Bianka Buschbeck、Lauritz Brandt、Simona Doneva。 「SAPでの用語に制約のあるニューラル機械翻訳」。 EAMTの議事録(2020)。
- ヒサモト、ソラミ、マット・ポスト、ケビン・デュ。 「シーケンスからシーケンスモデルへのメンバーシップ推論攻撃:私のデータはあなたの機械翻訳システムにありますか?」計算言語学会協会のトランザクション、第8巻(2020)
- Naradowsky、Jason、Xuan Zhan、Kevin Duh。 「Banditフィードバックからの機械翻訳システムの選択。」 arxiv preprint arxiv:2002.09646(2020)
- Niu、Xing、Prashant Mathur、Georgiana Dinu、Yaser al-Onaizan。 「神経機械翻訳のために摂動を入力するための堅牢性を評価する」。 arxiv preprint arxiv:2005.00580(2020)
- Niu、Xing、Marine Carpuat。 「合成監督で神経機械翻訳の形式を制御します。」 AAAIの議事録(2020)
- Keung、Phillip、Julian Salazar、Yichao Liu、Noah A. Smith。 「自己訓練を受けた文脈埋め込みによる監視なしのbitextマイニングと翻訳。」 Arxiv Preprint arxiv:2010.07761(2020)。
- ソコロフ、アレックス、トレーシー・ローリン、アリヤ・ラストロウ。 「多言語のグラフェムから音量間変換のためのニューラル機械翻訳」。 arxiv preprint arxiv:2006.14194(2020)
- Stafanovičs、Artūrs、Toms Bergmanis、MārcisPinnis。 「ターゲットの性別への注釈を備えた機械翻訳における性別バイアスを緩和します。」 arxiv preprint arxiv:2010.06203(2020)
- Stojanovski、Dario、Alexander Fraser。 「神経機械翻訳のドキュメントレベルのコンテキストを使用して、ゼロリソースドメインに対処します。」 arxiv preprint arxiv preprint arxiv:2004.14927(2020)
- Stojanovski、Dario、Benno Krojer、Denis Peskov、Alexander Fraser。 「矛盾:機械翻訳のためのコントラストコアレファレンス分析テンプレート」。コリングの議事録(2020)
- Zhang、Xuan、Kevin Duh。 「神経機械翻訳システムのハイパーパラメーター最適化のための再現性と効率的なベンチマーク。」計算言語学会協会のトランザクション、第8巻(2020)
- Swe Zin Moe、Ye Kyaw Thu、Hnin Aye Thant、Nandar Win Min、およびThePchai Supnithi、「ミャンマーの手話とミャンマー言語の間の監視されていない神経機械翻訳」、インテリジェント情報学とスマートテクノロジーのジャーナル、4月1日号、2020年、pp。53-61。 (2019年12月21日提出; 2020年3月6日受け入れ、2020年3月16日改訂、2020年4月30日にオンラインで公開)
- Thazin Myint Oo、Ye Kyaw Thu、Khin Mar Soe、Thepchai Supnithi、「ミャンマー(ビルマ)とドウェイ(タボヤン)の間の神経機械翻訳」、第18回国際コンピューターアプリケーション会議(ICCA 2020)、2月27-28、2020、マイアンマー、マイアンマー、219-19-19-227
- ミュラー、マティアス、アネット・リオス、リコ・センリッヒ。 「神経機械翻訳におけるドメインの堅牢性。」 AMTAの議事録(2020)
- リオス、アネット、マティアス・ミュラー、リコ・センリッヒ。 「サブワードセグメンテーションと単一のブリッジ言語は、ゼロショットニューラルマシンの翻訳に影響します。」第5 WMTの議事録:研究論文(2020)
- ポポビッチ、マジャ、アルベルト・ポンセラス。 「同様の南スラヴィック言語間のニューラル機械翻訳」。第5 WMTの議事録:研究論文(2020)
- ポポビッチ、マジャ、アルベルト・ポンセラス。 「文字n-Gramマッチングを使用して、汚れた並列データから正しく整列したセグメントを抽出します。」言語技術とデジタル人文科学会議の議事録(JTDH 2020)。
- ポポビッチ、マジャ、アルベルト・ポンセラス、マリヤ・ブルキッチ、アンディ・ウェイ。 「クロアチア語とセルビア語に翻訳するためのニューラル機械翻訳」同様の言語、品種、方言のためのNLPに関する第7回ワークショップの議事録(2020)
2019年
- アグラワル、スウェタ、マリン・コープアット。 「神経機械の翻訳におけるテキストの複雑さの制御。」 EMNLPの議事録(2019)
- ベック、ダニエル、トレヴァー・コーン、ゴラムレザ・ハファリ。 「格子変換とグラフネットワークを使用したニューラル音声翻訳。」 TextGraphs-13の議事録(EMNLP 2019)
- カレー、アンナ、ケネスヒーフィールド。 「単一言語のピボットデータを使用したゼロリソースニューラルマシン翻訳」。 EMNLPの議事録(2019)
- グプタ、プラバカール、マヤンク・シャルマ。 「デジタルエンターテイメントコンテンツ字幕の監視されていない翻訳の品質推定。」 IEEE International Journal of Semantic Computing(2019)
- Hu、J。Edward、Huda Khayrallah、Ryan Culkin、Patrick Xia、Tongfei Chen、Matt Post、およびBenjamin Van Durme。 「翻訳と単一言語の書き換えのための字句的に制約されたデコードの改善。」 NAACL-HLTの議事録(2019)
- ローゼンダール、ヤン、クリスチャン・ヘロルド、ユンス・キム、ミゲル・グラサ、ウェイユ・ワン、パーニア・バハル、インボ・ガオ、ヘルマン・ニー「WMT 2019のRWTH AACHEN大学機械翻訳システム」4番目のWMT:研究論文(2019)の議事録
- トンプソン、ブライアン、ジェレミー・グウィンナップ、フーダ・カイラッラ、ケビン・デュ、フィリップ・ケーン。 「神経機械翻訳のドメイン適応中に壊滅的な忘却を克服します。」 NAACL-HLT 2019の議事録(2019)
- Tättar、Andre、Elizaveta Korotkova、Mark Fishel「Tartu Universityの多言語マルチドメインWMT19ニュース翻訳共有タスクの提出」
- Thazin Myint Oo、Ye Kyaw Thu、Khin Mar Soe、「ミャンマー(ビルマ)とラカイン(アラカネーゼ)の間のニューラルマシン翻訳」、同様の言語、品種、方言、NAACL-2019、2019年6月7日、ミンナポリス、米国PP。
2018年
- ドンハン、トビアス。 「どのくらいの注意が必要ですか?神経機械翻訳アーキテクチャの細かい分析」。第56 ACLの議事録(2018)
- キム、ユンス、Yingbo Gao、Hermann Ney。 「共有された語彙のない神経機械翻訳モデルの効果的な横断的移動。」 arxiv preprint arxiv:1905.05475(2019)
- Korotkova、Elizaveta、Maksym del、およびMark Fishel。 「モノリンガルと横断的なゼロショットスタイルの転送」。 arxiv preprint arxiv:1808.00179(2018)
- Niu、Xing、Michael Denkowski、Marine Carpuat。 「合成並列データを使用した双方向ニューラル機械翻訳」。 arxiv preprint arxiv:1805.11213(2018)
- Niu、Xing、Sudha Rao、およびMarine Carpuat。 「言語内および言語全体のスタイル間で翻訳するためのマルチタスクニューラルモデル。」コリング(2018)
- 投稿、マットとデビッド・ビラール。 「神経機械翻訳のための動的ビーム割り当てによる高速で制約されたデコード。」 NAACL-HLTの議事録(2018)
- シャンパー、ジュリアン、ヤン・ローゼンダール、パーニア・バハル、ユンス・キム、アルネ・ニックス、ヘルマン・ニー。 「RWTH Aachen大学は、WMT 2018の機械翻訳システムを監督しました。」第3 WMTの議事録:共有タスクペーパー(2018)
- Schulz、Philip、Wilker Aziz、およびTrevor Cohn。 「神経機械翻訳の確率的デコーダー。」 arxiv preprint arxiv:1805.10844(2018)
- Tamer、Alkouli、Gabriel Bretschner、Hermann Ney。 「マルチヘッド注意ベースのニューラル機械翻訳のアライメント問題について。」第3 WMTの議事録:研究論文(2018)
- Tang、Gongbo、Rico Sennrich、Joakim Nivre。 「注意メカニズムの分析:神経機械翻訳における単語感覚の曖昧性の症状。」第3 WMTの議事録:研究論文(2018)
- トンプソン、ブライアン、フーダ・カイララ、アントニオス・アナスタソプロス、アリヤ・マッカーシー、ケビン・デュ、レベッカ・マーヴィン、ポール・マクナミー、ジェレミー・グウィンナップ、ティム・アンダーソン、フィリップ・ケーン。 「凍結サブネットワークは、神経機械翻訳におけるドメイン適応を分析します。」 arxiv preprint arxiv:1809.05218(2018)
- ビラール、デビッド。 「神経機械翻訳モデルの適応のための隠されたユニットの貢献を学ぶ。」 NAACL-HLTの議事録(2018)
- Vyas、Yogarshi、Xing Niu、およびMarine Carpuat「注釈なしの並行テキストでの意味的発散を識別する」。 NAACL-HLTの議事録(2018)
- Wang、Weiyue、Derui Zhu、Tamer Alkhouli、Zixuan Gan、Hermann Ney。 「機械翻訳のためのニューラル隠されたマルコフモデル」。第56 ACLの議事録(2018)
- Zhang、Xuan、Gaurav Kumar、Huda Khayrallah、Kenton Murray、Jeremy Gwinnup、Marianna J Martindale、Paul McNamee、Kevin Duh、およびMarine Carpuat。 「神経機械の翻訳のためのカリキュラム学習の経験的調査。」 arxiv preprint arxiv:1811.00739(2018)
- Swe Zin Moe、Ye Kyaw Thu、Hnin Aye Thant、Nandarが勝つ、「ミャンマー手話とミャンマーの書面によるテキストの間のニューラルマシン翻訳」、ASEAN言語2018の光学特性認識と自然言語加工技術に関する第2地域会議(ONA 2018)、2018年12月13〜14日、PHNOM PENH、Cambodia。
- Tang、Gongbo、MathiasMüller、Annette Rios、Rico Sennrich。 「なぜ自己関節?神経機械翻訳アーキテクチャのターゲット評価。」 EMNLPの議事録(2018)
2017年
- ドンハン、トビアス、フェリックスヒーバー。 「マルチタスク学習を通じて、神経機械の翻訳にターゲット側の単一言語データを使用します。」 EMNLPの議事録(2017)。