
このドキュメントの目的は、ベトナムの自然言語処理の進捗を追跡し、最も一般的なNLPタスクとそれらの対応するデータセット全体で最先端(SOTA)の概要を説明することを目的としています。
これは、依存関係の解析やスピーチの一部のタグ付け、および読解力や自然言語の推論などの最近のタグ付けなどの従来のNLPタスクとコアNLPの両方のタスクをカバーすることを目的としています。主な目的は、 benchmark datasetsの簡単な概要と、さらなる研究のための足がかりとして機能する関心のあるstate-of-the-artを読者に提供することです。この目的のために、 public leaderboardなど、タスクの結果がすでに公開され、定期的に維持されている場所がある場合、読者はそこに指摘されます。
文の境界除去 /言語検出 /テキストの正規化 /スペルの修正
単語のセグメンテーション /スピーチの一部のタグ付け /チャンキング /解析
テキスト分類 /センチメント分析 /単語埋め込み
名前付きエンティティ認識 /関係抽出 /イベント抽出 /情報抽出 /キーワード抽出
コアレファレンス解像度 /スロット充填 /エンティティリンク
セマンティクス /セマンティックロールラベル付け /言い換え識別 /自然言語の推論
機械翻訳 /自動要約
知識の表現と推論
ダイアログシステムとチャットボット /言語生成 /質問応答
自動音声認識 /テキストから音声 /音声分類 /音声
光学テキスト認識 /画像キャプション
リソース新しい結果を追加したい場合は、プルリクエスト(PR)でそれを行うことができます。騒音を最小限に抑え、メンテナンスをやや管理しやすくするために、公開された論文で報告された結果が好まれます(PRでの出版地を示します)。影響力のあるプリプリントについては、例外が作成される場合があります。結果には、メソッドの名前、引用、スコア、および論文へのリンクを含める必要があり、テーブルがソートされるように追加する必要があります(上に最良の結果が得られます)。
プルリクエストに新しい結果が含まれている場合は、「新しい結果」がPRのタイトルのどこかに表示されることを確認してください。これにより、どのタスクが最もアクティブであり、最も注目を集めるかを追跡できます。
複製を簡単にするために、利用可能な場合は各メソッドへの実装へのリンクを追加することをお勧めします。存在しない場合は、テーブルにCode列(以下を参照)を追加できます。 Code列で、公式の公式実装を示します。非公式の実装が利用可能な場合は、リンクを使用してください(以下を参照)。実装がない場合は、セルを空のままにすることができます。
| モデル | スコア | 紙/ソース | コード |
|---|---|---|---|
| 正式 | |||
| リンク |
新しいデータセットまたはタスクを追加するには、以下の手順に従ってください。データセットを導入したもの以外に、少なくとも1つの公開された論文で評価に新しいデータセットを使用する必要があります。
| モデル | スコア | 紙/ソース | コード |
|---|---|---|---|