NLPは簡単になりました
NLPビルディングブロックを説明するためのシンプルなコードノート
- サブワードセグメンテーション手法
- さまざまなトークンザー、すなわち、NLTK、BPE、OentePiece、およびBert Tokenizerを比較しましょう。
- ビームデコード
- SEQ2SEQタスクには、ビームデコードが不可欠です。しかし、実装することは複雑であることで有名です。これが比較的簡単な候補者です。
- RNNの最後の隠しベクトルを適切に取得する方法
- TensorflowとPytorchでRNNの最後の隠された状態を取得する方法を確認します。
- G2Pタスクに基づくTensorflow seq2seqテンプレート
- Tensorflowを使用して、Seq2Seqのシンプルなテンプレートを書きます。デモンストレーションのために、G2Pタスクを攻撃します。 G2Pは、グラフメム(スペル)を音素(発音)に変換するタスクです。この目的のための非常に良い情報源です。あなたが立ち上がって走るのに十分なほどシンプルだからです。
- G2Pタスクに基づいたPytorch Seq2Seqテンプレート
- Pytorchを使用して、Seq2Seqのシンプルなテンプレートを書きます。デモンストレーションのために、G2Pタスクを攻撃します。 G2Pは、グラフメム(スペル)を音素(発音)に変換するタスクです。この目的のための非常に良い情報源です。あなたが立ち上がって走るのに十分なほどシンプルだからです。
- [注意メカニズム](進行中の作業)
- Bert Fine-Tuningでのポーズタグ
- Bertは、名前付きエンティティ認識のようなシーケンスタグ付けタスクが得意であることが知られています。ポーズタグに当てはまるかどうかを見てみましょう。
- 一分でドロップアウト
- ドロップアウトは、間違いなく深い学習で最も人気のある正則化手法です。それがどのように機能するかをもう一度確認しましょう。
- ngram lm vs. rnnlm(wip)
- Quora質問ペアのデータ増強
- Quoraの質問ペアのタスクでトレーニングデータを増強することが効果的かどうかを見てみましょう。