
[rubyml | RubyDataScience | RubyInterop]

Ruby中文本處理的有用資源
該策劃的列表包括具有Ruby編程語言的人類語言中文本的計算處理,包括很棒的資源,庫,信息源。該領域通常稱為NLP,計算語言學,HLT(人類語言技術),可以與人工智能,機器學習,信息檢索,文本挖掘,知識提取和其他相關學科結合使用。
該列表來自我們在語言模型和NLP工具上的日常工作。閱讀為什麼此列表很棒。我們的常見問題解答描述了您可能感興趣的重要決定和有用的答案。
歡迎每一個貢獻!通過拉動請求添加鏈接或創建問題以開始討論。
在Twitter上關注我們,請使用#RubyNLP hash標籤傳播單詞!
請幫助我們填寫本節! ?
NLP管道從純文本開始。
語言識別是每個NLP管道中的第一個關鍵步驟之一。
象徵化,單詞和句子邊界檢測和歧義的工具。
Stemming是信息檢索中用於描述將單詞形式減少到某些基本表示的過程的術語。由於stems不一定具有語言動機,因此應將莖與誘餌區分開。
誘餌被認為是找到單詞的基本形式的過程。引理通常是在詞典中收集的。
String和Hash對象的單詞計數器。機器學習算法中的純露比(Ruby)或用其他編程語言編寫,並具有適當的ruby綁定。
有關更多最新列表,請查看帶有Ruby List的Awesome ML。
請參閱帶有Ruby列表的數據科學的數據可視化部分。
語言意識到字符串操縱的庫,即搜索,模式匹配,案例轉換,轉碼,正則表達式,需要有關基礎語言的信息。
ActiveSupport GEM具有各種可以處理外殼的字符串擴展。本節中的所有項目對社區都非常重要,但需要更多的關注。如果您有業餘時間,並且奉獻精神在這里花費幾個小時。
Awesome NLP with Ruby和Ruby和貢獻者。
根據法律的可能, Awesome NLP with Ruby相關聯的人放棄了與Ruby的所有版權以及Awesome NLP with Ruby相關或鄰近的鄰近權利。
您應該已經收到了CC0 LegalCode的副本以及這項工作。如果沒有,請參見https://creativecommons.org/publicdomain/zero/zero/1.0/。