NLP Knowledge Graph
1.0.0
有需要為該開源項目貢獻的小伙伴可以聯繫我喲。
探索認知智能係列---趨勢:1. 數據融合知識;2. All in LLM。 包括知識獲取、知識庫構建、基於知識庫的問答系統系列技術研究與應用。涉及到NLP領域的前沿技術和論文。
NLP-Progress
Repository to track the progress in Natural Language Processing (NLP), including the datasets and the current state-of-the-art for the most common NLP tasks.
paperswithcode
提供了論文和代碼。
技術在線
個人日常技術和閒聊網站。
| 序號 | 文章 |
|---|---|
| 1 | 為什麼要將「知識圖譜」追溯到1956 年? |
| 編號 | 名稱 | 等級 | 類型 | 領域 |
|---|---|---|---|---|
| 1 | ACL | A類 | 學術會議 | 人工智慧 |
| 2 | CVPR | A類 | 學術會議 | 人工智慧 |
| 3 | ICML | A類 | 學術會議 | 人工智慧 |
| 4 | IJCAI | A類 | 學術會議 | 人工智慧 |
| 5 | EMNLP | B類 | 學術會議 | 人工智慧 |
| 6 | CIKM | B類 | 學術會議 | 數據庫/數據挖掘/內容檢索 |
| 7 | AAAI | A類 | 學術會議 | 人工智慧 |
| 8 | SIGKDD | A類 | 學術會議 | 數據庫/數據挖掘/內容檢索 |
| 9 | TKDE | A類 | 學術期刊 | (數據庫/數據挖掘/內容檢索) |
| 10 | SIGIR | A類 | 學術會議 | 數據庫/數據挖掘/內容檢索 |
| 編號 | 名稱 | 地址 |
|---|---|---|
| 1 | questionAnsweringsystem | QuestionAnsweringSystem是一個Java實現的人機問答系統,能夠自動分析問題並給出候選答案。 |
| 2 | QABasedOnMedicaKnowledgeGraph | 從無到有搭建一個以疾病為中心的一定規模醫藥領域知識圖譜,並以該知識圖譜完成自動問答與分析服務。 python |
| 3 | DeepPavlov | An open source library for deep learning end-to-end dialog systems and chatbots. python |
| 編號 | 名稱 |
|---|---|
| 1 | 騰訊文智中文語義平台 |
| 2 | 科大訊飛開放語義平台 |
| 3 | 玻森中文語義開放平台 |
| 4 | 哈工大語言雲 |
| 編號 | 名稱 | 主要功能 |
|---|---|---|
| 1 | THULAC | 中文詞法分析工具,支持C++/JAVA/Python by清華 |
| 2 | LTP | 語言技術平台pylyp LTP的Python封裝by 哈工大 |
| 3 | HanLP | 支持Java |
| 4 | 結巴分詞 | 中文分詞(僅支持分詞),Java、python、C++ |
| 5 | jiagu | 提供中文分詞、詞性標註、命名實體識別、關鍵詞抽取、文本摘要、新詞發現等常用自然語言處理功能。 Python |
| 6 | fudanNLP | 中文分詞(分詞、詞性標註、命名實體識別), 支持Java |
| 7 | deepdive | 斯坦福大學的開源知識抽取工具(三元組抽取), 支持python |
| 8 | FudanDNN-NLP3.0 | 用於中文分詞、命名識別、詞性標註、句子分類、語義分析、知識庫訪問、對話問答,支持Java----復旦大學計算機學院機器人研究實驗室所開發的基於深度學習的中文自然語言處理工具 |
| 9 | Stanford CoreNLP | 可進行多語言的詞性標註器、命名實體的識別器、解析器(句子與語法結構)、指代消解器(就是在篇章中確定代詞指向哪個名詞短語的問題)、情感分析器、 引導模式學習器、開放信息提取器, Java/Python----- Stanford CoreNLP是斯坦福大學的自然語言處理工具包,工具包需要java的支持 |
| 編號 | 名稱 | 主要功能 |
|---|---|---|
| 1 | Neo4j | 開源圖形數據庫,由Java開發。 |
| 2 | OrientDB | 開源的noSQL數據庫,可處理文檔、圖形、傳統數據庫組件。由Java編寫,存儲速度快。 |
| 3 | Virtuoso | 支持RDF與SPARQL查詢。 |
| 4 | Titan | 可與Gremlin/Hbase進行集成,可實現分佈式存儲和計算的圖數據處理。 |
| 5 | Apache Jena-IDB | 在JAVA下操作RDF。其中TDB是使用triple store的形式對RDF數據提供持久性存儲(persistent store),TDB相比RDB、SDB更快且具有擴展性。 |
| 6 | Cypher | 聲明式圖查詢語言,表達高效查詢和更新圖數據庫。 |
| 7 | Gremlin | 一種函數式數據流語言,可以使得用戶使用簡潔的方式表述複雜的屬性圖(property graph)的遍歷或查詢。 |
| 8 | SPARQL | 為RDF開發的一種查詢語言和數據獲取協議。 |
| 9 | rdflib | 基於Python語言編寫的,RDF / XML,N3,NTriples,N-Quads,Turtle,TriX,RDFa和Microdata的解析器和序列化器,支持SPARQL 1.1查詢和更新語句。 |
| 編號 | 名稱 | 主要功能 |
|---|---|---|
| 1 | ECharts | 百度開源工具,API封裝完善,簡單好用,易上手,但不支持事件處理。 |
| 2 | Cytoscape.js | 針對圖形和網絡,事件交互性的支持不錯,同樣易上手。 |
| 3 | D3.js | 使用門檻較高,但支持事件處理器,D3的開銷極小,支持大型數據集和交互動畫的動態行為,支持圖形豐富。 |
| 編號 | 名稱 | 應用任務 |
|---|---|---|
| 1 | OpenKG | 開放知識圖譜 |
| 2 | CN-Probase | 大規模中文概念圖譜 |
| 3 | SentiBridge | 中文實體情感知識庫,刻畫人們如何描述某個實體,包含新聞、旅遊、餐飲,共計30萬對 |
| 4 | 音樂知識圖譜 | 中文音樂知識圖譜,歌手、歌曲等信息 |
| 5 | 人物類RDF知識 | 採集自百科網站的人物類知識,共65萬個RDF三元組 |
| 6 | 中國旅遊景點知識圖譜 | 中國旅遊景點中文知識圖譜是CASIA-KB知識圖譜的一部分。抽取自百度百科和互動百科。旅遊景點知識圖譜可用於地理、生活、娛樂等應用。 |
| 7 | 200萬條商品畫像數據 | 本數據是百分點在7年運營過程中積累的產品畫像數據的小結,百分點自建了豐富的電商品分類體系和媒體分類體系。 |
| 8 | 中文症狀庫 | 這是一個包含症狀實體和症狀相關三元組的數據集。中文症狀庫的數據來自8個主流的健康諮詢網站、3個中文百科網站和電子病歷。 |
| 9 | cnSchema機場知識圖譜 | 基於cnSchema的機場知識圖譜可查詢世界各機場的屬性,包含名稱、時區、機場代碼、地理位置(經緯度)等。 |
| 10 | 七律-通用知識圖譜 | 本數據共包含8000萬條百科三元組,為七律的一部分子集,後續將持續加大開放。七律-7Lore,是狗尾草科技精心打造的百科知識圖譜,是人類世界海量知識的集合,它包含了事物、事實、概念、規則等等。 |
<strong>針對文本數據的結構化,除了選用機器學習方法外,也可以結合正則表達式進行數據的抽取、模型建模的中間處理環節等。如:正則表達式結合深度學習</strong>