NLP Question Answering
1.0.0
首先運行刮擦。
所需的每個CSV文件都是由上一個Python文件創建的。
在這個項目中,我們專注於開發一個針對高中生量身定制的高級問答系統。該系統的主要目的是有效回答與歷史有關的問題,提供準確且相關的信息以幫助學生學習學習旅程。
在Web刮擦階段,我們從各種Web來源從編程過程中提取相關信息。此過程涉及爬網頁,提取HTML內容,解析數據並將其轉換為結構化格式。
下一步是信息檢索,我們在其中使用諸如TF-IDF(術語頻率為單位的文檔頻率)和Sbert(句子 - 伯特)等技術來有效地索引和搜索收集的文本數據。 TF-IDF計算文檔語料庫中每個單詞的重要性,而Sbert使用基於變壓器的模型來生成句子或段落的上下文感知的嵌入。通過使用這些方法,我們可以有效地檢索與給定問題相關的相關文檔或段落。
該過程的最後一步涉及生成的AI,該AI旨在對給定問題產生類似人類的回答。生成的AI模型從大量數據中學習,並根據輸入問題生成連貫的和上下文相關的答案。這些模型具有理解語言模式,語義和上下文的能力,使它們能夠產生看起來自然和信息豐富的響應。