NLP Question Answering
1.0.0
首先运行刮擦。
所需的每个CSV文件都是由上一个Python文件创建的。
在这个项目中,我们专注于开发一个针对高中生量身定制的高级问答系统。该系统的主要目的是有效回答与历史有关的问题,提供准确且相关的信息以帮助学生学习学习旅程。
在Web刮擦阶段,我们从各种Web来源从编程过程中提取相关信息。此过程涉及爬网页,提取HTML内容,解析数据并将其转换为结构化格式。
下一步是信息检索,我们在其中使用诸如TF-IDF(术语频率为单位的文档频率)和Sbert(句子 - 伯特)等技术来有效地索引和搜索收集的文本数据。 TF-IDF计算文档语料库中每个单词的重要性,而Sbert使用基于变压器的模型来生成句子或段落的上下文感知的嵌入。通过使用这些方法,我们可以有效地检索与给定问题相关的相关文档或段落。
该过程的最后一步涉及生成的AI,该AI旨在对给定问题产生类似人类的回答。生成的AI模型从大量数据中学习,并根据输入问题生成连贯的和上下文相关的答案。这些模型具有理解语言模式,语义和上下文的能力,使它们能够产生看起来自然和信息丰富的响应。