锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

信息检索系统技术方案

时间:2022-11-08 07:00:00 s103传感器balluff

技术实现步骤摘要

【外来华专利技术】

本专利技术涉及一个信息检索系统,可以很容易地从大量信息中找到所需的信息。近年来,随着互联网的普及,WWW(World Wide Web)上登载有由HTML(Hyper Text Markup Language)一般用户需要处理大量信息的时代已经到来。另外,公开有名FAQ(FrequentlyAsked Questions)对于频繁询问和回答的列表,用户可以得到相关询问的回答。这些信息,对于利用者来说,如果知道所需求的信息的所在就可以立即阅览,非常方便,相反如果要从大量的信息中发现自己所需要的信息将是一件件难的事情。为此,从文档中选择关键字作为文档的特征量,计算特征量的内积,找出文档之间的近似度,并搜索询问的类似文档的搜索技术。然而,由于互联网上的信息或基于案例的积累FAQ集是为许多人独立提供信息,不能避免信息的重复,有大量具有相同内容的文档。因此,在现有技术中,作为一个类似于查询文档的文档,大量具有相同内容的文档被检索出来,用户仍然需要从大量的检索结果中找到他们需要的信息。如果将检索结果限制在一定数量,并且可能没有您需要的信息,这将成为检索技术的主题。此外,即使用户成功地从检索结果中找到了他们想要的信息,因为在FAQ集中无反应,其他用户在同等条件下检索时需要同样的程序。进一步丰富,同时避免重复信息FAQ集,必须检查相同的信息是否存在,成为信息提供者的负担。本专利技术的目的是提供一个信息检索系统,可以减轻用户信息检索的负担。该专利技术的另一个目的是提供一个信息检索系统,以便于更新检索对象。为实现上述目的,本专利技术的信息检索系统计算文档的特征矢量,根据特征矢量对文档进行分类,并根据分类显示文档的检索结果。这样,用户就可以很容易地掌握类似文档的收集。此外,本专利技术的信息检索系统在用户输入查询时搜索类似的查询,并向用户或专家提示相应的答案。当用户或专家选择最合适的答案时,他们会根据选择的答案自动更新文档数据库。如果没有适当的答案,文档数据库将根据专家输入的答案自动更新。这样,下次输入样的问题就可以适当回答了。下面简要说明附图。图1是本专利技术实施例信息检索系统构成的方框图。图2为表示图1所示文档存储部中保存的文档案例图。图3显示了图1中用户显示部中检索结果的显示例。图4是特征矢量抽出部处理顺序的流程图,表示图1所示。图5显示了提取的文档特征矢量例。图6是表示图1所示的簇分类处理顺序的流程图。图7是表示簇分类结果例的图。图8为表示图1所示的簇标签,作为部中单词标签的顺序流程图。图9是表示单词标签例的图。图10为表示图1所示的簇标签作成部中文标签作成顺序的流程图。图11是表示文标签例的图。图12是表示图1所示的文档标签作为处理顺序的流程图。图13是表示文档标签例的图。图14是本专利技术实施例2信息检索系统构成的方框图。图15是图14所示文档存储部中保存的文档中查询表部分例的图。图16是表示图14所示文档存储部保存的文档中答案表部分的图。图17显示了图14所示专家显示部检索结果的显示例。图18显示了用户在图14中显示检索结果的显示例。图19是用户在图14中询问的特征矢量抽出顺序的流程图。图20是从用户询问中提取的特征矢量例的图。图21是表示图14所示近似度运算部处理顺序的流程图。图22是以图14所示的数据库检索更新部处理顺序为主的流程图。本专利技术的两个实施例见下图。实施例1图1是本专利技术实施例1信息检索系统构成的方框图。图1所示的信息检索系统由文档存储部11、簇存储部12、簇标签存储部13、文档标签部14、特征矢量抽出部15、簇分类部16、簇标签作成部17、文档标签作成部18、数据库检索部19、接口部20、利用者输入部21和利用者显示部22所构成,例如通过互联网在相互连接的文档服务器和利用者终端之间实现。文档存储部11保存多个文档。特征矢量抽出部15从保存在文档存储部11中的文档中抽出特征矢量。簇分类部16根据特征矢量抽出部15获得的特征矢量,对保存在文档存储部11中的文档进行簇分类。簇存储部12保存了由簇分类部16进行簇分类的文档簇。由簇分类部16组成的簇作为表示簇内容的簇标签。簇标签表示由单词和句子组成的单词标签。簇标签存储部13保存由簇标签制成的簇标签。文档标签作为文档标签,表示文档内容的文档标签是根据由簇标签作为17作为簇标签的要素制作的。文档标签部14保存文档标签作为文档标签18。用户输入部21接收用户给出的检索条件。作为检索条件,只要是关键词和文档ID等待文档检索的条件。接口部20管理与用户之间的输入输出。数据库检索部19从文档存储部11中检索符合检索条件的文档。用户显示部22向用户提供检索结果。图2是图1所示文档存储部11中保存的文档的例子。将检索对象保存在文档存储部11中n(n≥2)个文档。唯一的文档是每个文档ID以文章的形式构成文本。第i条文档记为Di(1≤i≤n)。图3显示了图1所示的用户显示部22中检索结果的显示例。根据图3,某一检索条件的文档检索结果按每一簇分类显示。具体讲,簇ID和包含在该簇中的文档的文档ID以及文本,以每一簇表的形式显示,用鼠标点击或按钮,以显示所有显示结果。用户很容易掌握类似检索结果的文档。而且,在显示的簇中,显示表示簇内容的簇标签,文句标签指定的文句用下划线表示。因此,用户很容易掌握簇的内容。另外,作为检索结果,虽然也显示了簇ID和文档ID,也可以部分显示。以下是上述实施例1的详细内容,根据文档输入时的动作和文档检索时的动作进行说明。文档输入时的动作是指将文档输入到文档存储部11中时,或在此之后添加/变更/删除文档时的动作。文档检索时的动作是指检索输入的文档阅读时的动作。<输入文档时的动作>图4为表示图1所示的特征矢量抽出部15的处理顺序。首先,特征矢量抽出部15依次取出保存在文档存储部11中的所有文档Di,抽出各文档Di的特征矢量Vi。特征矢量是表示文档特征的单词Tj及其重要度Wij作为元素的矢量,其元素的数量因文档而异。在此,j表示识别单词的唯一编号。在图4中,在第S将文档计数i设置为101步i=1。在第S102步从文档存储部11中取出文档Di,通过对形的形态元素分析、构文分析、不要词去除等方法,从文本中提取出现的单词Tj,计算在文档Di中单词Tj出现的次数Fij。判决结束时的第一个S103步,如果所有文档都是第一步S102步的处理已经结束,即i=n时进入到第S105步。在没有结束的时候进入第S104步。在第S104步将计数器i加1进入第一步S102步。在第S105步,作为单词Ti与所有文档相比,单词的重要性取决于Tj文档数量的表示,即IDF(inverse document freque本文档来自技高网...

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章