组稿人联盟网
欢迎来到组稿人联盟网
客服电话:400-6735-660 客服在线时间:09:00~22:30(节假日不休息) 客服邮箱:dufu2614@126.com在线投稿:非工作时间点此在线提交您的稿件

计算机科学 浅析信息检索中自然言语的应用现状

时间:2019/7/11 9:59:56来源: 作者: 点击:

  摘要:随着网络技术的迅猛开展, 信息检索程度也越来越高。在网络信息检索的开展进程中, 相关的研讨者不断以来希望把信息检索和自然言语处置相分离, 从而到达快速、高效率的检索效果。为了详细探求自然言语处置在信息检索中的优势和特性, 笔者重点剖析了自然言语处置的办法和技术优势以及目前自然言语处置存在的问题, 对其应用范围展开了细致讨论, 并依据我国自然言语检索的现状停止前景瞻望, 希望可以为信息检索工作做出一些奉献。

  关键词:自然言语; 信息检索; 效果剖析;

  1 前言

  人类社会步入21世纪以来, 社会信息化的脚步加快, 信息化水平的上下直接决议社会开展的好坏, 所以全世界各国都把信息化建立作为国内建立的重中之重。在信息化开展的过程中, 人们对信息检索的请求也随之增高, 人们不但请求信息检索的速度、质量和精确性, 更希望在信息搜索时不但可以过滤掉无用的渣滓信息, 而且可以取得具有价值的相关信息, 快速、精准地处理本人的问题, 取得良好的运用体验。

  2 自然言语的相关理论综述

  从整体上说, 自然言语指的主要是文献作者和相关编写言语运用的最原始的言语。自然言语处置浅显地讲就是让计算机了解人们的自然言语, 并且在运转中能够输出和生成自然言语, 在人类和计算机之间树立起一种融洽、调和的关系, 从而展开良好的协作和信息传送工作。在很早以前, 就有学者提出将人类的自然言语和计算机技术严密分离, 由于我国长期采用手工检索方式障碍了计算机技术的开展, 所以这项技术不断仅仅停留在研讨阶段。随着全球信息化建立范围的扩展, 广阔学者的眼光再次聚焦在自然言语上面。与传统的受控言语相比, 自然言语的适用范围十分广, 且易于被人们承受, 能够涵盖多条检索入口, 便当快捷。这种新的检索言语一经问世, 便得到了社会各界的普遍好评, 成为网络信息检索的中流砥柱, 也是最具有开展潜力的处置方式。在将来的信息检索开展中, 自然言语处置的运用范围将越来越广, 形式将越来越人性化, 将更好地为信息化建立作奉献。

  3 自然言语的开展历史及开展现状

  自然言语处置是一项复杂的过程, 它触及人工智能、大数据、互联网+、生物技术等等方面。追根溯源, 自然言语来源于第一台计算机降生之时, 到了20世纪末21世纪初, 计算机技术获得了长足开展, 信息技术进入了黄金时期。随着计算机技术的开展, 人们希望用自然言语替代传统言语的愿望就越来越迫切, 因而, 这种言语检索形式也得到了宏大的开展。

  从世界开展角度来看, 国外的开展较疾速, 国外的研讨人员很早就发觉到将自然言语运用到计算机编程言语中能够降低用户的操作难度、进步网络检索质量, 能够带来良好的用户体验, 所以, 国外学者深化研讨了自然言语处置。固然外国的研讨起步较早, 由于一些技术的局限性, 其研讨范围仅仅是自然言语检索的一个简双方面, 浅显地说就是仅仅应用自然言语处置简单的文档、断句以及停止简单的文句剖析等。随着探究的逐渐深化, 在20世纪六七十年代, 有关学者尝试将自然言语运用到信息检索中, 并深化研讨了树立过程中受控言语的性能和信息检索质量问题, 处理了复合词以及各词之间的权重问题。

  我国的自然言语处置起步较晚, 大约在1990年才开端得到注重。刚开端, 我国相关学者对自然言语处置技术的研讨仅仅着眼于汉语的自然言语标注方面, 由于后来计算机技术的推行和提高, 针对用户的各种需求, 相关学者展开了深化的探求, 在研讨过程中呈现了很多艰难, 再加上我国汉语具有很强的复杂性, 遭到语境的影响较大, 而且国内学者在自然言语检索方面缺乏完好的理论、技术支持, 大量的问题普遍存在于自然言语检索的每个环节, 所以我国的相关技术开展迟缓。在将来的研讨过程中, 需求相关研讨人员进步研讨力度和深度, 将自然言语处置与计算机技术圆满分离。

  4 自然言语处置的优势

  之所以自然言语会遭到广阔研讨人员的注重, 是由于它存在着许多受控言语不具备的优势。从整体上来剖析, 自然言语相关于传统受控言语有七大方面的优势。第一, 精确性高。由于自然言语是由文献作者的口语言构成的, 在搜索过程中, 能够表现出一定的精确性, 而且用户在分类查询过程中, 依照学科停止分类会明显感到学科的专业名词查询要比传统受控言语快捷得多。第二, 自然言语的更新速度快、适用面宽。当相关文献中呈现了某个重生的词语时, 用户能够立刻将重生词语作为检索的入口, 而不用再像传统受控言语搜索那样, 将相关词义转变成相近类型的标准词语停止检索, 大大拓宽运用范围。第三, 便当快捷。相比于传统受控言语来说, 自然言语便当快捷、检索速度快。只需用户没有偏离中心文献词语的意义太远, 仅仅运用主要的自然言语就能够完成检索工作, 而且速度快、精准度高。第四, 自然言语基于大数据、互联网+的背景, 使得言语的标引十分便利, 自动化水平高, 在很大水平上俭省了用户的时间。第五, 容错率低。采用自然言语检索能够运用多条途径作为入口, 在这样的形式下就能够大大降低出错的概率, 防止了传统受控言语搜索途径少所带来的问题。第六, 针对性强。在运用自然言语停止信息检索过程中, 其词语搜索有着十分强的针对性, 它能够用文献、材料中的恣意一个词语作为关键词停止检索, 以至能够准确到某一段落某一行中, 其针对性和精确度十分高。第七, 有着统一的规范。在传统的受控言语检索中, 大量的工作由标引人员完成, 由于标引人员的专业素养和学识良莠不齐, 在了解和判别方面有着很大的差别, 常常会形成词语的分类、选词的途径不同, 最终给运用者带来比拟大的疑惑。而自然言语则完整防止了这些现象的呈现, 有着很好的统一性。由于多口径的搜索接入, 自然言语的选择普通是在“现成词语”中搜索的, 即便呈现了多人解释, 其差别也不会过大, 能给用户带来统一的解释, 大大俭省用户的搜索和了解时间。

  5 目前自然言语检索存在的问题

  固然自然言语检索有着宏大的潜力和宽广的开展前景, 但是其中存在的弊端也不容小觑。首先, 假如自然言语对标引词语不加限制的话, 近义词和同义词就会大量存在于搜索过程中, 而且词与词之间的联络不能给出合理精确的提示, 十分影响检索过程中的精确率和精准度。而且错误搭配、假关联现象、检索范围扩展等问题也普遍存在于自然言语的检索过程中, 此外, 很多搜索引擎在开发设置过程中, 普遍存在分类不精确、各个科目之间的界线不明晰、学问体系紊乱、逻辑性差的问题, 这些问题严重影响检索的质量和速度。着名教授张琪玉就曾针对性地指出目前存在于自然言语检索过程中的两大问题, 其一, 如何将自然文本库中的最主要、最中心的词语抽出来表达精确的意义, 以及精确快速地满足用户的需求问题;其二, 克制不标准用语和语义关联性的问题。由于我国的汉语有着复杂的特性, 汉语中词和下一个词之间并没有相应的分割符号, 一个汉字与很多个汉字分离会表达出多种多样的意义, 而且还遭到言语环境的影响, 所以在计算机处置过程中, 难点就在于断句, 计算机很难辨认某些汉字是应与上词联络在一同还是与下词联络在一同, 而且关于语句中相关语气词的了解很不到位。

  6 自然言语应用于信息检索过程中的剖析

  在剖析过程中能够发现, 传统意义上的自然言语检索主要是经过关键词停止检索, 其主要途径是经过用户所提供的关键词去库里面寻觅相匹配的文本资源, 在这样的背景下就很容易呈现这样一个问题, 有些用户的表达并不精确, 而且很多种的表达方式常常传达的是一个意义, 这样就显着降低了检索的效率和精确度, 所以应深化讨论自然言语在信息检索过程中的应用问题。

  6.1 智能检索技术

  随着社会的进步与开展, 智能化已向各行各业逐渐浸透, 在信息检索方面, 主要就是模仿人脑停止搜索, 依据用户提供的相关词语, 采用云计算和大数据技术, 剖析出用户所要表达的精确意义, 然后快速、精确向用户呈现出来。从目前的智能检索开展程度来看, 主要能够分为三大步骤, 分别是语义了解、学问管理和学问搜索, 当用户输入关键词时, 系统能够自动辨认词义, 然后停止分类, 最终把库中的精确意义整理好呈现给运用者。其中智能代理技术是自然言语检索过程中的关键性技术, 它主要由一些关键性的智能化程序构成, 在客户不时搜索过程中剖析和学习运用者的偏好和需求, 并分离相关的搜索系统来检索运用者所需求的主要信息, 便当快捷、更新才能强。

  总而言之, 智能检索技术是以运用者的需求为动身点, 经过需求剖析, 树立起智能数据库、智能搜索形式, 完成数据库自动维护、数据库自动更新等功用。它树立在强大的文本库之上, 是现代检索技术的强大推进力, 一方面处理了检索精准度不高的问题, 另一方面简化检索流程, 俭省了运用者的时间。

  6.2 控制用户的检索偏好

  从整体上看计算机技术, 它由三大局部组成, 是汇合了信息传送功用、信息处置功用、信息存储功用的终端。在计算机开展的漫长过程中, 其开展盘绕人们的需求。随着网络科技的兴起, 人们不再喜欢用那种替代检索的中介性行为来满足本人的需求, 也不满足只能复制大量数据材料。人们更希望在检索过程中并不是简单把目录的相关内容呈现给运用者, 而是经过一定的处置将学问与学问组合起来, 产生新的信息。随同着网络搜索功用的不时开发, 用户的数量越来越庞大, 各种需求的多样化水平也就越来越高。所以, 在将来的开展过程中, 检索系统要充沛理解运用者的偏好, 纯熟控制他们的搜索行为, 依据运用者以往的搜索状况剖析出搜索误差的范围, 进一步提升用户体验、降低错误率。

  6.3 应用混合检索技术

  混合检索技术是一种十分具有优势的检索技术, 也是被行内人普遍看好的一项技术, 笼统地讲, 它的主要工作机理就是良好控制自然言语, 防止一些范围大、词义相近的状况。在混合检索技术中, 首先要创立一种混合词表。混合词表的设计并没有请求具有很强高的准确度, 仅仅是一种范围较大的词表, 而且数量较少, 普通包含几百个词汇即可, 主要构成一种长条形的检索流程。在标引词语时, 能够输入一个比拟粗泛的词语, 当然也能够将文献、材料中的词语抽出来输入停止搜索, 这种混合检索形式统筹了受控言语和自然言语, 经过自然言语检索能够使检索具有一定的指向性, 而经过受控言语检索使词语有了族性, 这两种功用圆满分离能够大大缩短用户的检索时间、进步检索质量, 在将来将得到越来越普遍的应用。

  6.4 优化应用自然言语

  首先优化先控技术。先控技术, 从字面上就能够大致了解其主要含义。这项技术在运用前应树立一个自然言语与检索言语的对应库, 前面的一局部为自然言语, 后面的一局部为检索言语, 当运用者运用自然言语停止检索时, 计算机能够依据自然言语找到对应的检索言语, 经过这种对应的互换体系在文本库中完成精确检索。这种办法只是检索办法中的一小局部, 它的存在并不影响原来具有的标引工具和相关数据信息, 它的存在可以有力提升受控言语的性能, 可以充沛发挥自然言语的优势, 能够进步检索的精确性、降低容错率, 给运用者带来良好的运用体验。

  其次, 后控技术也是检索过程中需求的一大技术, 后控技术不同于前文提到的先控技术, 它主要应用于人工智能检索系统和后控词表中。当用户输入本人的关键词后, 经过人工智能检索对运用者的自然言语停止剖析和归类, 然后经过一些数据将其转化为计算机可以辨认的、标准的检索请求, 然后将指令传达给后续程序, 完成检索工作。在这个过程中, 后控技术发挥着关键性作用, 当用户输入自然言语后, 机器能够依据自然言语从后控词表当选出精确的、标准的词语呈现给用户, 任由用户选择。用户能够点击相关关键词减少范围停止检索, 这种技术能够补偿自然言语检索的缺乏、进步精准度。运用这项技术的关键就在于应严厉编选后控词表, 选用一些具有普遍共识、精确性的词语作为词表中的内容, 还要控制和辨认汉语言语习气中大量存在的近义词、关联词, 还要完善文本库的自动更新功用, 使其可以记住运用者偏好, 进步适用性。运用这种办法时, 能够放松对标引阶段的控制, 将关注点放在后控词表上, 在检索过程中, 运用者能够从一个关键词动手, 在文本库中找到一大批与之相近的近义词、等级词等, 在这样的运用背景下, 运用者完整不用思索本人搜索的关键词、搜索的主题到底有哪些近义词和等级词, 而且运用后控技术, 提供的相关词语十分多, 速度快、效率高, 极大减少了运用者的担负。

  7 结语

  固然我国的自然言语检索的起步较晚, 但是在过去的一段时间内获得了较大的开展, 各个学者已将眼光投到自然言语方面, 所以现阶段最主要的研讨方向就是从情报言语学的角度来探求存在于自然言语检索过程中的问题, 发现其中存在的问题, 积聚实战经历, 创新开展, 补偿其中的缺乏。在将来的开展过程中, 智能检索的市场份额和比重会越来越大, 但这并不意味着自然言语检索消逝, 相反, 智能检索是基于自然言语的, 自然言语检索为其开展提供了强大的动力, 自然言语检索能够扩展信息检索的适用面、增加运用人群, 为人们带来良好的运用体验。而在目前的开展过程中, 自然言语检索还存在着比拟大的问题, 需求相关的学者和研讨人员进一步研讨, 进步研讨力度和深度, 创新研讨, 把这种新技术推行到日常工作当中去。同时, 从国度层面讲, 相关部门要加大对该类专业人员的培育力度, 加大资金投入力度, 为其开展和进步提供强有力的支持。在将来开展过程中, 言语检索智能化是主要开展趋向, 这就请求自然言语处置要和计算机技术圆满分离, 共同进步, 这既是将来检索工作的开展方向, 也是情报言语学的重要开展目的, 能为运用者提供高效、精确、完好的信息, 为我国的信息化建立提供不竭的动力, 促进人类文化的开展与进步。


如对职称晋升论文要求,如有疑问立即咨询本站客服,为您提供专业级服务

在线投稿