信息检索的一般步骤及其要点
信息检索的一般步骤及其要点
信息检索的步骤
一、分析研究课题,明确检索要求
课题的主题内容、研究要点、学科范围、语种范围、时间范围、文献类型等
二、选择信息检索系统,确定检索途径
1、选择信息检索系统的方法:
(1)在信息检索系统齐全的情况下,首先使用信息检索工具指南来指导选择;
(2)在没有信息检索工具指南的情况下,可以采用浏览图书馆、信息所的信息检索工具室所陈列的信息检索工具的方式进行选择;
(3)从所熟悉的信息检索工具中选择;
(4)主动向工作人员请教;
(5)通过网络在线帮助选择。
2、选择信息检索系统的原则:
(1)收录的文献信息需含盖检索课题的主题内容;
(2)就近原则,方便查阅;
(3)尽可能质量较高、收录文献信息量大、报道及时、索引齐全、使用方便;
(4)记录来源,文献类型,文种尽量满足检索课题的要求;
(5)数据库是否有对应的印刷型版本;
(6)根据经济条件选择信息检索系统;
(7)根据对检索信息熟悉的程度选择;
(8)选择查出的信息相关度高的网络搜索引擎。
三、选择检索词
确定检索词的基本方法:选择规范化的检索词;使用各学科在国际上通用的、国外文献中出现过的术语作检索词;找出课题涉及的隐性主题概念作检索词;选择课题核心概念作检索词;注意检索词的缩写词、词形变化以及英美的不同拼法;联机方式确定检索词。
四、制定检索策略,查阅检索工具
1、制定检索策略的前提条件是要了解信息检索系统的基本性能,基础是要明确检索课题的内容要求和检索目的,关键是要正确选择检索词和合理使用逻辑组配。
2、产生误检的原因可能有:一词多义的检索词的使用;检索词与英美人的姓名、地址名称、期刊名称相同;不严格的位置算符的运用;检索式中没有使用逻辑非运算;截词运算不恰当;组号前忘记输入指令“s”;逻辑运算符号前后未空格;括号使用不正确;从错误的组号中打印检索结果;检索式中检索概念太少。
3、产生漏检的原因或检索结果为零的原因可能有:没有使用足够的同义词和近义词或隐含概念;位置算符用得过严、过多;逻辑“与”用得太多;后缀代码限制得太严;检索工具选择不恰当;截词运算不恰当;单词拼写错误、文档号错误、组号错误、括号不匹配等。
4、提高查准率的方法有:使用下位概念检索;将检索词的检索范围限在篇名、叙词和文摘字段;使用逻辑“与”或逻辑“非”;运用限制选择功能;进行进阶检或高级检索。
5、提高查全率的方法有:选择全字段中检索;减少对文献外表特征的限定;使用逻辑“或”;利用截词检索;使用检索词的上位概念进行检索;把(W)算符改成(1N),(2N);进入更合适的数据库查找。
五、处理检索结果
将所获得的检索结果加以系统整理,筛选出符合课题要求的相关文献信息,选择检索结果的著录格式,辨认文献类型、文种、著者、篇名、内容、出处等项记录内容,输出检索结果。
六、原始文献的获取
1、利用二次文献检索工具获取原始文献
2、利用馆藏目录和联合目录获取原始文献
3、利用文献出版发行机构获取原始文献
4、利用文献著者获取原始文献
5、利用网络获取原始文献
检索算符一般有哪几种?说明它们各自的使用方法?
检索算符包括
(1)布尔算符
(2)截词检索符
(3)限制检索符
(4)位置逻辑检索符
(5)加权检索
它们的用法如下:
一、布尔逻辑算符:布尔检索式是采用逻辑加(“OR”或“+”)、逻辑乘(“AND”或“*”) 和逻辑非(“NOT”或“—”)等算符,指定文献的标引词中必须存在的条件或不能出现的条件。
采用“OR”(“+”)算符时,检索式写作A OR B(即A + B),表明数据库中凡有检索词A或者B,或同时有A和B的记录均为命中记录。使用逻辑或可连接同一检索组面的多个同义词、近义词和相关词,扩大检索范围。
采用“AND”(“*”)算符时,检索式写作A AND B(即A * B),表明数据库中同时有检索词A和B的记录才为命中记录。逻辑与可增强检索的专指性,缩小检索范围。
采用“NOT”(“—”)算符时,检索式写作A NOT B(即A — B),表明数据库中凡有检索词A而不含检索词B的记录才为命中记录。使用逻辑非可以排除不希望出现的概念,增强检索的准确性。
布尔检索式优先执行顺序通常是NOT、AND、OR,在有括号的情况下,先执行括号内的逻辑运算,在多层括号时,先执行最内层括号中的运算。布尔检索比较容易掌握,但使用不当会造成大量漏检和误检,特别是非运算符的运用应特别小心,否则会把有用的文献排除了。
二、截词检索算符:在实际检索中,常遇到词干相同、词义相近的检索词,或同一词的单、复数形式,动、名词形式,英美拼法等,所谓截词检索,就是将通配符如“*”、“?”或“$”等等,放在检索词中检索者认为合适的地方截断,用截断的词的一个局部进行检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中文献。这样,检索者不必输入完整的检索词。截词方式有多种,按截断的字符数量分,有有限截断和无限截断;按截断的位置分,有后截断、前截断、中间截断。
后截断,是将截词符号放在一个字符串的右方,满足截词符左方所有字符的记录都为命中记录。从性质上讲,这是一种前方一致的检索。
前截断,是将截词符放在一个字符串的左方,表示其右的有限或无限个字符不影响该字符串的检索,或者说这是一种后方一致检索,对汉语中的复合词组的检索非常方便。前截断和后截断可以结合使用,即中间一致检索。
所谓有限截词,是在检索词后截去有限的字母,例如输入computer? ?,表示“?”可以有0-1个字母变化,系统即检出带有computer和computers的文献;输入stud??? ?,表示截三个字母,可检索出带有study, studies, studied和studing等的文献。无限截词是在检索词根后加一个“?”,表示该词后带任意字母的词都需要,如输入comput? 则可检出含有computers, computing, computered等的文献。
三、限制检索算符:在编制检索式时,使用字段限制检索符可以限定检索词在数据库中出现的范围,对命中太多的记录再行筛选。如检索式:AU=Gordon? AND PY=199?,表示查找Gordon所写的、于1990年后发表的所有文献。这种字段检索可由代表文献内容特征的基本索引(Basic Index)字段和代表文献外表特征的辅助索引(Additional Index)字段中的单元词(Word)或多元词(Phrase)构成,前者含有所有与主题内容相关的词,如书目型数据库中的题目、文摘、规范词字段中的叙词等,后者含有记录中除基本索引字段外的那部分信息,如作者、语种、出版年等。
四、位置逻辑检索算符又称全文查找逻辑算符,相邻度检索算符,原文检索符。由于布尔检索的“AND”运算要求AND两边的检索词在同一记录中同时存在才能命中文献,这就可能会引起误组配而造成大量误检,而位置逻辑检索是以原始记录中检索词与检索词间特定的位置关系为逻辑运算的对象,检索词用位置算符相连,就可以弥补布尔检索的缺陷。此外,这种检索也不必依赖先组式词表而直接使用自由词进行检索,因而可使检索结果更准确。
位置逻辑检索算符可分为
词位置检索算符
同句检索算符
同字段检索算符
同记录检索算符
词位置检索算符:即要求检索词之间的相互位置满足某些条件而使用的检索算符,它们是:
(W)与(nW)——(W)算符是“word”或“with”的缩写,表示此算符两边的检索词词序不能颠倒,两个词之间可有一个空格、或一个标点符号、或一个连接号;(nW)则表示两个检索词之间最多嵌入n个词。例如,检索“CD-ROM”,则可用 ?S CD(W)ROM;
而用price(2W)inflation , 则可能检出price levels and inflation。
(N)与(nN)——(N)算符是“near”的缩写,表示此算符两边的检索词必须紧密相连,此间不允许插入其他单词或字母,但词序可以颠倒,而(nN)算符则表示在两个检索词之间最多可以插入n个单词,且词序可以颠倒。如,?S econom??(2N)recovery,可以检出:economic recovery, recovery of the economy, recovery from economic troubles。
(X)与(nX)——(X)算符要求其两边的检索词完全一致,并以指定的顺序相邻,中间不允许插入任何单词或字母;(nX)算符则表示两边的检索词之间最多可以插入n个单元词,但两边的检索词也必须一致。
词位置检索是很有用的检索技术,它可以规定词组中各词的前后次序,防止错误的搭配和输出;它也可以替代词组中的禁用词。DIALOG系统有9个禁用词:AND、FOR、THE、AN、FROM、TO、BY、OF、WITH,如果在编制检索式时碰到禁用词,就要用词位置算符代替它。
同句检索算符:要求参加检索运算的两个词必须在同一自然句中出现,其先后顺序不受限制,可用算符(S)(S是Sentence的首字母)。同句检索放宽了词位置检索的要求,使表达同一概念但不满足词位置条件的文献也可以被检索出来,从而提高了查全率。
同字段检索算符:对同句检索条件进一步放宽,可以用算符(F)、(L)、进行同字段检索。(F)(“Field”的首字母)表示各检索词必须同时出现在文献记录的某个或某些字段中,词序可变,字段类型可用后缀符限定。如:?select market ? (F) information/DE,TI说明market? 和information两个词必须同时出现在叙词字段或题名字段中。(L)(Link的首字母)要求检索词同在叙词字段(DE)中出现,并具有词表规定的等级关系。因此该算符只适用于有正式词表、且词表中的词具有从属关系的数据库。如iron(L)corrosion表示corrosion (腐蚀)是iron (铁)的下属词。
此外,还有同记录检索符,用位置算符(C)要求它两侧的检索词同在一条数据库记录中出现,如A(C)B,其检索效果与布尔算符的检索式A AND B相同。
更详细的解释请参考:[www.welib.net]
信息检索的一般步骤及其要点:等您坐沙发呢!