摘要:本文首先介紹了Internet及WWW的迅速發(fā)展?fàn)顩r,隨后分析了Internet信息資源的特點(diǎn),并說明了Internet不但是信息的源泉同時(shí)也是信息的迷宮,必須有信息發(fā)現(xiàn)工具協(xié)助用戶定位所需信息,為了適應(yīng)Internet的規(guī)模,變化性以及自治性等特點(diǎn),文中介紹了在廣域網(wǎng)絡(luò)環(huán)境下設(shè)計(jì)分布式應(yīng)用的若干技術(shù)和應(yīng)引起重視的問題。例如:增加應(yīng)用的容錯(cuò)性,適應(yīng)Internet自治性,控制分布操作以及廣域環(huán)境下數(shù)據(jù)一致性問題等。接著分析了Internet IRTF信息發(fā)現(xiàn)研究課題組研制的分布式信息發(fā)現(xiàn)系統(tǒng)Harvest,說明了Harvest中許多值得利用和借鑒的技術(shù)以及幾個(gè)影響推廣使用的問題。
關(guān)鍵詞: 資源信息發(fā)現(xiàn)、 WWW、 搜索引擎
一、Internet 的發(fā)展
Internet是一個(gè)由各種不同類型和規(guī)模的獨(dú)立運(yùn)行和管理的計(jì)算機(jī)網(wǎng)絡(luò)組成的全球范圍的計(jì)算機(jī)網(wǎng)絡(luò)。它的前身是60年代末,70年代初美國國防部高級研究計(jì)劃署的實(shí)驗(yàn)性網(wǎng)絡(luò)ARPANET。1983年后,ARPANET中有關(guān)軍事的部分被隔離為MILNET。其后,1986年誕生的美國國家科學(xué)基金會(huì)NSFNET對Internet的發(fā)展起了劃時(shí)代的作用。
90年代初到現(xiàn)在,是Internet增長最迅速的時(shí)期,加入Internet的人員、計(jì)算機(jī)和網(wǎng)絡(luò)的數(shù)量以指數(shù)方式增長,Internet上的網(wǎng)絡(luò)從1985年的100個(gè)左右,迅速發(fā)展到1992年的5000多個(gè)。截止1996年7月,Internet已連接了134346個(gè)網(wǎng)絡(luò),入網(wǎng)主機(jī)1228萬臺,以及數(shù)以億計(jì)的用戶。
二、Internet信息資源的特點(diǎn)
隨著各個(gè)國家和組織的網(wǎng)絡(luò)不斷加入,Internet成為一個(gè)規(guī)模巨大、自治性強(qiáng)、發(fā)展變化快,用戶訪問頻繁的國際互聯(lián)網(wǎng)絡(luò)。Internet上的信息資源隨著Internet的發(fā)展也呈現(xiàn)了以下特點(diǎn):
·信息量大而且分散:目前,網(wǎng)上有幾千個(gè)匿名FTP服務(wù)器分布在網(wǎng)上的不同區(qū)域,為用戶提供了數(shù)以百萬計(jì)的文件資料。我們將在后面提到的WWW技術(shù)給每個(gè)用戶展現(xiàn)自己的機(jī)會(huì),這又構(gòu)成了另一個(gè)廣闊的信息空間。可以說,Internet是世界范圍內(nèi)的信息量最大的圖書館,為人們提供了豐富的信息資源。
·自治性強(qiáng):作為廣域互連的Internet不是也不可能是由一個(gè)國家或組織單獨(dú)管理的。提供何種服務(wù),如何提供,使用何種技術(shù)都是由每個(gè)接入Internet的組織自己作主。在這種廣域網(wǎng)的環(huán)境下,要達(dá)成廣泛的一致意見往往比較困難。
·信息資源多種多樣: 用戶可以通過Internet上的多種服務(wù)獲得信息,如FTP,Gopher,Archie,WAIS等等,這些信息資源無論從內(nèi)容還是形式都呈現(xiàn)出多樣異構(gòu)的特點(diǎn)。
·信息變化快:首先,隨著Internet的增加,新的信息不斷涌現(xiàn),其次,現(xiàn)有的信息也在不斷變化。最典型的當(dāng)屬“News”服務(wù),其以GB為單位的信息隔幾天就要更新一次。
·不一致性和不完整性。例如,一個(gè)人的信息可以在個(gè)人WWW主頁,X.500目錄服務(wù)等多個(gè)信息源中出現(xiàn),當(dāng)信息發(fā)生改變時(shí),在這些信息源中改動(dòng)的次序和改動(dòng)是否完整都會(huì)影響信息的一致性和完整性。
信息發(fā)現(xiàn)系統(tǒng)的一個(gè)重要目標(biāo)就是提供給用戶一個(gè)有組織的一致的信息視圖,在設(shè)計(jì)系統(tǒng)時(shí),我們應(yīng)當(dāng)考慮到Internet上信息的特點(diǎn)。
三、WWW的特點(diǎn)及其迅速發(fā)展
WWW(World Wide Web)是九十年代初Internet上的全球性的網(wǎng)絡(luò)信息系統(tǒng)。超文本和超媒體是WWW使用的關(guān)鍵技術(shù)。它使文本、圖象、音頻和視頻等信息有機(jī)地結(jié)合起來,提供了豐富的信息表示能力。用戶可以用友好、方便多樣的界面存取信息,成為人們發(fā)布和共享信息的重要工具。越來越多的公司通過自己的主頁展示推銷自己;越來越多的大學(xué)、科研機(jī)構(gòu)也通過網(wǎng)頁來交流研究成果;越來越多的個(gè)人也擁有了自己的主頁,所有這些都導(dǎo)致WWW信息迅速膨脹。在1993年下半年,WWW在不到三個(gè)月的時(shí)間里翻了一翻,即使現(xiàn)在WWW也以每六個(gè)月一翻的速度增長。1995年4月,WWW在網(wǎng)上的流量超過了Internet上其它服務(wù)的流量,并一直穩(wěn)居首位。據(jù)不完全統(tǒng)計(jì),1996年初,網(wǎng)上大約有1900萬網(wǎng)頁,到現(xiàn)在WWW上的網(wǎng)頁數(shù)決不會(huì)低于2億。
四、信息發(fā)現(xiàn)服務(wù)的迫切性
作為一個(gè)無窮無盡的信息源泉,Internet為人們提供了巨大的并且還在不斷增長的信息資源和服務(wù),Internet上各種各樣的信息源源不斷地流向人們。然而在你尋找所需的信息時(shí),Internet又象是一個(gè)信息的迷宮,讓人感覺無所適從,不知如何迅速定位自己真正需要的信息,僅依靠超文本鏈在迷宮中漫游,多半會(huì)徒勞無功。所以,人們迫切希望有信息發(fā)現(xiàn)工具為他們在WWW上搜尋信息提供導(dǎo)航。
五、Internet信息發(fā)現(xiàn)技術(shù)的發(fā)展?fàn)顩r
(一)已有信息發(fā)現(xiàn)系統(tǒng)的回顧
隨著Internet發(fā)展,Internet上的信息發(fā)現(xiàn)服務(wù)和工具也逐漸發(fā)展起來。比較典型的有Archie,WAIS, Gopher,X.500等,另外,還有眾多的“搜索引擎”(Search Engine),如Excite,Infoseek,Alta Vista。
1、Archie實(shí)際上是一個(gè)大型的數(shù)據(jù)庫,和與這個(gè)數(shù)據(jù)庫相關(guān)的一套檢索方法。Archie數(shù)據(jù)庫存有通過FTP獲取的資源信息,包括這些資源的文件名、文件長度、存放該文件的主機(jī)名及目錄。目前,Archie數(shù)據(jù)庫已存入了大約1200個(gè) FTP服務(wù)器、250萬個(gè)文件的資料。Internet上有三十幾個(gè)Archie服務(wù)器,查詢 FTP的任務(wù)分布在各個(gè)服務(wù)器,它們之間通過執(zhí)行基于擴(kuò)散(flooding_based)的一致性保持協(xié)議,來保證信息的一致性。Archie的開發(fā)者把它描述為資源發(fā)現(xiàn)和信息獲取的低端技術(shù)(low_tech)方案。Archie的成功要?dú)w結(jié)于它的簡單性和對已有機(jī)制的利用。Archie有點(diǎn)類似于圖書館中的檢索卡片。當(dāng)你去圖書館查閱書籍時(shí),如果你不知道你要尋找的書放于哪一個(gè)館區(qū)的哪一個(gè)書架,那么,你通常不會(huì)挨個(gè)書架去找,而是會(huì)先查閱圖書檢索卡片。Archie也一樣,如果你不知道您要拷貝的文件放在哪一臺FTP 服務(wù)器中,你根本不可能挨個(gè)FTP服務(wù)器去查找,通過Archie,你可以根據(jù)文件名比較方便地找到文件存貯的位置。不過,Archie沒有針對文件的簡要說明,僅通過文件名進(jìn)行索引,利用Archie檢索時(shí),你必須事先知道文件名或文件名的某些部份。Archie 還有另外一個(gè)不足的地方,就是它收集的資料還不全面。由于是否把 FTP服務(wù)器的資料放入Archie完全取決于自愿原則,錯(cuò)漏或更新不及時(shí)的情況就難以避免。
2、Gopher 與Archie一樣,在最初的時(shí)候也是為解決查找FTP文件的難題而被研制和開發(fā)的。Archie提供了一種根據(jù)文件名查找FTP文件的方法,Gopher則提供一種通過文件類別去查找文件的途徑。
Gopher系統(tǒng)最早由Minnesota大學(xué)的一群計(jì)算機(jī)人員開發(fā),按他們的構(gòu)想,每個(gè)信息源的擁有者應(yīng)為自己的資源建立一個(gè)分類目錄。 分類目錄按一定的層次結(jié)構(gòu)進(jìn)行組織,并被放入Gopher 服務(wù)器中供用戶檢索。用戶是通過一個(gè)稱為Gopher 客戶軟件的程序以菜單的方式查閱該目錄,直到找到所需要的信息為止。Gopher服務(wù)器的另一個(gè)功能是服務(wù)器之間的互聯(lián)性,通過一個(gè)Gopher 服務(wù)器,你可進(jìn)入另一個(gè)Gopher服務(wù)器,直接獲得該服務(wù)器中列出的資源。這樣,只要進(jìn)入任何一個(gè)Gopher服務(wù)器,您就可以在不同的Gopher 服務(wù)器之間漫游,方便地檢索和拷貝已建立Gopher目錄的任何一臺計(jì)算機(jī)中的信息。
不過,隨著 Gopher 服務(wù)器的增多,其目錄系統(tǒng)變得越來越復(fù)雜,以每個(gè)Gopher 服務(wù)器有一百條子目錄計(jì),1000個(gè)服務(wù)器就有十萬條目錄,這樣,光是察看目錄系統(tǒng)就會(huì)占用大量的時(shí)間,而且難以找到你所需要的目錄,于是,一些幫助用戶更好地在Gopher 空間中漫游的工具不斷地被開發(fā)出來,例如,通過一種稱為Veronica 服務(wù),你可以通過輸入目錄的名稱直接進(jìn)入某個(gè)目錄,省去了逐級調(diào)用目錄菜單以及查找所需目錄的麻煩。
3、WAIS 是“Wide area information servers” (廣域信息服務(wù)) 的縮寫。WAIS與Archie,Gopher類似,提供了一種檢索Internet資源的方法。Archie通過文件名進(jìn)行檢索,Gopher通過文件類別進(jìn)行檢索,WAIS則按關(guān)鍵字對文件進(jìn)行全文檢索。WAIS是一種基于客戶/服務(wù)器結(jié)構(gòu)的軟件系統(tǒng)。在服務(wù)器端,管理員建立一個(gè)文件索引數(shù)據(jù)庫。與Archie數(shù)據(jù)庫一樣,該數(shù)據(jù)庫包括文件的名稱及查找路徑,比Archie數(shù)據(jù)庫更進(jìn)一步的是,該數(shù)據(jù)庫還包括文件內(nèi)容的全文索引。這樣,用戶不但可以通過文件名,而且可以通過關(guān)鍵字去檢索文件內(nèi)容。在用戶端,用戶只需要輸入某些關(guān)鍵字,WAIS服務(wù)器就會(huì)自動(dòng)查找出現(xiàn)該關(guān)鍵字頻率最高的文件,并根據(jù)這個(gè)頻率按一定的加權(quán)方法計(jì)算文件與關(guān)鍵字的“關(guān)聯(lián)值” ,選中的文件將依據(jù)“關(guān)聯(lián)值”進(jìn)行排列,“關(guān)聯(lián)值”最大的文件目錄排在最前面。
WAIS系統(tǒng)雖面世不久,但已在Internet上得到廣泛應(yīng)用。由于WAIS服務(wù)器已相當(dāng)多,人們建立了一個(gè)稱為“Directory of servers”的專門收集 WAIS服務(wù)器資料的數(shù)據(jù)庫,這個(gè)數(shù)據(jù)庫本身也采用了WAIS系統(tǒng)。當(dāng)用戶需要查找某一文件,而又不清楚該文件會(huì)放在哪一個(gè)WAIS 服務(wù)器時(shí), 就可以采用二級查找方法: 先通過“Directory of servers”確定哪些WAIS服務(wù)器可能包含要查找的文件,然后在選中的WAIS服務(wù)器中進(jìn)行二級查找。
4、 X.500是CCITT和ISO在目錄服務(wù)領(lǐng)域標(biāo)準(zhǔn)化努力的結(jié)果。與DNS不同的是X.500的條目由一組屬性與值的對構(gòu)成,它可以接受基于屬性的查詢。X.500的名字空間被組織成層次結(jié)構(gòu)分布于多個(gè)服務(wù)器上。這個(gè)全球名字空間的各部分的管理權(quán)被委派給了不同的自治的組織,這些組織又可以將此子樹進(jìn)一步分派管理權(quán)。部分X.500的名字空間通過指定主從服務(wù)器的簡單復(fù)制機(jī)制復(fù)制到不同的服務(wù)器。
5、隨著WWW的迅速發(fā)展,Internet上出現(xiàn)了WWW信息查詢服務(wù),它們通常被稱作搜索引擎。目前網(wǎng)上比較有名的搜索引擎有Yahoo!,Alta Vista,Excite,Infoseek,Lycos等。這些搜索引擎一般是預(yù)先由程序自動(dòng)地在網(wǎng)上遞歸地訪問WWW頁面,將訪問的信息存入數(shù)據(jù)庫。然后將數(shù)據(jù)庫中的信息建立索引,并提供給用戶WWW的查詢界面。搜索引擎根據(jù)用戶的請求查詢數(shù)據(jù)庫,并將結(jié)果按相關(guān)程度排序后輸出給用戶。這樣用戶可以很方便地定位所需資源。值得一提的是Yahoo!,它更應(yīng)被稱之為WWW的主題分類目錄。它在人工的參與下將WWW信息作了較好的分類,用戶可以直接沿著分類目錄找到網(wǎng)頁。搜索引擎的出現(xiàn)給用戶帶來了極大方便,吸引了大批用戶。下圖顯示了1998年3月訪問各個(gè)搜索引擎用戶數(shù)目的估計(jì)。
近來隨著搜索引擎的不斷增多,網(wǎng)上又出現(xiàn)了“Meta-search Engine”[14]或者“Search Broker”。它本身并不收集和存儲(chǔ)任何數(shù)據(jù),只是代理用戶同時(shí)向多個(gè)搜索引擎提交查詢,將各個(gè)搜索引擎的查詢結(jié)果通過一定的策略規(guī)整后返回給用戶。目前,這個(gè)領(lǐng)域也在不斷發(fā)展之中。
(二)信息發(fā)現(xiàn)服務(wù)的分類及技術(shù)
Internet上的信息發(fā)現(xiàn)模式可以分為兩類:一類是基于數(shù)據(jù)組織提供用戶瀏覽。數(shù)據(jù)組織是指人工參與下的如何使信息相關(guān)聯(lián)的過程,通常是將數(shù)據(jù)排序和組織成有向圖。如FTP文件系統(tǒng)中的層次目錄,Gopher中的菜單條目等。用戶可以使用相應(yīng)的瀏覽工具來瀏覽和搜索資源空間。這種方法的有效性依賴于如何有效地組織數(shù)據(jù)空間,Internet上數(shù)據(jù)量如此之大,保持一個(gè)良好的數(shù)據(jù)組織是非常困難的。另外,由于不同的用戶有不同的需求,何種數(shù)據(jù)有用,如何有效地組織等,都是很難確定的。
另一類信息發(fā)現(xiàn)系統(tǒng)是基于搜索的。一般是用戶提供有關(guān)資源的描述,由信息發(fā)現(xiàn)系統(tǒng)自動(dòng)定位。這種方法能較好的適應(yīng)數(shù)據(jù)的增長,應(yīng)用也越來越普遍。
從系統(tǒng)實(shí)現(xiàn)來看,基于搜索的信息發(fā)現(xiàn)又可以分為兩類:一類是基于服務(wù)器的搜索工具,另一類是基于客戶機(jī)的搜索工具。
基于服務(wù)器的搜索工具由軟件自動(dòng)地在網(wǎng)上發(fā)現(xiàn)資源,把搜索的結(jié)果保存必要的信息,并建立索引供用戶查詢。一般,這類系統(tǒng)可以分為收集和檢索兩個(gè)子系統(tǒng)。收集子系統(tǒng)以一定的策略引導(dǎo)信息的發(fā)現(xiàn)并處理信息的更新,檢索子系統(tǒng)則負(fù)責(zé)使用戶能快速有效地利用收集到的信息,其特點(diǎn)是提供服務(wù),被動(dòng)地接受用戶查詢。
基于客戶機(jī)的搜索工具是由客戶方按照用戶事先定義的信息檢索要求,在發(fā)現(xiàn)滿足要求的信息或指定的信息發(fā)生改變時(shí)主動(dòng)通知用戶。用戶無需反復(fù)搜索所需信息,減少了用戶檢索信息的時(shí)間。但往往由于客戶機(jī)能力的限制,對于龐大的Internet只能搜尋極少的部分,而且速度較慢,如果許多用戶使用,則對網(wǎng)絡(luò)資源消耗比較大。
隨著Internet網(wǎng)上的數(shù)據(jù)量呈指數(shù)增長,為了達(dá)到適當(dāng)?shù)男阅芤螅畔l(fā)現(xiàn)服務(wù)以及它們的數(shù)據(jù)必須在成百上千個(gè)網(wǎng)絡(luò)上加以復(fù)制。以Internet的News系統(tǒng)為例,News管理的是高度動(dòng)態(tài)(用戶可以隨時(shí)向News發(fā)消息),弱一致性,(一個(gè)用戶的文章在一段時(shí)間后才能被其它用戶響應(yīng)),數(shù)據(jù)量大(可以達(dá)到千兆字節(jié))的數(shù)據(jù),然而由于News有數(shù)千個(gè)副本服務(wù)器,對用戶查詢的響應(yīng)時(shí)間卻在幾秒之內(nèi)。與此形成對比的是Archie服務(wù),Archie管理的數(shù)據(jù)要少得多(150MB),響應(yīng)時(shí)間卻可能會(huì)長達(dá)15分鐘。這是因?yàn)锳rchie在Internet上只有30多個(gè)副本。所以采用分布式系統(tǒng)中的多副本技術(shù)、分布協(xié)同技術(shù)[1]是建立一個(gè)擴(kuò)展性強(qiáng)、可用性高、響應(yīng)時(shí)間合理并具有良好的信息定位能力的信息發(fā)現(xiàn)系統(tǒng)的重要技術(shù)傾向。
小編推薦優(yōu)秀電子期刊 《網(wǎng)絡(luò)安全技術(shù)與應(yīng)用》網(wǎng)絡(luò)技術(shù)期刊征稿
期刊信息:《網(wǎng)絡(luò)安全技術(shù)與應(yīng)用》雜志成立于2003年,先由中華人民共和國公安部主管、中國人民公安大學(xué)出版社主辦。從2009年起,本刊改由中華人民教育部主管,北京大學(xué)出版社主辦,是國內(nèi)網(wǎng)絡(luò)安全技術(shù)與應(yīng)用領(lǐng)域行業(yè)指導(dǎo)性科技月刊,國內(nèi)外公開發(fā)行。本刊系“三高兩強(qiáng)”刊物,即信息量高、學(xué)術(shù)水平高、技術(shù)含量高;專業(yè)性強(qiáng)、應(yīng)用性強(qiáng)。
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >