CERNET分布式中英文WWW信息發(fā)現(xiàn)系統(tǒng)設(shè)計(jì)刊發(fā)論文

來源：樹人論文網(wǎng)發(fā)表時(shí)間：2014-12-13

簡要：摘要：本文首先介紹了Internet及WWW的迅速發(fā)展?fàn)顩r，隨后分析了Internet信息資源的特點(diǎn)，并說明了Internet不但是信息的源泉同時(shí)也是信息的迷宮，必須有信息發(fā)現(xiàn)工具協(xié)助用戶定位所需信

　　摘要：本文首先介紹了Internet及WWW的迅速發(fā)展?fàn)顩r，隨后分析了Internet信息資源的特點(diǎn)，并說明了Internet不但是信息的源泉同時(shí)也是信息的迷宮，必須有信息發(fā)現(xiàn)工具協(xié)助用戶定位所需信息，為了適應(yīng)Internet的規(guī)模，變化性以及自治性等特點(diǎn)，文中介紹了在廣域網(wǎng)絡(luò)環(huán)境下設(shè)計(jì)分布式應(yīng)用的若干技術(shù)和應(yīng)引起重視的問題。例如：增加應(yīng)用的容錯(cuò)性，適應(yīng)Internet自治性，控制分布操作以及廣域環(huán)境下數(shù)據(jù)一致性問題等。接著分析了Internet IRTF信息發(fā)現(xiàn)研究課題組研制的分布式信息發(fā)現(xiàn)系統(tǒng)Harvest，說明了Harvest中許多值得利用和借鑒的技術(shù)以及幾個(gè)影響推廣使用的問題。

　　關(guān)鍵詞：資源信息發(fā)現(xiàn)、 WWW、搜索引擎

　　一、Internet 的發(fā)展

　　Internet是一個(gè)由各種不同類型和規(guī)模的獨(dú)立運(yùn)行和管理的計(jì)算機(jī)網(wǎng)絡(luò)組成的全球范圍的計(jì)算機(jī)網(wǎng)絡(luò)。它的前身是60年代末，70年代初美國國防部高級研究計(jì)劃署的實(shí)驗(yàn)性網(wǎng)絡(luò)ARPANET。1983年后，ARPANET中有關(guān)軍事的部分被隔離為MILNET。其后，1986年誕生的美國國家科學(xué)基金會(huì)NSFNET對Internet的發(fā)展起了劃時(shí)代的作用。

　　90年代初到現(xiàn)在，是Internet增長最迅速的時(shí)期，加入Internet的人員、計(jì)算機(jī)和網(wǎng)絡(luò)的數(shù)量以指數(shù)方式增長，Internet上的網(wǎng)絡(luò)從1985年的100個(gè)左右，迅速發(fā)展到1992年的5000多個(gè)。截止1996年7月，Internet已連接了134346個(gè)網(wǎng)絡(luò)，入網(wǎng)主機(jī)1228萬臺，以及數(shù)以億計(jì)的用戶。

　　二、Internet信息資源的特點(diǎn)

　　隨著各個(gè)國家和組織的網(wǎng)絡(luò)不斷加入，Internet成為一個(gè)規(guī)模巨大、自治性強(qiáng)、發(fā)展變化快，用戶訪問頻繁的國際互聯(lián)網(wǎng)絡(luò)。Internet上的信息資源隨著Internet的發(fā)展也呈現(xiàn)了以下特點(diǎn)：

　　·信息量大而且分散：目前，網(wǎng)上有幾千個(gè)匿名FTP服務(wù)器分布在網(wǎng)上的不同區(qū)域，為用戶提供了數(shù)以百萬計(jì)的文件資料。我們將在后面提到的WWW技術(shù)給每個(gè)用戶展現(xiàn)自己的機(jī)會(huì)，這又構(gòu)成了另一個(gè)廣闊的信息空間。可以說，Internet是世界范圍內(nèi)的信息量最大的圖書館，為人們提供了豐富的信息資源。

　　·自治性強(qiáng)：作為廣域互連的Internet不是也不可能是由一個(gè)國家或組織單獨(dú)管理的。提供何種服務(wù)，如何提供，使用何種技術(shù)都是由每個(gè)接入Internet的組織自己作主。在這種廣域網(wǎng)的環(huán)境下，要達(dá)成廣泛的一致意見往往比較困難。

　　·信息資源多種多樣：用戶可以通過Internet上的多種服務(wù)獲得信息，如FTP，Gopher，Archie，WAIS等等，這些信息資源無論從內(nèi)容還是形式都呈現(xiàn)出多樣異構(gòu)的特點(diǎn)。

　　·信息變化快：首先，隨著Internet的增加，新的信息不斷涌現(xiàn)，其次，現(xiàn)有的信息也在不斷變化。最典型的當(dāng)屬“News”服務(wù)，其以GB為單位的信息隔幾天就要更新一次。

　　·不一致性和不完整性。例如，一個(gè)人的信息可以在個(gè)人WWW主頁，X.500目錄服務(wù)等多個(gè)信息源中出現(xiàn)，當(dāng)信息發(fā)生改變時(shí)，在這些信息源中改動(dòng)的次序和改動(dòng)是否完整都會(huì)影響信息的一致性和完整性。

　　信息發(fā)現(xiàn)系統(tǒng)的一個(gè)重要目標(biāo)就是提供給用戶一個(gè)有組織的一致的信息視圖，在設(shè)計(jì)系統(tǒng)時(shí)，我們應(yīng)當(dāng)考慮到Internet上信息的特點(diǎn)。

　　三、WWW的特點(diǎn)及其迅速發(fā)展

　　WWW(World Wide Web)是九十年代初Internet上的全球性的網(wǎng)絡(luò)信息系統(tǒng)。超文本和超媒體是WWW使用的關(guān)鍵技術(shù)。它使文本、圖象、音頻和視頻等信息有機(jī)地結(jié)合起來，提供了豐富的信息表示能力。用戶可以用友好、方便多樣的界面存取信息，成為人們發(fā)布和共享信息的重要工具。越來越多的公司通過自己的主頁展示推銷自己;越來越多的大學(xué)、科研機(jī)構(gòu)也通過網(wǎng)頁來交流研究成果;越來越多的個(gè)人也擁有了自己的主頁，所有這些都導(dǎo)致WWW信息迅速膨脹。在1993年下半年，WWW在不到三個(gè)月的時(shí)間里翻了一翻，即使現(xiàn)在WWW也以每六個(gè)月一翻的速度增長。1995年4月，WWW在網(wǎng)上的流量超過了Internet上其它服務(wù)的流量，并一直穩(wěn)居首位。據(jù)不完全統(tǒng)計(jì)，1996年初，網(wǎng)上大約有1900萬網(wǎng)頁，到現(xiàn)在WWW上的網(wǎng)頁數(shù)決不會(huì)低于2億。

　　四、信息發(fā)現(xiàn)服務(wù)的迫切性

　　作為一個(gè)無窮無盡的信息源泉，Internet為人們提供了巨大的并且還在不斷增長的信息資源和服務(wù)，Internet上各種各樣的信息源源不斷地流向人們。然而在你尋找所需的信息時(shí)，Internet又象是一個(gè)信息的迷宮，讓人感覺無所適從，不知如何迅速定位自己真正需要的信息，僅依靠超文本鏈在迷宮中漫游，多半會(huì)徒勞無功。所以，人們迫切希望有信息發(fā)現(xiàn)工具為他們在WWW上搜尋信息提供導(dǎo)航。

　　五、Internet信息發(fā)現(xiàn)技術(shù)的發(fā)展?fàn)顩r

　　(一)已有信息發(fā)現(xiàn)系統(tǒng)的回顧

　　隨著Internet發(fā)展，Internet上的信息發(fā)現(xiàn)服務(wù)和工具也逐漸發(fā)展起來。比較典型的有Archie，WAIS， Gopher，X.500等，另外，還有眾多的“搜索引擎”(Search Engine)，如Excite，Infoseek，Alta Vista。

　　1、Archie實(shí)際上是一個(gè)大型的數(shù)據(jù)庫，和與這個(gè)數(shù)據(jù)庫相關(guān)的一套檢索方法。Archie數(shù)據(jù)庫存有通過FTP獲取的資源信息，包括這些資源的文件名、文件長度、存放該文件的主機(jī)名及目錄。目前，Archie數(shù)據(jù)庫已存入了大約1200個(gè) FTP服務(wù)器、250萬個(gè)文件的資料。Internet上有三十幾個(gè)Archie服務(wù)器，查詢 FTP的任務(wù)分布在各個(gè)服務(wù)器，它們之間通過執(zhí)行基于擴(kuò)散(flooding_based)的一致性保持協(xié)議，來保證信息的一致性。Archie的開發(fā)者把它描述為資源發(fā)現(xiàn)和信息獲取的低端技術(shù)(low_tech)方案。Archie的成功要?dú)w結(jié)于它的簡單性和對已有機(jī)制的利用。Archie有點(diǎn)類似于圖書館中的檢索卡片。當(dāng)你去圖書館查閱書籍時(shí)，如果你不知道你要尋找的書放于哪一個(gè)館區(qū)的哪一個(gè)書架，那么，你通常不會(huì)挨個(gè)書架去找，而是會(huì)先查閱圖書檢索卡片。Archie也一樣，如果你不知道您要拷貝的文件放在哪一臺FTP 服務(wù)器中，你根本不可能挨個(gè)FTP服務(wù)器去查找，通過Archie，你可以根據(jù)文件名比較方便地找到文件存貯的位置。不過，Archie沒有針對文件的簡要說明，僅通過文件名進(jìn)行索引，利用Archie檢索時(shí)，你必須事先知道文件名或文件名的某些部份。Archie 還有另外一個(gè)不足的地方，就是它收集的資料還不全面。由于是否把 FTP服務(wù)器的資料放入Archie完全取決于自愿原則，錯(cuò)漏或更新不及時(shí)的情況就難以避免。

　　2、Gopher 與Archie一樣，在最初的時(shí)候也是為解決查找FTP文件的難題而被研制和開發(fā)的。Archie提供了一種根據(jù)文件名查找FTP文件的方法，Gopher則提供一種通過文件類別去查找文件的途徑。

　　Gopher系統(tǒng)最早由Minnesota大學(xué)的一群計(jì)算機(jī)人員開發(fā)，按他們的構(gòu)想，每個(gè)信息源的擁有者應(yīng)為自己的資源建立一個(gè)分類目錄。分類目錄按一定的層次結(jié)構(gòu)進(jìn)行組織，并被放入Gopher 服務(wù)器中供用戶檢索。用戶是通過一個(gè)稱為Gopher 客戶軟件的程序以菜單的方式查閱該目錄，直到找到所需要的信息為止。Gopher服務(wù)器的另一個(gè)功能是服務(wù)器之間的互聯(lián)性，通過一個(gè)Gopher 服務(wù)器，你可進(jìn)入另一個(gè)Gopher服務(wù)器，直接獲得該服務(wù)器中列出的資源。這樣，只要進(jìn)入任何一個(gè)Gopher服務(wù)器，您就可以在不同的Gopher 服務(wù)器之間漫游，方便地檢索和拷貝已建立Gopher目錄的任何一臺計(jì)算機(jī)中的信息。

　　不過，隨著 Gopher 服務(wù)器的增多，其目錄系統(tǒng)變得越來越復(fù)雜，以每個(gè)Gopher 服務(wù)器有一百條子目錄計(jì)，1000個(gè)服務(wù)器就有十萬條目錄，這樣，光是察看目錄系統(tǒng)就會(huì)占用大量的時(shí)間，而且難以找到你所需要的目錄，于是，一些幫助用戶更好地在Gopher 空間中漫游的工具不斷地被開發(fā)出來，例如，通過一種稱為Veronica 服務(wù)，你可以通過輸入目錄的名稱直接進(jìn)入某個(gè)目錄，省去了逐級調(diào)用目錄菜單以及查找所需目錄的麻煩。

　　3、WAIS 是“Wide area information servers” (廣域信息服務(wù)) 的縮寫。WAIS與Archie，Gopher類似，提供了一種檢索Internet資源的方法。Archie通過文件名進(jìn)行檢索，Gopher通過文件類別進(jìn)行檢索，WAIS則按關(guān)鍵字對文件進(jìn)行全文檢索。WAIS是一種基于客戶/服務(wù)器結(jié)構(gòu)的軟件系統(tǒng)。在服務(wù)器端，管理員建立一個(gè)文件索引數(shù)據(jù)庫。與Archie數(shù)據(jù)庫一樣，該數(shù)據(jù)庫包括文件的名稱及查找路徑，比Archie數(shù)據(jù)庫更進(jìn)一步的是，該數(shù)據(jù)庫還包括文件內(nèi)容的全文索引。這樣，用戶不但可以通過文件名，而且可以通過關(guān)鍵字去檢索文件內(nèi)容。在用戶端，用戶只需要輸入某些關(guān)鍵字，WAIS服務(wù)器就會(huì)自動(dòng)查找出現(xiàn)該關(guān)鍵字頻率最高的文件，并根據(jù)這個(gè)頻率按一定的加權(quán)方法計(jì)算文件與關(guān)鍵字的“關(guān)聯(lián)值” ，選中的文件將依據(jù)“關(guān)聯(lián)值”進(jìn)行排列，“關(guān)聯(lián)值”最大的文件目錄排在最前面。

　　WAIS系統(tǒng)雖面世不久，但已在Internet上得到廣泛應(yīng)用。由于WAIS服務(wù)器已相當(dāng)多，人們建立了一個(gè)稱為“Directory　of servers”的專門收集 WAIS服務(wù)器資料的數(shù)據(jù)庫，這個(gè)數(shù)據(jù)庫本身也采用了WAIS系統(tǒng)。當(dāng)用戶需要查找某一文件，而又不清楚該文件會(huì)放在哪一個(gè)WAIS 服務(wù)器時(shí)，就可以采用二級查找方法: 先通過“Directory of servers”確定哪些WAIS服務(wù)器可能包含要查找的文件，然后在選中的WAIS服務(wù)器中進(jìn)行二級查找。

　　4、 X.500是CCITT和ISO在目錄服務(wù)領(lǐng)域標(biāo)準(zhǔn)化努力的結(jié)果。與DNS不同的是X.500的條目由一組屬性與值的對構(gòu)成，它可以接受基于屬性的查詢。X.500的名字空間被組織成層次結(jié)構(gòu)分布于多個(gè)服務(wù)器上。這個(gè)全球名字空間的各部分的管理權(quán)被委派給了不同的自治的組織，這些組織又可以將此子樹進(jìn)一步分派管理權(quán)。部分X.500的名字空間通過指定主從服務(wù)器的簡單復(fù)制機(jī)制復(fù)制到不同的服務(wù)器。

　　5、隨著WWW的迅速發(fā)展，Internet上出現(xiàn)了WWW信息查詢服務(wù)，它們通常被稱作搜索引擎。目前網(wǎng)上比較有名的搜索引擎有Yahoo!，Alta Vista，Excite，Infoseek，Lycos等。這些搜索引擎一般是預(yù)先由程序自動(dòng)地在網(wǎng)上遞歸地訪問WWW頁面，將訪問的信息存入數(shù)據(jù)庫。然后將數(shù)據(jù)庫中的信息建立索引，并提供給用戶WWW的查詢界面。搜索引擎根據(jù)用戶的請求查詢數(shù)據(jù)庫，并將結(jié)果按相關(guān)程度排序后輸出給用戶。這樣用戶可以很方便地定位所需資源。值得一提的是Yahoo!，它更應(yīng)被稱之為WWW的主題分類目錄。它在人工的參與下將WWW信息作了較好的分類，用戶可以直接沿著分類目錄找到網(wǎng)頁。搜索引擎的出現(xiàn)給用戶帶來了極大方便，吸引了大批用戶。下圖顯示了1998年3月訪問各個(gè)搜索引擎用戶數(shù)目的估計(jì)。

　　近來隨著搜索引擎的不斷增多，網(wǎng)上又出現(xiàn)了“Meta-search Engine”[14]或者“Search Broker”。它本身并不收集和存儲(chǔ)任何數(shù)據(jù)，只是代理用戶同時(shí)向多個(gè)搜索引擎提交查詢，將各個(gè)搜索引擎的查詢結(jié)果通過一定的策略規(guī)整后返回給用戶。目前，這個(gè)領(lǐng)域也在不斷發(fā)展之中。

　　(二)信息發(fā)現(xiàn)服務(wù)的分類及技術(shù)

　　Internet上的信息發(fā)現(xiàn)模式可以分為兩類：一類是基于數(shù)據(jù)組織提供用戶瀏覽。數(shù)據(jù)組織是指人工參與下的如何使信息相關(guān)聯(lián)的過程，通常是將數(shù)據(jù)排序和組織成有向圖。如FTP文件系統(tǒng)中的層次目錄，Gopher中的菜單條目等。用戶可以使用相應(yīng)的瀏覽工具來瀏覽和搜索資源空間。這種方法的有效性依賴于如何有效地組織數(shù)據(jù)空間，Internet上數(shù)據(jù)量如此之大，保持一個(gè)良好的數(shù)據(jù)組織是非常困難的。另外，由于不同的用戶有不同的需求，何種數(shù)據(jù)有用，如何有效地組織等，都是很難確定的。

　　另一類信息發(fā)現(xiàn)系統(tǒng)是基于搜索的。一般是用戶提供有關(guān)資源的描述，由信息發(fā)現(xiàn)系統(tǒng)自動(dòng)定位。這種方法能較好的適應(yīng)數(shù)據(jù)的增長，應(yīng)用也越來越普遍。

　　從系統(tǒng)實(shí)現(xiàn)來看，基于搜索的信息發(fā)現(xiàn)又可以分為兩類：一類是基于服務(wù)器的搜索工具，另一類是基于客戶機(jī)的搜索工具。

　　基于服務(wù)器的搜索工具由軟件自動(dòng)地在網(wǎng)上發(fā)現(xiàn)資源，把搜索的結(jié)果保存必要的信息，并建立索引供用戶查詢。一般，這類系統(tǒng)可以分為收集和檢索兩個(gè)子系統(tǒng)。收集子系統(tǒng)以一定的策略引導(dǎo)信息的發(fā)現(xiàn)并處理信息的更新，檢索子系統(tǒng)則負(fù)責(zé)使用戶能快速有效地利用收集到的信息，其特點(diǎn)是提供服務(wù)，被動(dòng)地接受用戶查詢。

　　基于客戶機(jī)的搜索工具是由客戶方按照用戶事先定義的信息檢索要求，在發(fā)現(xiàn)滿足要求的信息或指定的信息發(fā)生改變時(shí)主動(dòng)通知用戶。用戶無需反復(fù)搜索所需信息，減少了用戶檢索信息的時(shí)間。但往往由于客戶機(jī)能力的限制，對于龐大的Internet只能搜尋極少的部分，而且速度較慢，如果許多用戶使用，則對網(wǎng)絡(luò)資源消耗比較大。

　　隨著Internet網(wǎng)上的數(shù)據(jù)量呈指數(shù)增長，為了達(dá)到適當(dāng)?shù)男阅芤螅畔l(fā)現(xiàn)服務(wù)以及它們的數(shù)據(jù)必須在成百上千個(gè)網(wǎng)絡(luò)上加以復(fù)制。以Internet的News系統(tǒng)為例，News管理的是高度動(dòng)態(tài)(用戶可以隨時(shí)向News發(fā)消息)，弱一致性，(一個(gè)用戶的文章在一段時(shí)間后才能被其它用戶響應(yīng))，數(shù)據(jù)量大(可以達(dá)到千兆字節(jié))的數(shù)據(jù)，然而由于News有數(shù)千個(gè)副本服務(wù)器，對用戶查詢的響應(yīng)時(shí)間卻在幾秒之內(nèi)。與此形成對比的是Archie服務(wù)，Archie管理的數(shù)據(jù)要少得多(150MB)，響應(yīng)時(shí)間卻可能會(huì)長達(dá)15分鐘。這是因?yàn)锳rchie在Internet上只有30多個(gè)副本。所以采用分布式系統(tǒng)中的多副本技術(shù)、分布協(xié)同技術(shù)[1]是建立一個(gè)擴(kuò)展性強(qiáng)、可用性高、響應(yīng)時(shí)間合理并具有良好的信息定位能力的信息發(fā)現(xiàn)系統(tǒng)的重要技術(shù)傾向。

　　小編推薦優(yōu)秀電子期刊　《網(wǎng)絡(luò)安全技術(shù)與應(yīng)用》網(wǎng)絡(luò)技術(shù)期刊征稿

　　期刊信息：《網(wǎng)絡(luò)安全技術(shù)與應(yīng)用》雜志成立于2003年，先由中華人民共和國公安部主管、中國人民公安大學(xué)出版社主辦。從2009年起，本刊改由中華人民教育部主管，北京大學(xué)出版社主辦，是國內(nèi)網(wǎng)絡(luò)安全技術(shù)與應(yīng)用領(lǐng)域行業(yè)指導(dǎo)性科技月刊，國內(nèi)外公開發(fā)行。本刊系“三高兩強(qiáng)”刊物，即信息量高、學(xué)術(shù)水平高、技術(shù)含量高；專業(yè)性強(qiáng)、應(yīng)用性強(qiáng)。

上一篇：論在軟件項(xiàng)目管理中成本估算如何進(jìn)行

下一篇：EI刊發(fā)淺析非Access數(shù)據(jù)庫在VB中的編程應(yīng)用

相關(guān)論文推薦

熱度：185℃電子技術(shù)軟件工程師評職范文淺談
熱度：140℃軟件工程師論文數(shù)據(jù)挖掘技術(shù)對軟
熱度：198℃信息工程論文淺談?dòng)?jì)算機(jī)網(wǎng)絡(luò)信息
熱度：127℃中文核心期刊論文發(fā)表軟件產(chǎn)品個(gè)
熱度：133℃電子論文刊發(fā)淺析局域網(wǎng)組建與應(yīng)
熱度：84℃計(jì)算機(jī)論文發(fā)表蜜罐信息采集技術(shù)
熱度：101℃軟件盜版的法經(jīng)濟(jì)學(xué)分析
熱度：174℃軟件開發(fā)相關(guān)課程項(xiàng)目式教學(xué)研究
熱度：194℃小論文發(fā)表期刊云計(jì)算的電網(wǎng)企業(yè)
熱度：133℃Akima 算法及最小二乘法在動(dòng)態(tài)稱重

論文指導(dǎo) >

SCI期刊推薦 >

論文常見問題 >

SCI常見問題 >

09-02推薦幾本吉林省的cssci期刊...
05-07sci論文審核期長嗎...
10-31sci二區(qū)可以讀博嗎...
06-28sci論文格式有什么要求...
09-15sci論文哪些作者晉升有用...
04-09不知道怎么投稿sci期刊...
01-15發(fā)表sci論文的作者該如何...
08-19《Biomedical and Environmental...
06-03CSSCI和ISTP哪個(gè)級別高...
06-03sci論文哪個(gè)作者負(fù)責(zé)修改...
03-26農(nóng)業(yè)裝備應(yīng)用智能技術(shù)相...
08-02什么樣的論文是合格的S...

国产亚洲精品91-国产亚洲精品aa在线观看-国产亚洲精品aa在线看-国产亚洲精品xxx-国产亚洲精品不卡在线

CERNET分布式中英文WWW信息發(fā)現(xiàn)系統(tǒng)設(shè)計(jì)刊發(fā)論文