深網搜索引擎_第1頁
已閱讀1頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、深網搜索引擎的主要功能和關鍵技術研究深網搜索引擎的主要功能和關鍵技術研究摘要:摘要:深網又可稱為DeepWeb。在此基礎上發(fā)展起來的深網搜索引擎逐漸成為互聯網應用的一大趨勢,特別是針對學術研究者有重要意義。本文首先簡單介紹了深網搜索引擎的研究背景和意義,然后從主要功能方面進一步加深對深網的了解,然后詳細介紹了深網搜索引擎的關鍵技術,最后得出結論。關鍵詞:關鍵詞:DeepWeb,搜索引擎,接口識別,數據庫分類,數據庫選擇,查詢接口集成,查

2、詢結果抽取1研究背景和意義研究背景和意義用戶在互聯網上查詢信息時經常遇到的問題是重復信息太多、信息太陳舊更新緩慢、得到的有用信息太少、信息查找不方便。所以如何滿足網民的搜索要求是當前搜索引擎研究的重點之一,由此出現了幾種搜索引擎創(chuàng)新技術,如語義搜索、知識圖譜、深網搜索。對于互聯網上可獲得的但傳統(tǒng)的搜索引擎由于技術限制不能搜尋到或者經過慎重考慮后不愿意作索引的那些文本網頁、文件或其他高質量、權威的信息,中文又有“隱形網絡”、“看不見的網絡

3、”、“深網”、“暗資源”等說法。1994年,美國學者Dr.JillEllswth首先使用“看不見的網絡”InvisibleWeb概念,但沒有引起重視。直到2000年以后,隨著Web數據庫的廣泛應用,才有相關的研究論文及成果發(fā)表,并迅速引發(fā)了熱烈的討論和研究。深層網的研究目前主要分為兩個方向:1)深層網的規(guī)模、分布和結構的調查和研究。美國BrightPla公司,專門從事數據整合和企業(yè)信息分析,該公司開發(fā)了深網檢索平臺工具DQM(DeepQ

4、ueryManager)。在2000年7月,BrightPla公司對深網的規(guī)模和相關性進行了研究,并將其調查白皮書發(fā)布在互聯網站點上。UIUC大學在2004年對深網做了一次較為準確的估算。2)深層網搜索引擎系統(tǒng)關鍵技術的研究。目前主要的關鍵技術有DeepWeb接口識別方法、信息提取算法、數據庫選擇算法、DeepWeb集成查詢接口生成方法。深網資源內容豐富,專業(yè)性較強,質量高。因此了解深網主要功能并研究其關鍵技術,從而采集互聯網上巨大的信

5、息資源,為人們提供方便的信息獲取方法,具有比較重要的意義。2深網搜索引擎的主要功能深網搜索引擎的主要功能搜索引擎的英文為searchengine。搜索引擎是一個對互聯網信息資源進行搜索整理和分類,并儲存在網絡數據庫中供用戶查詢的系統(tǒng),包括信息搜集、信息分類、用戶查詢三部分。深網搜索引擎也是搜索引擎的一種,但是其從DeepWeb數據庫中獲得數據的過程與普通搜索引擎有所不同,如下圖,DeepWeb是通過填寫表單,并提交到后臺服務器查詢數據庫

6、后,以動態(tài)頁面的形式返回信息。在Deepweb數據集成領域存在著許多的研究問題,已有的工作主要集中這些問題上:web數據庫的發(fā)現、查詢接口模式的抽取、web數據庫的分類、查詢接口的集成、查詢的轉換、查詢結果的抽取、查詢結果的注釋等有些問題已經得到了較多的研究,而有些問題還處在研究的初步階段甚至還沒有相關的報道。為了給出一個全面的認識,我們提出了Deepweb數據集成框架,該框架共分為三個主要的模塊,如下圖,(2)Web數據庫的分類。在查

7、詢接口上提交查詢是獲取web數據庫信息的主要途徑,對web數據庫的分類實質上是對查詢接口的分類。分類方法共分為兩類:指導方式和非指導方式。針對應用意義最廣泛的電子商務的web數據庫提出了一種有效的分類方法。這種方法是一種非指導的方式,主要利用了電子商務的web數據庫的查詢接口所在頁面上的可用特征信息,包括接口中出現的頻繁詞和商品的價格特征。還有一種指導方式的分類方法,根據統(tǒng)計特性認為查詢接口的模式信息可以作為對web數據庫分類的依據。基

8、于這樣的統(tǒng)計結論,他們提出通過建立概率模型來表示所有可能出現的屬性在每個領域中出現的可能性。對于一個給定的查詢接口,考察其屬性集合,在這個模型上計算出這個查詢接口與每個領域的相似性。前面兩種方法都是基于查詢接口的特征信息實現對web數據庫的分類,另外還提出了兩種利用提交樣本查詢來實現分類的方法。從返回查詢結果數量來分析一個web數據庫屬于哪個領域;從分析返回文本的內容來確定一個web數據庫的領域。這兩個工作針對的不是結構化信息,而是文本

9、信息,但其通過查詢進行分類的思想可以為web數據庫的分類所借鑒。(3)查詢接口的集成。對查詢接口自動集成的實現方式上可分為兩大類:一類屬于局部方式,是基于給定的要進行集成的查詢接口集合,分析屬性的隱藏信息,特別是語義信息,在它們之間作屬性的匹配,得到一個新的全局接口;另一類屬于整體方式,是基于某個確定的領域通過對這個領域范圍內大量接口的處理,發(fā)現這個領域上一般的查詢接口,如利用統(tǒng)計模式匹配的方案。3.2查詢處理查詢處理當用戶在集成查詢接

10、口上填寫并提交查詢時,要同時從多個web數據庫中獲取符合該查詢的結果,并把這些異構的數據以統(tǒng)一的模式存儲或展現,這就是對Deepweb數據查詢的處理。Web數據庫的選擇。一種基于直方圖的Top—N的選擇方法。該方法分為兩步:第一步是判斷數據庫與特定查詢之間的相關性;第二步是確定最適合提交查詢的數據庫和從返回的結果中選擇最合適的記錄。算法實驗表明,這種計算Top—N查詢的方法是非常有效的。還有一種是基于動態(tài)學習的Web數據庫選擇算法。其算

11、法流程如下圖,3.3查詢結果的處理查詢結果的處理查詢結果的處理是為了把從各個web數據庫返回的表現形式不同的結果在一個統(tǒng)一的模式下展現給用戶。目前主要的工作集中在如何從查詢結果頁面抽取出結構化的查詢結果。查詢結果的抽取。1)頁面抽取語言。它是指特定設計的語言,幫助使用者實現抽取過程。抽取是用手工的方法編寫程序來實現的。抽取過程是基于過程化的程序,但是抽取結果依賴于文檔的結構。2)基于DoM樹的工具。其依賴于Html頁面的內在的結構特征。

12、在抽取之前將頁面轉化成DOM樹,以反映頁面標簽的層次結構,然后自動或半自動地抽取規(guī)則在此樹上應用。3)抽取規(guī)則推導工具。其是從給定的訓練樣本中產生基于分隔符的抽取規(guī)則,更適合Html文檔,但需要大量的樣本頁面。4)基于模式的工具。為感興趣的對象給定一個目標結構盡量使頁面上的數據部分符合這個結構,通過圖形界面與用戶交互,由用戶指出頁面上感興趣的區(qū)域。由于需要和用戶交互,從自動化程度上來講屬于半自動抽取工具。4結論與展望結論與展望本文對最近

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論