

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、隨著計算機和互聯網技術的發(fā)展,網絡已經成為資源數量最多、種類最全、規(guī)模最大的綜合信息庫,這些信息大致可分為兩類:結構化數據和非結構化數據,據統計,非結構化數據占有整個信息量的80%以上,在信息傳遞過程中,80%的時間是用來獲取信息,因此,如何從Web網上科學高效地獲取信息即是本文研究的意義所在。
XML數據庫技術和Web搜索引擎技術的發(fā)展為提高Web信息檢索特別是非結構化數據的檢索效率帶來了希望。因為XML數據庫技術提供了
2、信息存儲和管理的技術保障,而搜索引擎技術為Web信息檢索構建了操作平臺?;诖耍疚尼槍ML文檔數據管理技術及面向Web的分類檢索技術做了深入細致的研究。本文主要研究內容和創(chuàng)新性工作如下:
首先,綜述和分析了純XML數據庫和使能XML數據庫的管理技術及索引機制,在分析各種數據模型特點基礎上,研究討論了以關系數據庫作為存儲源、擴展XQuery作為數據模型的優(yōu)勢,通過對XQuery數據模型的擴展,提出了基于Schema模式約
3、束的XML數據存儲和索引結構SBXI,從用戶邏輯層面定義了XML文檔更新語言XUL,并應用Kweelt查詢系統和JAVA技術實現了文檔更新的關鍵技術。
然后,解決了XML網頁分類的關鍵技術一信息檢索模型問題。由于傳統的向量空間模型不能適用于XML文檔結構相似度比較,提出了基于Tree Miner算法的頻繁結構向量模型,構建了文檔特征矩陣的表示方法和相似度函數;并對該模型拓展,進一步提出頻繁結構層次向量模型,不僅挖掘XML文
4、檔的結構信息,同時抽取表征文檔內容的關鍵詞信息,提高了相似度量的準確率。通過對頻繁結構挖掘算法TreeMiner進行改進,使其更適合大文檔集合的頻繁結構挖掘,實驗證明基于頻繁模式的檢索模型具有很好的網頁分類效果。
最后,提出了分類檢索與全文檢索結合的二次檢索策略,從系統設計角度構架了以頻繁結構層次向量模型作為信息檢索模型、SBXI作為索引結構的基于主題分類的Web文獻全文檢索搜索引擎的系統結構,并討論了其主要構件的功能和工
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向檢索和分類的XML數據管理技術研究.pdf
- 面向WEB的XML數據管理技術研究.pdf
- 面向對象的XML數據管理技術研究.pdf
- 面向方面的XML數據管理技術研究.pdf
- 面向Web的XML檢索關鍵技術研究.pdf
- XML文檔檢索技術研究.pdf
- 基于XML面向Web的數據抽取技術研究.pdf
- 面向XML文檔集的檢索技術研究與系統實現.pdf
- 基于rdbms的xml數據管理技術研究
- 面向XML數據語義檢索關鍵技術研究.pdf
- XML數據管理關鍵技術研究.pdf
- xml數據管理技術
- XML數據管理中的結構查詢技術研究.pdf
- WEB數據管理與查詢技術研究.pdf
- XML文本文檔檢索技術研究.pdf
- 基于關系數據庫的XML數據管理技術研究.pdf
- 面向Web大規(guī)模移動對象軌跡數據管理與聚集技術研究.pdf
- 面向對象的XML數據管理系統的研究與實現——索引技術.pdf
- 基于XML的數據管理技術的研究.pdf
- 面向XML文檔的信息檢索研究與應用.pdf
評論
0/150
提交評論