隨著新媒體的不斷發展,對熱點輿情監測的需求越來越緊迫,根據水利部門工作特點和遼寧省水利信息化建設的實際情況,開發了利用搜索引擎技術、文本處理技術、知識管理方法,通過對互聯網+海量信息自動獲取、提取、分類、聚類、主題監測、專題聚焦,實現用戶對遼寧水利網絡輿情監測和熱點事件專題追蹤的水利輿情信息監控系統。
《水利水電科技進展》是由河海大學主辦的中國科學引文數據庫(CSCD)核心期刊、中文核心期刊、中國科技核心期刊、RCCSE核心期刊,近年來已連續多次獲全國水利水電系統優秀期刊、華東地區優秀期刊、江蘇省優秀期刊等稱號。該刊為雙月刊,是以反映水利水電科技進展和動態為主的科技期刊。
1背景
隨互聯網技術不斷發展,繼報紙、廣播、電視之后網絡媒體已被公認為第四大媒體,更有趕超和替代前者之趨勢成為反映社會輿情的主要載體之一。網絡輿情形成迅速,傳播范圍廣泛,其中一些輿情帶有網民的主觀性,未經驗證直接發布于網絡上對社會影響巨大。水利部門作為服務性行業與大眾生活息息相關,其新聞一直都是網絡輿論關注的焦點,及時發現并處理好水利輿隋信息是對新時期水利工作的新要求。
本著對國家和人民負責的態度,遼寧省水利輿隋信息監控系統應運而生,以此建立高標準、起點高的全天候全方位網絡信息監控,以先進的技術手段對境內外互聯網網站的內容進行監測,變事后處理為事前控制,為決策層全面掌握輿情動態,做出正確輿論引導,提供分析依據。
2系統建設目標
本系統以信息采集為核心,運用內容管理、知識管理、信息分類,完成水利輿情監控和熱點追蹤等功能需求,實現對互聯網輿情中遼寧水利方面信息的監管、監測,即時、實時發現信息。
建設目標包含以下幾個方面:
1)監測整個互聯網內關于遼寧水利的相關報道,及時發現不良信息。
2)監測地方媒體關于遼寧水利的評論或負面報道。
3)及時了解掌握最新重大事件。準確收集關注需要的輿情信息。
4)借助技術手段,為早發現、早知道提供幫助。
5)追溯查詢網絡重點消息內容的傳播途徑。
3系統工作流程
通過系統的采集與分析功能對互聯網有關報道或評論遼寧水利的各個方面的新聞或敏感言論做到及時返現、及時處理。
1)信息采集:完成互聯網中水利輿情的信息實時監測、采集、內容提取及排重;
2)信息處理:實現對從互聯網中抓取的水利輿情信息進行自動分類聚類、主題檢測、專題聚焦等;
3)信息服務:將采集并分析整理后的輿情信息提供輔助處理信息服務,如提供輿情信息簡報服務、追蹤已發現的輿情焦點等。
系統既支持指定網站新聞、博客、論壇、貼吧的采集監控,又支持通過關鍵詞對整個互聯網進行監控。(包括論壇、博客、貼吧)
4系統關鍵技術
1)信息抽取技術
網頁是組成互聯網的基本數據單位元,是各種面向互聯網的應用系統最原始的數據源。網頁內部含有大量噪音信息,如何從網頁中有效地提取有價值的內容成為影響數據處理效果的關鍵。
2)重復識別技術
采用動態詞典,將詞編碼成數字ID序列,為了控制動態詞典容易膨脹,又設計了詞典溶解技術,保證很高的訪問效率。
3)內存池技術
采用了內存池,先在內存中建索引,再寫至磁盤,數據在內存中進行二次壓縮,保證了內存新能優化。
4)超鏈分析技術
采集最主要的依據就是URL,而任何一個網頁中又包含了若干互相的鏈接,這就對URL尋址帶來了很大程度上的干擾性,所以系統采集到第一個頁面后就把相關的信息進行了智能識別。
5)智能化處理技術
智能化處理技術要解決的核心問題是計算機對信息“內容”的理解。
5系統組成結構
整個系統分為四個主要子系統。分別是信息采集系統,智能分析系統,信息檢索系統,數據發布系統。
1)信息采集系統
主要用于實時監控指定互聯網上各類新聞站點的敏感信息、以及有害信息的網站。模塊可以自動執行,無須人工干預。根據網站的特點,將網站分為重點監控和普通監控,對于重點監控系統采取循環搜索的方式,對于普通監控只要在模塊中,設定好啟動、結束的時間,時間一到搜索引擎服務器會自行啟動搜索任務。搜索引擎將按照多種搜索策略并提供各種方式各種邏輯組合查詢(包含“and”、“or”、“not”、“(”、“)”的組合邏輯關系及“一”、“%”等通配符)統計和處理。系統支持簡體和繁體同時查詢系統,提供各種報表打印功能。系統支持新聞、博客、論壇、貼吧的采集及監控。
2)智能分析系統
智能分析系統是整個系統的關鍵組成部分,其主要作用是對信息采集系統采集下來的數據,進行自動智能分析。自動分析功能包括:自動生成熱點,自動區分正負面信息,自動分類,自動標記重復(轉載)文章,自動生成統計圖表等功能。可以根據發表內容出處權威度、時間、密集程度等參數,判斷出給定時間段內的熱門話題。使用內容主題詞組和回帖數進行綜合語義分析,識別敏感話題。判斷新采集到的文章、帖子的話題是否與已有內容相同,根據文檔內容間的相關程度進行分組歸并。
3)信息檢索系統
對采集后的信息進行加工處理,按內容分類、關鍵詞(查詢方式又分為標題查詢、關鍵詞查詢、正文查詢),時間范圍進行檢索查詢,以便獲取最需要的關鍵信息。
4)數據發布系統
數據發布系統為整個系統的發布界面,也就是對智能分析系統生成的數據進行發布。主要包括:采集數據統計,領導人(名人)信息,地區信息,趨勢統計,熱點新聞,熱點帖子,熱點博客,分類信息,個性化追蹤,簡報系統,文章細覽頁面,系統管理等等。
6結束語
本套系統區別于公眾搜索引擎采用覆蓋所有中文搜索引擎,批量自動更新,系統配備自動過濾功能對海量信息進行預處理,達到近似用戶所要的內容,只需在一個界面中就可以瀏覽自己所需的內容,從而對用戶關心的突發事件進行及時處置,為決策者提供有力的支持,該系統的開發使用對遼寧省水利輿情監管工作具有重要意義。
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >