網絡輿情的采集獲取和處理

2021-4-10 | 互聯網

1我國網絡輿情發展現狀及分析

據第29次中國互聯網絡發展狀況統計顯示：截至2011年12月底，中國網民規模突破5億，達到5.13億，全年新增網民5580萬。

互聯網普及率較上年底提升4個百分點，達到38.3%。中國手機網民規模達到3.56億，占整體網民比例為69.3%，較上年底增長5285萬人。家庭電腦上網寬帶網民規模為3.92億，占家庭電腦上網網民比例為98.9%。農村網民規模為1.36億，比2010年增加1113萬，占整體網民比例為26.5%。2011年，網民平均每周上網時長為18.7個小時，較2010年同期增加0.4小時。2011年中國網民即時通信使用率上升較快，增至80.9%。同時，許多傳統交流溝通類應用的用戶規模出現萎縮：電子郵件使用率從2010年的54.6%降至47.9%，用戶量減少392萬人；論壇/BBS使用率則由32.4%降至28.2%，用戶量也略有減少。隨著網絡的應用普及，網絡輿情反映已經逐漸取代了傳統的輿情交互途徑，成為了社會大眾對現實社會的真實情感反映。在當前我國經濟快速發展，社會轉型的關鍵時期，隨著經濟社會文化的發展，社會利益關系更趨多樣化、復雜化，人們的思想意識也更加多元化、獨立化，往往一些問題一經網絡討論傳播，就會立即引起廣大網民的關注，繼而形成網絡輿情熱點，并引起網民強烈的反響和激烈的討論。

2網絡內容控制的技術方向

近年來，國際上開發的網絡輿情監控產品種類繁多，最為常見的是以內容分級和過濾為技術方向的產品，其作用類似“電子保安”。麻省理工學院所屬W3C（WorldWideWebConsortium）推動了PICS（PlatformforInternetContentSelection）技術標準協議，完整定義了網絡分級的檢索方式。以PICS為核心的RSAC研發，例如RSACI（RSAContheInternet）分級系統，以網頁內容中呈現出性（Sex）、暴力（Violence）、不雅言論（Language）或裸體（Nudity）表現程度等四個維度進行相應管控。作為美國過濾軟件的代表CyberPatrol，用戶可以對其中監控對象的名單等內容進行修改。政府部門通常也訂立阻止用戶訪問的“互聯網網址清單”，以實現不良信息的過濾和篩選。

目前，我國參照國際上網絡內容控制服務和軟件，形成了以下幾個網絡內容管控的技術方向：

1）過濾/屏蔽技術：（1）使用統一資源定位器（URL）列表的服務器端過濾；（2）使用URL列表的客戶端過濾；（3）使用文本內容分析的過濾（包括服務器端和客戶端）。2）標識和分級系統：（1）第一方標識/分級；（2）第三方標識/分級；（3）互聯網內容選擇平臺（PICS），該平臺結合了第三方分級和用戶自行分級兩種方式。3）年齡認證系統：（1）基于信用卡的年齡認證系統；（2）基于獨立發出的ID（Identification）的年齡認證系統。4）新型頂級域名（TLD）/分區：（1）為對未成年人有害的內容建立的新型TLD，如.xxx或.adult，表示定位于該域名的網頁上的內容（以及來自于該域名的電子郵件）是對未成年人有害的內容；（2）為無害于未成年人的內容建立新型ＴＬＤ，如kids等，表示定位于該域名網頁上的內容（以及來自于該域名的電子郵件）一般被視為適合所有未成年人。這兩項技術雖具可行性，但目前尚未投入使用。作為一種替代性辦法，可以建立一種新的次級域名（如．us．kids），這種域名不需要ICANN對現有頂級域名系統做出調整（；3）通過分配一套新的IP地址（新的IP協議——IPv6，尚未廣泛應用）建立網上“安全區”，任何在該IP地址范圍內的內容可視為“安全區域”或“灰色區域”內容，屬于無害信息或既無益也無害于未成年人的信息。5）監控技術：（1）監督和限時技術；（2）實時內容監督/屏蔽方法，可用于不適用過濾技術的網絡傳播領域。6）安全空間（Greenspaces）：這是一種封閉系統，只允許訪問系統管理員選定的內容，不能訪問系統之外的網站。相關的網絡輿情監管部門及行業自律組織應該在考慮公民隱私權、網絡言論自由、維護網絡秩序等合理因素的基礎上，在按比例、遵循相關法律法規的前提下考慮采取一種或幾種技術，審核用戶的真實注冊信息、言論內容的合法性以確保對網絡輿情的合理有序監管。

3網絡輿情采集與獲取技術

3.1網站定向采集

網站定向采集是實時發現互聯網上新出現的信息是否包含用戶關注的信息，通過周期性地發送HTTP請求，模擬用戶網頁瀏覽行為，掃描相關網站URL列表，以實現對關注站點的實時采集，通過鏈接簽名技術和鏈接比對分析技術來判斷所關注的網頁是否已進行了信息更新，對出現更新的頁面重新下載并存入頁面信息庫，若無更新，則設定周期進行下一輪的掃描過程。

通過頁面內容分析技術對下載到的更新頁面信息進行分析和處理，若該信息符合信息報警提示的條件，則進行報警提示處理。

采集周期和采集URL列表可以由用戶自行設定，周期越短，掃描頻率越高，對于信息的更新就越快，實時性更強。

3.2網絡垂直搜索

網絡垂直搜索可以實現從網絡上自動收集與監控專業領域相關的Web網頁數據。同時，網絡垂直搜索能夠更高效地收集相關信息，也能對這些信息的更新做出更及時的響應。

垂直搜索引擎僅專注于某一領域和主題，并能夠對該網頁的主題相關度進行準確預測，優先下載相關度高的網頁，從而提高“收獲比”和網絡帶寬利用效率。并且，可以通過聚焦爬蟲和監控技術，建立一個大型的網絡信息監控系統，包括對官方媒體新聞的Web站點上發布的新聞和代表大眾民意的博客文章及在線論壇的監控，實現自動化的收集、存儲、整合和處理流程，包括數據的即時可視化處理，這些均可以為開源信息數據的處理提供豐富的數據平臺。

3.3網絡聚焦爬蟲

網絡聚焦爬蟲是實現全網數據自動采集的主要工具之一，主要負責從互聯網上爬取和下載與主題相關的網絡資源。筆者建議在原有普通爬蟲基礎上，對其功能進行擴充，能夠及時、有效地抓取與主題相關的網絡資源。聚焦爬蟲從組成上可分為領域相關初始URL種子集、頁面抓取模塊、主題相關性分析模塊以及URL查重與頁面下載模塊等。

SCI期刊領域

今日更新

隨機閱讀

導航列表

熱門文章

鏈接

国产亚洲精品91-国产亚洲精品aa在线观看-国产亚洲精品aa在线看-国产亚洲精品xxx-国产亚洲精品不卡在线

網絡輿情的采集獲取和處理