??? 互聯(lián)網(wǎng)時代,網(wǎng)絡(luò)輿情作為一種具有傳播速度快、影響面廣的信息,其中有意識或者無意識表達出來的民情民意越來越值得研究。本文將介紹一種利用情報學(xué)領(lǐng)域中的信息組織理論與方法,對網(wǎng)絡(luò)輿情的傳播機制進行深化研究與應(yīng)用的方法,從而幫助相關(guān)部門更好的把握民情、體貼民意、傾聽民聲。
研究中借鑒和融合了社會學(xué)、新聞傳播學(xué)、統(tǒng)計學(xué)、管理學(xué)等方面的研究視角和研究方法,但更多的是從情報學(xué)特有的研究方法和范式出發(fā),關(guān)注信息本身,并且以技術(shù)手段作為支撐,充分利用計算機和互聯(lián)網(wǎng)技術(shù)。具體而言,輿情研究是情報學(xué)研究領(lǐng)域中信息采集、信息組織、信息分析方法的具體應(yīng)用。
一、基礎(chǔ)分析方法
輿情分析中涉及大量的相關(guān)技術(shù),比如事情檢測與跟蹤系統(tǒng)、自然語言處理特別是中文信息處理、數(shù)據(jù)挖掘等。具有情報學(xué)特點的研究方法主要有:
1.內(nèi)容分析法
內(nèi)容分析法是一種對文獻內(nèi)容作客觀系統(tǒng)的定量分析的專門方法,其目的是弄清或測驗文獻中本質(zhì)性的事實和趨勢,揭示文獻所含有的隱性情報內(nèi)容,對事物發(fā)展作情報預(yù)測。它實際上是一種半定量研究方法,其基本做法是把媒介上的文字、非量化的有交流價值的信息轉(zhuǎn)化為定量的數(shù)據(jù),建立有意義的類目分解交流內(nèi)容,并以此來分析信息的某些特征。
內(nèi)容分析法可以揭示文獻(包括保存的網(wǎng)頁)的隱性內(nèi)容,和輿情研究結(jié)合起來可以揭示網(wǎng)絡(luò)宣傳的技巧、策略,衡量互聯(lián)網(wǎng)內(nèi)容的可讀性,發(fā)現(xiàn)作者或者評論者的個人風(fēng)格,分辨不同時期不同環(huán)境的輿情特征,反映個人與團體的態(tài)度、興趣,揭示大眾關(guān)注的焦點等。
2.實證分析法
實證分析法是通過分析大量案例和相關(guān)數(shù)據(jù)后試圖得出某些結(jié)論的一種常見研究方法,比如社會調(diào)查法和網(wǎng)絡(luò)計量法等。
社會調(diào)查法是有目的、有計劃、有系統(tǒng)地搜集有關(guān)研究對象社會現(xiàn)實狀況或歷史狀況材料的方法,它可以用談話、問卷、個案研究、測驗或?qū)嶒灥瓤茖W(xué)方式,對有關(guān)社會現(xiàn)象進行有計劃的、周密的、系統(tǒng)的了解,并對調(diào)查搜集到的大量資料進行分析、綜合、比較、歸納,借以發(fā)現(xiàn)存在的社會問題,探索有關(guān)規(guī)律。
網(wǎng)絡(luò)計量法是將傳統(tǒng)信息計量方法應(yīng)用在Web分析上,就諸如語言、單詞、詞匯、頻次、作者特征、用戶行為等進行計量研究。這個是目前網(wǎng)絡(luò)輿情研究中數(shù)據(jù)分析的主要方向。
二、信息采集方法
網(wǎng)絡(luò)信息采集主要采用基于垂直搜索引擎的主題爬蟲技術(shù),對互聯(lián)網(wǎng)上的某類主題信息頁面全自動識別、分類、抓取,并能夠?qū)崿F(xiàn)網(wǎng)頁指紋消重和信息消重,同時對主題信息頁面進行去除無關(guān)信息和信息自動抽取,垂直引擎系統(tǒng)對某一領(lǐng)域的采集和提取具有較高的準(zhǔn)確性和較廣的信息查全率。
1.主題蜘蛛實現(xiàn)
主題蜘蛛實現(xiàn)主要包括兩方面內(nèi)容,一是主題搜索智能下載,二是互聯(lián)網(wǎng)上的反屏蔽策略。前者主要包括:蜘蛛爬行模塊、種子網(wǎng)站設(shè)定、URL處理模塊、主題確立模塊等,主要涉及技術(shù)有:web下載技術(shù)、智能更新搜索功能、爬行深度控制、智能下載模擬瀏覽器技術(shù)等。
2.主題相關(guān)判別
一般意義下的相關(guān)度通常是根據(jù)檢索詞在命中記錄中出現(xiàn)的次數(shù)(詞頻)和位置,以及不同檢索詞的相鄰程度來計算的。網(wǎng)絡(luò)輿情研判主要關(guān)注的是網(wǎng)絡(luò)新聞、論壇帖子、微博、微信等網(wǎng)絡(luò)素材的相關(guān)度問題,其中借鑒了大量傳統(tǒng)文獻中關(guān)于相關(guān)度計算的標(biāo)準(zhǔn)和算式。
主要涉及技術(shù)有:自動主題網(wǎng)站識別、種子庫動態(tài)維護和自動擴展更新、網(wǎng)頁消重等。其中,網(wǎng)頁消重可主要采取以下策略:
1)根據(jù)URL列表進行消重。在抓取時不斷提取新的URL,判斷其是否存在于“已訪問的URL列表”中;
2)網(wǎng)頁的指紋去重技術(shù)。對已訪問的頁面采用加密算法獲得該網(wǎng)頁具有唯一性的指紋信息。
3)基于領(lǐng)域知識庫的去重規(guī)則。根據(jù)實際的應(yīng)用領(lǐng)域,可以制定更加具體的消重規(guī)則,進行信息消重。對具有標(biāo)識性的屬性信息組合,如輿情中的敏感詞、熱點問題等具有唯一性的屬性值生成其指紋信息,若指紋信息重復(fù),則根據(jù)“互補”策略和投票規(guī)則對現(xiàn)有信息進行補充或更改,從而能夠在保證信息完整性和準(zhǔn)確性的同時,達到信息消重的目的。
三、信息處理技術(shù)
1.信息預(yù)處理
信息預(yù)處理是對采集到的網(wǎng)頁進行初步的加工和處理,為后繼輿情關(guān)鍵信息抽取和輿情內(nèi)容分析奠定基礎(chǔ)。
基于統(tǒng)計的信息預(yù)處理一般忽略文本的語言學(xué)上的特征,將文本作為特征項集合來看,利用加權(quán)特征項構(gòu)成向量進行文本表示,利用詞頻信息對文本特征進行加權(quán),比如向量空間模型。
基于規(guī)則的信息預(yù)處理是在定義元符號及演算規(guī)則的基礎(chǔ)上,根據(jù)字符串匹配,給出了一個互聯(lián)網(wǎng)信息文本的過濾模型,其核心語料庫包括詞庫和規(guī)則庫。
由于輿情是一類具有很強領(lǐng)域性和傾向性的信息,所以需要將統(tǒng)計與規(guī)則預(yù)處理技術(shù)相結(jié)合。除此之外,預(yù)處理環(huán)節(jié)還需要對網(wǎng)頁進行索引、儲存與統(tǒng)計。
2.輿情關(guān)鍵信息抽取
首先,需要進行網(wǎng)頁去噪。抓取下來的主題信息頁面往往存在著一定的噪音信息,如導(dǎo)航、廣告、版權(quán)信息、logo信息、javascript等。這些噪音信息對信息抽取的速度和質(zhì)量都有較大的影響,因此要先進行網(wǎng)頁凈化。
然后,利用智能節(jié)點識別技術(shù)自動識別出屬性信息標(biāo)示詞或滿足特定屬性值結(jié)構(gòu)的信息。其具有人工干預(yù)性少,不依賴網(wǎng)頁結(jié)構(gòu),高通用性特征,能夠準(zhǔn)確快速地抽取各種結(jié)構(gòu)的頁面信息。
最后,進行邏輯信息抽取。從邏輯意義層面上去理解主題頁面的信息內(nèi)容,而不依賴于信息頁面的結(jié)構(gòu)和信息頁面的語義。
3.輿情內(nèi)容主題聚類分析
主題聚類主要通過對文本、查詢式等聚類對象進行基于機器學(xué)習(xí)的主題分析,將聚類對象轉(zhuǎn)換為基于主題的表示形式,以達到降低特征空間維度的目的,然后以主題表示為基礎(chǔ)進行對象的聚類分析,最后得到基于主題的聚類結(jié)果描述。
【結(jié)語】我們對網(wǎng)絡(luò)輿情的分析是期望變堵為疏,變被動控制為主動引導(dǎo),真正通過輿情分析傾聽民聲,了解民意。同時提升政府信息管理能力,幫助有關(guān)部門更好地應(yīng)對網(wǎng)絡(luò)突發(fā)事件。通過對互聯(lián)網(wǎng)海量信息持續(xù)不斷的監(jiān)測與分析,從中提取有用的輿情信息,通過多種手段和渠道做輿論方向引導(dǎo),為構(gòu)建和諧的網(wǎng)絡(luò)環(huán)境盡一份力。
恩訊名片!