??? 面對(duì)輿情數(shù)據(jù)的收集分析,首先我們要考慮到網(wǎng)上龐大的信息量,僅依靠人工的方法難以應(yīng)對(duì)網(wǎng)上海量信息的收集和處理,需要加強(qiáng)相關(guān)信息技術(shù)的研究,形成一套自動(dòng)化的網(wǎng)絡(luò)輿情分析系統(tǒng),及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)輿情,由被動(dòng)防堵,化為主動(dòng)梳理、引導(dǎo)。這樣的系統(tǒng)應(yīng)該具備以下功能:
首先是輿情分析引擎。這是輿情分析系統(tǒng)的核心功能,包括:
1、熱點(diǎn)話(huà)題、敏感話(huà)題識(shí)別,可以根據(jù)新聞出處權(quán)威度、評(píng)論數(shù)量、發(fā)言時(shí)間密集程度等參數(shù),識(shí)別出給定時(shí)間段內(nèi)的熱門(mén)話(huà)題。利用關(guān)鍵字布控和語(yǔ)義分析,識(shí)別敏感話(huà)題。
2、傾向性分析,對(duì)于每個(gè)話(huà)題,對(duì)每個(gè)發(fā)信人發(fā)表的文章的觀點(diǎn)、傾向性進(jìn)行分析與統(tǒng)計(jì)。
3、主題跟蹤,分析新發(fā)表文章、貼子的話(huà)題是否與已有主題相同。
4、自動(dòng)摘要,對(duì)各類(lèi)主題,各類(lèi)傾向能夠形成自動(dòng)摘要。
5、趨勢(shì)分析,分析某個(gè)主題在不同的時(shí)間段內(nèi),人們所關(guān)注的程度。
6、突發(fā)事件分析,對(duì)突發(fā)事件進(jìn)行跨時(shí)間、跨空間綜合分析,獲知事件發(fā)生的全貌并預(yù)測(cè)事件發(fā)展的趨勢(shì)。
7、報(bào)警系統(tǒng),對(duì)突發(fā)事件、涉及內(nèi)容安全的敏感話(huà)題及時(shí)發(fā)現(xiàn)并報(bào)警。
8、統(tǒng)計(jì)報(bào)告,根據(jù)輿情分析引擎處理后的結(jié)果庫(kù)生成報(bào)告,用戶(hù)可通過(guò)瀏覽器瀏覽,提供信息檢索功能,根據(jù)指定條件對(duì)熱點(diǎn)話(huà)題、傾向性進(jìn)行查詢(xún),并瀏覽信息的具體內(nèi)容,提供決策支持。
其次是自動(dòng)信息采集功能?,F(xiàn)有的信息采集技術(shù)主要是通過(guò)網(wǎng)絡(luò)頁(yè)面之間的鏈接關(guān)系,從網(wǎng)上自動(dòng)獲取頁(yè)面信息,并且隨著鏈接不斷向整個(gè)網(wǎng)絡(luò)擴(kuò)展。目前,一些搜索引擎使用這項(xiàng)技術(shù)對(duì)全球范圍內(nèi)的網(wǎng)頁(yè)進(jìn)行檢索。輿情監(jiān)控系統(tǒng)應(yīng)能根據(jù)用戶(hù)信息需求,設(shè)定主題目標(biāo),使用人工參預(yù)和自動(dòng)信息采集結(jié)合的方法完成信息收集任務(wù)。
第三是數(shù)據(jù)清理功能。對(duì)收集到的信息進(jìn)行預(yù)處理,如格式轉(zhuǎn)換、數(shù)據(jù)清理,數(shù)據(jù)統(tǒng)計(jì)。對(duì)于新聞評(píng)論,需要濾除無(wú)關(guān)信息,保存新聞的標(biāo)題、出處、發(fā)布時(shí)間、內(nèi)容、點(diǎn)擊次數(shù)、評(píng)論人、評(píng)論內(nèi)容、評(píng)論數(shù)量等。對(duì)于論壇BBS,需要記錄帖子的標(biāo)題、發(fā)言人、發(fā)布時(shí)間、內(nèi)容、回帖內(nèi)容、回帖數(shù)量等,最后形成格式化信息。條件允許時(shí),可直接針對(duì)服務(wù)器的數(shù)據(jù)庫(kù)進(jìn)行操作。
輿情分析系統(tǒng)的核心技術(shù)在于輿情分析引擎,涉及的最主要的技術(shù)包括文本分類(lèi)、聚類(lèi)、觀點(diǎn)傾向性識(shí)別、主題檢測(cè)與跟蹤、自動(dòng)摘要等計(jì)算機(jī)文本信息內(nèi)容識(shí)別技術(shù)。這些技術(shù)一向是國(guó)內(nèi)外信息工作者關(guān)注的領(lǐng)域。文本檢索會(huì)議(TREC)、情報(bào)檢索專(zhuān)業(yè)組會(huì)議(SIGIR)、文本檢測(cè)與跟蹤會(huì)議(TDT)等都是展示此類(lèi)技術(shù)最新研究成果的最主要的國(guó)際會(huì)議和論壇。其中基于關(guān)鍵詞統(tǒng)計(jì)分析方法的技術(shù)相對(duì)比較成熟,但在其有效性方面還有很大的提高空間。
近年來(lái),專(zhuān)家學(xué)者一直在研究更加有效的方法,其中基于語(yǔ)義的內(nèi)容識(shí)別方法是當(dāng)前研究的重中之重,雖然也取得了較大進(jìn)展,但仍存在很多問(wèn)題和困難需要克服。為了增加我國(guó)網(wǎng)絡(luò)信息控制能力,我們必須迎難而上,加強(qiáng)相關(guān)技術(shù)的研究。
恩訊名片!