摘 要
互聯(lián)網(wǎng)以其便捷、虛擬化、傳播快等特點(diǎn)使大眾更樂(lè)于通過(guò)網(wǎng)絡(luò)方式發(fā)表各自看法,形成網(wǎng)絡(luò)輿情。政府通過(guò)構(gòu)建網(wǎng)絡(luò)輿情系統(tǒng),及時(shí)了解社情民意,主導(dǎo)網(wǎng)絡(luò)輿情。本文從網(wǎng)絡(luò)輿情系統(tǒng)技術(shù)實(shí)現(xiàn)方面,介紹了輿情系統(tǒng)進(jìn)行輿情收集、分析、預(yù)警、報(bào)告的整個(gè)過(guò)程,詳細(xì)論述各個(gè)過(guò)程實(shí)現(xiàn)的關(guān)鍵技術(shù),從而為理解和構(gòu)建政府輿情監(jiān)控系統(tǒng)提供參考。
關(guān)鍵詞:網(wǎng)絡(luò)輿情;輿情監(jiān)控系統(tǒng);電子政務(wù)
[1] Realization of the government network monitoring system based on publicopinion
Mei Song
(Information and Network Center, Hubei PartyInstitute & Hubei Administration Institute , Wuhan 430022)
Abstract: People are more willing to expresstheir views through the network for its convenience, virtualization, spreadquickly.So It is easy to form a network public opinion. Through building anetwork monitoring system for public opinion, the government can keep abreastof public sentiment and lead the network of public opinion.Based on the implementation technology of government network monitoring system, thisarticle describes the whole process applications of the system and discusses indetail the key technologies of each process, so as to provide a reference for understandingand building the government network public opinion monitoring system.
Key words: Internet public opinion;Network public opinion monitoring system;E-government
一、我國(guó)網(wǎng)絡(luò)輿情現(xiàn)狀及對(duì)政府的影響
1.1網(wǎng)絡(luò)輿情現(xiàn)狀
近兩年網(wǎng)絡(luò)熱點(diǎn)事件爆發(fā)頻繁,主要有三個(gè)方面的原因:一是網(wǎng)民人數(shù)增長(zhǎng)迅速,據(jù)中國(guó)互聯(lián)網(wǎng)信息中心今年7月發(fā)布的第26次互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告顯示:截至2010年6月30日,中國(guó)網(wǎng)民規(guī)模已達(dá)到4.2億人,普及率達(dá)到31.8%,從而擴(kuò)大了網(wǎng)絡(luò)輿情形成的基礎(chǔ)。二是網(wǎng)絡(luò)的虛擬化、即時(shí)性、傳播快的特點(diǎn),使其成為社情民意的首選表達(dá)平臺(tái)。三是在世界金融危機(jī)的背景下,中國(guó)改革近30年經(jīng)濟(jì)增長(zhǎng)和社會(huì)轉(zhuǎn)型所積累的各種矛盾而引發(fā)的現(xiàn)實(shí)問(wèn)題傾向于通過(guò)網(wǎng)絡(luò)凸顯,如果控制不當(dāng)容易導(dǎo)致現(xiàn)實(shí)事件的激化態(tài)勢(shì)。2009年網(wǎng)絡(luò)熱點(diǎn)事件為數(shù)眾多。根據(jù)對(duì)五大網(wǎng)絡(luò)社區(qū)熱點(diǎn)事件發(fā)帖數(shù)量的統(tǒng)計(jì),發(fā)帖超過(guò)5000份的熱點(diǎn)事件有16項(xiàng)(見(jiàn)表1),其中發(fā)帖過(guò)萬(wàn)份的事件有5項(xiàng) [1]。[2]
表1:2009年度網(wǎng)絡(luò)熱點(diǎn)事件排行榜
| 事件/話題 | 天涯社區(qū) | 凱迪社區(qū) | 強(qiáng)國(guó)論壇 | 新浪論壇 | 中華網(wǎng) 論壇 | 合計(jì) |
1 | 湖北巴東縣鄧玉嬌案 | 5260 | 7390 | 2390 | 3086 | 7007 | 25133 |
2 | 重慶打黑風(fēng)暴 | 8790 | 2109 | 1345 | 1578 | 6157 | 19979 |
3 | 云南晉寧縣“躲貓貓”事件 | 4682 | 2536 | 598 | 5011 | 2151 | 14978 |
4 | 上海交通管理部門(mén) “釣魚(yú)執(zhí)法” | 3959 | 1300 | 753 | 5123 | 318 | 11453 |
5 | 網(wǎng)癮標(biāo)準(zhǔn)與治療 | 4997 | 923 | 425 | 3978 | 776 | 11099 |
6 | 強(qiáng)制安裝“綠壩”軟件 起爭(zhēng)議 | 4570 | 1952 | 899 | 956 | 639 | 9016 |
7 | 杭州市飆車(chē)案 | 2849 | 1720 | 223 | 1502 | 1201 | 7495 |
8 | 吉林通鋼暴力事件 | 605 | 573 | 1719 | 882 | 3276 | 7055 |
9 | 長(zhǎng)江大學(xué)三學(xué)生舍身救人 | 3723 | 211 | 953 | 784 | 688 | 6359 |
10 | 央視曝光谷歌涉黃 | 3467 | 1120 | 437 | 683 | 375 | 6082 |
11 | 河南農(nóng)民工“開(kāi)胸驗(yàn)肺” | 1899 | 873 | 656 | 973 | 1427 | 5828 |
12 | 賈君鵬紅遍網(wǎng)絡(luò) | 3818 | 398 | 103 | 1066 | 337 | 5722 |
13 | 鄭州市副局長(zhǎng)“替誰(shuí)說(shuō)話” | 1435 | 918 | 2090 | 453 | 489 | 5385 |
14 | 昆明“小學(xué)生賣(mài)淫”案 | 3156 | 1060 | 223 | 351 | 498 | 5288 |
15 | 成都“6。5”公交車(chē)燃燒事件 | 2108 | 862 | 56 | 869 | 1284 | 5179 |
16 | 河南靈寶市跨省抓捕 王帥案 | 1670 | 1570 | 206 | 653 | 905 | 5004 |
17 | 99%訪民“精神病”說(shuō) | 1849 | 1480 | 483 | 471 | 527 | 4810 |
18 | 羅彩霞被冒名頂替上大學(xué) | 2516 | 721 | 178 | 529 | 652 | 4596 |
19 | 貴州習(xí)水縣嫖宿幼女案 | 1842 | 782 | 116 | 611 | 961 | 4312 |
20 | 湖北石首市騷亂 | 772 | 1210 | 270 | 1267 | 585 | 4104 |
1.2網(wǎng)絡(luò)輿情對(duì)政府形象的影響
從表格數(shù)據(jù)可以看出,當(dāng)前形成網(wǎng)絡(luò)輿情的熱點(diǎn)事件呈現(xiàn)兩個(gè)方面的特點(diǎn):一方面,事件主要涉及公民權(quán)利保護(hù)、公共權(quán)力監(jiān)督、公共道德伸張等一系列重大社會(huì)公共問(wèn)題,往往反映的是負(fù)面信息。另一方面,排名前20位的事件中,與政府直接相關(guān)的有15件,占總事件數(shù)的75%,其中負(fù)面事件14件,占政府事件總數(shù)的93%。說(shuō)明當(dāng)前受大眾最為關(guān)注的熱點(diǎn)事件往往反映的是政府的負(fù)面信息,直接影響了政府及領(lǐng)導(dǎo)干部的形象。
十六屆四中全會(huì)在《中共中央關(guān)于加強(qiáng)黨的執(zhí)政能力建設(shè)的決定》中提出:“高度重視互聯(lián)網(wǎng)等新型傳媒對(duì)社會(huì)輿論的影響,加快建立法律規(guī)范、行政監(jiān)管、行業(yè)自律、技術(shù)保障相結(jié)合的管理體制,加強(qiáng)互聯(lián)網(wǎng)宣傳隊(duì)伍建設(shè),形成網(wǎng)上正面輿論的強(qiáng)勢(shì)?!薄敖⑤浨閰R集和分析機(jī)制,暢通社情民意反映渠道”,把建立和完善輿情信息匯集和分析機(jī)制作為一種制度性的設(shè)計(jì)和安排,標(biāo)志著黨對(duì)輿情研究重要性的進(jìn)一步認(rèn)識(shí)。
隨著網(wǎng)絡(luò)媒體逐漸成為反映社情民意主要載體,網(wǎng)絡(luò)輿情已經(jīng)越來(lái)越成為政府各部門(mén)關(guān)注的焦點(diǎn)。輿情監(jiān)控系統(tǒng)的構(gòu)建為政府相關(guān)部門(mén)提供了智能化全時(shí)段的電子監(jiān)控技術(shù),信息主管部門(mén)可用其跟蹤網(wǎng)絡(luò)熱點(diǎn)事件、主導(dǎo)網(wǎng)絡(luò)文化陣地。對(duì)公職能部門(mén)可利用它實(shí)時(shí)監(jiān)控網(wǎng)上對(duì)本部門(mén)的相關(guān)信息,隨時(shí)獲知公眾對(duì)本部門(mén)的意見(jiàn)或看法,對(duì)于不利于本部門(mén)的負(fù)面信息給予自動(dòng)報(bào)警,即時(shí)分析處理,判別事件處理優(yōu)先級(jí),作出相應(yīng)對(duì)策處理,緩解輿論壓力,避免事態(tài)惡化,從而變被動(dòng)為主動(dòng),維護(hù)政府部門(mén)的良好形象。
二、網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的總體框架
網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的功能包括:輿情規(guī)劃、輿情收集、輿情分析、輿情控制、輿情評(píng)估。相應(yīng)地分別由以下五個(gè)子系統(tǒng)組成:
1、輿情規(guī)劃子系統(tǒng)。確定監(jiān)控的主題,設(shè)定監(jiān)控的對(duì)象(國(guó)內(nèi)主要網(wǎng)站、論壇、博客)。日常一般設(shè)置為本部門(mén)的機(jī)構(gòu)名稱(chēng)或部門(mén)領(lǐng)導(dǎo)名字即可;在輿情爆發(fā)期,可根據(jù)輿情主題關(guān)鍵詞來(lái)進(jìn)行設(shè)置,準(zhǔn)確捕獲輿情動(dòng)態(tài)信息。
2、輿情收集子系統(tǒng)。從指定的所有監(jiān)控對(duì)象中,實(shí)時(shí)自動(dòng)獲取指定主題的網(wǎng)頁(yè)信息,存入本地信息庫(kù)中。
3、輿情分析子系統(tǒng)。對(duì)信息庫(kù)中的所有信息,實(shí)時(shí)分析處理,包括主題識(shí)別、信息分類(lèi)、數(shù)量統(tǒng)計(jì)、重要性分級(jí),同時(shí)通過(guò)與之前信息分析結(jié)果相比較,自動(dòng)研判相關(guān)輿情的主題及熱度變化趨勢(shì)。
4、輿情控制子系統(tǒng)。實(shí)現(xiàn)輿情預(yù)警通報(bào)、應(yīng)急方案制定、部門(mén)應(yīng)急聯(lián)動(dòng)等管理內(nèi)容。通過(guò)設(shè)定一定闕值,超過(guò)闕值范圍系統(tǒng)自動(dòng)報(bào)警,繼而引入人工干預(yù),啟動(dòng)政府應(yīng)急方案。
5、輿情評(píng)估子系統(tǒng)。主要是輿情事件的事后分析備案和總結(jié),為輿情監(jiān)控系統(tǒng)的優(yōu)化及應(yīng)急預(yù)案評(píng)估和修訂提供參考依據(jù)。
系統(tǒng)總體框架圖示如下:
三、監(jiān)測(cè)系統(tǒng)實(shí)現(xiàn)的關(guān)鍵技術(shù)
針對(duì)上述輿情監(jiān)測(cè)系統(tǒng)各部分的功能組成,結(jié)合系統(tǒng)總體框架圖,下面我們?cè)敿?xì)介紹各功能的關(guān)鍵技術(shù)實(shí)現(xiàn)。
3.1Web信息采集技術(shù)
選定監(jiān)控目標(biāo)對(duì)象集(網(wǎng)站、論壇、博客等信息來(lái)源地址),設(shè)置主題關(guān)鍵詞,進(jìn)行信息捕獲并存入輿情信息庫(kù)。采集技術(shù)利用搜索引擎中的網(wǎng)絡(luò)爬蟲(chóng)技術(shù),根據(jù)http協(xié)議檢索Web文檔信息,自動(dòng)提取網(wǎng)頁(yè),實(shí)現(xiàn)對(duì)主題網(wǎng)頁(yè)的抓取。采集時(shí)需關(guān)注三個(gè)方面的策略問(wèn)題:
在采集效率上,為保證輿情監(jiān)控的實(shí)時(shí)性,可根據(jù)需要設(shè)定下載網(wǎng)頁(yè)的層數(shù),同時(shí)實(shí)現(xiàn)多對(duì)象、多線程并行采集。其次,為避免因抓取速度過(guò)快、抓取頻度過(guò)高造成目標(biāo)網(wǎng)站服務(wù)器拒絕服務(wù)的問(wèn)題,需根據(jù)目標(biāo)網(wǎng)站的下載速度決定下載的線程數(shù)及請(qǐng)求的頻率。最后,初次遍歷目標(biāo)對(duì)象后,下次遍歷時(shí),只需對(duì)新更新的頁(yè)面進(jìn)行下載,提高效率。
在采集算法上,通過(guò)引入具有頁(yè)面采集順序及主題相關(guān)性識(shí)別機(jī)制的主題網(wǎng)絡(luò)爬蟲(chóng)技術(shù),定向抓取目標(biāo)網(wǎng)頁(yè)資源。它主要基于Web頁(yè)面間鏈接結(jié)構(gòu)的分析確定頁(yè)面的重要性,進(jìn)而決定采集順序的策略。通常認(rèn)為有較多入鏈或出鏈的頁(yè)面具有較高的價(jià)值。Page Rank和Hits是其中具有代表性的算法[2]。著名的GOOGLE搜索引擎就是使用這一算法。
在采集周期上,需根據(jù)目標(biāo)網(wǎng)站的信息量、訪問(wèn)量、信息更新頻率等因素自動(dòng)設(shè)定信息采集的周期,例如新聞?lì)惥W(wǎng)站的更新頻率(以分鐘或小時(shí)計(jì)算)高,抓取的間隔時(shí)間就要短些。
3.2Web文本預(yù)處理技術(shù)
在信息分析之前,需要對(duì)搜集到的所有網(wǎng)頁(yè)進(jìn)行去重、內(nèi)容提取、中文分詞、文本特征提取等預(yù)處理工作,為下階段的輿情信息分析做好基礎(chǔ)工作。
3.2.1網(wǎng)頁(yè)內(nèi)容提取技術(shù)
與普通文本相比,網(wǎng)頁(yè)包含了除正文以外的大量其他信息,如廣告鏈接、網(wǎng)頁(yè)格式標(biāo)記等。與傳統(tǒng)數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)相比,網(wǎng)頁(yè)上多是無(wú)結(jié)構(gòu)或半結(jié)構(gòu)化的信息,其數(shù)據(jù)格式多樣化,格式信息和內(nèi)容數(shù)據(jù)參雜在一起,因此需要提取網(wǎng)頁(yè)中的正文內(nèi)容,再進(jìn)行后續(xù)的內(nèi)容分析。具體過(guò)程為:對(duì)通篇文檔進(jìn)行HTML源碼掃描,提取網(wǎng)頁(yè)中的3種信息:
1)文檔標(biāo)題:通過(guò)提取出置標(biāo)命令〈Title〉與〈/Title〉之間字串而得到;
2)文檔內(nèi)容:通過(guò)提取出置標(biāo)命令〈Body〉與〈/Body〉之間所有正文文本得到;
3)新的鏈接:通過(guò)提取出置標(biāo)命令〈Ahref =“字串” 〉中引號(hào)部分的字符串得到;
設(shè)置一些字符串變量,如STR:存儲(chǔ)HTML文檔中的正文部分;TitleStr:存儲(chǔ)標(biāo)題部分的內(nèi)容。過(guò)濾掉如“<script>”和“</script>”之間字符串(一般是系統(tǒng)函數(shù)或者過(guò)程),“<style>”和“</style>”之間的字符串(一般是對(duì)于頁(yè)面風(fēng)格的設(shè)置)等不需要的信息。最后,將Titlestr和STR輸出,就可以得到網(wǎng)頁(yè)標(biāo)題及正文信息 [3]。
3.2.2文本分詞技術(shù)
文檔內(nèi)容提取完成后,就可以開(kāi)始進(jìn)行分詞處理。文本分詞是信息相關(guān)度和重要性分析以及文本特征表示的基礎(chǔ),原理是將一篇文檔轉(zhuǎn)化為詞庫(kù)的形式。建立停用詞表,去除相關(guān)停用詞。分詞方法主要有下面3種:
基于規(guī)則的分詞方法,又稱(chēng)機(jī)械分詞方法,是按一定的算法從待分析的文本中提取一系列的字符串,依次與預(yù)先建立的詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。其局限性在于詞典的完備性。
基于統(tǒng)計(jì)的分詞方法,是基于(兩個(gè)或多個(gè))漢字同時(shí)出現(xiàn)的概率,通過(guò)對(duì)語(yǔ)料庫(kù)(經(jīng)過(guò)處理的大量領(lǐng)域文本的集合)中的文本進(jìn)行有監(jiān)督或無(wú)監(jiān)督的學(xué)習(xí),從而獲取該類(lèi)文本的某些整體特征。
基于理解分詞,又稱(chēng)知識(shí)分詞,是一種理想的分詞方法,利用句法和語(yǔ)義信息或者從大量語(yǔ)料中找出漢字組詞的結(jié)合特點(diǎn)來(lái)進(jìn)行評(píng)價(jià),找到最貼近于原句語(yǔ)義的分詞結(jié)果。
3.2.3文本特征抽取
文本特征抽取是信息分析的關(guān)鍵,將文本通過(guò)一定模型進(jìn)行表示,挖掘信息隱含語(yǔ)義特征,從而達(dá)到文本標(biāo)識(shí)的目的。文本特征是指關(guān)于文本的元數(shù)據(jù),特征表示是指以一定特征項(xiàng)(如詞條或描述)來(lái)代表文檔,在文本分類(lèi)或聚類(lèi)時(shí)只需對(duì)這些特征項(xiàng)進(jìn)行處理,從而實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化的文本的處理,這是一個(gè)非結(jié)構(gòu)化向結(jié)構(gòu)化轉(zhuǎn)化的處理步驟[4]。
特征表示模型有多種,常用的有布爾邏輯模型、概率型、向量空間模型(Vector Space Model,VSM)等。近年來(lái)應(yīng)用較好的是向量空間模型,其基本思想是將文本看作特征詞的集合,并使用特征詞的加權(quán)向量表示文本,將文本轉(zhuǎn)換成易為數(shù)學(xué)處理的向量模型,使得文本相似運(yùn)算和排序成為可能。
具體處理過(guò)程為:從文本中提取可以代表文本內(nèi)容的若干關(guān)鍵詞(t1,t2,t3,…..,tn)作為特征詞,根據(jù)特征詞在文本中的重要程度,給每個(gè)特征詞賦予一個(gè)權(quán)值Wi。若一篇文本用N個(gè)特征詞來(lái)表示,則可構(gòu)造一個(gè)N維的向量空間,每個(gè)特征詞所對(duì)應(yīng)的權(quán)值Wi即為該文本在向量空間中對(duì)應(yīng)維的向量分量,即將文本表示為一個(gè)特征向量(W1,W2,W3,……,Wn)。
由于Web文本的數(shù)據(jù)量非常大,表示文本的特征向量的維數(shù)很大,可能會(huì)達(dá)到幾萬(wàn)維,如此高維的特征空間會(huì)使一些挖掘算法無(wú)法進(jìn)行或效率很低,實(shí)際運(yùn)用中還需要對(duì)特征空間進(jìn)行降維處理。
3.3輿情信息分析跟蹤技術(shù)
3.3.1話題識(shí)別及跟蹤技術(shù)
話題識(shí)別與跟蹤(TDT)通過(guò)監(jiān)測(cè)目標(biāo)網(wǎng)站的信息,實(shí)現(xiàn)對(duì)輿情新話題的自動(dòng)識(shí)別和對(duì)已知話題的動(dòng)態(tài)跟蹤。包括5個(gè)方面工作:報(bào)道切分、話題關(guān)聯(lián)識(shí)別、新話題發(fā)現(xiàn)、話題識(shí)別和話題跟蹤[5]。
報(bào)道切分是從一個(gè)信息源獲得的信息流切分為多個(gè)不同的話題相關(guān)的文檔。
話題關(guān)聯(lián)識(shí)別用于判斷兩篇文檔是否描述了同一個(gè)話題,多個(gè)文檔對(duì)按時(shí)間排序,順序處理。
新話題發(fā)現(xiàn)是對(duì)信息流中的每篇文檔,順序判斷其內(nèi)容是否描述了一個(gè)新的話題,即是否為該信息流中描述某個(gè)話題的首篇文檔。新主題的識(shí)別是話題發(fā)現(xiàn)的第一步工作,被認(rèn)為是TDT中最有難度的任務(wù)。
話題識(shí)別是對(duì)信息流建立一個(gè)簇劃分系統(tǒng),簇內(nèi)所有文檔描述同一話題,由新主題發(fā)現(xiàn)和話題追蹤兩方面技術(shù)共同實(shí)現(xiàn)。
話題跟蹤是給出一組種子報(bào)道,訓(xùn)練得到話題模型,然后在后續(xù)報(bào)道中發(fā)現(xiàn)與這個(gè)話題相關(guān)的所有報(bào)道。
3.3.2 文本情感傾向分析
網(wǎng)絡(luò)文本的傾向性分析就是挖掘網(wǎng)絡(luò)文本內(nèi)容蘊(yùn)含的各種喜好態(tài)度、情感等非內(nèi)容信息。由于網(wǎng)絡(luò)的虛擬性和匿名性,使得網(wǎng)絡(luò)輿情在大多數(shù)情況下真實(shí)地表達(dá)出了民眾的態(tài)度和情緒。通過(guò)傾向性分析可以明確網(wǎng)絡(luò)傳播者的意圖和傾向,可以判斷某一信息屬于正面信息還是負(fù)面信息,例如若是針對(duì)政府某部門(mén)或某領(lǐng)導(dǎo)的負(fù)面信息,系統(tǒng)自動(dòng)報(bào)警,從而使相關(guān)部門(mén)及時(shí)了解網(wǎng)情,做好應(yīng)對(duì)措施。
當(dāng)前流行的語(yǔ)義傾向性分析系統(tǒng)可以分為2個(gè)步驟,首先是識(shí)別詞匯的語(yǔ)義(短語(yǔ))傾向性,然后利用不同的策略,根據(jù)詞匯(短語(yǔ))的傾向性給出整篇文本的語(yǔ)義傾向評(píng)價(jià)。目前主要有兩種研究思路。第一種,是對(duì)所有詞匯的傾向性評(píng)分進(jìn)行統(tǒng)計(jì)求和,根據(jù)最終的得分正負(fù)來(lái)評(píng)價(jià)文本的傾向性。第二種,是采用機(jī)器學(xué)習(xí)的方式根據(jù)詞匯的傾向性訓(xùn)練出語(yǔ)義傾向分類(lèi)器,這是目前比較流行的思路,總體效果比統(tǒng)計(jì)求和要好。
四、結(jié) 語(yǔ)
本文闡述了政府網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)現(xiàn),主要從監(jiān)控流程、總體框架、關(guān)鍵技術(shù)三個(gè)方面對(duì)輿情監(jiān)控系統(tǒng)進(jìn)行了全面的解構(gòu)。輿情監(jiān)控的關(guān)鍵技術(shù)涉及信息檢索學(xué)、自然語(yǔ)言處理、Web信息搜索、數(shù)據(jù)挖掘、信息學(xué)等多個(gè)領(lǐng)域,其算法和模型的研究又是具體技術(shù)實(shí)現(xiàn)效果的關(guān)鍵。輿情監(jiān)控系統(tǒng)實(shí)際運(yùn)行中具體效果的評(píng)估及技術(shù)改進(jìn),是今后進(jìn)一步研究的方向。
參考文獻(xiàn):
【1】 2009年中國(guó)互聯(lián)網(wǎng)輿情分析報(bào)告 https://yq.people.com.cn/htmlArt/Art392.htm
【2】 劉世濤.簡(jiǎn)析搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)的搜索策略【J】 阜陽(yáng)師范學(xué)院學(xué)報(bào)(自然科學(xué)版) 2006(9)
【3】 蘇芳仲,林世平. Web文本挖掘中的一種中文分詞算法研究及其實(shí)現(xiàn)【J】 福州大學(xué)學(xué)報(bào)(自然科學(xué)版)2004(12)
【4】胡靜,蔣外文,朱華. Web文本挖掘中數(shù)據(jù)預(yù)處理技術(shù)研究【J】 現(xiàn)代計(jì)算機(jī) 2009(3)
【5】張壓,劉云. 話題識(shí)別與跟蹤技術(shù)的發(fā)展與研究【J】 北京電子科技學(xué)院學(xué)報(bào) 2008 (6)