網路民意探勘

三、網路民意探勘

隨網際網路日漸普及,民眾能藉由網路社群發表對於公共政策意見
與態度,而網民(netizens)的個人觀點,亦會在特定的社群平臺被其
他網路使用者接收,再藉由同質性相近或討論使議題發酵傳播,形成網
路民意(network public opinion),進而影響政府與民眾在線下政治參
與及治理之參考。對於臺灣而言,隨著進入 Web 2.0 時代,群眾的媒體
使用習慣與公民參與平臺也不同以往,政府除運用傳統調查方法瞭解民

心所向外,亦有必要將網路民意探查列入公共政策的判准(陳敦源、蕭
乃沂,2017;M. Zhang, Y. Zhang, & Vo, 2015)。
同時在網路時代線上快速累積文本數量,已超越人工處理分析資訊
量,然而僅以機器進行自然語言處理之正確率較為不足,因此現進行網
路輿情分析或文字探勘技術以半自動化或人機協作為趨勢發展(陳敦
源、蕭乃沂,2017)。挖掘網路民意(opinion mining)資料可大致區分
為人工、半自動或自動化,人工方面為內容分析法,半自動與自動則為
文字探勘(text mining)與民意探勘技術(Kasthuri, Jayasimman &
Jebaseeli, 2016)。更進一步來說,民意探勘、意見探勘,亦可稱情感分
析、主觀分析(subjectivity analysis),是基於文字探勘技術,由電腦自
動分類與辨識意見的語意偏向(semantic orientation)來定義正負偏向與
網民討論主題(Liu, 2010)。在國內將網路民意探勘方式用以政策研究
上,可運用主題模型分析、關鍵字提取(keyword extraction)、情感分
析與聲量趨勢(volume analysis)解構於網路平臺所擷取網民意見(陳
敦源、蕭乃沂,2017)。
在主題模型分析部分,研究者預計運用 LDA 參數模型,此種分析
方式運用詞袋模型(bag of words model)概念,計算大量文本中的辭彙
組合、計算字詞在文章內的分布,與鄰近字相比較,進而計算主題分類
的最大貝氏機率組合(Bayesian probability),最後輸出辭彙所代表的
主題,以及文章的主題偏重(Blei & Lafferty, 2007)。本研究所關切,
運用此種方式能以數學計算方式,讓機器辨識文本的主題性,透過此種
非監督式學習方式,在主題分析時能更簡約時間與人力,並減少研究者
主觀因素造成分群(clustering)上的偏誤(邵軒磊,2019)。
過去邵軒磊(2019)運用 LDA 主題模型分析中共領導人習近平,
其對於大外宣戰略態樣時,運用 LDA 輔以語料庫分析發現,從習近平

講話稿內可以將其區分八種主題趨向「經濟、政治、文化、生態、黨
建、國防、外交」,又能在其中將關鍵字其萃取出來,比較鄰近性
(neighbor word)較高的字詞,透過此種方式瞭解習近平在全球戰略上
的詞語態樣。因此本研究運用此種分析策略,可以幫助研究者瞭解網民
對美軍對臺灣軍事戰略之新聞議題時,其回應包含哪幾種主題,以及運
用關鍵詞索引分析方式,能夠深入瞭解各個主題回文中所關切之議題。
在關鍵詞提取及聲量部分,研究者預期運用庫博中文語料庫工具進
行分析。庫博系統中,「詞頻分析」乃進行文本中各詞彙出現頻率的統
計。詞頻分析是研究中重要的參考數據,透過分析詞彙出現的頻率可以
找出在文本中具有重要意義的詞彙範圍,亦能將概念相同字詞重新編纂
為「同類詞」,進行後續語料分析。再者,在「顯著詞」可以表示出特
定文本中的「主題性」、「風格特色」等顯著特徵(闕河嘉、陳光華,
2016),這些顯著特徵可以讓研究者定位文本內容主軸框架。而顯著詞
包含「正向顯著詞」以及「負向顯著詞」,區分方式為同樣的詞彙在兩
種不同語料庫相比較時,較頻繁出現在其中一個語料庫,則該詞彙為該
語料庫的正向顯著詞;而較不頻繁出現在一個語料庫的詞彙,則該詞彙
在該語料庫中為負向顯著詞(郭文平,2015)。
傅文成(2020)研究臺灣新南向政策的媒體框架時,運用語料分析
工具,並且比較傳統媒體以及原生社群媒體如何框架新南向政策之風
險,先藉由 TF-IDF(Term Frequency-Inverse Document Frequency)分析
方式選擇權重(weight)較高字詞與同類詞分析將不同風險框架字彙重
新分群,再藉由詞語趨勢瞭解各個風險群集字詞被使用趨勢,輔以新聞
事件解析不同平臺之新聞標題框架此風險議題之趨勢與可能影響因素。
本研究將運用此種分析方法,分析網路回文的主題討論趨勢外,亦從主
題回文中選擇關於「軍事戰略行為」與「軍事衝突風險」高權重字詞,

並重新編組後進行趨勢與關鍵詞分析。
最後,情感分析方面,電腦辨識技術層面區分監督式學習
(supervised)與非監督式學習(unsupervised)兩種,分析網路民意
時,除了瞭解主題分類、關鍵詞頻與共現分析外,時常伴隨著探討對於
評價的正負偏向,進而瞭解對於特定議題上的情感態度是趨於正向還是
負向(Pang & Lee, 2008)。本研究預期運用 Russell(1980)情感詞分
析法,將每個分類主題後的回文進行情感分類與計算(sentiment
classification and computing),進而瞭解民眾在評論各主題性時的情感
比例及強度,使民意探勘分析能夠更趨於完整。
然而,過去在國內並無學術文章探討網民對美軍軍事活動的評論與
意見進行分析,不同於分析電影評價(Shruti & Choudhary, 2016)、客
房服務(Bhardwaj, Gautam, & Pahwa, 2017)等已有固定正、負向評價
指標,因此運用非監督式學習探究民眾回文的情感偏向,目前在繁體中
文語境中已有 CopeOpi 系統,運用詞性標註與情感字詞加權方式,計算
句子的情感正負向,本研究在辨別回文上運用此系統,瞭解整體網路民
意所探討主題及其情感偏向與趨勢。
一般來說,多數的風險研究均發現,人們對所處環境或條件感到不
利時,較常產生負面情緒。在醫療風險方面,Scherer, Schorr, &
Johnstone(2001)針對癌症病患對療效的不確定性及其併發情緒進行探
討,發現患者若認定療程無效,感知的疾病風險就愈高,同時也會出現
悲傷情緒;在災害風險方面,Terpstra(2011)指出,民眾的受災經驗
會提高自身對洪水災害的風險感知,並引發恐懼、無能為力的消極情
緒;在食安風險方面,張瑋珊(2010)從毒奶粉、砷油事件檢視政府的
風險溝通決策,發現決策過程忽略考量「國人風險可容受值」和「實際
風險評估數值」的平衡點,溝通決策無法消弭食安的不確定性,而民眾

因風險感知並未降低,最終釀發不滿情緒,不再信任與支持政府決策;
在恐攻風險方面,Huddy, Feldman, Taber, & Lahav(2005)發現,透過
經歷而來的風險感知會比受政府影響的要高,且會增強焦慮情緒,進而
傾向風險規避,較不支持政府的反恐政策。然而,在與本研究較為同質
的衝突或戰爭風險方面,學者 Yu, Fu, Lin, & Ke(2020)在探討中華民
國民眾對中共軍機繞臺議題恐懼與去敏感化現象時,即運用情感分析輔
以語料庫分析,發現隨著時間推移與中共軍機來臺數量增加,大眾對於
衝突感知的恐懼情緒會呈現從遞增轉為遞減的趨勢。