文字探勘:相似度分析
網路上的社群網站、BBS或智慧型手持式裝置通訊軟體透過使用者每天產生大量的文字訊息,這些不論是文章或是單純聊天討論的訊息是沒有任何的規則、有長有短、毫無可定義的原始資料,但其內容與周遭日常生活有的關係而衍生來的文字或句子。這些種種的非結構化的文字是毫無意義,但透過文字探勘(Text Mining)一些分析方式或是統計而把它變成資源,找出隱含的訊息、議題、趨勢等等,將文字資料進行處理進而有助於決策之樣式。其應用領域相當廣泛,如知識管理、資訊安全、資訊檢索與語意網路等。
如何知道使用者發表的文字訊息內容是相似的,找出相似的文章是文字探勘中有趣的議題。相似度的測量方法有下列幾種。
基於字串的相似度計算(String-Based Similarity):其測量相似度的方法是以字串序列和字符組成進行運算,例如將文件以向量表示,在同一個向量空間裡的兩向量,其夾角可以透過兩向量的內積來計算得到。而夾角則關係到兩個向量的差異,當夾角愈小表示差異愈小,夾角愈大表示差異愈大。
基於語料庫的相似度計算(Corpus-Based similarity):測量相似度的方法是將文字與根據從大量的語意庫(corpus)中取得的資訊做語意比較。語意庫是收集大量的寫作或是口說的文字,並應用於語言學的研究。
基於知識庫的相似度計算(Knowledge s-Based similarity):測量相似度的方法是利用語意網(semantic networks)的訊息來分辨與文字的相似程度。語意網路例如wordnet用來基於知識庫的相似度計算。
參考:
Wael H. Gomaa, Aly A. Fahmy, “A Survey of Text Similarity Approaches", International Journal of Computer Applications (0975 – 8887) Volume 68– No.13, April 2013