中文 斷詞與詞性標記工具:CKIP中文斷詞系統

中央研究院中文詞知識庫小組(Chinese Knowledge and Information Processing(CKIP))中文斷詞系統提供中文斷詞、詞性標記、未知詞偵測等服務,對中文文本分析(Text mining)提供相當大的幫助。

中文斷詞與詞性標記

在自然語言處理中斷詞一直是處理文句首要面對的課題之一。尤其在中文文章中斷詞我們要如何讓電腦知道如:「今天天氣很好」此一句子是由「今天/天氣/很/好」此四個詞所組成的呢?

在CKIP所提供的線上中文斷詞系統中,我們可以輸入欲斷詞的句子接著交由CKIP斷詞系統為我們斷詞。而各個詞具有相對應的詞性。若能得知各詞詞性便能在往後分析時取得更多資訊藉此提升分析準確度。詳細的詞性標記說明可參考官方說明文件。(線上展示系統僅提供精簡詞類版本,若需完整詞類請於網誌相關人員聯絡)

Step 1 輸入句子「今天天氣很好」

 

Step 2 取得斷詞與詞性標記結果

在上圖中我們可以發現CKIP斷詞系統已將句子「今天天氣很好」斷為「今天/天氣/很/好」並將「今天」標為Nd(時間詞)、「天氣」標為Na(普通名詞)、「很」標為Dfa(動詞前程度副詞)、「好」標為VH(狀態不及物動詞)。有了這些資訊之後,資料分析師便能使機器更好的理解句子的意義並讓機器做出更為精確地分析。