AI for Lawyers系列
已開課
2021-07-28
報名僅開放線上名額, 確認席位時給予直播連結
Python 文字探勘
使用文字探勘技術進行非結構化資料分析時,會經過資料蒐集、資料剖析(parsing)提取關鍵字、資料過濾(filtering)設定字典、資料轉換(transformation)等過程,以獲取初步探勘結果。而在這個過程中,則會一再根據各階段的探勘結果調整過濾的方式、參數及字典,達到建立一個能夠高效大量從文字描述中獲取更深層意義的文字探勘模型。
本課程中先以數據分析套件Pandas進行文檔讀取、建立斷詞字典並以斷詞套件jieba進行斷詞、透過collection進行特徵篩選,最後以文字雲(word cloud)型態完成資料關聯度分析的視覺化。
Python 文本共現網路分析
在資料科學中,字詞間(或知識點)共同出現在所擷取之文本語料單元的現象稱之為「共現(Co-occurrence)」,共現的頻率愈高,代表兩字詞間的關係愈緊密。在文本共現網路圖中,節點間的連線粗細代表兩字詞共同出現的次數多寡;節點的面積愈大則表示該單一字詞出現的次數愈多;如果該字詞與多個其他字詞均有關,則會使該字詞的位置偏向於文本共現網路圖的中心。然而,網路圖並非毫無缺點,其雖分析詳盡但製作頗為繁複,因此在資料量較少的情況下,亦可改採熱點圖進行簡化版的共現分析圖像化。
共現的作成經歷了爬蟲、將非結構化資料轉成結構化資料、製作DataFrame、輸出為CSV檔,建立檢索詞-文獻矩陣(Term Document Matrix,TDM)後,最終透過矩陣轉置相乘得到共現矩陣(Co-occurrence matrix)。共現網路分析可用於文獻推薦、影音推薦系統等;在法律科技層面上,則可透過自定義不同關鍵詞,用於評估不同犯罪間的關聯性、不同量刑因子的關聯性等。
財團法人理律文教基金會著作權所有,非經同意不得翻印轉載或以任何方式重製.
© Lee and Li Foundation., All rights reserved.
Tel: +886- 2-2760-6111 / Fax: +886-2-2756-5111
E-mail: [email protected]
Tel: +886- 2-2760-6111 / Fax:
+886-2-2756-5111
E-mail:
[email protected]