網路爬蟲(web-crewler)是讓程式模擬人類操作電腦的行為,即「由用戶端向伺服器端提出請求,再由伺服器端回傳回應給用戶端」的過程,此過程透過電腦自動化後,能大量搜集特定資料。其中,爬蟲常用的套件包含:Requests、Urllib、Beautiful Soup、selenium,分別有不同的功能及特性。使用爬蟲時也有一些注意事項,例如請求應設定休息函數間隔、爬蟲的範圍、遵照Robots協議和網站規則等。完成所需資料的爬取後,可進一步的進行資料清整,最終以Excel、資料庫、TXT純文字等方式完成儲存。
當撰寫程式有所疑問時,我們經常尋求搜尋引擎的廣大資源,而在搜尋引擎呈現的檢索結果中則經常出現許多發佈在Medium平台的技術文章,透過這些文章不僅可以理解該技術的完整背景知識、更能針對撰寫程式所出現的問題獲得解答。相對地,亦可透過撰寫Medium文章說明技術專案的發想、過程、程式碼及結果,更有效率的讓他人了解專案全貌。本課程逐步為閱聽者進行Medium教學,並告訴閱聽者如何思考併發想有發展潛能的法律科技專案議題。
布林變數(Boolean)常用於判別「是(True)」或「否(False)」的情境,它的出現使邏輯可以如同數學一般,以符號方式進行運算。舉例而言,結合邏輯運算及條件判斷式(if / elif / else),得使編寫者欲達成的行為可依序執行或依據事實狀態改變執行的行為:倘條件式的結果為「是(True)」則執行區塊內的敘述;如果結果為「否(False)」則跳過區塊或執行不同敘述。
由於資料分析經常涉及大量數據及邏輯判斷,將相同類型的資料進行陣列宣告,有助於嗣後修改、新增、刪除陣列中的資料內容;如果進一步結合「可重複執行的流程控制(for)」,更可顯著減輕資料重複比對或篩選所需的勞時。本課程透過多重交互運用及實作,協助初學者有效率的釐清變數邏輯關係及異同。
財團法人理律文教基金會著作權所有,非經同意不得翻印轉載或以任何方式重製.
© Lee and Li Foundation., All rights reserved.
Tel: +886- 2-2760-6111 / Fax: +886-2-2756-5111
E-mail: [email protected]
Tel: +886- 2-2760-6111 / Fax:
+886-2-2756-5111
E-mail:
[email protected]