如何使用Jupyter 操作 Spark?

  • 大數學堂
  • 2015年5月31日 15:19
如何使用Jupyter 操作 Spark?

這篇文章介紹了ISpark這個解決方案,讓使用者能夠在Ubuntu 14.04中使用Jupyter和Spark建立開發環境。這樣可以像Python一樣方便地記錄開發內容,提供了一個簡易好用的開發環境。

開始上課

Python 總複習 - 用Python 分析川普演說文最常出現字詞(Word Count)

  • 大數學堂
  • 2022年5月23日 00:00
Python 總複習 - 用Python 分析川普演說文最常出現字詞(Word Count)

文章介紹了在Python 中使用詞頻統計或字詞計數的方法來分析川普演說文中最常出現的字詞。作者提到了使用Python 的文本處理技術預處理川普演說文的內容,並使用字典資料結構記錄每個字詞的出現次數。透過迴圈和條件判斷式,可以遍歷川普演說文並計算每個字詞的出現次數,最後,可以使用Python 的排序功能將字詞按照出現次數進行排序並進行視覺化。

開始上課

[AI人工智慧] EasyOCR v.s. PaddleOCR 誰才是圖片轉文字(OCR)的最佳神器?!

  • 大數學堂
  • 2023年10月1日 17:30
[AI人工智慧] EasyOCR v.s. PaddleOCR 誰才是圖片轉文字(OCR)的最佳神器?!

光學字元辨識(OCR)能夠將紙上文字數位化,使得資訊管理變得更加方便,例如:將書籍掃描成電子版、識別及翻譯外國的路標或菜單,以及將手寫筆記快速轉化成文字檔。本文介紹如何透過 Python使用EasyOCR和PaddleOCR兩種開源工具,可以簡單地識別圖片中的文字。同時,影片中亦比較了兩個套件與不同類型文字的識別準確率。

開始上課

[爬蟲實戰] 如何使用Selenium IDE 記錄抓取包含Iframe 頁面資訊的步驟 - 以司法院法學檢索系統為例

  • 大數學堂
  • 2015年7月21日 15:45
[爬蟲實戰] 如何使用Selenium IDE 記錄抓取包含Iframe 頁面資訊的步驟 - 以司法院法學檢索系統為例

這篇文章介紹了如何使用Selenium來解決爬取司法院法學檢索系統的問題。由於該系統使用了Iframe來嵌入檢索結果,常常造成爬蟲無法正確獲取內容。作者建議使用Selenium IDE來自動記錄抓取步驟,並將步驟轉換為Python腳本,使得抓取過程變得更加簡單。

開始上課