如何安裝Spark-Notebook 在Ubuntu?

  • 大數學堂
  • June 2, 2015, 4:11 p.m.
如何安裝Spark-Notebook 在Ubuntu?

本文介紹了一個優秀的專案Spark Notebook,該專案可以使用Jupyter Notebook的形式存取Spark並生成可互動的視覺化圖表。除了可以使用WISP來使用d3.js生成SVG圖檔外,還支持使用筆記本形式來進行資料分析。這將為使用者提供更多的工具來進行Spark的操作和視覺化。

開始上課

檔案、Pythonic、Python 總複習

  • 大數學堂
  • May 23, 2022, midnight
檔案、Pythonic、Python 總複習

這段文字介紹了在Python中處理檔案的基本操作,包括打開 讀取 寫入和關閉檔案,並介紹了處理CSV和JSON格式檔案的方法。另外,它還提到了Python語言的哲學和風格,包括編碼風格指南和如何寫出乾淨 易讀且可維護的程式碼。最後,這個章節進行了Python基礎知識的回顧,並透過解決程式設計問題來測試學習者對於Python的理解和應用能力。

開始上課

[爬蟲實戰] 如何透過 Python 網路爬蟲快速找出1111購物狂歡節折扣最多的商品? (2018年版)

  • 大數學堂
  • Nov. 10, 2018, 12:43 p.m.
[爬蟲實戰] 如何透過 Python 網路爬蟲快速找出1111購物狂歡節折扣最多的商品? (2018年版)

1111購物狂歡節即將到來,如果你還不知道該買什麼,可以嘗試使用數據來做決策。本課程將使用Python網路爬蟲抓取天貓的商品頁面,再用json和pandas整理商品資訊,最後使用pandas的排序功能,幫助你找出折扣最多的商品。程式碼可參考:https://github.com/ywchiu/largitdata/blob/master/code/Course_108.ipynb

開始上課

[ChatGPT] 利用 ChatGPT 打造萬用網路爬蟲追蹤最新機票價格

  • 大數學堂
  • June 25, 2023, 9:23 a.m.
[ChatGPT] 利用 ChatGPT 打造萬用網路爬蟲追蹤最新機票價格

本教學將教您如何使用Selenium自動瀏覽Expedia網站,並利用LangChain和ChatGPT的Extraction功能,自動解析半結構化資料。最後,使用Pandas將半結構化資料轉換為結構化資訊。透過ChatGPT和LangChain的幫助,我們可以省去編寫網路爬蟲時需要觀察元素的麻煩。再加上Selenium可以模擬人類操作,我們能夠簡化網路爬蟲的過程,輕鬆地獲取所需的網頁資訊。期待著中秋節的到來,並希望能在日圓跌至新低的時候,節省機票費用,享受一趟愉快的旅程。

開始上課

[ChatGPT] 個人化Llama2 !如何在Colab中運用自己的資料集微調 Llama2 模型

  • 大數學堂
  • July 31, 2023, 9 p.m.
[ChatGPT] 個人化Llama2 !如何在Colab中運用自己的資料集微調 Llama2 模型

LLaMA-Efficient-Tuning 是一個簡易的大型語言模型微調框架,能夠進行PEFT並支援訓練多種大型語言模型,如LlaMA2、BLOOM、Falcon 和 Baichuan。微調步驟包括安裝 LLaMA-Efficient-Tuning、調整 dataset_info.json 加入自己的資料集描述、導入自己的監督式微調資料集、以及使用內建指令進行監督式微調和預測生成。有了Llama2,再搭配自己的資料集,相信在不久的將來,大家都可以使用LLaMA-Efficient-Tuning快速有效地微調Llama2模型以適應特定需求。

開始上課

[爬蟲實戰] 如何抓取淘寶網的商品名稱與價格 (2016年版)?

  • 大數學堂
  • Oct. 10, 2016, 3:27 p.m.
[爬蟲實戰] 如何抓取淘寶網的商品名稱與價格 (2016年版)?

本文介紹了作者對於更新淘寶爬蟲的一些方法。他提到以前的爬蟲只需要獲取Document下的連結即可獲取商品價格資訊,但淘寶現在使用了AJAX的方式填充頁面內容。為了解決這個問題,作者建議從XHR和JS入手,使用正則表達式來解析重要資訊,以便在雙十一節中獲取淘寶資訊更容易。

開始上課

[爬蟲實戰] 如何在1111購物狂歡節 快速爬取淘寶上的商品資訊?

  • 大數學堂
  • Oct. 30, 2019, 1:39 p.m.
[爬蟲實戰] 如何在1111購物狂歡節 快速爬取淘寶上的商品資訊?

這篇文章介紹了如何快速寫一個淘寶爬蟲程式。現在的電商網頁都有提供API,可以方便地將商品資訊下載下來。只要透過Chrome的開發人員工具找到API的端口,然後使用requests將JSON格式資料爬取下來。再搭配Pandas的資料整理功能,就可以將商品資訊整理成表格,方便閱覽和分析。文章最後提供了相關影片和程式碼的連結。

開始上課

[爬蟲實戰] 如何極速擷取1111購物狂歡節的特價商品資訊?

  • 大數學堂
  • Nov. 10, 2016, 2:34 p.m.
[爬蟲實戰] 如何極速擷取1111購物狂歡節的特價商品資訊?

本文介紹了如何使用Python網路爬蟲來抓取天貓特價商品資料。使用Python的requests模組抓取商品頁面,再使用BeautifulSoup4抓取特價商品的資料區塊,最後使用json.loads將資料轉換成字典結構。這樣就可以在1111購物狂歡節期間,同時享受購物樂趣,又顧好自己的錢包了。程式碼可以在文章中提供的GitHub連結中找到。

開始上課

[爬蟲實戰] 如何突破蝦皮拍賣的重重限制以順利抓取拍賣商品資訊?

  • 大數學堂
  • July 26, 2023, 3:52 p.m.
[爬蟲實戰] 如何突破蝦皮拍賣的重重限制以順利抓取拍賣商品資訊?

本堂課介紹了如何使用爬蟲抓取時下最夯的蝦皮拍賣網站。要抓取蝦皮的資料,必須先找到XHR請求連結,然後使用POST傳輸json格式的參數。如果無法正確獲得回應,可能是缺少一些標頭資訊,此時可以嘗試不同的組合來取得正確的商品資訊。如果無法獲得某些標頭資訊,可以使用Selenium搭配正確的Cookie來解決這個問題。

開始上課

[爬蟲實戰] 如何透過開發人員工具破解實價登錄網新版API中的加密字串?

  • 大數學堂
  • April 5, 2021, 1:30 p.m.
[爬蟲實戰] 如何透過開發人員工具破解實價登錄網新版API中的加密字串?

這篇文章介紹了如何使用Chrome開發人員工具來解析新版實價登錄網站的API連結中的神秘字串。透過瀏覽器的Debugger功能,可以找到加密的JavaScript程式碼片段,然後使用這些加密函數片段來解析參數的查詢條件,從而成功抓取實價登錄資訊。文中還提供了相關的影片和程式碼連結,方便讀者深入了解和實踐Python網路爬蟲的相關知識。

開始上課

[爬蟲實戰] 如何利用Python Flask自動轉換實價登錄網站加密字串?

  • 大數學堂
  • April 12, 2021, 1:47 p.m.
[爬蟲實戰] 如何利用Python Flask自動轉換實價登錄網站加密字串?

本文介紹了如何透過Python Flask建立一個橋接器,來自動化抓取實價登錄網的加密字串。通常我們會使用Node.js或Pyexecjs等方法來加載加密函數,但這牽涉到處理Node.js或修改JavaScript的問題。透過Python Flask橋接器,我們可以輕鬆地重新導向加密字串到實價登錄網,實現破解新版實價登錄網的目標。影片和程式碼也提供了詳細的操作示例。

開始上課

[爬蟲實戰] 如何破解Cloudflare 的反爬蟲機制

  • 大數學堂
  • Aug. 11, 2024, 9 p.m.
[爬蟲實戰] 如何破解Cloudflare 的反爬蟲機制

在網路爬蟲的世界裡,我們經常會遇到各種反爬蟲機制。🛡️其中,Cloudflare的5秒挑戰(5-second Cloudflare Challenge)是一個常見的障礙。當我們使用普通的requests請求時,往往會被擋下來,無法取得想要的內容。🚫這次,我們將介紹如何使用pyppeteer和pyppeteer_stealth 這兩個強大的工具來突破這個限制。

開始上課