大數軟體 X 大數學堂

[AI人工智慧] 你也能成為編曲大師！探索如何運用 AudioCraft 以文字創造音樂

大數學堂
Aug. 6, 2023, 4:30 p.m.

現今人工智慧的進步為我們的生活帶來了前所未有的變革。你或許已熟悉使用ChatGPT創作文章、寫信、翻譯或是使用MidJourney、DALL-E以文字產生千變萬化的圖片，但今天，我們要談論的不僅僅是生文、生圖，我們要談論的是如何利用文字生成音樂！有了AudioCraft，現在你不需要專業的音樂背景，只要提供文字，AudioCraft就能為您生成旋律，音樂家可以獲取新的靈感，而中小企業主也可以輕鬆地為他們的廣告增加配樂，相信有了AudioCraft，再搭配自己的音樂品味，相信在不久的將來，大家都可以成為音樂創作大師！

開始上課

[AI人工智慧] 探索香港Deepfake詐騙案背後的科技：如何只憑免費Colab與基本Python知識製作深度偽造影片?

大數學堂
Feb. 7, 2024, 9 p.m.

最近香港發生一起利用AI技術的詐騙案，歹徒使用Deepfake技術製作假影片，冒充公司財務長詐騙兩億港幣。這引起了大家對AI模仿能力的疑慮。為展示AI換臉有多麽容易實作，我們將使用Python的Roop套件，並以賈伯斯的照片創造深度偽造影片。希望能用這個範例提高大家對AI詐騙的警覺

開始上課

[AI人工智慧] 使用 Ollama 調用本地語言模型生成文章並且辨識圖片內容

大數學堂
March 24, 2024, 4 p.m.

Ollama是一款能在個人電腦上輕鬆部署和使用語言模型的工具，透過Ollama，我們便能在終端機使用：1. 聯發科的 Breeze 7b 模型、2. 利用 Python 接合 Ollama 的端口，3. 甚至使用 Llava 模型智慧地重命名文件中的圖片。透過本地端部署的大型語言模型，便能在保障隱私與安全的前提下，有效能夠提高工作效率。

開始上課

[AI人工智慧] EasyOCR v.s. PaddleOCR 誰才是圖片轉文字(OCR)的最佳神器?!

大數學堂
Oct. 1, 2023, 5:30 p.m.

光學字元辨識(OCR)能夠將紙上文字數位化，使得資訊管理變得更加方便，例如：將書籍掃描成電子版、識別及翻譯外國的路標或菜單，以及將手寫筆記快速轉化成文字檔。本文介紹如何透過 Python使用EasyOCR和PaddleOCR兩種開源工具，可以簡單地識別圖片中的文字。同時，影片中亦比較了兩個套件與不同類型文字的識別準確率。

開始上課

[AI人工智慧] 快速玩轉AI：使用LM Studio在個人電腦上部署Google新開源大型語言模型Gemma

大數學堂
Feb. 25, 2024, 5 p.m.

Google最近發布了新的開源大型語言模型Gemma，似乎是為了與Meta的Llama2與OpenAI展開競爭。Google 此次提供了2B和7B兩種模型，目的在應用於較低配置的運行環境上離線使用，彰顯了Google想在邊緣AI領域獨佔鰲頭的野心。以下我們將一起探討如何在個人電腦上快速利用LM Studio 部署Gemma 2B，讓大家親身體驗這款先進語言模型的卓越性能吧！

開始上課

[AI人工智慧] 運用 Whisper 輕鬆打造即時字幕轉錄神器！😎

大數學堂
April 7, 2024, 5:15 p.m.

今天要帶大家挑戰用 Whisper 和 PyAudio 打造即時字幕轉錄功能！😲 先安裝必要套件，寫個錄音函數把聲音切成小片段，讓 Whisper 辨識語音轉文字，最後用無窮迴圈讓錄音、辨識輪番上陣，就能創造即時語音轉文字的魔法！🎉 最後還用 OpenAI CEO Sam Altman 的片段實測給你看！想要更精準的結果可選用更大的模型，但要有 GPU 硬體才能兼顧速度和準確度喔！😉跟著這個教學，你也可以輕鬆用 Whisper 做出自己的即時語音轉文字應用！

開始上課

[AI人工智慧] 如何用OpenAI API 快速搭建一個類似 NotebookLM 的 Podcast 功能 ?

大數學堂
Sept. 17, 2024, 4:30 p.m.

今天我們要探索一個超酷的主題：如何打造你自己的中文Podcast！🎙️ 最近，NotebookLM推出了一個令人興奮的新功能——將筆記轉換成Podcast。聽起來很棒，對吧？但是，它目前只支持英文，而且操作不太直觀。別擔心！我們有更好的解決方案。 😉 在本教程中，我們將利用OpenAI的強大API，向你展示如何輕鬆創建引人入勝的中文Podcast。

開始上課

[AI人工智慧] 只要100多行程式碼？！ Gemini 2 Flash 顛覆你對即時翻譯的想像

大數學堂
Dec. 15, 2024, 9 p.m.

Google最新推出的Gemini 2 Flash為AI即時翻譯領域帶來重大突破，開發者僅需撰寫約100行Python程式碼，就能實現即時影片和對話的翻譯功能。這套系統透過WebSocket實現即時通訊，採用每0.25秒分段處理音訊的機制，並整合了語音辨識與翻譯功能。儘管目前在中文語音輸出支援和翻譯精準度上還有改進空間，但系統已能在極低延遲的情況下提供高品質的翻譯結果。

開始上課

[AI人工智慧] 多模態AI應用實戰:輕鬆用Gemini 與 ElevenLabs 實現即時語音翻譯與合成

大數學堂
June 3, 2024, 9:30 p.m.

自從看了GPT-4o的一個發表會以後，大家是不是對多模態模型都感到非常興奮呢?雖然我們現在可以在ChatGPT Plus使用到GPT-4o，但它並沒有展示會中所展示的語音輸入和輸出功能。幸好的是，最近Google的Gemini也推出了多模態模型，而且也可以接受語音輸入。我就想，不如把這個技術結合語音合成，打造一個即時口語翻譯系統，而且更進一步，用自己的聲音翻譯!本影片將手把手教您如何使用Google的Gemini和ElevenLabs服務，讓AI自動翻譯您講的內容，並用你自己的聲音說出翻譯後的內容，大大降低溝通門檻。

開始上課

[AI人工智慧] AI直接操控我的電腦？！Computer Use功能實測大揭密

大數學堂
Oct. 27, 2024, 9 p.m.

Anthropic最新推出的Computer Use功能讓AI真正能控制電腦，引發業界高度關注。這項創新技術承諾能讓AI助手直接操作我們的電腦系統，為自動化領域帶來新的可能性。然而，實際測試結果顯示，Computer Use功能仍有待改進。主要問題在於系統會將原始畫面進行resize處理，導致滑鼠定位不夠精準，加上耗費大量Token的問題，使用成本偏高。值得一提的是，使用GPT-4V搭配PyAutoGUI，其實就能達到相似的效果。本次測試過程中，我們詳細展示了從環境建置、API設定到實際操作的完整流程，並以MOMO購物網站為例進行實測。儘管目前功能還不夠完善，但已展現出AI輔助人類的潛力，期待隨著技術演進能帶來更多突破性的應用。

開始上課

[AI人工智慧] AI Agent 實戰教學：新手也能輕鬆打造股票AI分析師！

大數學堂
Jan. 12, 2025, 9 p.m.

2025 年被業界稱為「Agent 元年」，標誌著 AI 應用進入了一個嶄新的階段。本課程將展示如何運用 OpenAI Swarm 框架打造一個智慧股票分析系統，透過多個專業 Agent 的分工協作，實現即時股價查詢、技術指標分析和財務數據解讀等功能。課程採用 yfinance 和 pandas_ta 等實用工具，手把手帶領學習者從零開始建立自己的 AI 投資助手，讓投資決策更有效率。透過這個實戰案例，學習者不僅能掌握 2025 年最熱門的 AI Agent 技術，更能實際應用在投資分析領域。

開始上課

[AI人工智慧] 不會寫程式也能做網路爬蟲？如何用Playwright + MCP 輕鬆搜集機票資訊！

大數學堂
March 29, 2025, noon

想使用網路爬蟲搜集資料，卻不會寫程式？Playwright-MCP 巧妙結合MCP與網頁自動化工具Playwright，讓你完全不需寫程式碼就能實現網頁爬蟲與自動操作功能！本影片實測如何不寫任何程式碼就能運用Playwright MCP自動搜尋台灣飛往東京賞櫻的機票，並比較各航班最佳票價。

開始上課

[AI人工智慧] DeepSeek 部署全攻略 –從 1.5B 蒸餾模型到 671B 滿血模型

大數學堂
Feb. 24, 2025, 10 p.m.

DeepSeek 模型以其強大的671B參數引起開發者關注，但部署方式選擇成為關鍵問題。大數學堂介紹了四種部署方案：適合入門的Ollama和LM Studio、適合正式環境的vLLM，以及需要技術背景但資源需求較低的Llama.cpp。無論您是新手或專業開發者，都能根據自身需求和技術能力，選擇合適的部署方式來體驗DeepSeek的功能。

開始上課

hidden