[AI人工智慧] 你也能成為編曲大師!探索如何運用 AudioCraft 以文字創造音樂

  • 大數學堂
  • Aug. 6, 2023, 4:30 p.m.
[AI人工智慧] 你也能成為編曲大師!探索如何運用 AudioCraft 以文字創造音樂

現今人工智慧的進步為我們的生活帶來了前所未有的變革。你或許已熟悉使用ChatGPT創作文章、寫信、翻譯或是使用MidJourney、DALL-E以文字產生千變萬化的圖片,但今天,我們要談論的不僅僅是生文、生圖,我們要談論的是如何利用文字生成音樂!有了AudioCraft,現在你不需要專業的音樂背景,只要提供文字,AudioCraft就能為您生成旋律,音樂家可以獲取新的靈感,而中小企業主也可以輕鬆地為他們的廣告增加配樂,相信有了AudioCraft,再搭配自己的音樂品味,相信在不久的將來,大家都可以成為音樂創作大師!

開始上課

[AI人工智慧] 探索香港Deepfake詐騙案背後的科技:如何只憑免費Colab與基本Python知識製作深度偽造影片?

  • 大數學堂
  • Feb. 7, 2024, 9 p.m.
[AI人工智慧] 探索香港Deepfake詐騙案背後的科技:如何只憑免費Colab與基本Python知識製作深度偽造影片?

最近香港發生一起利用AI技術的詐騙案,歹徒使用Deepfake技術製作假影片,冒充公司財務長詐騙兩億港幣。這引起了大家對AI模仿能力的疑慮。為展示AI換臉有多麽容易實作,我們將使用Python的Roop套件,並以賈伯斯的照片創造深度偽造影片。希望能用這個範例提高大家對AI詐騙的警覺

開始上課

[AI人工智慧] EasyOCR v.s. PaddleOCR 誰才是圖片轉文字(OCR)的最佳神器?!

  • 大數學堂
  • Oct. 1, 2023, 5:30 p.m.
[AI人工智慧] EasyOCR v.s. PaddleOCR 誰才是圖片轉文字(OCR)的最佳神器?!

光學字元辨識(OCR)能夠將紙上文字數位化,使得資訊管理變得更加方便,例如:將書籍掃描成電子版、識別及翻譯外國的路標或菜單,以及將手寫筆記快速轉化成文字檔。本文介紹如何透過 Python使用EasyOCR和PaddleOCR兩種開源工具,可以簡單地識別圖片中的文字。同時,影片中亦比較了兩個套件與不同類型文字的識別準確率。

開始上課

[AI人工智慧] 使用 Ollama 調用本地語言模型生成文章並且辨識圖片內容

  • 大數學堂
  • March 24, 2024, 4 p.m.
[AI人工智慧] 使用 Ollama 調用本地語言模型生成文章並且辨識圖片內容

Ollama是一款能在個人電腦上輕鬆部署和使用語言模型的工具,透過Ollama,我們便能在終端機使用:1. 聯發科的 Breeze 7b 模型、2. 利用 Python 接合 Ollama 的端口,3. 甚至使用 Llava 模型智慧地重命名文件中的圖片。透過本地端部署的大型語言模型,便能在保障隱私與安全的前提下,有效能夠提高工作效率。

開始上課

[AI人工智慧] 快速玩轉AI:使用LM Studio在個人電腦上部署Google新開源大型語言模型Gemma

  • 大數學堂
  • Feb. 25, 2024, 5 p.m.
[AI人工智慧] 快速玩轉AI:使用LM Studio在個人電腦上部署Google新開源大型語言模型Gemma

Google最近發布了新的開源大型語言模型Gemma,似乎是為了與Meta的Llama2與OpenAI展開競爭。Google 此次提供了2B和7B兩種模型,目的在應用於較低配置的運行環境上離線使用,彰顯了Google想在邊緣AI領域獨佔鰲頭的野心。以下我們將一起探討如何在個人電腦上快速利用LM Studio 部署Gemma 2B,讓大家親身體驗這款先進語言模型的卓越性能吧!

開始上課

[AI人工智慧] 運用 Whisper 輕鬆打造即時字幕轉錄神器!😎

  • 大數學堂
  • April 7, 2024, 5:15 p.m.
[AI人工智慧] 運用 Whisper 輕鬆打造即時字幕轉錄神器!😎

今天要帶大家挑戰用 Whisper 和 PyAudio 打造即時字幕轉錄功能!😲 先安裝必要套件,寫個錄音函數把聲音切成小片段,讓 Whisper 辨識語音轉文字,最後用無窮迴圈讓錄音、辨識輪番上陣,就能創造即時語音轉文字的魔法!🎉 最後還用 OpenAI CEO Sam Altman 的片段實測給你看!想要更精準的結果可選用更大的模型,但要有 GPU 硬體才能兼顧速度和準確度喔!😉跟著這個教學,你也可以輕鬆用 Whisper 做出自己的即時語音轉文字應用!

開始上課

[AI人工智慧] 如何用OpenAI API 快速搭建一個類似 NotebookLM 的 Podcast 功能 ?

  • 大數學堂
  • Sept. 17, 2024, 4:30 p.m.
[AI人工智慧] 如何用OpenAI API 快速搭建一個類似 NotebookLM 的 Podcast 功能 ?

今天我們要探索一個超酷的主題:如何打造你自己的中文Podcast!🎙️ 最近,NotebookLM推出了一個令人興奮的新功能——將筆記轉換成Podcast。聽起來很棒,對吧?但是,它目前只支持英文,而且操作不太直觀。別擔心!我們有更好的解決方案。 😉 在本教程中,我們將利用OpenAI的強大API,向你展示如何輕鬆創建引人入勝的中文Podcast。

開始上課

[AI人工智慧] 只要100多行程式碼?! Gemini 2 Flash 顛覆你對即時翻譯的想像

  • 大數學堂
  • Dec. 15, 2024, 9 p.m.
[AI人工智慧] 只要100多行程式碼?! Gemini 2 Flash 顛覆你對即時翻譯的想像

Google最新推出的Gemini 2 Flash為AI即時翻譯領域帶來重大突破,開發者僅需撰寫約100行Python程式碼,就能實現即時影片和對話的翻譯功能。這套系統透過WebSocket實現即時通訊,採用每0.25秒分段處理音訊的機制,並整合了語音辨識與翻譯功能。儘管目前在中文語音輸出支援和翻譯精準度上還有改進空間,但系統已能在極低延遲的情況下提供高品質的翻譯結果。

開始上課

[AI人工智慧] 多模態AI應用實戰:輕鬆用Gemini 與 ElevenLabs 實現即時語音翻譯與合成

  • 大數學堂
  • June 3, 2024, 9:30 p.m.
[AI人工智慧] 多模態AI應用實戰:輕鬆用Gemini 與 ElevenLabs 實現即時語音翻譯與合成

自從看了GPT-4o的一個發表會以後,大家是不是對多模態模型都感到非常興奮呢?雖然我們現在可以在ChatGPT Plus使用到GPT-4o,但它並沒有展示會中所展示的語音輸入和輸出功能。 幸好的是,最近Google的Gemini也推出了多模態模型,而且也可以接受語音輸入。我就想,不如把這個技術結合語音合成,打造一個即時口語翻譯系統,而且更進一步,用自己的聲音翻譯!本影片將手把手教您如何使用Google的Gemini和ElevenLabs服務,讓AI自動翻譯您講的內容,並用你自己的聲音說出翻譯後的內容,大大降低溝通門檻。

開始上課

[AI人工智慧] AI直接操控我的電腦?!Computer Use功能實測大揭密

  • 大數學堂
  • Oct. 27, 2024, 9 p.m.
[AI人工智慧] AI直接操控我的電腦?!Computer Use功能實測大揭密

Anthropic最新推出的Computer Use功能讓AI真正能控制電腦,引發業界高度關注。這項創新技術承諾能讓AI助手直接操作我們的電腦系統,為自動化領域帶來新的可能性。然而,實際測試結果顯示,Computer Use功能仍有待改進。主要問題在於系統會將原始畫面進行resize處理,導致滑鼠定位不夠精準,加上耗費大量Token的問題,使用成本偏高。值得一提的是,使用GPT-4V搭配PyAutoGUI,其實就能達到相似的效果。本次測試過程中,我們詳細展示了從環境建置、API設定到實際操作的完整流程,並以MOMO購物網站為例進行實測。儘管目前功能還不夠完善,但已展現出AI輔助人類的潛力,期待隨著技術演進能帶來更多突破性的應用。

開始上課