[AI人工智慧] 多模態AI應用實戰:輕鬆用Gemini 與 ElevenLabs 實現即時語音翻譯與合成

  • 大數學堂
  • June 3, 2024, 9:30 p.m.
[AI人工智慧] 多模態AI應用實戰:輕鬆用Gemini 與 ElevenLabs 實現即時語音翻譯與合成

自從看了GPT-4o的一個發表會以後,大家是不是對多模態模型都感到非常興奮呢?雖然我們現在可以在ChatGPT Plus使用到GPT-4o,但它並沒有展示會中所展示的語音輸入和輸出功能。 幸好的是,最近Google的Gemini也推出了多模態模型,而且也可以接受語音輸入。我就想,不如把這個技術結合語音合成,打造一個即時口語翻譯系統,而且更進一步,用自己的聲音翻譯!本影片將手把手教您如何使用Google的Gemini和ElevenLabs服務,讓AI自動翻譯您講的內容,並用你自己的聲音說出翻譯後的內容,大大降低溝通門檻。

開始上課

[ChatGPT] 使用Llama Parse和 ChatGPT 翻譯 Google Drive 上的PDF文件

  • 大數學堂
  • May 5, 2024, 10 p.m.
[ChatGPT] 使用Llama Parse和 ChatGPT 翻譯 Google Drive 上的PDF文件

在 [ 如何使用ChatGPT 快速翻譯 PDF 文件? ] 的影片中,我們探討了如何使用ChatGPT來翻譯文件。許多觀眾提問,表示他們有大量的論文儲存在自己的電腦或Google Drive上。因此,今天我們將展示如何有效利用我們的程式來翻譯這些文件。我們將直接從Google Drive存取文件,並使用ChatGPT進行翻譯。今天的教程不僅是對之前程式的改良,我們還將介紹一種更強大的PDF解析器。以往,我們使用了PyPDF來處理PDF文件,但由於PDF的結構複雜,我們今天將引入一個更專業的工具—LamaParse,這是由知名的RAG套件Lama Index所提供。讓我們開始今天的教程吧!

開始上課

[AI人工智慧] 運用 Whisper 輕鬆打造即時字幕轉錄神器!😎

  • 大數學堂
  • April 7, 2024, 5:15 p.m.
[AI人工智慧] 運用 Whisper 輕鬆打造即時字幕轉錄神器!😎

今天要帶大家挑戰用 Whisper 和 PyAudio 打造即時字幕轉錄功能!😲 先安裝必要套件,寫個錄音函數把聲音切成小片段,讓 Whisper 辨識語音轉文字,最後用無窮迴圈讓錄音、辨識輪番上陣,就能創造即時語音轉文字的魔法!🎉 最後還用 OpenAI CEO Sam Altman 的片段實測給你看!想要更精準的結果可選用更大的模型,但要有 GPU 硬體才能兼顧速度和準確度喔!😉跟著這個教學,你也可以輕鬆用 Whisper 做出自己的即時語音轉文字應用!

開始上課

[AI人工智慧] 使用 Ollama 調用本地語言模型生成文章並且辨識圖片內容

  • 大數學堂
  • March 24, 2024, 4 p.m.
[AI人工智慧] 使用 Ollama 調用本地語言模型生成文章並且辨識圖片內容

Ollama是一款能在個人電腦上輕鬆部署和使用語言模型的工具,透過Ollama,我們便能在終端機使用:1. 聯發科的 Breeze 7b 模型、2. 利用 Python 接合 Ollama 的端口,3. 甚至使用 Llava 模型智慧地重命名文件中的圖片。透過本地端部署的大型語言模型,便能在保障隱私與安全的前提下,有效能夠提高工作效率。

開始上課

[AI人工智慧] 快速玩轉AI:使用LM Studio在個人電腦上部署Google新開源大型語言模型Gemma

  • 大數學堂
  • Feb. 25, 2024, 5 p.m.
[AI人工智慧] 快速玩轉AI:使用LM Studio在個人電腦上部署Google新開源大型語言模型Gemma

Google最近發布了新的開源大型語言模型Gemma,似乎是為了與Meta的Llama2與OpenAI展開競爭。Google 此次提供了2B和7B兩種模型,目的在應用於較低配置的運行環境上離線使用,彰顯了Google想在邊緣AI領域獨佔鰲頭的野心。以下我們將一起探討如何在個人電腦上快速利用LM Studio 部署Gemma 2B,讓大家親身體驗這款先進語言模型的卓越性能吧!

開始上課