大數軟體 X 大數學堂 | 搜尋關鍵字: 語音辨識

[Open Jarvis] 如何讓Python 自動將語音轉譯成文字?

大數學堂
Feb. 13, 2017, 3:18 p.m.

Open Jarvis Project… 使用Python的SpeechRecognition套件，透過語音辨識API幫助將語音轉譯成文字。

[ChatGPT] 如何使用Whisper API 與 ChatGPT API 快速摘要YouTube 影片?

大數學堂
March 5, 2023, 9:26 a.m.

OpenAI最近發布了自動語音辨識模型Whisper API和ChatGPT API，讓付費企業和開發人員更輕鬆地使用AI模型。這兩個API提供了快速摘要YouTube影片的功能，使用者只需生成API金鑰，下載音頻檔案並將其分割為小檔案後，就可以使用Whisper API將影片轉換為文字，再使用ChatGPT API將文字轉換為摘要。使用AI摘要影片的好處包括節省觀看時間更準確地捕捉重點，且這兩個API的收費非常便宜。這可以是一個簡單而有效的方法，同時還能創造更多有趣的應用。

開始上課

用第三方套件打造"真"對話機器人

大數學堂
May 23, 2022, midnight

本文介紹如何使用Python中的第三方套件打造一個真實的對話機器人。對話機器人可以進行自然的對話，並根據使用者的輸入提供適當的回應。文章提到可以使用NLTK或spaCy等自然語言處理套件來處理和分析使用者的輸入。同時，可以使用GPT模型等語言模型生成自然流暢的回應。另外，也可以使用SpeechRecognition等語音辨識套件實現語音輸入功能。文章指出，這些套件能夠讓應用程序能與使用者進行自然且有意義的對話。

開始上課

[AI人工智慧] 運用 Whisper 輕鬆打造即時字幕轉錄神器！😎

大數學堂
April 7, 2024, 5:15 p.m.

今天要帶大家挑戰用 Whisper 和 PyAudio 打造即時字幕轉錄功能！😲 先安裝必要套件，寫個錄音函數把聲音切成小片段，讓 Whisper 辨識語音轉文字，最後用無窮迴圈讓錄音、辨識輪番上陣，就能創造即時語音轉文字的魔法！🎉 最後還用 OpenAI CEO Sam Altman 的片段實測給你看！想要更精準的結果可選用更大的模型，但要有 GPU 硬體才能兼顧速度和準確度喔！😉跟著這個教學，你也可以輕鬆用 Whisper 做出自己的即時語音轉文字應用！

開始上課

[AI人工智慧] 只要100多行程式碼？！ Gemini 2 Flash 顛覆你對即時翻譯的想像

大數學堂
Dec. 15, 2024, 9 p.m.

Google最新推出的Gemini 2 Flash為AI即時翻譯領域帶來重大突破，開發者僅需撰寫約100行Python程式碼，就能實現即時影片和對話的翻譯功能。這套系統透過WebSocket實現即時通訊，採用每0.25秒分段處理音訊的機制，並整合了語音辨識與翻譯功能。儘管目前在中文語音輸出支援和翻譯精準度上還有改進空間，但系統已能在極低延遲的情況下提供高品質的翻譯結果。

開始上課

[AI人工智慧] 多模態AI應用實戰:輕鬆用Gemini 與 ElevenLabs 實現即時語音翻譯與合成

大數學堂
June 3, 2024, 9:30 p.m.

自從看了GPT-4o的一個發表會以後，大家是不是對多模態模型都感到非常興奮呢?雖然我們現在可以在ChatGPT Plus使用到GPT-4o，但它並沒有展示會中所展示的語音輸入和輸出功能。幸好的是，最近Google的Gemini也推出了多模態模型，而且也可以接受語音輸入。我就想，不如把這個技術結合語音合成，打造一個即時口語翻譯系統，而且更進一步，用自己的聲音翻譯!本影片將手把手教您如何使用Google的Gemini和ElevenLabs服務，讓AI自動翻譯您講的內容，並用你自己的聲音說出翻譯後的內容，大大降低溝通門檻。

開始上課

hidden

[Open Jarvis] 如何讓Python 自動將語音轉譯成文字?

[ChatGPT] 如何使用Whisper API 與 ChatGPT API 快速摘要YouTube 影片?

用第三方套件打造"真"對話機器人

[AI人工智慧] 運用 Whisper 輕鬆打造即時字幕轉錄神器！😎

[AI人工智慧] 只要100多行程式碼？！ Gemini 2 Flash 顛覆你對即時翻譯的想像

[AI人工智慧] 多模態AI應用實戰:輕鬆用Gemini 與 ElevenLabs 實現即時語音翻譯與合成