[資料產品實作] 如何取得臉書使用頻率最高的文字 (Part 1)?
文章介紹了最近vonvon的人氣臉書文字分析服務,並提供了使用網路爬蟲(Python Crawler)來抓取用戶在Facebook上留下的所有訊息內容的教程。
開始上課文章介紹了最近vonvon的人氣臉書文字分析服務,並提供了使用網路爬蟲(Python Crawler)來抓取用戶在Facebook上留下的所有訊息內容的教程。
開始上課這篇文章介紹了如何使用Amazon EC2的EMR服務快速建立Hadoop叢集,並指出這將使巨量資料分析變得非常簡單。同時,文章也提到如果讀者對Hadoop和其生態系統有更多興趣的話,可以參考由作者和Tibame共同開設的線上課程。
開始上課Jupyter是一個強大而方便的工具,它提供網頁介面,讓使用者可以使用瀏覽器進行Julia Python或R程式的開發和維護。這個工具相當實用,值得一試。未來我們將陸續介紹它的各種好用功能。
開始上課vonvon最近推出了一個服務,讓使用者取得臉書中最難忘的照片,我們可以利用爬蟲技術做出類似的服務。這堂課程會教你如何取得自己在Facebook上的相片和按讚統計,然後按照按讚數量排序,將所有最難忘的臉書照片下載下來。
開始上課最近香港發生一起利用AI技術的詐騙案,歹徒使用Deepfake技術製作假影片,冒充公司財務長詐騙兩億港幣。這引起了大家對AI模仿能力的疑慮。為展示AI換臉有多麽容易實作,我們將使用Python的Roop套件,並以賈伯斯的照片創造深度偽造影片。希望能用這個範例提高大家對AI詐騙的警覺
開始上課🔍 想知道如何從頭開始建立自己的財經新聞聚合器嗎?我們的最新影片將一步步指引您如何運用 Python 網路爬蟲技術來擷取、整理財經新聞,並且展示如何將這些數據轉換成 CSV 檔案格式,進一步應用於 GPTs。 📈 此外,我們也將探討如何利用 GPTs 的強大功能,將您的財經新聞聚合器提升至一個新層次,提供更深入、更客製化的財經資訊。
開始上課聽說最近外資對台積電法說會的評價很高,不知道是真的還是假的呢?那麼就讓我ChatGPT來告訴你們答案吧!為了能夠快速探索外資對台積電法說會的看法,我們先蒐集了一堆外資對台積電的投資建議報告,並運用最近話題最熱的兩大神器:langchain 與 llama_index來將所有外資的建議報告索引起來。 而本教學不只是教學如何建立單篇的PDF索引,而是包含多篇PDF的索引服務。當我們將所有報告索引起來後,這項服務就比ChatPDF更加傑出!使用者只需要對索引提問,就可以輕輕鬆鬆得知每家外資對台積電法說會的看法了!
開始上課光學字元辨識(OCR)能夠將紙上文字數位化,使得資訊管理變得更加方便,例如:將書籍掃描成電子版、識別及翻譯外國的路標或菜單,以及將手寫筆記快速轉化成文字檔。本文介紹如何透過 Python使用EasyOCR和PaddleOCR兩種開源工具,可以簡單地識別圖片中的文字。同時,影片中亦比較了兩個套件與不同類型文字的識別準確率。
開始上課Ollama是一款能在個人電腦上輕鬆部署和使用語言模型的工具,透過Ollama,我們便能在終端機使用:1. 聯發科的 Breeze 7b 模型、2. 利用 Python 接合 Ollama 的端口,3. 甚至使用 Llava 模型智慧地重命名文件中的圖片。透過本地端部署的大型語言模型,便能在保障隱私與安全的前提下,有效能夠提高工作效率。
開始上課Google最近發布了新的開源大型語言模型Gemma,似乎是為了與Meta的Llama2與OpenAI展開競爭。Google 此次提供了2B和7B兩種模型,目的在應用於較低配置的運行環境上離線使用,彰顯了Google想在邊緣AI領域獨佔鰲頭的野心。以下我們將一起探討如何在個人電腦上快速利用LM Studio 部署Gemma 2B,讓大家親身體驗這款先進語言模型的卓越性能吧!
開始上課在 [ 如何使用ChatGPT 快速翻譯 PDF 文件? ] 的影片中,我們探討了如何使用ChatGPT來翻譯文件。許多觀眾提問,表示他們有大量的論文儲存在自己的電腦或Google Drive上。因此,今天我們將展示如何有效利用我們的程式來翻譯這些文件。我們將直接從Google Drive存取文件,並使用ChatGPT進行翻譯。今天的教程不僅是對之前程式的改良,我們還將介紹一種更強大的PDF解析器。以往,我們使用了PyPDF來處理PDF文件,但由於PDF的結構複雜,我們今天將引入一個更專業的工具—LamaParse,這是由知名的RAG套件Lama Index所提供。讓我們開始今天的教程吧!
開始上課今天要帶大家挑戰用 Whisper 和 PyAudio 打造即時字幕轉錄功能!😲 先安裝必要套件,寫個錄音函數把聲音切成小片段,讓 Whisper 辨識語音轉文字,最後用無窮迴圈讓錄音、辨識輪番上陣,就能創造即時語音轉文字的魔法!🎉 最後還用 OpenAI CEO Sam Altman 的片段實測給你看!想要更精準的結果可選用更大的模型,但要有 GPU 硬體才能兼顧速度和準確度喔!😉跟著這個教學,你也可以輕鬆用 Whisper 做出自己的即時語音轉文字應用!
開始上課ChatGPT是一個強大的語言模型,不僅可以寫信、摘要文章、翻譯,還能協助寫程式。然而,與ChatGPT對話時也引發了擔憂,擔心機密或敏感資料可能因此外流。所幸,Meta公司推出了開源的Llama2模型,可以在本地部署並在離線環境下使用。這個模型減少了與外部服務的數據傳輸,提高了安全性。本課程介紹了在Colab上使用Llama2模型的示範,包括下載、使用transformers套件載入模型以及生成對話結果。
開始上課今天我們要探索一個超酷的主題:如何打造你自己的中文Podcast!🎙️ 最近,NotebookLM推出了一個令人興奮的新功能——將筆記轉換成Podcast。聽起來很棒,對吧?但是,它目前只支持英文,而且操作不太直觀。別擔心!我們有更好的解決方案。 😉 在本教程中,我們將利用OpenAI的強大API,向你展示如何輕鬆創建引人入勝的中文Podcast。
開始上課本教學將手把手教學如何從GoodInfo網站獲取臺積電財報數據外,還將進一步利用ChatGPT的GPT-4 API解讀財報,判斷公司是否值得投資。影片內容涵蓋了爬蟲、資料處理、API註冊、提示詞設計、財報分析等詳細步驟,幫助您掌握快速取得股票財報和AI輔助投資決策的方法。
開始上課爬蟲的定律就是目標網站一直在變!本教學示範如何突破集保網站的更新限制,成功抓取股權分散表資料。🔍 透過結合 requests 的 Session 管理、Synchronizer Token 驗證機制,並運用 BeautifulSoup 解析 HTML 與 Pandas 處理表格數據,輕鬆完成資料擷取。💡 整個過程展示了如何應對網站的變化,透過 POST 請求技巧實現穩定的爬蟲功能。🚀
開始上課自從看了GPT-4o的一個發表會以後,大家是不是對多模態模型都感到非常興奮呢?雖然我們現在可以在ChatGPT Plus使用到GPT-4o,但它並沒有展示會中所展示的語音輸入和輸出功能。 幸好的是,最近Google的Gemini也推出了多模態模型,而且也可以接受語音輸入。我就想,不如把這個技術結合語音合成,打造一個即時口語翻譯系統,而且更進一步,用自己的聲音翻譯!本影片將手把手教您如何使用Google的Gemini和ElevenLabs服務,讓AI自動翻譯您講的內容,並用你自己的聲音說出翻譯後的內容,大大降低溝通門檻。
開始上課Anthropic最新推出的Computer Use功能讓AI真正能控制電腦,引發業界高度關注。這項創新技術承諾能讓AI助手直接操作我們的電腦系統,為自動化領域帶來新的可能性。然而,實際測試結果顯示,Computer Use功能仍有待改進。主要問題在於系統會將原始畫面進行resize處理,導致滑鼠定位不夠精準,加上耗費大量Token的問題,使用成本偏高。值得一提的是,使用GPT-4V搭配PyAutoGUI,其實就能達到相似的效果。本次測試過程中,我們詳細展示了從環境建置、API設定到實際操作的完整流程,並以MOMO購物網站為例進行實測。儘管目前功能還不夠完善,但已展現出AI輔助人類的潛力,期待隨著技術演進能帶來更多突破性的應用。
開始上課這篇文章介紹了如何利用Python網路爬蟲和2Captcha驗證碼識別服務,突破券商買賣證券日報表上的reCAPTCHA驗證碼,以獲取分點交易資訊。透過分析分點資料,可以分析大戶的進出行為,以便跟單獲利。文章提供了完整的教學文章連結 影片教學連結和程式碼,並介紹了2Captcha服務的連結。
開始上課在網路爬蟲的世界裡,我們經常會遇到各種反爬蟲機制。🛡️其中,Cloudflare的5秒挑戰(5-second Cloudflare Challenge)是一個常見的障礙。當我們使用普通的requests請求時,往往會被擋下來,無法取得想要的內容。🚫這次,我們將介紹如何使用pyppeteer和pyppeteer_stealth 這兩個強大的工具來突破這個限制。
開始上課