AI 影片轉字幕 ( 語音逐字稿、MP3 轉字幕 )
隨著線上影片需求的增加,出現了越來越多「AI 轉字幕」的工具,但很可惜目前幾乎所有的線上 AI 轉字幕工具都是要付費的,最多也都只有幾分鐘的免費額度,因此這篇教學會介紹一些免費額度較多的線上轉字幕工具,以及如何在本機環境安裝線上轉字幕工具。
快速導覽:
cSubtitle
cSubtitlea 是一款可以「不用註冊」,且能「免費」將語音轉換文字至少 3 分鐘的線上工具,只需要開啟網站,上傳語音音檔或影片,就可以將語音音檔或影片的語音,轉換成純文字 ( txt ) 或是字幕 ( srt )。
上傳檔案後,cSubtitlea 就會開始透過 AI 分析音檔內容,完成後就可以下載字幕檔案或純文字檔案。
下方是轉換後的字幕:
1
00:00:00,470 --> 00:00:02,770
測試語音轉文字
2
00:00:03,390 --> 00:00:07,290
不知道轉出來的效果準不準確
3
00:00:08,480 --> 00:00:13,900
五秒鐘不知道會不會太少十秒十一秒十二秒
4
00:00:15,080 --> 00:00:15,560
測試一下
5
00:00:16,160 --> 00:00:18,420
那就傳個二十秒
6
00:00:19,390 --> 00:00:19,910
完成
turboscribe
turboscribe 是一款可以「需要註冊」,但可以「免費」將語音轉換文字至少 30 分鐘的線上工具,只需要開啟網站並註冊登入,就能上傳語音音檔或影片,將語音音檔或影片的語音,轉換成純文字 ( txt ) 或是字幕 ( srt )。
上傳檔案後,可以選擇語系、轉錄模式或一些進階設定。
轉換完成後,可以在網站上看見轉換後的文字和時間戳記,從右側也可以將其下載為 txt 或 srt 檔案,不過下載時因為還要手動設定「每句的字詞數量」,常導致字幕段落和預期不同,因此不建議使用它的下載功能,為了避免這種狀況,可以先「手動複製」網站上轉換後的文字。
接著使用任何一套 AI 工具 ( ChatGPT、Gemini、Poe AI 皆可 ),將剛剛複製的文字轉換成字幕檔案 ( ChatGPT 還會直接提供 .srt 檔案下載 )。
幫我將下面這段字幕變成字幕檔 .srt
`
(0:00) 測試語音轉文字 (0:04) 不知道轉出來的效果準不準確 (0:08) 5秒鐘不知道會不會太少 (0:11) 10秒、11秒、12秒 (0:14) 測試一下 (0:16) 那就傳個20秒 (0:19) 完成
`
下方是轉換後的字幕:
1
00:00:00,000 --> 00:00:04,000
測試語音轉文字
2
00:00:04,000 --> 00:00:08,000
不知道轉出來的效果準不準確
3
00:00:08,000 --> 00:00:11,000
5秒鐘不知道會不會太少
4
00:00:11,000 --> 00:00:14,000
10秒、11秒、12秒
5
00:00:14,000 --> 00:00:16,000
測試一下
6
00:00:16,000 --> 00:00:19,000
那就傳個20秒
7
00:00:19,000 --> 00:00:19,800
完成
本機安裝 OpenAI Whisper 轉字幕工具
由於現在幾乎所有線上語音轉字幕工具都「要收費」,就算有提供免費額度往往也不太夠,所以如果不排斥「本機環境」,也可以安裝 OpenAI 所開發的 Whisper,在本機環境轉換字幕,就可以完全不受額度限制。Whisper 是由 OpenAI 所開發的一個開源自動語音辨識模型,能夠將語音轉換成文字,支援多種語言辨識與翻譯,具備高度準確性和靈活性,Whisper 提供下列幾種模型:
模型名稱 | 精確度 | 執行速度 | 備注 |
---|---|---|---|
tiny | 低 | 最快 | 使用 CPU |
base | 較低 | 塊 | 使用 CPU |
small | 中等 | 中等 | 使用 CPU,推薦 |
medium | 高 | 慢 | 建議使用 GPU |
large | 最高 | 最慢 | GPU,支援最多語言 |
Mac 環境安裝
在 Mac 環境下安裝,需要先安裝 Homebrew ( 如果尚未安裝 ),打開「終端機 ( Terminal )」輸入下方指令:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
接著安裝 ffmpeg ( 讓 Whisper 可以處理聲音音訊 )
brew install ffmpeg
在 Python 環境中安裝 Whisper ( 參考:使用 Python 虛擬環境 )
pip install -U openai-whisper
安裝後就能在 Python 開發環境中,在終端機輸入下列指令轉換,轉換後會在同一個目錄下,產生一個同樣檔名的 srt 檔案。
whisper sample.mp3 --language Chinese --output_format srt --task transcribe --model small
下方列出相關指令說明:
部分 | 功能 |
---|---|
whisper |
啟動 Whisper 命令列工具 ( 需安裝 openai-whisper )。 |
sample.mp3 |
欲轉換的音訊檔案 ( 支援 .mp3, .wav, .m4a, .mp4 等格式 )。 |
--language |
指定語音的語言 ( 支援語言:English、Chinese、Japanese、French 等 )。 |
--task |
任務類型,選項為 transcribe 和 translate ( 會翻譯為英文 )。 |
--model |
指定使用的模型。 |
下方是轉換後的字幕檔案:
1
00:00:00,000 --> 00:00:03,000
測試語音轉文字
2
00:00:03,000 --> 00:00:07,000
不知道轉出來的效果準不準確
3
00:00:08,000 --> 00:00:11,000
5秒鐘不知道會不會太少
4
00:00:11,000 --> 00:00:14,000
10秒、11秒、12秒
5
00:00:14,000 --> 00:00:16,000
測試一下
6
00:00:16,000 --> 00:00:19,000
那就轉個20秒
7
00:00:19,000 --> 00:00:21,000
完成
Windows 環境安裝
在 Windows 中安裝 Whisper 的步驟如下:
安裝 Python,安裝時請勾選「Add Python to PATH」,
安裝 ffmpeg ( 下載連結 ),安裝時選擇
release full
,解壓縮後,將 bin 資料夾的路徑 ( 例如C:\ffmpeg\bin
) 加入到系統環境變數中的「Path」。開啟命令提示字元 ( CMD 或 PowerShell ),建立並進入 Python 開發環境 ( 參考:使用 Python 虛擬環境 )。
使用下方指令安裝 Whisper:
pip install -U openai-whisper
使用 Whisper
whisper sample.mp3 --language Chinese --output_format srt --task transcribe --model small
下方列出相關指令說明:
部分 | 功能 |
---|---|
whisper |
啟動 Whisper 命令列工具 ( 需安裝 openai-whisper )。 |
sample.mp3 |
欲轉換的音訊檔案 ( 支援 .mp3, .wav, .m4a, .mp4 等格式 )。 |
--language |
指定語音的語言 ( 支援語言:English、Chinese、Japanese、French 等 )。 |
--task |
任務類型,選項為 transcribe 和 translate ( 會翻譯為英文 )。 |
--model |
指定使用的模型。 |
下方是轉換後的字幕檔案:
1
00:00:00,000 --> 00:00:03,000
測試語音轉文字
2
00:00:03,000 --> 00:00:07,000
不知道轉出來的效果準不準確
3
00:00:08,000 --> 00:00:11,000
5秒鐘不知道會不會太少
4
00:00:11,000 --> 00:00:14,000
10秒、11秒、12秒
5
00:00:14,000 --> 00:00:16,000
測試一下
6
00:00:16,000 --> 00:00:19,000
那就轉個20秒
7
00:00:19,000 --> 00:00:21,000
完成
小結
對於製作影片而言,字幕往往是最難處理的,如果可以透過一些 AI 工具輔助轉換字幕,就能省下非常多「上字幕」的時間,趕快運用這篇教學所介紹的方法,加速自己的創作時間吧。
意見回饋
如果有任何建議或問題,可傳送「意見表單」給我,謝謝~