搜尋

運用 AI 將語音轉成精準時間戳記 srt 字幕檔案

不知道大家有沒有「語音轉字幕」的需求呢?雖然現在 AI 蓬勃發展,但如果要精準做到語音轉換字幕,並且產生精確的時間戳記的 srt 檔案,不是需要額外花錢,就是產生的結果無法符合中文語系常見得需求 ( 例如中文、英文、數字或台語互相混雜的狀況 ),這篇教學會介紹運用 Google Colab 搭配 Gemini 的做法,讓產生具有精準時間戳記的 srt 字幕檔案。

快速導覽:

運用 AI 將語音轉成精準時間戳記 srt 字幕檔案

Google Colab 搭配 Gemini 的做法

Gemini 不僅可以生成文字、圖片、影片和聲音,還有一個神奇的隱藏功能「語音轉文字」,運用 Gemini 可以將錄製的聲音精準的轉換成逐字稿,過程中更能精準辨識中文、英文、台語、數字、語氣等內容,而且識別的正確率非常高,對於想要快速整理聲音檔案的人來說非常的方便。

雖然 Gemini 可以產生精準的逐字稿,但對於字幕檔案的「時間戳記」就非常不準確,不是無法正確對應語音,就是會將一整段很長的文字塞入一個時間戳記中,對於影片剪接而言非常不友善,為了改善時間戳記問題,可以搭配 Google Colab 輔助操作。

Google Colab 是一個 Google 推出的 Python 雲端運行環境,可在免費的狀態下,使用 Google 雲端平台分配的 CPU 或 GPU 運算資源,透過 Google Colab 執行 OpenAI 的 whisper 自動語音辨識模型,就能夠將語音檔案轉換成文字,產生具有精準字幕戳記的 srt 字幕檔案

雖然 Google Colab 運行 whisper 可以產生精準時間戳字幕檔,但整體辨識的精準度仍有待加強,特別是不同語言混雜時,常常會就出現判斷錯誤的狀況,和 Gemini 的精準度仍有天壤之別。

因此最好的方式就是將 Gemini 的精準文字和 whisper 的精準時間戳互相整合,運用各自的優點,產生精準文字和精準時間戳記的字幕檔案,這也是接下來的步驟要介紹的重點。

Google Colab 搭配 Gemini 的做法 - 將 Gemini 的精準文字和 whisper 的精準時間戳互相整合

使用 Gemini 將語音轉換成精準文字檔

開啟 Gemini,上傳要轉換的聲音檔案,輸入下方的提示詞 ( 自行修改語系名稱 ),模型選擇「思考型」,並強調不要加上任何額外文字或意見,避免 AI 幻覺或自作主張添加內容

附件是一段「中文」語音,幫我轉換成逐字稿。
注意:
- 轉換成「繁體中文」逐字稿。
- 語音內容可能會有中文、英文、數字或台語交錯的內容,請精準辨識。
- 逐字稿的中文字和英文數字之間保留半形空格。
- 不要加上任何額外文字或你自己分析意見,單純產生逐字稿。

使用 Gemini 將語音轉換成精準文字檔 - 使用提示詞

送出提示詞之後,Gemini 就會產生逐字稿,產生的速度根據內容檔案的多寡決定,從下方「未經任何修正」的結果可以看出,產生的逐字稿非常的精準,連同台語都可以精準辨識 ( 除了圈叉叉圈沒有辨識為 OXXO ),完成後就可以將文字檔案內容存檔為「.txt」檔案

使用 Gemini 將語音轉換成精準文字檔 - 產生精準文字檔案

使用 Colab 將語音轉換成精準時間戳記字幕

新增並開啟 Google Colab 專案 ( 參考「開始使用 Colab:撰寫第一支 Python 程式」),進入專案之後,首先要先選擇免費的「GPU」資源,執行的速度和準確率才會比較好,選擇「執行階段 > 變更執行階段類型」。

使用 Colab 將語音轉換成精準時間戳記字幕 - 新增並開啟 Google Colab 專案,變更執行階段類型

選擇「T4 GPU」硬體加速器,這是免費方案可以使用 GPU 資源,每天有免費的時間額度可以使用。

使用 Colab 將語音轉換成精準時間戳記字幕 - 選擇「T4 GPU」硬體加速器

點擊右上角的「連線」,就可以和具有 T4 GPU 的雲端硬體連線,連線成功後就可以看到出現綠色的勾勾。

使用 Colab 將語音轉換成精準時間戳記字幕 - 點擊右上角的「連線」,就可以和具有 T4 GPU 的雲端硬體連線

在中間區域輸入下列指令,點擊黑色箭頭「執行」,安裝 OpenAI 的 whisper 模組。

!pip install git+https://github.com/openai/whisper.git

使用 Colab 將語音轉換成精準時間戳記字幕 - 在中間區域輸入下列指令,點擊黑色箭頭「執行」,安裝 OpenAI 的 whisper 模組

點擊左上方「+ 程式碼」按鈕,在下方新增一個程式碼輸入與執行欄位。

使用 Colab 將語音轉換成精準時間戳記字幕 - 點擊「+ 程式碼」按鈕,在下方新增一個程式碼輸入與執行欄位

點擊左側第一個按鈕,開啟左側選單,點擊「資料夾」圖示,開啟暫存用的雲端空間。

使用 Colab 將語音轉換成精準時間戳記字幕 - 點擊左側第一個按鈕,開啟左側選單,點擊「資料夾」圖示,開啟暫存用的雲端空間

上傳剛剛的錄音檔案,注意,因為是暫存用的雲端空間,所以當 Colab 專案連線結束之後,就會刪除上傳的檔案。

使用 Colab 將語音轉換成精準時間戳記字幕 - 上傳剛剛的錄音檔案

在程式碼區域輸入下列提示詞,將「audio_path」更換成剛剛上傳的錄音檔案檔名,完成後按下前方圓形執行按鈕,就會開始進行字幕檔案的轉換,第一次轉換時會先下載 1.4G 左右的語言模型,在這次 Colab 專案連線過程中,就不會再重新下載。

import whisper
import os
from google.colab import files
from whisper.utils import get_writer

# 1. 載入模型
model = whisper.load_model("medium")

# 2. 設定檔案路徑
audio_path = "錄音.m4a"

# 3. 執行轉錄 (這部分維持原樣)
# Whisper 會自動在 result['segments'] 中儲存時間戳資訊
result = model.transcribe(audio_path, prompt="請轉錄以下繁體中文的內容:")

# 4. 產出 SRT 檔案
output_directory = "." # 輸出至目前目錄
file_name = os.path.splitext(os.path.basename(audio_path))[0]

# 使用 Whisper 內建的 writer 來處理 SRT 格式
# 參數說明: 格式("srt"), 輸出路徑
srt_writer = get_writer("srt", output_directory)
srt_writer(result, audio_path)

# 5. 下載檔案
files.download(f"{file_name}.srt")

使用 Colab 將語音轉換成精準時間戳記字幕 - 在程式碼區域輸入下列提示詞開始進行字幕檔案的轉換

執行完成後,就會自動產生並下載一個「.srt」字幕檔案,內容就是具有精準時間戳記的字幕檔案,下方是這個檔案「未修改的內容」,從中可以看出,雖然具有精準的時間戳記,但內容辨識度仍然有些不準確,和 Gemini 的精準文字辨識仍有差異。

1
00:00:00,000 --> 00:00:01,540
哈囉大家好
2
00:00:01,800 --> 00:00:03,840
我是圈XX圈
3
00:00:04,100 --> 00:00:09,480
今天要來跟大家介紹語音轉逐自稿的
4
00:00:09,740 --> 00:00:10,760
精準用法
5
00:00:11,520 --> 00:00:15,360
不知道大家有沒有聽過Gemini呢
6
00:00:15,880 --> 00:00:18,440
Gemini是Google的
7
00:00:18,940 --> 00:00:20,740
很好用的AI工具
8
00:00:26,360 --> 00:00:28,680
使用起來非常的讚喔
9
00:00:29,660 --> 00:00:32,220
今天我們就來試試看吧
10
00:00:32,720 --> 00:00:33,500
現在
11
00:00:34,260 --> 00:00:36,060
我來測試一下
12
00:00:36,560 --> 00:00:37,840
數字好了
13
00:00:38,360 --> 00:00:41,180
我現在說1 2 3 4 5
14
00:00:41,940 --> 00:00:44,500
台語是這兩三四五
15
00:00:44,760 --> 00:00:47,320
不知道能不能精準辨識呢
16
00:00:48,600 --> 00:00:50,900
如果可以精準辨識的話
17
00:00:51,160 --> 00:00:54,240
就表示這段語音逐自稿還不錯
18
00:00:54,740 --> 00:00:55,520
掰掰

使用 Gemini 產生精準字幕與時間戳記字幕

當 Gemini 的精準字幕和 whisper 精準時間戳都完成之後,接下來就可以運用下列的提示詞,讓 AI 將兩者結合在一起,下方使用 Gemini 示範。

有時候 AI 仍然會加入一些自己的臆測或幻覺,可使用「嚴格遵守」、「絕對」、「精確」等指令加強提示

你是一個比對並修正字幕檔案的專家,我會提供你一份具有時間戳的 .srt 檔案與一份純文字 .txt 檔案,請幫我根據 .txt 檔,修正 .srt 檔案內容,過程中請嚴格遵守下方條件:

- 完成後用程式碼區塊提供我具有時間戳的 .srt 檔案。
- 完全精確保留 .srt 檔案的時間戳,只針對 .srt 內容修正。
- 每段字幕的「結尾」不需要逗號或句號,句中可以有標點符號 ( 根據語氣需求,結尾可以使用驚嘆號 )。
- 可適度移除語氣贅字!
- 絕對不要對 .srt 檔案時間戳進行任何更動!
- 不要加入自己的臆測或想法!

完成後就可以得到「精確時間戳 + 精確文字」的語音逐字稿,將文字儲存為「.srt」檔案,就可在影片中使用字幕。

1
00:00:00,000 --> 00:00:01,540
Hello 大家好
2
00:00:01,800 --> 00:00:03,840
我是圈叉圈
3
00:00:04,100 --> 00:00:09,480
今天要來跟大家介紹語音轉逐字稿的
4
00:00:09,740 --> 00:00:10,760
精準用法
5
00:00:11,520 --> 00:00:15,360
不知道大家有沒有聽過 Gemini 呢
6
00:00:15,880 --> 00:00:18,440
Gemini 是 Google 的一個
7
00:00:18,940 --> 00:00:20,740
很好用的 AI 工具
8
00:00:26,360 --> 00:00:28,680
使用起來非常的讚喔!
9
00:00:29,660 --> 00:00:32,220
今天我們就來試試看吧
10
00:00:32,720 --> 00:00:33,500
現在
11
00:00:34,260 --> 00:00:36,060
我來測試一下
12
00:00:36,560 --> 00:00:37,840
數字好了
13
00:00:38,360 --> 00:00:41,180
我現在說 1 2 3 4 5
14
00:00:41,940 --> 00:00:44,500
台語是 一二三四五
15
00:00:44,760 --> 00:00:47,320
不知道能不能精準辨識呢
16
00:00:48,600 --> 00:00:50,900
如果可以精準辨識的話
17
00:00:51,160 --> 00:00:54,240
就表示這段語音逐字稿還不錯喔
18
00:00:54,740 --> 00:00:55,520
Bye bye

常見問題與處理方法

這篇教學所介紹的做法,大部分的情況都可以正常運作,但有時 AI 仍然會發生奇怪的幻覺,在合併的過程中產生重疊或不流暢的時間戳記,因此建議使用「影片編輯器」進行最後檢查 ( 或上傳到 youtube 之後,透過 youtube 上傳字幕之後進行檢查 ),查看字幕是否可以正常運作,如果有發生字幕時間戳記問題,也可以直接在影片編輯中微調即可。

常見問題與處理方法 - 因此建議使用「影片編輯器」進行最後檢查

小結

其實產生精準的字幕往往是影片拍攝者最大的痛點,因為坊間語音轉字幕的軟體或 AI,不是太貴,就是轉換的品質不如預期,但只要可以活動手邊的工具,就可以讓工具各自的優點相輔相成,快速產生精準的字幕囉!

意見回饋

如果有任何建議或問題,可傳送「意見表單」給我,謝謝~

生成式 AI 教學

基本介紹

關於生成式 AI 關於 AI 繪圖 AI 繪圖的提示技巧 AI 繪圖軟體比較 ( 2023 ) AI 繪圖軟體推薦 ( 2024 ) 2025 生成式 AI 工具推薦

Vibe Coding 專區

Vibe Coding 教學導讀 認識 Vibe Coding Vibe Coding 新手入門 Vibe Coding 規劃架構流程 Vibe Coding 網頁知識 Vibe Coding Python 知識 Vibe Coding 下載網頁程式碼 Vibe Coding Google App Script 部署網頁 Vibe Coding Github 部署網頁 Vibe Coding 使用外部圖片 Vibe Coding 使用 SVG 圖示 Vibe Coding 使用外部字體 Vibe Coding 固定網頁樣式 Vibe Coding + Spreadsheet 資料庫 Vibe Coding + Firebase 即時資料庫 Vibe Coding + Firestore 資料庫 Vibe Coding 資料庫安全防護 Vibe Coding 串接帳號驗證機制 Vibe Coding 串接 Google 雲端硬碟 Vibe Coding 串接 Gemini API Vibe Coding 打造 LINE Bot Vibe Coding 範例 - 英文單字卡

AI 實用技巧

AI 語音轉 srt 字幕

2025 AI 影音工具

ChatGPT - 圖片提示詞技巧 ChatGPT - 客製化機器人 ChatGPT - 使用畫布功能 Gemini - 開始使用 Gemini - 客製化機器人 Gemini - 串接 Google 服務 Gemini - 使用畫布功能 NotebookLM - 開始使用 NotebookLM - 建構知識庫 Google AI Studio - 介面功能 Nano Banana - 影像生成與編輯 Gemini Educator 線上認證 圖片 - AI 圖片快速去背 圖片 - AI 黑白照片上色 聲音 - AI 影片語音轉字幕 影片 - Pika 生成創意影片 影片 - KlingAI 生成影片 影片 - AI 影片趣味特效 影片 - AI 擁抱 ( AI Hug ) 影片 - AI 老照片動起來 圖片 - Dreamina 生成圖片 音樂 - SUNO 創作音樂 音樂 - 免費 AI 音樂素材

ChatGPT

ChatGPT 教學導讀 認識 ChatGPT 開始使用 ChatGPT 優良的提示技巧 基本提示 實用組合提示 角色扮演&對話主題 閱讀並模仿風格 對話中顯示圖片 創作長篇故事與小說 使用 Bing Chat 相關工具或服務

Poe ( Poe AI )

開始使用 Poe 聊天機器人 生成圖片機器人 建立自己的機器人 Youtube 影片重點整理 PDF 重點整理 GPT-4o-mini 分析圖片 讀取網頁進行重點整理 讓 AI 美化提示詞

Ideogram

開始使用 Ideogram 文字產生圖片 圖片 Retry 與 Remix

dzine

開始使用 dzine 提示詞產生圖片 圖片產生圖片 運用圖層功能 運用文字和畫筆 ( 範例 ) 室內設計透視圖實體化 ( 範例 ) 名畫轉真人照片 ( 範例 ) 真人照片轉卡通 ( 範例 ) 真人卡通貼圖

Image Creator

開始使用 Image Creator 提示原則與技巧 搭配 Bing Copilot 產生圖片 ( 範例 ) 產生分享文章縮圖 ( 範例 ) 漫畫書風格

Leonardo.Ai

Leonardo.Ai 教學導讀 Leonardo.Ai vs Midjourney 認識 Leonardo.Ai 註冊與登入 Leonardo.Ai 使用圖片產生器 文字提示語法和準則 Elements 風格元素 使用圖片產生圖片 AI 圖片編輯器 ( Canvas Editor ) 即時 AI 畫布 ( Realtime Canvas ) 即時圖片產生器 ( Realtime Gen ) 圖片升級器 ( Universal Upscaler ) 產生圖片的後續步驟 Prompt Magic 魔法提示 PhotoReal&Alchemy 特色模型 訓練自己的模型 ( 範例 ) 填補缺少的披薩 ( 範例 ) 組合兩片披薩 ( 範例 ) 虛擬陳雷 ( 範例 ) 修改人物年齡 ( 範例 ) 換臉特效 ( 範例 ) 隱藏的人臉或文字 ( 範例 ) 全部填滿皮卡丘 ( 範例 ) 名畫轉真人照片

Recraft

開始使用 Recraft 點陣圖 Raster image 向量圖 Vector image 圖示 Icon 與 Logo 系列影像 Image Set 原型示意圖 Mockup 畫框 Frame、文字 Text 放大 Upscale、改色 Recolor 圖片去背、替換圖片背景 添加、修改、移除景物 圖片產生圖片 點陣圖轉向量圖 自定義圖片風格 合併不同圖片 ( 範例 ) 名畫轉真人照片 ( 範例 ) 照片轉卡通插畫 ( 範例 ) 自製表情貼圖 ( 範例 ) 多格漫畫風格 ( 範例 ) 圖片中加入文字 ( 範例 ) 延伸圖片範圍

Midjourney

Midjourney 教學導讀 認識 Midjourney 使用 Midjourney 使用 niji.journey 設定指令 功能參數 使用文字提示產生圖片 使用圖片產生圖片 優良的提示技巧 多重提示的權重與順序 style tuner 樣式調校 remix 放大、修改與重繪 blend 混合多張圖片 刪除圖片&傳送資訊 ( 範例 ) 修改人物年齡 ( 範例 ) 阿爾欽博托風格 ( 範例 ) 照片轉卡通人物 ( 範例 ) 變胖、變瘦

Vidnoz AI

開始使用 Vidnoz AI ( 影片 ) 照片講話 ( 圖片 ) 人物換臉 ( 圖片 ) 圖片去背

Canva AI 魔法功能

魔法媒體工具 ( 新視窗 ) 魔法工作室 ( 新視窗 ) 魔法變形工具 ( 新視窗 ) 魔法文案工具 ( 新視窗 )

Clipdrop

開始使用 Clipdrop 修改圖片選取區域 延展圖片並生成內容 人物換臉 圖片去背 移除特定物件 放大與增強影像 影像打光 替換天空

Playground AI

開始使用 Playground AI Board 文字產生圖片 Canvas 繪製與修改圖片 Remix 與 Edit 圖片 延展和放大增強圖片 圖片去背、移除物件 搭配 Poe AI 產生圖片

Replicate 模型

認識 Replicate ( 修圖 ) 黑白照片上色 ( 修圖 ) 修復老照片 ( 修圖 ) 增強與放大照片 ( 修圖 ) 更換髮型和表情 ( 繪圖 ) 似顏繪貼圖 ( 繪圖 ) 真人照片轉公仔 ( 繪圖 ) 隱藏的圖案或文字 ( 提示 ) 圖片轉提示詞 ( 提示 ) 改善提示詞

AI 繪圖效果&範例

著色本效果 2D 卡通人物 物品開箱照 像素藝術 百科全書風格 卡通貼紙

AI 繪圖風格大全

風格大全 ( 總覽 ) 風格大全 ( 攝影、照片 ) 風格大全 ( 畫面角度效果 ) 風格大全 ( 媒材、材質 ) 風格大全 ( 卡通、漫畫 ) 風格大全 ( 藝術流派風格 ) 風格大全 ( 藝術家、畫家 ) 風格大全 ( 插畫風格 1 ) 風格大全 ( 插畫風格 2 ) 風格大全 ( 特色風格 )