Whisper
使用
code:python
import whisper
model = whisper.load_model("base")
result = model.transcribe("file_name", verbose=True, language="ja")
@minw_twt: 最近產品迎來幾個重大更新,為了能順利的跟團隊同步資訊,但又不用一直重複說明 ...... 決定面對多數人都不喜歡看文件的事實 🫠 開始將內部的 Release Note 升級成影片形式。 總之來挑戰 20 分鐘以內完成一支有字幕的 Release 說明影片!
1/6
https://video.twimg.com/ext_tw_video/1692206794167435265/pu/vid/1180x720/Yi1Gx9A8i952k-rv.mp4?tag=12#.mp4
Screen Studio UX 設計極佳,除了錄製之外,剪輯跟特效操作非常容易上手,能讓影片呈現效果精緻之餘、也不用花上太多處理時間。
例如:我很喜歡他的滑鼠追蹤與畫面放大特效,讓影片更有節奏,避免長時間觀看操作影片,因為沒有動態而看到晃神。
2/6
@minw_twt: 完成剪輯輸出後,考量到不同情境的影片觀看體驗,接下來需要透過 Whisper AI 幫影片上字幕。 以下影片相關的操作段落,都可以找到替代的軟體處理,個人習慣透過指令處理,以下會以 @FFmpeg 作為主要示範工具。
3/6
@minw_twt: 在開始辨識之前,影片需要先轉成 mp3 檔,才有辦法透過 Whisper AI 進行辨識,所以先透過 ffmpeg 將影片轉換成 mp3 檔。 完成轉檔後,可以透過在電腦上執行 Whisper AI 模型,或透過 Open AI 封裝的 Speech to Text API 帶入自己的 token 後,將 mp3 檔案辨識、轉換成 srt 字幕檔格式。
4/6
https://pbs.twimg.com/media/F3vvOeIbcAA8bEZ.png
code:bash
ffmpeg -i input.mp4 output.mp3
# local
whisper output.mp3 --language Chinese
# remote
curl -- request POST \
--header 'Content-Type: multipart/form-data' \
--form title=@output.mp3 \
--form model=whisper-1 \
--form response_format=srt \
--form prompt=請幫我轉換成繁體中文 > output.srt
@minw_twt: 帶給 API 的 prompt 可以帶上像是:轉換成「繁體中文」或描述主題的需求,讓影片字幕不會跑出簡體、辨識也會更精準,減少事後字幕處理時間。 最後透過 ffmpeg 將字幕壓製進影片之中,並再調整一次影片速度,讓影片節奏更緊湊、縮短影片時間,就完成了一支 Release 介紹影片!
5/6
https://pbs.twimg.com/media/F3vvWFBbMAAf4w8.png
@minw_twt: 上面的工作流是目前找到最省事的製作流程,如果錄製順利的話,影片輸出後的處理時間不會超過 5 分鐘,但通常免不了重錄個 2-3 次以及剪輯一些冗言贅字。 最後,附上完整指令檔內容,可以搭配 Raycast 一鍵完成,如果有更速通的處理方式,也歡迎分享給我 🙏
6/6
https://pbs.twimg.com/media/F3vvb4rbUAAvyUN.png