行 · 專案

AI 短劇產線・一句話到成片營運中

生圖、轉影片、配音、對嘴、上字幕、成片——五段式本地產線,人只負責劇本和判斷。

從一句話到一支有旁白、有字幕的短片,中間是五段接起來的產線:

生圖——文字生成分鏡圖
轉影片——圖生影片(I2V),單段上限約 15 秒
配音——中文神經語音,或用 GPT-SoVITS 克隆我自己的聲音;字幕檔同步產出
對嘴——MuseTalk 讓真人臉型影片跟著旁白動嘴
組裝——ffmpeg 上字幕、接轉場、縫成片

每一段都是獨立工具,壞了哪段換哪段。三十秒以上的影片靠多段拼接——沒有一步登天的生成,只有縫得好不好看的工。

做完的體會:工具鏈會一直換,但「分鏡怎麼切、哪一秒該停」這種判斷,目前還是人的。

生成式影像語音克隆ffmpeg

← 回工作檯