行 · 實作筆記
一句話到成片:AI 短劇產線實錄
五段工具怎麼接、每一段的天花板在哪,以及三個省下重做時間的判斷。
AI 短劇產線是把「一句話的劇本」變成「有旁白、有字幕的短片」的本地工作流。工具會一直換,但這幾條經驗應該會活得比工具久。
每一段的天花板
- 圖生影片單段約 15 秒。想要 30 秒以上,沒有捷徑,只有多段拼接。先想好怎麼切段再開始生成,比生完才發現接不起來省一倍時間。
- 失敗的生成也扣配額。影像生成的配額是消耗品,生壞了照樣計費——所以不要手癢連續重試,先回頭改 prompt。
- 旁白常比影片長。與其讓語音被截斷,不如讓影片凍結最後一幀等聲音講完——ffmpeg 處理,觀感遠好於斷音。
聲音的兩條路和一條線
通用旁白用神經語音(免費、穩定、多聲線);要「我自己的聲音」就走 GPT-SoVITS 本地克隆,一張消費級顯卡跑得動。
那條線:只克隆自己的聲音,或拿到明確授權的聲音。技術上能做的事和應該做的事,中間差一個授權。
中文字幕的小坑
字幕燒錄如果不指定中文字型,輸出就是一排方塊。指定一個系統一定有的字型(例如微軟正黑)寫進 ffmpeg 的字幕濾鏡參數,一次解決。
收工的判斷
這條產線最花時間的不是生成,是決定「哪一段重做、哪一段算了」。執行交給機器之後,剩下的全是判斷——這句話在這個專案裡不是哲學,是時程表。
後記:成本紅線(2026-06)
Grok i2v 每日限額被大幅縮減——原本一天可以 200 部 6 秒,我親測只剩 2、30 部,等於成本高了快十倍。正在懊惱成本與本地顯卡低配的窘境下,好像又找到一條路,還沒實測:LTX2.3 這個模型在 ComfyUI 裡顯存好像只需 8G;而有了 claude code,我們不用再像以前一樣在 ComfyUI 裡自主下載套件跟亂拉一堆線,它直接會幫你建好。
我覺得產出成本才是重點:再好的品質,如果未來兌換到的流量、CPM 不足以支撐產品持續產出,那就是一條死路。