行 · 實作筆記

一句話到成片:AI 短劇產線實錄

五段工具怎麼接、每一段的天花板在哪,以及三個省下重做時間的判斷。

AI 短劇產線是把「一句話的劇本」變成「有旁白、有字幕的短片」的本地工作流。工具會一直換,但這幾條經驗應該會活得比工具久。

每一段的天花板

  • 圖生影片單段約 15 秒。想要 30 秒以上,沒有捷徑,只有多段拼接。先想好怎麼切段再開始生成,比生完才發現接不起來省一倍時間。
  • 失敗的生成也扣配額。影像生成的配額是消耗品,生壞了照樣計費——所以不要手癢連續重試,先回頭改 prompt。
  • 旁白常比影片長。與其讓語音被截斷,不如讓影片凍結最後一幀等聲音講完——ffmpeg 處理,觀感遠好於斷音。

聲音的兩條路和一條線

通用旁白用神經語音(免費、穩定、多聲線);要「我自己的聲音」就走 GPT-SoVITS 本地克隆,一張消費級顯卡跑得動。

那條線:只克隆自己的聲音,或拿到明確授權的聲音。技術上能做的事和應該做的事,中間差一個授權。

中文字幕的小坑

字幕燒錄如果不指定中文字型,輸出就是一排方塊。指定一個系統一定有的字型(例如微軟正黑)寫進 ffmpeg 的字幕濾鏡參數,一次解決。

收工的判斷

這條產線最花時間的不是生成,是決定「哪一段重做、哪一段算了」。執行交給機器之後,剩下的全是判斷——這句話在這個專案裡不是哲學,是時程表。

後記:成本紅線(2026-06)

Grok i2v 每日限額被大幅縮減——原本一天可以 200 部 6 秒,我親測只剩 2、30 部,等於成本高了快十倍。正在懊惱成本與本地顯卡低配的窘境下,好像又找到一條路,還沒實測:LTX2.3 這個模型在 ComfyUI 裡顯存好像只需 8G;而有了 claude code,我們不用再像以前一樣在 ComfyUI 裡自主下載套件跟亂拉一堆線,它直接會幫你建好。

我覺得產出成本才是重點:再好的品質,如果未來兌換到的流量、CPM 不足以支撐產品持續產出,那就是一條死路。

← 回工作檯