会社で作ります
ユースケース
- MXFをアップロードするとワンクリックでARIB字幕生成できる
- LLMで自動的に整形してくれる
- メタデータのXMLや台本などを追加でき、LLMの整形を補助できる
- 字幕編集画面で微調整できる
- Vrewみたいなやつ。
- ARIB字幕方式でダウンロードできる
サブユースケース
- 編集後の字幕をSRTで出力できる
- 番組情報とかのプリセットを登録しておいて、整形用データに簡単に入力できる。
システムざっくり
- 動画アップロード → 音声抽出 → 文字起こし → LLM整形 → 字幕編集
- Webアプリというより、ローカルアプリかな…?Electronかな?
- うちの会社のPC基本的に貧弱だし、GPU買うお金とかもないから、APIでもいいかも。
- Webアプリであれば、フルクラウドフレアで作りたいな~
- D1くらいあれば良さそう。
- Kotoba-Whisper-v2.2 使いたい。
- Webアプリにするなら、Naverの文字起こしとか、Googleの文字起こしみたいなAPIかな…Groqもあったか。
- サーバー分けできるようにする?
- 基本はローカルだけど、Whisperを含んだサーバーや、libSQLサーバーを建てれるようにしておいて、各クライアントの設定から接続できるようにする?
とりあえずSTT部分のバックエンドをサクッとつくる
理由は、このアプリの一番の部分はSRTからARIB形式への変換が一番重要で
そこを開発するために、精度は低くていいので音声からSRTへ変換するAPIを実装したい。
精度の良い音声からSRTへの変換は世の中になんぼでもあるので、そこからARIBへの変換が重要。
※まあSRTにこだわらず、WhisperのJSONから作ったほうがいいかもしれない。
ローカル開発環境が貧弱なので、Faster-whisperでtinyかkotobaをつかってみる。
まずはこのモデルがいまの開発環境で動くかどうか。
次の段階は、Electronかsvelteかastroあたりで組むので、
上のWhisperの文字起こしはWebのAPIとして使いたいので、最初からSpeachesとかでやったほうがいいのかな?