会社で作ります
ユースケース
- MXFをアップロードするとワンクリックでARIB字幕生成
- LLMで自動的に整形してくれる
- メタデータのXMLや台本などを追加で
- 字幕編集画面で微調整
- Vrewみたいなやつ。
- ARIB字幕方式でダウンロード
サブユースケース
- SRT出力
- 番組情報とかのプリセットを登録しておいて、整形用データとして出せるように。
システムざっくり
- 動画アップロード → 音声抽出 → 文字起こし → LLM整形 → 字幕編集
- Webアプリというより、ローカルアプリかな…?Electronかな?
- うちの会社のPC基本的に貧弱だし、GPU買うお金とかもないから、APIでもいいかも。
- Webアプリであれば、フルクラウドフレアで作りたいな~
- D1くらいあれば良さそう。
- Kotoba-Whisper-v2.2 使いたい。
- Webアプリにするなら、Naverの文字起こしとか、Googleの文字起こしみたいなAPIかな…Groqもあったか。
- サーバー分けできるようにする?
- 基本はローカルだけど、Whisperを含んだサーバーや、libSQLサーバーを建てれるようにしておいて、各クライアントの設定から接続できるようにする?