会社で作ります


ユースケース

  • MXFをアップロードするとワンクリックでARIB字幕生成
    • LLMで自動的に整形してくれる
    • メタデータのXMLや台本などを追加で
  • 字幕編集画面で微調整
    • Vrewみたいなやつ。
  • ARIB字幕方式でダウンロード

サブユースケース

  • SRT出力
  • 番組情報とかのプリセットを登録しておいて、整形用データとして出せるように。

システムざっくり

  • 動画アップロード → 音声抽出 → 文字起こし → LLM整形 → 字幕編集
  • Webアプリというより、ローカルアプリかな…?Electronかな?
    • うちの会社のPC基本的に貧弱だし、GPU買うお金とかもないから、APIでもいいかも。
    • Webアプリであれば、フルクラウドフレアで作りたいな~
      • D1くらいあれば良さそう。
  • Kotoba-Whisper-v2.2 使いたい。
    • Webアプリにするなら、Naverの文字起こしとか、Googleの文字起こしみたいなAPIかな…Groqもあったか。
  • サーバー分けできるようにする?
    • 基本はローカルだけど、Whisperを含んだサーバーや、libSQLサーバーを建てれるようにしておいて、各クライアントの設定から接続できるようにする?