会社で作ります


ユースケース

  • MXFをアップロードするとワンクリックでARIB字幕生成できる
    • LLMで自動的に整形してくれる
    • メタデータのXMLや台本などを追加でき、LLMの整形を補助できる
  • 字幕編集画面で微調整できる
    • Vrewみたいなやつ。
  • ARIB字幕方式でダウンロードできる

サブユースケース

  • 編集後の字幕をSRTで出力できる
  • 番組情報とかのプリセットを登録しておいて、整形用データに簡単に入力できる。

システムざっくり

  • 動画アップロード → 音声抽出 → 文字起こし → LLM整形 → 字幕編集
  • Webアプリというより、ローカルアプリかな…?Electronかな?
    • うちの会社のPC基本的に貧弱だし、GPU買うお金とかもないから、APIでもいいかも。
    • Webアプリであれば、フルクラウドフレアで作りたいな~
      • D1くらいあれば良さそう。
  • Kotoba-Whisper-v2.2 使いたい。
    • Webアプリにするなら、Naverの文字起こしとか、Googleの文字起こしみたいなAPIかな…Groqもあったか。
  • サーバー分けできるようにする?
    • 基本はローカルだけど、Whisperを含んだサーバーや、libSQLサーバーを建てれるようにしておいて、各クライアントの設定から接続できるようにする?

とりあえずSTT部分のバックエンドをサクッとつくる
理由は、このアプリの一番の部分はSRTからARIB形式への変換が一番重要で
そこを開発するために、精度は低くていいので音声からSRTへ変換するAPIを実装したい。
精度の良い音声からSRTへの変換は世の中になんぼでもあるので、そこからARIBへの変換が重要。
※まあSRTにこだわらず、WhisperのJSONから作ったほうがいいかもしれない。

ローカル開発環境が貧弱なので、Faster-whisperでtinyかkotobaをつかってみる。
まずはこのモデルがいまの開発環境で動くかどうか。

次の段階は、Electronかsvelteかastroあたりで組むので、
上のWhisperの文字起こしはWebのAPIとして使いたいので、最初からSpeachesとかでやったほうがいいのかな?