ARIB字幕生成ツール

会社で作ります

ユースケース

MXFをアップロードするとワンクリックでARIB字幕生成できる
- LLMで自動的に整形してくれる
- メタデータのXMLや台本などを追加でき、LLMの整形を補助できる
字幕編集画面で微調整できる
- Vrewみたいなやつ。
ARIB字幕方式でダウンロードできる

サブユースケース

編集後の字幕をSRTで出力できる
番組情報とかのプリセットを登録しておいて、整形用データに簡単に入力できる。

システムざっくり

動画アップロード → 音声抽出 → 文字起こし → LLM整形 → 字幕編集
Webアプリというより、ローカルアプリかな…？Electronかな？
- うちの会社のPC基本的に貧弱だし、GPU買うお金とかもないから、APIでもいいかも。
- Webアプリであれば、フルクラウドフレアで作りたいな～
  - D1くらいあれば良さそう。
Kotoba-Whisper-v2.2 使いたい。
- Webアプリにするなら、Naverの文字起こしとか、Googleの文字起こしみたいなAPIかな…Groqもあったか。
サーバー分けできるようにする？
- 基本はローカルだけど、Whisperを含んだサーバーや、libSQLサーバーを建てれるようにしておいて、各クライアントの設定から接続できるようにする？

とりあえずSTT部分のバックエンドをサクッとつくる
理由は、このアプリの一番の部分はSRTからARIB形式への変換が一番重要で
そこを開発するために、精度は低くていいので音声からSRTへ変換するAPIを実装したい。
精度の良い音声からSRTへの変換は世の中になんぼでもあるので、そこからARIBへの変換が重要。
※まあSRTにこだわらず、WhisperのJSONから作ったほうがいいかもしれない。

ローカル開発環境が貧弱なので、Faster-whisperでtinyかkotobaをつかってみる。
まずはこのモデルがいまの開発環境で動くかどうか。

次の段階は、Electronかsvelteかastroあたりで組むので、
上のWhisperの文字起こしはWebのAPIとして使いたいので、最初からSpeachesとかでやったほうがいいのかな？

Explorer

ARIB字幕生成ツール

最近の更新

ノートパソコン欲しい

プレスポ改造

本と電子ペーパータブレットのサイズ

とりあえずB751C買ってみた

電子ペーパータブレットほしい

Graph View