ADR-004: 二段階の台詞パイプライン

Status

Accepted

Context

アニメの台詞データは二つの独立した課題を含む：(1) タイムスタンプ付き台詞テキストの抽出、(2) 話者の判定（きりたん、ケイ等）。VOICEROID 音声は自動字幕の精度が低く、話者判定には文脈理解が必要。

Decision

台詞パイプラインを2フェーズに分離する:

Phase 1 (Extraction): 生の台詞行をタイムスタンプ付きで抽出 → epXX_lines.json（自動化可能）
Phase 2 (Attribution): コンテキストを考慮した話者判定 → epXX_dialogue.json + epXX_speakers.json（完全自動化しない）

Alternatives Considered

全自動パイプライン: ASR + 話者ダイアライゼーション + LLM で完全自動化。VOICEROID 音声の ASR 精度が低く（YouTube VTT で 60-70% 程度）、誤帰属のリスクが高い。
単一ファイル方式: 抽出と帰属を1ファイルで管理。抽出の再実行で帰属作業が消失するため却下。
手動のみ: 品質は最高だが、5エピソード × 80-160行のスケールに対応できない。

Assumptions

VOICEROID 音声の ASR 精度は今後向上する可能性がある（Whisper 改善、話者ダイアライゼーション導入）
主要キャラクター（きりたん、ケイ）の声質の違いは人間/LLM で判定可能
Phase 1 の出力フォーマットが安定していれば、Phase 2 の手法を後から改善できる

Consequences

台詞抽出を再実行しても話者判定の作業が失われない
各フェーズを独立してテスト・改善できる
Phase 2 は LLM/人間のレビューが入る「半自動」プロセスとなり、品質を担保
ファイル管理が増えるが、データの信頼性が向上