ZOOMなどアプリの音声と自分のマイクの入力音声をミキサー通して録音して、Whisperで文字起こしする
やり方忘れそうなので自分用のメモです。
Whisperの文字起こしの精度は本当にびっくりする…。
やりたいこと
- Web会議の議事録作成を自動化する(なるべく無料で)
- win10付属のステレオミキサー使うと自分の声が聴こえるのが嫌なので他の方法で
環境、使うツール
- Win10
- ヘッドセット(Web会議でいつも使ってるやつ)
- Whisperの実行環境 Google Colab
VoiceMeeter Bananaを設定する
1.まずインストールしたら、サウンドコントロールパネルの「再生」タブを以下のように設定する。
2.「録音」タブを以下のように設定する。
3.VoiceMeeter bananaを起動して以下のように設定する。
これでマイクからの入力とアプリなどの音声がミックスされてVoiceMeeter bananaのoutputから出力されるようになります。
4.ZOOMのオーディオ設定
スピーカーとマイクをシステムと同じに設定する。
音声を録音する
1.カセットテープの部分で右クリックすると録音の設定が開きます。
2.POST FADER OUTPUTSを「BUS B1」にします。
ここで選択された出力が録音されます。
3.カセットの下の丸ボタンを押すと録音開始。
Google colab でWhisperに文字起こししてもらう
この記事の通りにやるとできます(丸投げ)。
こちらの記事参考にすると要約までしてくれたり、夢が広がりますね。
まだ業務で使用してないのでやってみたら感想書きます。
追記:業務で使用したので追記。
まず、30分弱のミーティングを録音したらファイルサイズが350MBでした。
それをそのままcolabで実行すると無料アカウントだったのでメモリ上限に達してエラーに。
なのでプログラムの中で15分ごとに分割されたファイルを食わせたら無事実行できました。
あと、whisperから改行なくすべてのテキストが出力されて、見にくいので
result = model.transcribe(file_path, verbose=True, language="ja")
のように設定した方が幾分か見やすいかと。
文字起こしの精度は固有名詞以外はほとんど完璧でした。やっぱりすごい。