ZOOMなどアプリの音声と自分のマイクの入力音声をミキサー通して録音して、Whisperで文字起こしする

やり方忘れそうなので自分用のメモです。

Whisperの文字起こしの精度は本当にびっくりする…。

 

 

 

やりたいこと

  • Web会議の議事録作成を自動化する(なるべく無料で)
  • win10付属のステレオミキサー使うと自分の声が聴こえるのが嫌なので他の方法で

環境、使うツール

VoiceMeeter Bananaを設定する

1.まずインストールしたら、サウンドコントロールパネルの「再生」タブを以下のように設定する。

VoiceMeeterInputを既定のデバイスにする

2.「録音」タブを以下のように設定する。

VoiceMeeterOutputを既定のデバイスにする

3.VoiceMeeter bananaを起動して以下のように設定する。

これでマイクからの入力とアプリなどの音声がミックスされてVoiceMeeter bananaのoutputから出力されるようになります。

4.ZOOMのオーディオ設定

スピーカーとマイクをシステムと同じに設定する。

音声を録音する

1.カセットテープの部分で右クリックすると録音の設定が開きます。

2.POST FADER OUTPUTSを「BUS B1」にします。

ここで選択された出力が録音されます。

3.カセットの下の丸ボタンを押すと録音開始。

Google colab でWhisperに文字起こししてもらう

この記事の通りにやるとできます(丸投げ)。

aismiley.co.jp

 

こちらの記事参考にすると要約までしてくれたり、夢が広がりますね。

qiita.com

まだ業務で使用してないのでやってみたら感想書きます。

追記:業務で使用したので追記。

まず、30分弱のミーティングを録音したらファイルサイズが350MBでした。

それをそのままcolabで実行すると無料アカウントだったのでメモリ上限に達してエラーに。

なのでプログラムの中で15分ごとに分割されたファイルを食わせたら無事実行できました。

あと、whisperから改行なくすべてのテキストが出力されて、見にくいので

result = model.transcribe(file_path, verbose=True, language="ja")
のように設定した方が幾分か見やすいかと。
文字起こしの精度は固有名詞以外はほとんど完璧でした。やっぱりすごい。