Speech-to-Text Webcam Overlay
Problem
With transcription in video conferencing tools, subtitles and video images are displayed separately, and it is difficult to see the correspondence between the speaker and characters. Someone proposed a method to compose transcribed text in front of a face using live transcribe Android app and video switcher. However, it is difficult to use because it requires Android smartphone and video switcher, and the settings are complicated.
ビデオ会議ツールにおける文字起こしは,字幕とビデオ映像が別々に表示されており,話者と文字の対応が見辛い。Android の「音声文字変換」アプリとビデオスイッチャーを使い,顔の前に文字を合成する方法が提案されたが,Android スマートフォンやビデオスイッチャーが必要になったり,設定が煩雑であったりと利用のハードルが高かった。
Solution
We implemented a web page that can display live transcribed subtitles overlay on the webcam video by simply opening it with a web browser. If you share the screen with a video conferencing tool or use a screen capture tool, you can participate in a video conference while showing your face and text at the same time. For speech recognition, we employ Web Speech API, which is available on Google Chrome. We made the source code available on GitHub as open source.
Webブラウザで開くだけで,自動で文字起こしされた字幕をWebカメラの映像に重ねて表示することができるWebページを実装した。カメラの画と字幕が重なった映像が表示されるので,これを画面共有したり,画面キャプチャーツールでビデオ会議ツールに流し込めば,顔と文字を同時に見せながらビデオ会議に参加することが可能になる。音声認識には Google Chrome 等で利用が可能な Web Speech API を利用した。ソースコードを GitHub にてオープンソースで公開した。