テレワークでよく使うテレカン。実際の取材もオンラインで行う事が増えています。ちょっとした打合せであれば「録画」データを共有すればいいのですが、取材や議事録などを残しておきたい場合はテキストにしておく必要があります。
そこで気になってくるのが、音声データをテキストに変換するサービス。これまで秋葉は「Amazon Transcribe」を愛用していました。
「Amazon Transcribe」を使うには、あらかじめ少し準備しておく必要があります(※1)が、ある程度の精度で文字起こしされたテキストを取得することができます。
※1 秋葉は、ZapierやAWS Lambdaなどと組み合わせ、ストレージにアップロードしたら自動的に文字起こしするという簡単なプログラムを自作して運用しています。
ただ、いくつか困った点も。すべての言葉を文字起こししてしまうため「えーっと」とか、「その〜」といった言葉も取得してしまう上、あまり精度が高くないということもあるため、もう一度音声を聞き直しながらテキストを修正する作業が必要となるのです。
もっと楽にテキスト化できるツールがないか探していたところ、アドバンスト・メディアの「AmiVoice Cloud Platform」というサービスを発見しました。
AmiVoice Cloud Platformを使うと、ビジネス用語などもきちんとテキストになってきます。また、医療用や製薬用、金融用などに特化した文字認識エンジンを使うことで、そういった分野の音声データも的確にテキスト化されます。
APIで提供されているサービスであるため、使うには若干のプログラミングなどが必要になりますが、そのあたりは個人の努力でなんとかなりそうです。
実際にAmiVoice Cloud Platformで文字起こしをしたところ、かなりの精度でテキスト化されるのを確認しました。これから、より使い勝手のいいようにいろいろと工夫していこうと思っています。
自分自で工夫するのが難しいという人は、AmiVoice Cloud Platformのエンジンを使ったサービスを使うという方法もあります。たとえば、VoXTの「ボクスト・セルフ」では専用アプリケーションが提供されているため、これを使えば手軽にテキスト化できます。
「文字起こし作業が必要だけど面倒くさい」という人は、音声認識APIを試してみてはいかがでしょうか。
[pt_view id=”c7cdfe7s9t”]
コメント