Google Document の音声認識入力が思ってたよりすごかった

はいえーとあの google の音声入力のテストをやってみてるんですけどこれめっちゃすごいですねなんかここまで認識精度良いと思わなかったあの文字の改行とかそこだけちょっと自分でやんないといけないんですけどそれ以外は全然不満がないですねこれなにかコマンドとかあるのかなやそうでもないか何がやりたいかというと discord でちょっと仕事で使ってみたくてボイスチャットチャンネルに没頭*1参加させて録音させてそのデータを google のドキュメントとして音声で食わせて文字起こしさせればあの会議とかねリモートワークとかですごい便利なんじゃないかなと思って文字認識 api ってちょっと公開されてるかわかんないんだけどこういう api って google あんまりね有料 api 脱退後悔*2しきれなかったりっていうイメージあるんだよねまあ google ドキュメントを使わせるためのインセンティブやっぱりそういうところがあるんだろうなって後僕がめっちゃ噛んだりしたところも勝手に飛ばしてくれてるんですよこれ喋りながら結構混*3んでるんだけど多分 google が正しいと思う認識する文字列として適正じゃないってことでね甲大*4部分がスキップされてるんだよね文字起こし分を見てるとかんだって言うのがちょっとうまくいかないなやってもねこれも最終的に人間がテレビ*5調整するって言うフレーズ*6が必要になるんだなるのは仕方ないんだけどこれ見れば何か吉田か*7全然思い出せるし多分これすごいよ3-を使ってみると良いんじゃないかなと言う感じです


Speech API - 音声認識  |  Google Cloud Platform

Google $0.006/15s だったから30分の会議の音声データを送りつけても72円

*1:BOT

*2:で公開

*3:

*4:かんだ

*5:手で

*6:フェーズ

*7:喋ったか