コンバンハ、千葉(幸)です。

語彙、足りてますか?

人間の語彙を増やすには勉強するしかありませんが、Amazon Transcribe の語彙はカスタム語彙として増やすことができます。

日本語のカスタム語彙を作成する時に文字コードや改行コードまわりで少しハマりましたので、備忘として記しておきます。

目次

カスタム語彙(Custom Vocabularies)とは

AWSドキュメント

カスタム語彙とは、 Amazon Transcribe による文字起こしの精度を高めるために使用できるオプション機能です。辞書に載っていない言葉などシステムが認識するのが難しい言葉に対して、発音や表示形式を定義したリストを予め渡しておくことによって、より自然な文字起こし結果を得ることができます。

Amazon Transcribe による文字起こしはバッチ文字起こしリアルタイム文字起こしの2種類がありますが、どちらもカスタム語彙に対応しています。(ただし、リアルタイム文字起こしは対応している言語が限定されています。日本語には対応していません。)

日本語のカスタム語彙を使用している例としては、以下の記事が分かりやすかったです。

#aws #amazon transcribe

Amazon Transcribe のカスタム語彙 (Custom Vocabularies)
8.50 GEEK