AWS Polly を使用してアプリに機械学習機能を強化したテキスト読み上げを提供する

アプリケーションがユーザーと対話するためにプログラムでテキストを音声に変換する方法が必要な場合、AWS には機械学習を使用して本物そっくりの信じられる音声を作成し、ユーザーエクスペリエンスを大幅に向上させるマネージドサービスがあります。

ニューラルベースのテキスト読み上げは非常に優れています

これはいくら強調してもしすぎることはありません。ニューラルテキスト読み上げ (TTS) は、Siri や Alexa のように、滑らかで人間的な音に聞こえます。また、標準的な TTS は、比較するとロボットのように聞こえます (とはいえ、それでもかなり許容範囲内です)。

実際に自分の目で聞いてみてください。標準の TTS を使用してこの例を聞いてください。

次に、ニューラル TTS を使用したこの例を聞いてください。違いが分かりますか？単語間の移行はプログラムで実現できるものよりもはるかにスムーズです。ユーザーの前に表示したいのはどれですか?

Polly があれば、ロボット TTS は過去のものになります。ほとんどの AWS サービスと同様に、使用量に基づいて料金が請求されます。ニューラル TTS の現行料金は、テキスト 100 万文字あたり 16 ドルです。会話型アプリケーションを構築している場合、通常、応答はかなり短くなり、コストが削減されます。

AWS Polly は標準 TTS もサポートしています。これは 4 倍安価で、ニューラルサポートがまだない特定の言語のフォールバックとしても使用されます。ニューラルエンジンのレベルには達していませんが、それでもかなり優れています。

また、Polly にカスタム辞書を提供することもできます。これにより、特定の単語の発音を変更して、得られる応答をカスタマイズしたり、音声合成エンジンのエラーを修正したりできます。音声合成マークアップ言語 (SSML) を入力として使用することもでき、出力を細かく制御できます。

開始するには、Polly コンソールに移動します。このサービスは非常にシンプルです。Polly に変換したいテキストを入力し、言語を選択し、使用したい音声を選択するだけです。「音声を聞く」ボタンを押して結果をプレビューできます。

ここからファイルを MP3 としてダウンロードすることも、S3 に保存することもできます。 3,000 文字を超える文字を変換する場合は、入力ファイルを S3 に保存する必要があります。

もちろん、このようなサービスをコンソールから使用することはあまり役に立ちません。 AWS API または CLI を使用してプログラムでアクセスする可能性がはるかに高くなります。ここでは CLI について説明しますが、その設定方法については、Polly の API ドキュメントを参照してください。

の

aws polly

コマンドには、Polly を操作するためのすべてのコントロールが含まれています。サポートされているすべての音声のリストを取得するには、

 describe -voices

に渡したいと思われるでしょう。

jq

 aws poly 説明音声 | jq '.Voices'

synthesize-speech コマンドは、いくつかのオプションを指定してテキストを変換します。

 aws ポーリー合成音声

–出力形式 mp3

–voice-id ジョアンナ

–text ‘読むテキスト’

たとえば.mp3

これにより、MP3 がローカルにダウンロードされます。 S3 から読み書きするタスクを作成する場合は、 start-speech-synthesis-task を使用します。

 aws poly 音声合成タスクの開始

–エンジンニューラル

–リージョン us-west-1

–endpoint-url “https://polly.us-west-1.amazonaws.com/”

–出力形式 mp3

–output-s3-bucket-name あなたのバケット名

–output-s3-key-prefix オプション/プレフィックス/パス/ファイル

–voice-id ジョアンナ

–テキストファイル://text_file.txt

これにより、ディスク上のテキストファイルから入力が読み取られ、特定のフォルダーの下にあるオプションで指定したバケットに出力されます。

Polly を使用してチャットボットを構築することを考えている場合は、音声合成に Polly を使用するマネージドチャットボットサービスである AWS Lex を検討してみるとよいでしょう。