技術ノート アンドロイド AWS Polly を使用してアプリに機械学習機能を強化したテキスト読み上げを提供する

AWS Polly を使用してアプリに機械学習機能を強化したテキスト読み上げを提供する

AWS Polly を使用してアプリに機械学習機能を強化したテキスト読み上げを提供する

アプリケーションがユーザーと対話するためにプログラムでテキストを音声に変換する方法が必要な場合、AWS には機械学習を使用して本物そっくりの信じられる音声を作成し、ユーザーエクスペリエンスを大幅に向上させるマネージドサービスがあります。

ニューラルベースのテキスト読み上げは非常に優れています

AWS Polly を使用してアプリに機械学習機能を強化したテキスト読み上げを提供する

これはいくら強調してもしすぎることはありません。ニューラル テキスト読み上げ (TTS) は、Siri や Alexa のように、滑らかで人間的な音に聞こえます。また、標準的な TTS は、比較するとロボットのように聞こえます (とはいえ、それでもかなり許容範囲内です)。

AWS Polly を使用してアプリに機械学習機能を強化したテキスト読み上げを提供する

実際に自分の目で聞いてみてください。 標準の TTS を使用してこの例 を聞いてください。

AWS Polly を使用してアプリに機械学習機能を強化したテキスト読み上げを提供する

次に、 ニューラル TTS を使用したこの例 を聞いてください。違いが分かりますか?単語間の移行はプログラムで実現できるものよりもはるかにスムーズです。ユーザーの前に表示したいのはどれですか?

AWS Polly を使用してアプリに機械学習機能を強化したテキスト読み上げを提供する

Polly があれば、ロボット TTS は過去のものになります。ほとんどの AWS サービスと同様に、使用量に基づいて料金が請求されます。ニューラル TTS の現行料金は、テキスト 100 万文字あたり 16 ドルです。会話型アプリケーションを構築している場合、通常、応答はかなり短くなり、コストが削減されます。

AWS Polly を使用してアプリに機械学習機能を強化したテキスト読み上げを提供する

AWS Polly は標準 TTS もサポートしています。これは 4 倍安価で、ニューラル サポートがまだない特定の言語のフォールバックとしても使用されます。ニューラル エンジンのレベルには達していませんが、それでもかなり優れています。

また、Polly に カスタム辞書 を提供することもできます。これにより、特定の単語の発音を変更して、得られる応答をカスタマイズしたり、音声合成エンジンのエラーを修正したりできます。 音声合成マークアップ言語 (SSML) を入力として使用することもでき、出力を細かく制御できます。

開始するには、Polly コンソールに移動します。このサービスは非常にシンプルです。Polly に変換したいテキストを入力し、言語を選択し、使用したい音声を選択するだけです。 「音声を聞く」ボタンを押して結果をプレビューできます。

ここからファイルを MP3 としてダウンロードすることも、S3 に保存することもできます。 3,000 文字を超える文字を変換する場合は、入力ファイルを S3 に保存する必要があります。

もちろん、このようなサービスをコンソールから使用することはあまり役に立ちません。 AWS API または CLI を 使用してプログラムでアクセスする可能性がはるかに高くなります。ここでは CLI について説明しますが、その設定方法については 、Polly の API ドキュメント を参照してください。

aws polly

コマンドには、Polly を操作するためのすべてのコントロールが含まれています。サポートされているすべての音声のリストを取得するには、

 describe -voices

に渡したいと思われるでしょう。

jq

:

 aws poly 説明音声 | jq '.Voices'

synthesize-speech コマンドは、いくつかのオプションを指定してテキストを変換します。

 aws ポーリー合成音声

–出力形式 mp3

–voice-id ジョアンナ

–text ‘読むテキスト’

たとえば.mp3

これにより、MP3 がローカルにダウンロードされます。 S3 から読み書きするタスクを作成する場合は、 start-speech-synthesis-task を使用します。

 aws poly 音声合成タスクの開始

–エンジンニューラル

–リージョン us-west-1

–endpoint-url “https://polly.us-west-1.amazonaws.com/”

–出力形式 mp3

–output-s3-bucket-name あなたのバケット名

–output-s3-key-prefix オプション/プレフィックス/パス/ファイル

–voice-id ジョアンナ

–テキスト ファイル://text_file.txt

これにより、ディスク上のテキスト ファイルから入力が読み取られ、特定のフォルダーの下にあるオプションで指定したバケットに出力されます。

Polly を使用してチャットボットを構築することを考えている場合は、音声合成に Polly を使用するマネージド チャットボット サービスである AWS Lex を検討してみるとよいでしょう。

「 AWS Polly を使用してアプリに機械学習機能を強化したテキスト読み上げを提供する」に関するベスト動画選定!

Amazon TranscribeとCloud Speech-to-Textの文字起こし精度を比較してみた | お役立ち情報シリーズ
【毎日AWS #085】Amazon Connect のニューラルテキスト読み上げ機能が東京リージョンにも登場 (※日本語は未対応) 他3件 #サバワ