今回の第8回目は、AI映画におけるセリフやナレーション、効果音を「Eleven Labs」を使って生成する方法について解説していきます。
Eleven Labs の始め方
以下は、Eleven Labsの最新料金プラン(2024年8月時点)を表形式にしたものです。
フリー | スターター | クリエーター | プロ | スケール |
---|---|---|---|---|
$0/月 | $5/月 | $11/月 (通常$22、初月50%オフ) | $99/月 | $330/月 |
10,000文字 (約10分の音声) | 30,000文字 (約30分の音声) | 100,000文字 (約1-2時間の音声) | 500,000文字 (約5-10時間の音声) | 2,000,000文字 (約40時間の音声) |
• 29言語での音声生成 • 自動吹き替えによる翻訳 • カスタム合成ボイス作成 • 効果音生成 • API アクセス | • フリープランの全機能 • 1分の音声で自分の声をクローン • ダビングスタジオアクセス • 商用利用ライセンス | • スタータープランの全機能 • プロ仕様ボイスクローニング • 長形式コンテンツ作成 • Audio Native(ウェブサイト用ナレーション) • 高品質音声(192 kbps) | • クリエータープランの全機能 • さらに高品質な音声出力 • 使用状況分析ダッシュボード | • プロプランの全機能 • 優先サポート |
無料プランでは「Eleven Labs」のクレジット表記が必要です。
スターター以上のプランで商用利用可能となっています。
まずは、Eleven Labs のサイトにアクセスします。
「Get Started Free」をクリックします。
好みの方法でサインインします。
メインの画面が表示されました。
Text-to-Speech(文字から音声を生成)の使い方
「ADVANCED」をクリックして設定画面を開きます。
- 音声にするテキストを入力します。
- 音声のキャラクターを選択します。ここでは日本人男性の「Asahi」を選びます。
無料では日本人女性は選べないようです。 - ここの設定パネルで各パラメーターを調整します。
- 「Ganerate speech」をクリックして音声を生成します。
Text-to-Speech(文字から音声を生成)での各パラメーター設定
Text-to-Speech機能を使う際には、いくつかのパラメーターを調整することで、より自然でリアルな音声を生成することができます。
「Stability」「Similarity」「Style Exaggeration」「Speaker Boost」それぞれのパラメーターの詳細について表形式でまとめてみました。
パラメーター | 機能 | 低い値 (0-30%) | 中間値 (40-60%) | 高い値 (70-100%) |
---|---|---|---|---|
Stability(安定性) | 音声の一貫性と予測可能性を制御 | 創造的で変化に富む。不自然さ増加の可能性 | バランスの取れた自然な音声 | 非常に安定し一貫性あり。表現力低下の可能性 |
Similarity(類似性) | オリジナルの声との類似度を制御 | オリジナルと異なる独自の音声 | オリジナルの特徴を保ちつつ変化を加える | オリジナルの声に非常に近い |
Style Exaggeration(スタイル誇張) | 音声のスタイルや個性的特徴を強調 | 控えめで自然な話し方 | バランスの取れたスタイル表現 | 個性的特徴や癖を強調。不自然さ増加の可能性 |
パラメーター | 設定 | 機能 | 無効時 | 有効時 |
---|---|---|---|---|
Speaker Boost(話者ブースト) | 有効/無効 | 話者の特徴をさらに強調し、音声の明瞭さを向上 | 標準的な音声生成 | 話者の個性をより強く反映し明瞭度向上。処理時間増加の可能性 |
各パラメーターを調整することで、Text-to-Speech機能を最大限に活用し、キャラクターやシーンに最適な音声を生成できます。
以下のポイントを参考に様々な設定を試してみてください。
- Stability:一貫性 vs. 感情表現
- Similarity:元の音声再現 vs. 新しい音声表現
- Style Exaggeration:感情強調 vs. 控えめ表現
- Speaker Boost:音声強調 vs. 自然な音声
シーン別の適切な設定ガイド
ドラマのシーンに応じて、各パラメーターを調整することで、よりリアルで感情豊かな音声を生成することができます。
以下に、一般的なドラマのシーン・用途ごとに適切なパラメーターの推奨値についてまとめてみました。
シーン/用途 | Stability | Similarity | Style Exaggeration | Speaker Boost | 説明 |
---|---|---|---|---|---|
感動的なモノローグ | 40-50% | 80-90% | 60-70% | 有効 | 感情の起伏を表現しつつ、キャラクターの個性を保持 |
アクションシーンの掛け声 | 30-40% | 70-80% | 80-90% | 有効 | エネルギッシュで迫力のある音声を生成 |
静かな会話シーン | 60-70% | 85-95% | 30-40% | 無効 | 自然で落ち着いた会話を再現 |
ナレーション/ボイスオーバー | 70-80% | 75-85% | 40-50% | 有効 | 明瞭で安定した、かつ個性的な音声を提供 |
コメディシーンの滑稽な声 | 20-30% | 60-70% | 90-100% | 有効 | 誇張された、ユーモラスな音声効果を創出 |
「アクションシーンの掛け声」の設定で「会社で朝の挨拶をする上司」の音声を生成してみました。
Sound Effects(効果音)を生成する方法
「Sound Effects」をクリックします。
①ここにプロンプトを入力します。
②をクリックして生成します。
③をクリックすると設定パネルが開きます。
- Duration(継続時間):
生成される効果音の長さ(秒単位)を設定。「Automatically…」をオンにするとAIが適切な長さに決定してくれます。 - Prompt Influence(プロンプトの影響度):
プロンプトが効果音の生成にどの程度影響するかを設定。低い値でAIの自由度が高く、高い値でプロンプトに忠実な音を生成。
例えば、短い効果音には短いDurationと高いPrompt Influenceを、より自由な環境音には長めのDurationと中程度のPrompt Influenceを設定するなど、用途に応じて調整します。
これらのパラメーターの調整後に「Generate sound effect」をクリックして生成します。
試しに生成してみました。
Keys jingling, a door slamming shut, followed by running footsteps down stairs
日本語訳:鍵が鳴り、ドアが勢いよく閉まり、階段を駆け下りる足音が続く
コメント
コメント一覧 (1件)
[…] 【AI映画制作講座】第8回:音声生成AI「Eleven labs」でセリフや効果音を生成する方法 2024年8月9日 […]