【AI映画制作講座】第8回:音声生成AI「Eleven labs」でセリフや効果音を生成する方法

今回の第8回目は、AI映画におけるセリフやナレーション、効果音を「Eleven Labs」を使って生成する方法について解説していきます。

目次

Eleven Labs の始め方

以下は、Eleven Labsの最新料金プラン(2024年8月時点)を表形式にしたものです。

フリースタータークリエータープロスケール
$0/月$5/月$11/月
(通常$22、初月50%オフ)
$99/月$330/月
10,000文字
(約10分の音声)
30,000文字
(約30分の音声)
100,000文字
(約1-2時間の音声)
500,000文字
(約5-10時間の音声)
2,000,000文字
(約40時間の音声)
• 29言語での音声生成
• 自動吹き替えによる翻訳
• カスタム合成ボイス作成
• 効果音生成
• API アクセス
• フリープランの全機能
• 1分の音声で自分の声をクローン
• ダビングスタジオアクセス
• 商用利用ライセンス
• スタータープランの全機能
• プロ仕様ボイスクローニング
• 長形式コンテンツ作成
• Audio Native(ウェブサイト用ナレーション)
• 高品質音声(192 kbps)
• クリエータープランの全機能
• さらに高品質な音声出力
• 使用状況分析ダッシュボード
• プロプランの全機能
• 優先サポート

無料プランでは「Eleven Labs」のクレジット表記が必要です。

スターター以上のプランで商用利用可能となっています。

まずは、Eleven Labs のサイトにアクセスします。

「Get Started Free」をクリックします。

好みの方法でサインインします。

メインの画面が表示されました。

Text-to-Speech(文字から音声を生成)の使い方

「ADVANCED」をクリックして設定画面を開きます。

  • 音声にするテキストを入力します。
  • 音声のキャラクターを選択します。ここでは日本人男性の「Asahi」を選びます。
    無料では日本人女性は選べないようです。
  • ここの設定パネルで各パラメーターを調整します。
  • 「Ganerate speech」をクリックして音声を生成します。

Text-to-Speech(文字から音声を生成)での各パラメーター設定

Text-to-Speech機能を使う際には、いくつかのパラメーターを調整することで、より自然でリアルな音声を生成することができます。

「Stability」「Similarity」「Style Exaggeration」「Speaker Boost」それぞれのパラメーターの詳細について表形式でまとめてみました。

パラメーター機能低い値 (0-30%)中間値 (40-60%)高い値 (70-100%)
Stability(安定性)音声の一貫性と予測可能性を制御創造的で変化に富む。不自然さ増加の可能性バランスの取れた自然な音声非常に安定し一貫性あり。表現力低下の可能性
Similarity(類似性)オリジナルの声との類似度を制御オリジナルと異なる独自の音声オリジナルの特徴を保ちつつ変化を加えるオリジナルの声に非常に近い
Style Exaggeration(スタイル誇張)音声のスタイルや個性的特徴を強調控えめで自然な話し方バランスの取れたスタイル表現個性的特徴や癖を強調。不自然さ増加の可能性
パラメーター設定機能無効時有効時
Speaker Boost(話者ブースト)有効/無効話者の特徴をさらに強調し、音声の明瞭さを向上標準的な音声生成話者の個性をより強く反映し明瞭度向上。処理時間増加の可能性

各パラメーターを調整することで、Text-to-Speech機能を最大限に活用し、キャラクターやシーンに最適な音声を生成できます。

以下のポイントを参考に様々な設定を試してみてください。

  • Stability:一貫性 vs. 感情表現
  • Similarity:元の音声再現 vs. 新しい音声表現
  • Style Exaggeration:感情強調 vs. 控えめ表現
  • Speaker Boost:音声強調 vs. 自然な音声

シーン別の適切な設定ガイド

ドラマのシーンに応じて、各パラメーターを調整することで、よりリアルで感情豊かな音声を生成することができます。

以下に、一般的なドラマのシーン・用途ごとに適切なパラメーターの推奨値についてまとめてみました。

シーン/用途StabilitySimilarityStyle ExaggerationSpeaker Boost説明
感動的なモノローグ40-50%80-90%60-70%有効感情の起伏を表現しつつ、キャラクターの個性を保持
アクションシーンの掛け声30-40%70-80%80-90%有効エネルギッシュで迫力のある音声を生成
静かな会話シーン60-70%85-95%30-40%無効自然で落ち着いた会話を再現
ナレーション/ボイスオーバー70-80%75-85%40-50%有効明瞭で安定した、かつ個性的な音声を提供
コメディシーンの滑稽な声20-30%60-70%90-100%有効誇張された、ユーモラスな音声効果を創出

「アクションシーンの掛け声」の設定で「会社で朝の挨拶をする上司」の音声を生成してみました。

Sound Effects(効果音)を生成する方法

「Sound Effects」をクリックします。

①ここにプロンプトを入力します。

②をクリックして生成します。

③をクリックすると設定パネルが開きます。

  • Duration(継続時間):
    生成される効果音の長さ(秒単位)を設定。「Automatically…」をオンにするとAIが適切な長さに決定してくれます。
  • Prompt Influence(プロンプトの影響度):
    プロンプトが効果音の生成にどの程度影響するかを設定。低い値でAIの自由度が高く、高い値でプロンプトに忠実な音を生成。

例えば、短い効果音には短いDurationと高いPrompt Influenceを、より自由な環境音には長めのDurationと中程度のPrompt Influenceを設定するなど、用途に応じて調整します。

これらのパラメーターの調整後に「Generate sound effect」をクリックして生成します。

試しに生成してみました。

プロンプト
Keys jingling, a door slamming shut, followed by running footsteps down stairs
日本語訳:鍵が鳴り、ドアが勢いよく閉まり、階段を駆け下りる足音が続く

コメント

コメント一覧 (1件)

コメントする

目次