【AI映画制作講座】第8回：音声生成AI「Eleven labs」でセリフや効果音を生成する方法

2024年8月9日2025年4月7日

今回の第8回目は、AI映画におけるセリフやナレーション、効果音を「Eleven Labs」を使って生成する方法について解説していきます。

Eleven Labs の始め方

以下は、Eleven Labsの最新料金プラン（2024年8月時点）を表形式にしたものです。

フリー	スターター	クリエーター	プロ	スケール
$0/月	$5/月	$11/月（通常$22、初月50%オフ）	$99/月	$330/月
10,000文字（約10分の音声）	30,000文字（約30分の音声）	100,000文字（約1-2時間の音声）	500,000文字（約5-10時間の音声）	2,000,000文字（約40時間の音声）
• 29言語での音声生成 • 自動吹き替えによる翻訳 • カスタム合成ボイス作成 • 効果音生成 • API アクセス	• フリープランの全機能 • 1分の音声で自分の声をクローン • ダビングスタジオアクセス • 商用利用ライセンス	• スタータープランの全機能 • プロ仕様ボイスクローニング • 長形式コンテンツ作成 • Audio Native（ウェブサイト用ナレーション） • 高品質音声（192 kbps）	• クリエータープランの全機能 • さらに高品質な音声出力 • 使用状況分析ダッシュボード	• プロプランの全機能 • 優先サポート

無料プランでは「Eleven Labs」のクレジット表記が必要です。

スターター以上のプランで商用利用可能となっています。

まずは、Eleven Labs のサイトにアクセスします。

「Get Started Free」をクリックします。

好みの方法でサインインします。

メインの画面が表示されました。

Text-to-Speech（文字から音声を生成）の使い方

「ADVANCED」をクリックして設定画面を開きます。

音声にするテキストを入力します。
音声のキャラクターを選択します。ここでは日本人男性の「Asahi」を選びます。
無料では日本人女性は選べないようです。
ここの設定パネルで各パラメーターを調整します。
「Ganerate speech」をクリックして音声を生成します。

Text-to-Speech（文字から音声を生成）での各パラメーター設定

Text-to-Speech機能を使う際には、いくつかのパラメーターを調整することで、より自然でリアルな音声を生成することができます。

「Stability」「Similarity」「Style Exaggeration」「Speaker Boost」それぞれのパラメーターの詳細について表形式でまとめてみました。

パラメーター	機能	低い値 (0-30%)	中間値 (40-60%)	高い値 (70-100%)
Stability（安定性）	音声の一貫性と予測可能性を制御	創造的で変化に富む。不自然さ増加の可能性	バランスの取れた自然な音声	非常に安定し一貫性あり。表現力低下の可能性
Similarity（類似性）	オリジナルの声との類似度を制御	オリジナルと異なる独自の音声	オリジナルの特徴を保ちつつ変化を加える	オリジナルの声に非常に近い
Style Exaggeration（スタイル誇張）	音声のスタイルや個性的特徴を強調	控えめで自然な話し方	バランスの取れたスタイル表現	個性的特徴や癖を強調。不自然さ増加の可能性

パラメーター	設定	機能	無効時	有効時
Speaker Boost（話者ブースト）	有効/無効	話者の特徴をさらに強調し、音声の明瞭さを向上	標準的な音声生成	話者の個性をより強く反映し明瞭度向上。処理時間増加の可能性

各パラメーターを調整することで、Text-to-Speech機能を最大限に活用し、キャラクターやシーンに最適な音声を生成できます。

以下のポイントを参考に様々な設定を試してみてください。

Stability：一貫性 vs. 感情表現
Similarity：元の音声再現 vs. 新しい音声表現
Style Exaggeration：感情強調 vs. 控えめ表現
Speaker Boost：音声強調 vs. 自然な音声

シーン別の適切な設定ガイド

ドラマのシーンに応じて、各パラメーターを調整することで、よりリアルで感情豊かな音声を生成することができます。

以下に、一般的なドラマのシーン・用途ごとに適切なパラメーターの推奨値についてまとめてみました。

シーン/用途	Stability	Similarity	Style Exaggeration	Speaker Boost	説明
感動的なモノローグ	40-50%	80-90%	60-70%	有効	感情の起伏を表現しつつ、キャラクターの個性を保持
アクションシーンの掛け声	30-40%	70-80%	80-90%	有効	エネルギッシュで迫力のある音声を生成
静かな会話シーン	60-70%	85-95%	30-40%	無効	自然で落ち着いた会話を再現
ナレーション/ボイスオーバー	70-80%	75-85%	40-50%	有効	明瞭で安定した、かつ個性的な音声を提供
コメディシーンの滑稽な声	20-30%	60-70%	90-100%	有効	誇張された、ユーモラスな音声効果を創出

「アクションシーンの掛け声」の設定で「会社で朝の挨拶をする上司」の音声を生成してみました。

Sound Effects（効果音）を生成する方法

「Sound Effects」をクリックします。

①ここにプロンプトを入力します。

②をクリックして生成します。

③をクリックすると設定パネルが開きます。

Duration（継続時間）：
生成される効果音の長さ（秒単位）を設定。「Automatically…」をオンにするとAIが適切な長さに決定してくれます。
Prompt Influence（プロンプトの影響度）：
プロンプトが効果音の生成にどの程度影響するかを設定。低い値でAIの自由度が高く、高い値でプロンプトに忠実な音を生成。

例えば、短い効果音には短いDurationと高いPrompt Influenceを、より自由な環境音には長めのDurationと中程度のPrompt Influenceを設定するなど、用途に応じて調整します。

これらのパラメーターの調整後に「Generate sound effect」をクリックして生成します。

試しに生成してみました。

プロンプト

Keys jingling, a door slamming shut, followed by running footsteps down stairs

日本語訳：鍵が鳴り、ドアが勢いよく閉まり、階段を駆け下りる足音が続く

コメント一覧（1件）

【AI映画制作講座】第9回： Midjourney で同一人物、一貫したキャラクターを生成する方法 - Pixel Gnarly より:

2024年8月26日 10:06 AM

[…] 【AI映画制作講座】第8回：音声生成AI「Eleven labs」でセリフや効果音を生成する方法 2024年8月9日 […]

返信

【AI映画制作講座】第8回：音声生成AI「Eleven labs」でセリフや効果音を生成する方法

Eleven Labs の始め方

Text-to-Speech（文字から音声を生成）の使い方

Text-to-Speech（文字から音声を生成）での各パラメーター設定

シーン別の適切な設定ガイド

Sound Effects（効果音）を生成する方法

関連記事

コメント

コメント一覧 （1件）

コメントする コメントをキャンセル

コメント一覧（1件）

コメントするコメントをキャンセル