【AI勉強日誌】写真をイラスト化＆動画化する方法を解説！自分の声でAIが喋る！？

こんにちは！就労継続支援B型事業所　わっはっはで皆様にお仕事を教えているスタッフの坂上です！

皆さんはAIを使いこなしていますか？

何気なくinstagramを見ていると自分の写真をイラスト化して、さらに自分の声を5秒ほど録音するだけで自分のクローン音声を作り、さらには生成したイラストをクローン音声に合わせて喋らせることができるというリールに出会いました。。

文を見ただけでは「どういうこと？？」という感じだと思いますので実際に出来た動画をご覧ください。

すごくないですか？？

これ全部AIで作ってます。もはや怖さまで感じるレベルです。

「わっはっは」が「わっふぁふぁ」みたいになってますけどね笑　この辺はご愛敬です。

この記事ではこのような動画を作る方法を紹介しようと思います。

わっはっはでもAIを活用したお仕事を体験できるのでそちらに役立てていこうと考えています。

AIをかなり熱心に勉強してくれている利用者さんがいらっしゃるので、スタッフである自分も常にAIにアンテナを張って学んでいく姿勢が必要だと考えています。このブログもその一環として記録、発信していけたらと思います！

使用したAIツール

まずは今回の動画を作るにあたって使用したAIツールを紹介します。

写真のイラスト化：ChatGPT
自分の声でのテキスト読み上げ：Cartesia
イラストと音声の連動：Hedra
このブログ記事の作成サポート：Gemini

Geminiは友情出演です。ブログの文章を考えるのに大変役立ってくれています。

写真のイラスト化：ChatGPT

まずは写真をイラスト化していきます。

何でも大丈夫なのでイラスト化したい人が映っている写真をご用意ください。

今回用意した写真はこちらです。

AIといえばこのツールですよねChatGPT
実は画像生成や、今回のように写真をイラスト化することも出来ちゃいます。

あわせて読みたい

まずはChatgptを開き、用意した写真をアップロードしてください。
そして以下のプロンプトを打ち込んで3分ほど待つとイラストが生成されました。

“この男性がマイクの前でヘッドフォンを付けてポッドキャストをしているイラストを生成して”

ものの3分でこの完成度です。

もうかなりいい感じですが、ポーズを取っているのと左胸の謎のマークが気になるのでさらにプロンプトで修正していきます。

“このイラストの男性の手は机の上で組ませてください。服の胸のマークは消して。他はそのままでお願いします”

またまた3分ほど待つとイラストが生成されました。

完璧です。何も言うことがありません。修正含め10分もかからずに自分をイラスト化することに成功してしまいました。

自分の声でのテキスト読み上げ：Cartesia

自分の中ではここが一番驚きました。

まさかこんなことが出来るとは、、

5秒ほど自分の声を録音すると、AIが声を学習して打ち込んだテキストを読み上げてくれます。

自分の声をクローン

使用するツールはCartesiaです。

あわせて読みたい

Cartesia Generate seamless speech, power voice applications, and fine-tune your own voice models on the fastest real-time AI platform.

ログインしたら「instant clone」を押します。

次に「Record」を押して5秒間喋ってください。

何を喋ろうか迷う方は以下の文章を読んでみてください。
このページを日本語訳するとこの文章が出てきます。

録音が出来たらNameを入力、Languageは「日本語」を選択してください。
そして「Clone」を押しましょう。

ものの数秒でクローンが完了します。

実際に「Speak」を押して声を確認してみましょう。こっぱずかしいですがかなりの再現度だと思います。

テキストを読み上げる

声のクローンは完了したので実際に喋ってもらいましょう。

「Text to Speach」を押してください。

次に画面右上にある三点メニューを押してメニューを表示させます。

「Voice」を押して先ほどクローンした音声を選択します。

自分の声は「My Voices」に入っています。

クローンした音声を選択してください。

では赤枠内に喋らせたい文章を入力していきましょう。

入力出来たら「Speak」を押して実際に聞いてみてください。

「音声が出来た！」と歓喜しているところ恐縮ですが、なんと音声のダウンロードが有料です。。

これはかなりきついですね。なんやかんやして音声データをダウンロードして次のステップに参りましょう。

イラストと音声の連動：Hedra

最後は生成したイラストが読み上げた音声通りに喋っているようにしていきます！

使うツールはHedraです！

Hedra

Hedra Hedra is a next generation multimodal AI content creation platform.

色々出来るツールみたいですが、自分はまだ試せていません。

今回はイラストと音声をアップロードして、イラストの人物が音声に合わせて喋っているような動画を生成する機能を使っていこうと思います。

やることはメチャメチャ簡単です。

画面下のメニューから音声と画像をアップロードし
プロンプトに「Lip Sync」と入れて↑ボタンを押すだけです。

やることはめちゃめちゃ簡単なのですが、ひとつ問題が発生しました。

生成に時間がかなりかかるんです

19秒ほどの音声でしたが、これを生成するのに40分ほどかかりました。

有料プランに入るとこれが緩和されるみたいです。

この手のサブスクプランはかなり増えてきた印象ですね。

ダウンロードさせてもらえるだけありがたいと思いましょう。

完成した動画

そして完成した動画がこちらになります！

最後に

いかがでしたでしょうか？複数のAIツールを組み合わせることで、自分の写真からイラストを生成し、自分の声で喋らせて動かすという、驚くべき体験が実現できることをお分かりいただけたかと思います。

Youtubeの解説動画とかに使えそうだなと個人的には思いましたが無料プランだけでどこまでいけるか、、

色んなツールが日々リリースされているので追いかけるのが大変ですが、使えるとかなりいろんなことに活躍してくれそうです。アイデア次第では良いビジネスが生まれるかもしれませんね！

あなたもぜひ、この記事を参考に、AIを活用した新しい表現に挑戦してみてください！

就労継続支援B型事業所　わっはっはでは利用者さんを募集中です！

パソコンスキルを高めたい方やAIについて勉強したい方は是非体験に来てみてくださいね！

よかったらシェアしてね！

URLをコピーしました！