ミクさんによるVOCALOID的な技術の世間一般の認知度が高まったことで、こういった音声合成系ソフトの市場がけっこう動きがあり面白いものが出てきている。
最近ボカロ以外の音声合成系のソフトでいくつか面白いものが出てきているようなのでまとめておく。
VOCALOIDは、V3エンジンの登場と前後してバブルの様相を呈しているが、本来この音声合成技術のジャンルの一つの柱(というかこちらが王道?)と思われるいわゆる「読み上げソフト」系は、ここまで比較的穏やかだった。
我々一般人がぱっと手を出せるフリーのとしては、いわゆる「ゆっくり」に代表される声であるsoftalkなんかが浮かぶ。
もちろん、このジャンルでもミクさんのヒットを受けて、同様のキャラクター的なアプローチで製品を展開しているメーカがある。猫村さんとかを出しているAHSがその代表格だろう。
ここはクリプトンの引いたボカロキャラクター路線の二匹目のどじょうを狙っているような印象を受けるインターネット社と異なり、かなり独自路線を選択している印象。(イ社を批判しているのではないので念のため)
キャラクター性を商品にリンクさせている箇所は同じなのだが、そのキャラクター性を軸として”声”に関するものをご用意しましょう的な方向性を志向しているようだ。
なのでここは地味に読み上げソフトのラインナップが多い。
そして―その延長線上としてだろうか―ここは唯一、VOCALOIDと音源(元となる人声)を同じくする読み上げソフトのラインナップを持っている。
以前、ボカロはしゃべれなかったことが大きかったと書いた記憶があるが、これだけ一般的な文化として定着し、キャラクター性を持っているということであれば、後は当然しゃべらせたくなる、というのは人情だろう。
で、ちらほらとそのあたりのニュースを見ていると、このAHSの読み上げソフトである「東北ずん子」がソーシャル・ファウンディングで出資金を集めてVOCALOID化をしようというプロジェクトが動いている模様。
東北ずん子は名前からご想像の通り、震災後、東北の支援を含めて企画された商品らしい。
で、実は自分、偶然このずん子さんこの前手に入れてまして。
なぜかというと、お勉強の際にちょっと読み上げソフトが必要だったから(校正的に)。
で、amazonで読み上げソフトさがしてたら、これがレビューものすごく好評価で。
そして偶然ヤフオクみると安価で出品されておる、と。
なので悪いなー、と思いつつぽちっとな!しておりました、と。
(こんなに萌えパッケージじゃなければ定価購入していたと思う―AHSは製品悪くないのにこのあたりのマネージで損している印象)
で、レビューに違わず、すごく使える。
さ い き ん の ぎ じ ゅ つ す げ ー わ ー !?
と、思ってほくほくしていたら、まさにまたこういったジャンルで被るソフトが出てた―それもフリーかつなかなか野心的な機能を持っているじゃあーりませんか!?
CeVIO―というらしい。
このソフトのすごいところはなんと、感情表現のパラメーターが存在しているということ。
これは試してみずばなるまいと思い、さっそくDLしインストール。
おお!?なるほどこれは―。
ということで、せっかく手元に両者あるので、この機会にざっと紹介してみる。
<「読み上げソフト」のずん子と「セリフジェネレータ」のささら>
まず、両者とも日本語を漢字交じりでそのまま打ち込むと、それを音声合成して読み上げてくれる。
そこは全く同じである。
まずはずん子さんのメイン画面。
見てお分かりのように、上部ウィンドウで元となるテキストを入力し、下部のウィンドウで各種パラメータを調節する。
この画面では、音量をはじめ、読み上げ速度、声のトーンなどを調整できる。
また、このように読み上げ時のイントネーションの調整も出来る。
(ただし、ライブラリのコントロールの関係か、若干しばりがあるようなので少し慣れ・・・というか理解が必要)
続いてCeVIO。例によってライブラリにキャラクタが割り当てられており、「さとうささら」さんというらしい。
これも見ていただくとわかるかと思うが、画面下部左のウィンドウにテキスト入力枠があり、そこに読み上げてほしいテキストを入力する。
この画面レイアウトの違いで、ソフトの性格の違いを見抜かれた方も多いと思うが、このCeVIOのほうは上部ウィンドウにタイムラインを持っている。
つまりシーケンスソフトも視野に入った設計がされている―そらそうだ、バージョンアップに従い歌も歌わせられるそうだから(驚)。
で、CeVIO最大の売りである「感情表現パラメータ」が下部右ウィンドウでコントロールできる。
右下ウィンドウの中央あたりを見てもらうと、グラデーションのかかっているバーが見えると思うが、ここが感情パラメータのスライダー。
全部がオレンジの「元気」の状態から「怒り」と「悲しみ」が相互リンクする形で、感情的な発声もグラデーション的に表現できる、ということの模様。
これは確かに良くできていて、不機嫌そうだったり、悲しそうだったり、という違いがはっきりわかる形で変化してくれる。
実際に発声させたものを以下に貼っておく。
・東北ずん子
・CeVIO_ノーマル
・CeVIO_不機嫌
で、比較してみて思ったのは、同じ読み上げソフトであっても両者は全くコンセプトが異なる、ということ。
まず、ずん子さんであるが、これはもう純粋に「優秀な読み上げソフト」である、といってよいと思う。
発声だけからは想像しづらいかも知れないが、さわってみてわかるのは、そのインターフェイスが読み上げ校正などに便利なように設計されているということ。
それのいちばん端的な箇所は、元となるテキストの入力ウィンドウ。
ずん子さんは、ここにだらっと長文を入力できるが、ささらさんはここが一センテンスづつとなる。
つまりずん子が一気に読み上げするのに適しているのに対して、ささらは、文章でなく「セリフ」を志向している設計だということだろう。
ひとつひとつを「言い切り」で、かつ、感情パラメーターの調整ができる=セリフジェネレータ的なソフトである、ということだと思う。
つまり、読み上げ校正などには向いていない。
逆に言うと、ナレーション的に淡々と読むしか、ずん子は出来ない、ということでもある。
しかし、ずん子の方は、ざっくり文章をコピペしただけで、それなりにバランスを取って読んでくれるが、ささらのほうは一文、一文間のタイミングの調整などが必須である。ここも「セリフジェネレータ」の裏返しだろう。
なので、両者一長一短がはっきり異なる。
よって、自身の目的にあった形で両者を使い分ける形がいちばんまっとうな使い方だろうかと思う。
で、冒頭の方に書いたように、ずん子はVOCALOID化、CeVIOのほうも歌唱機能搭載の方向へ進んでいくようなので(直近バージョンアップあったようだが、ひょっとしてもう歌えるのかな?)、そういった使い方へも当然派生させていくことが可能だろう。
どうも関連情報を見ていると両者ともとっくにMMDモデルも出来ているようなので、これまたニコニコあたりで色々な使い方がされていくんだろうと思う。
人が出来ることを機械にさせる―そういう面で、こういった”声”というかなりむづかしい領域まで昨今の技術は来ているが、そこがはたして新たな創造につながるかというのは実は別問題だったりする。
”欠けている”ということが実は大いに創造を促す、というのはここで改めていうまでもないだろう。
なのでこういった技術の進歩は素直に賞賛しつつも、ここから先の進化のしかたというのは、ちょっとどうなるのか気になるところではある。
とはいえ、単純に”道具”として両者とも素晴らしいものであるのは間違いない。
あとは、ユーザー側の自由な想像力が求められている、そういうことかな。
※藤本健氏のページでずん子さんの詳しい解説がある模様(動画もそちらより)
※CeVIO公式動画より。やはり歌唱対応してた模様。