リアルタイム音声変換AIは、音声を受け取るAIと変換音声を出力するAIのペアからなります。これらをリアルタイムで動くようにチューニングすることで本技術を実現しています。
これまでスマートフォン上ではAIを動かすための計算量を担保できず、特にリアルタイムで動かすことが困難でしたが、今回の技術では、計算量を小さくする技術を独自開発することで、高品質かつ遅延100ミリ秒(ミリ秒:1000分の1秒)未満のリアルタイム性を維持しながらスマートフォン上で動作させることが可能になりました。
スマートフォン上で動作するため、プラグイン形式で様々なサービスのアプリやプロダクトに組み込むことできるため、音声変換をしたいとき別個に準備が必要だったPC向けソフトウェアや専用機器、それらのアプリへの統合をユーザに求める必要がなく、どんなサービスにもマッチするポータビリティの高い音声変換AIを実現したといいます。
また、ビジネスニーズに応じて新たな種類の声を追加することも可能。たとえば、エンターテインメント領域であれば、VTuberに誰もが気軽になれることを強力に支援するソリューションになりえたり、ゲームチャットにて年齢や性別を秘匿することでプレイヤーを悪意から守ることも可能になります。
また、公共交通機関のアナウンスや災害時緊急放送、企業の電話対応や館内放送などにおいて目的に応じた最適な声を用いることで日々の体験をより良くするなどの活用も考えられます。
今後同社は、活用領域の課題を捉えた中長期の事業戦略を策定し、プロダクトやサービスとシナジーを生み出す事業開発体制及び、当該事業戦略に基づくリアルタイム音声変換AIの技術開発を強化。
明瞭性や頑健性の向上、処理負荷の軽減だけでなく、対応デバイスの増加、動作環境に適したAIモデルやプラグインなどニーズに根差した開発を進め、将来的に、声が価値となるプロダクトを運営する企業・個人に対するサービス化も視野に入れて検討を進めていくとのことです。
出典元:株式会社ディー・エヌ・エー
※詳細については出典元の企業にお問い合わせください。
マナミナは" まなべるみんなのデータマーケティング・マガジン "。
市場の動向や消費者の気持ちをデータを調査して伝えます。
編集部は、メディア出身者やデータ分析プロジェクト経験者、マーケティングコンサルタント、広告代理店出身者まで、様々なバックグラウンドのメンバーが集まりました。イメージは「仲の良いパートナー会社の人」。難しいことも簡単に、「みんながまなべる」メディアをめざして、日々情報を発信しています。