L o a d i n g . . .

0%

千葉でビジネス向けの動画制作なら、企画から運用までトータルサポートのファインへ

制作実績works

「AIアナウンサー」人工知能が日本語でニュース原稿を読み上げる、機械音声の可能性
Client動画制作・映像制作なら千葉県松戸市の映像制作会社ファイン
コラム

「AIアナウンサー」人工知能が日本語でニュース原稿を読み上げる、機械音声の可能性

AI(人工知能)がニュース原稿を読み上げる「AIアナウンサー」の活用がテレビ業界で進んでいます。NHKの報道番組では現在、一部のニュースをAI音声が読み上げており、7月の参院選にも国政選挙報道で初めて導入されました。技術発展により、AI音声の精度は大幅に向上しています。リアルタイムでの放送には未対応といった課題は残りますが、今後も〝採用〟される場面は増えそうです。

NHKのAI音声は、記者が書いた原稿をAIの音声合成装置が読み上げる仕組みです。AIは同局のアナウンサーの話し方を学習しており、自然に近い音声を合成しています。平成30年からニュース番組での利用が始まり、現在は第2世代のシステムに移行し、生成精度が向上しました。以前は女性だけでしたが、男性の音声も加わりました。また、場面に応じて「ニュース調」「会話調」など話し方に変化をつけることができるようになりました。

現在は「おはよう日本」や午後の定時ニュースなどでシステムを採用し、30秒サイズの短いニュースで随時使用されています。7月の参院選では深夜帯の票の読み上げに利用されました。台風の報道などでも活用例があります。
目次

■AIアナウンサーとは何か?
■AIとナレーションの歴史
■AIが変える放送業界の未来
■AIアナウンサーのメリットとデメリット
■AIアナウンサーが人間の声を再現する方法

■AIアナウンサーとは何か? AIアナウンサーは、人間のアナウンサーと同等の役割を果たすAIを指します。具体的には、アナウンサーが通常行うようにニュース原稿を読み上げる役割を、人工知能エンジンが機械学習を通じて担当して、さまざまなニュースの場面で原稿を読み上げるバーチャル・アナウンサーです。

AIアナウンサーは、与えられた原稿を自然な音声で読み上げる能力が高く備わっています。驚くべきことに、AIアナウンサーよりも以前から、同様の機能を備えたAIが存在していたことは皆さんもご存じのはずです。現在のAIアナウンサーが登場するよりもずっと前から、決められた文章を音声にする機能は存在していました。

Google音声読み上げ機能などははその代表的な例です。2008年11月に発表され、現在まで2021年現在までさまざまな場面で活用されています。AIアナウンサーは、それらの応用技術と言えるでしょう。

では、なぜ今これほどまでにAIを活用した技術が注目を浴びているのでしょうか。

AIの技術が進化している中で、「AIが職業を奪うかもしれない」という議論が広がっています。その中でアナウンサーも影響を受ける職業の一つと言えるでしょう。現在、AIアナウンサーは民間放送でも使用され、AI画像合成やAIによる字幕編集など、様々なAI技術が組み合わさり、メディア業界における革新を牽引しています。

今回はAIアナウンサーの仕組みから活用の場面、現在活躍しているAIアナウンサーについて、そして将来の展望まで詳しく紹介していきます。昨今の技術の発達の速度は目覚ましく、AIの学習能力が向上したことにより、AIアナウンサーはより自然で人間らしい音声合成を実現しつつあります。

AIアナウンサーの話す声に加えて、AIによる字幕編集機能や画像合成によるインサート映像を組み合わせることで、今後のテレビ番組の制作現場が効率化されていくことも大いに考えられます。このことによる利点は、人間のアナウンサーが担当する時間を節約して、より深い報道内容への取材に専念できる可能性が広がっています。AIによる報道や映像制作が進化すれば、メディア業界における人間とAIの連携は一層深まり、人類の未来における新たなメディアの可能性が広がることでしょう。

近い将来、あなたの家でも日常的にAIアナウンサーが読むニュースを聞く日も近いかもしれません。AI技術はこれからも進化し、私たちの日常生活に新たな可能性をもたらすことでしょう。 AIの発展は、ますます私たちの未来を変えつつあり、様々な分野での革新が期待されます。
■AIとナレーションの歴史 AIとナレーションについての歴史を調べるにあたって、NHK放送技術研究所の存在を外すわけにはいかないでしょう。技研だより 2020年 1月号 R&Dを引用すると、次のようなことが述べられています。

ラジオ気象情報番組の自動作成

技研では、地域放送局の番組制作を支援するために、人手を介さないラジオ気象情報番組の自動制作技術の研究開発を進めています。この技術では、コンピューターが、気象台などから配信される気象データから自動で番組の時間に収まる読み原稿を生成し、音声合成技術を用いてNHKのアナウンサーのように伝わりやすい音声で読み上げます。

NHKのアナウンサーは、伝える情報に優先順位をつけて、番組の時間内に情報が収まるように、話す内容を考えます。このノウハウを、アナウンス室と連携してルール化することで、コンピューターが、放送時間内に情報が収まるような原稿を自動的に生成します。

生成された原稿を、視聴者に分かりやすく読み上げる技術にも、NHKのアナウンサーのノウハウが生かされています。原稿を読み上げる際に、どの部分を強調し、どこに間を置いて、どのようなイントネーションで伝えるべきか、ルールを決めます。実際にアナウンサーが原稿を読んだ音声を収録し、これを特殊な技術を用いてコンピューターに学習させることで、NHKのアナウンサーのノウハウを生かした、伝わりやすい音声を合成することができます。

2019年3月に、甲府放送局のラジオ第1放送の気象情報番組で、このAIによるアナウンス技術を用いたトライアル放送を開始しました。その後も、原稿生成技術や音声合成技術の改良を続け、11月からは新潟放送局でもトライアル放送を開始しています。

このように、2019年にはAIアナウンサーの試験放送が開始されていたそうです。また、このAIアナウンサーには、「DNN」と呼ばれるディープニューラルネットワーク。人工知能(AI)が学習するための基盤技術の1つで、アナウンサーの声の出し方を学習する技術が用いられていたそうです。
■AIが変える放送業界の未来 皆さんもすでにご存じのように、AIと機械学習技術にはかなりの即効性があり、実際には多くの商業用途で利用され始めています。これまでも放送業界は技術の革新とともに進化してきました。このことからもAIが放送業界に大きな影響を与えるのも当然と言えます。

メディアとエンターテインメント業界は、高解像度のグラフィックスやリアルタイムのバーチャルワールドなどの仮想資産の人気により、AI技術にとってますます重要な市場となっています。AIはコンテンツ管理ワークフローを単純化して、音声制御からリアルタイムの高容量コンテンツ分析まで、さまざまなメリットを提供してくれます。

音声認識は、AIが話す言語を理解し、テキストに変換する能力です。これにより、番組の音声をテキストに変換し、それをさまざまな言語に翻訳することができます。つまり、異なる国や地域の視聴者に向けて、コンテンツをローカライズ(地域に合わせて調整)することが可能になります。たとえば、英語で制作された番組を日本語に翻訳し、日本の視聴者に提供することができます。この技術は、世界中の視聴者にコンテンツを提供する際に非常に役立つと考えられています。
■AIアナウンサーのメリットとデメリット 海外のラジオ番組でのAIアナウンサーに関する面白い事例があったので、紹介します。ラジオでのAI活用についてのメリットとデメリットについてわかりやすい参考になると思います。

ラジオでのAI活用は、業界の終焉につながるのか、または良い方向に進むのか?スウェーデンとスペインの2つの事例から考えます。

海外でもラジオ業界でのAIの応用が増えており、欧米の各国でもそれは例外ではありませんでした。

1つ目の事例は、ラジオパーソナリティの声のクローン化です。
スウェーデンラジオでは番組の最後に、リスナーにおすすめの番組情報を伝えることになっていました。スウェーデンラジオは、これを読み上げるために人気のパーソナリティを採用していましたが。ラジオ局には何百もの番組やポッドキャストがあります。そのため、1人のパーソナリティがこれらの番組の名前をすべて録音するのは大変でした。

そこでAIの導入を実施しました。彼らはAIを使用して、わずか7時間の音声コンテンツを用いてパーソナリティの声をクローン化しました。このAIツールは今、どんなポッドキャストやラジオ番組の名前でも読み上げ、そのパーソナリティと同じ声で視聴者の耳に届いています。

メリットは、人間は食事を摂る時間や、眠る時間が当たり前のように必要です。ラジオホストの声をクローン化することで、信頼できる声から24時間体制で音声コンテンツを提供することが可能になりました。それによって、パーソナリティ本人の労力を大幅に軽減することができました。

デメリットは、クローン化された声の過度の使用により、異なる声を聞く機会が減少し、ラジオが多様性を失って均質化されてしまうという可能性です。

また、声のクローン化は悪意のある行為者に対してリスクがあるかもしれず、ラジオホストの声が彼らの許可なしにクローン化され、思いもよらない用途に使用される可能性も大いに考えられます。AIの声が明確に識別されていない場合、リスナーを誤解させる可能性があります。

次に紹介するのは、サッカーに関する全く新しいAI音声の活用法についての事例です。スペインのトークラジオネットワークのリーダー的な存在の番組がありました。彼らは1日に400万人のリスナーを引き寄せ、彼らのストリーミングのほぼ25%がスマートスピーカーから提供されているため、彼らはAmazonと密接に協力をしています。Amazonが提供しているスマートスピーカー、Echo(エコー)とは、声だけで家電などが操作できるスマートスピーカーのことです。アシスタントサービスであるAIのAlexa(アレクサ)が備わっており、Alexaに呼びかえるだけで音楽再生やアラームの設定、スケジュール確認、商品の注文、家電の操作などを行えます。

ラジオのAIパーソナリティの名前は「Victoria(ビクトリア)」と名付けられました。Victoriaとは、リスナーがAlexa対応デバイスを通じて対話ができます。

彼らのギャップを埋めるために、彼らはサッカーのためのブランド音声となったAI音声を作成しました。その名前はVictoriaです。

Victoriaはリスナーにサッカーに関する情報とコメントを提供します。そして、リスナーはその声を2つの設定で聞くことができます。1つはAlexaのスキルとして、もう1つはラジオ番組の追加の「パーソナリティ」としてです。

Victoriaは、スペインの100年のラジオに関するネットワークの番組の共同司会者としても起用されています。

メリットは、AI音声は、人間よりも広範で詳細な知識を持つ可能性があることです。AI音声は、人間のホストやプレゼンターとは異なり、オンデマンドで利用することもできます。

デメリットは、人間のパーソナリティにとっては、機会損失となるため、彼らが経済的な利益と専門的な経験を失う可能性があります。
■AIアナウンサーが人間の声を再現する方法 最後に日本語の環境に置いて、AIアナウンサーが人間の声の再現をどのような方法で行っているのかを解説します。

人間のアナウンサーの場合はまず、ニュースの話題に関するさまざまなデータから伝える内容の優先順位、番組の長さを考慮して番組の時間内に情報が収まるように話す内容を考えています。

AIアナウンサーの場合は、これらのノウハウをルール化し、コンピューターによって自動化することによって時間に丁度収まるような適切な内容の原稿を作ります。

また、人間のアナウンサーは視聴者にわかりやすい話し方を意識し、伝えていきます。この際に必要となっていくのは、イントネーションといった「読みのスキル」です。

AIアナウンサーではこれらのスキルを持つために、実際にアナウンサーが読みあげた音声データと原稿を学習させます。学習をすることによって、自由なテキスト原稿を自然なイントネーションで読み上げさせることができるようになるという仕組みです。

現在、既にAIアナウンサーを展開している日本の企業もあります。荒木ゆいというAIアナウンサーを紹介します。

荒木ゆいは株式会社 Specteeが開発、運営するAIアナウンサーです。

AIアナウンサー「荒木ゆい」は、人に近い自然な発音やアクセント、イントネーションを習得し、原稿を自動で読み上げるバーチャル・アナウンサーです。 実際にアナウンサーが読んだ約10万件のニュース音声を、当社が開発した人工知能エンジン「Spectee AI」で機械学習しています。 これまでにテレビやラジオ、商業施設の館内放送などで採用され、あらゆる場面で活躍の場を広げています。

出演実績もすでに複数あり、声の出演として、

日本テレビ「ズームイン!!サタデー」
フジテレビ「新・フジテレビ批評」
テレビ大阪「金曜報道スペシャル」
東海テレビ「最先端TV ~アッと驚く最新 技術まるわかりツアー~ 」
ラジオNIKKEI 「大人のラヂオ」
NHKラジオ「AIがラジオを変える!」

など様々な番組で既に活躍しています。

Alexa スキル・モジュールという機能もあり、AIアナウンサー「荒木ゆい」for Alexa スキル・モジュールは。Amazon Echo(アマゾン・エコー)をAlexaに代わって、「荒木ゆい」の声と人工知能音声エンジンで喋らせることのできるAlexaスキル向けのAPIモジュールとなっています。

Alexaスキルに搭載することで、Alexaのオリジナルの読み上げに代わり、「荒木ゆい」の音声及び当社の人工知能読み上げエンジンで読み上げを行います。これにより、これまで読み上げが困難だった人名や地名などを正確に読み上げ、また日本語特有のアクセントやイントネーションを適正に発話させることでき、より聴きやすい音声で情報をお伝えすることができます。もっと人に近い自然な声で。Amazon Echoが「荒木ゆい」の声で喋りだす事をサービスの売りの一つとしています。

利用シーンとしては、店舗のアナウンス、イベント会場のインフォメーション、地震発生のニュースのアナウンスなどでの活用が期待されています。

いかがでしたでしょうか、AIアナウンサーの可能性について考察した今回の記事ですが、最近では、生成AIで民法のニュース番組に似せた偽広告を流したことが事件となり、話題になっています。この動画は、実際に放送された日本テレビのニュース番組をもとに、生成AIを使って音声や動画の一部を加工したものとみられ、10月下旬からYouTubeやフェイスブックに投稿されていたということです。

今回の偽動画は、数字の読み方やイントネーションが異なるなど不審な点がありましたが、生成AIを使って実在の人物が話しているかのような動画を作ることは可能で、最近では表情や口元の動きが声と合っていて違和感がないものも増えてきており、偽物と見破るのが難しくなるという懸念も出ています。

AIの技術革新の速度と実際の活用事例から目が離せない状況が続きますが、今回のAIアナウンサー技術を揮発したNHKでは、「AIアナウンスは人間の業務の一部は代替できるが、人間を代替するものではない。人間のアナウンサーの仕事はなくならない」。と広報担当者
が語っています。

今後、どのようにAIと我々が共存していくべきか注意して見守っていきたいと思います。
---------------------------------------------------------------------------------------
千葉県松戸市の映像制作会社 
株式会社ファイン

TV番組制作/企業VP制作/DVD制作/イベント映像制作/CM制作
インフォマーシャル制作/デジタルサイネージ制作/CG制作
観光PR映像制作/WEB映像制作/プロモーションビデオ

YouTube動画制作/YouTube動画編集/企業pv/企業説明動画
サービス説明動画/採用動画/セミナー動画/研修動画
マニュアル動画/縦型動画/ショート動画/リール動画
Instagram動画/TikTok動画/Facebokk広告/SNS広告

その他実績other

PREV

NEXT