3.2.7 Federated Learning(連合学習)
本章では、放送の高度化として、超高精細度である4K・8Kフォーマット、高輝度化の技術であるHDR(High Dynamic Range)、最新の放送・通信サービスに対応することを可能とするMMT(MPEG Media Transport)多重化方式、強化されたスクランブル方式に対応可能なACAS、また4K・8K放送のための伝送技術として、衛星デジタル放送とケーブルデジタル放送の例について説明する。さらに、VR(Virtual Reality)映像の代表的な形態である360度VR映像についても説明する。
衛星デジタル放送では、東経124/128度CSデジタル放送ではスカパーJSATが2015年3月から4K実用放送を開始し、BSデジタル放送では4K・8Kの試験放送をNHKが2016年8月に、A-PABが2016年12月に開始し、2018年12月には4K・8Kの実用放送が開始された。さらに、東経110度CSデジタル放送では2017年に4Kの試験放送を開始し、2018年に4K実用放送が開始された。
IPによる放送(IPTV)としては、NTTぷららが2015年12月から4Kの実用放送を開始した。
ケーブルテレビでは、RFによる自主放送が2015年12月にケーブル4Kとして実用放送を開始し、IPによるケーブル4K放送を2016年4月から開始している。
総務省が示している「4K・8K推進のためのロードマップ」を図 3‑1に示す。
図 3‑1総務省の4K・8K推進のためのロードマップ
本節では、4K・8K放送の高度化と、関連した高度化技術として、HDR(High Dynamic Range)、MMT(MPEG Media Transport)多重化方式、ACASについて説明する。それらの技術が関係する送信側と受信側の部分を図 3‑2に示す。
図 3‑2 4K・8K、HDR、MMT、ACASの関係部分
4K・8Kは映像フォーマットの解像度を意味しており、4Kフォーマットを例として表 3‑1に示す。
横方向の画素数は、ITUが定めた規格と映画制作会社の加盟団体DCI(Digital Cinema Initiatives)が定めた規格の2通りがあり、4Kと呼ばれる根拠は4,096が4×1,024であることに因る(記憶メモリの容量表示で2の10乗である1,024を大文字のKで表現し、1,000を表す小文字のkと表記を分離表記している)。
同表に示す4Kテレビはテレビ放送用で、DCI 4Kは映画やカメラ用である。画素数は4Kテレビ(アスペクト比16:9)が3,840で、DCI 4K(アスペクト比17.1:9)は4,096である。フレームレートは後述するが、4Kテレビは毎秒50フレームの50p(欧州など)と毎秒60フレームの60p(日本、米国など)でDCI 4Kは毎秒24フレームの24pと異なっている。
表 3‑1 映像フォーマットの解像度例(4K)
また、8K・4K・2Kならびに現行HDTV(2K)を比較して、表 3‑2に映像フォーマットの解像度を示す。
表 3‑2 映像フォーマットの解像度(8K・4K・2K )
4K・8Kと解像度が増えてくるとその情報ビット数が急増するため、コーデック技術の進化が必要であり、その関係を表 3‑3に示す。
表 3‑3 画像メディアとコーデック技術の進化による伝送速度比較例(概数)
HDR(High Dynamic Range)は、高画質化のための輝度表現の拡張技術であり、輝度のダイナミックレンジを広げることである。
HDRは輝度のダイナミックレンジを広くすることを指すが、静止画と動画ではその手法が異なっている。静止画(写真)の方の世界ではスマートフォンのカメラにもHDR機能が搭載されるなど既に普及が進んでいる。HDR写真とは、図 3‑3に示すようにカメラのダイナミックレンジの狭さを補うためにシャッタースピードを変えて異なる露出で連続して複数枚の写真を撮影し、一枚の画像に合成することによって画像の持つダイナミックレンジの幅を最大限に引き出そうというもので、実世界の画像をそのまま記録するものではなく、人工的な画像処理技術の一つである。
図 3‑3 露光時間の異なる画像を合成したHDR写真の例
(出典: https://www.digitaltrends.com/photography/what-is-hdr-photography/)
これに対して、テレビ放送やネット配信、光ディスクによるパッケージメディアでの画質改善として話題となっている動画のHDRとは、映像を取り込む撮像センサが捉えている広いダイナミックレンジの信号をそのまま量子化(デジタル化)して記録し、その信号をテレビ側でディスプレイの輝度性能に合わせて、拡張されたダイナミックレンジの映像信号を忠実に再生表現しようとする技術であり、写真でいうHDRとは考え方が異なる。
自然界の輝度レンジは、図 3‑4に示すように、月の出ていない夜空の星空が照らす地面の明るさが100万分の1nit(cd/m2)程度で、太陽の直接光が10億nitと言われており、膨大な幅を持っている。
人間の目も非常に優れた視覚特性を持っており、100万分の1nitから1億nit程度まで視認でき、実に10の14乗(140dB)近いダイナミックレンジを持っているが、CRTを基準としたRT.709のダイナミックレンジはあまりにも狭く、多くの情報が失われていた。近年の液晶テレビは、CRTに比べてピーク輝度やコントラストに於いて格段の進歩を遂げているため、これらの性能を十分引き出して、従来画像の飛躍的改善を実現する検討がされてきた。
図 3‑4 自然界の輝度 vs 人間の視覚可能範囲
(出典:総務省放送システム委員会HDR作業班資料 HDR作1−3「HDR技術に関する動向」)
図 3‑5にHDRを含む高画質化のための技術を示す。
CRTのテレビでは高輝度のものでもせいぜい200nit程度であったのに対し、液晶テレビは標準のものでも400nit程度のピーク輝度があり、直下型LEDバックライトシステムのものであれば1,000nitを超えるピーク輝度が得られるので、既存規格で再現できなかった高輝度部分の階調を自然界に近い輝きでテレビ画面上に表現するのがHDRである。
図 3‑5 HDRなど高画質化のための技術
(出典:総務省放送システム委員会HDR作業班資料 HDR作1−3「HDR技術に関する動向」をJLabs修正)
4K・8K動画の伝送に際して、HDRと既存の方式であるSDRとを比較し、図 3‑6に高画質化のためのHDRが取り扱う明るさの範囲を示す。
図 3‑6 高画質化のためのHDRが取り扱う明るさの範囲
(出典:総務省放送システム委員会HDR作業班資料 HDR作1−3「HDR技術に関する動向」)
HDRではカメラで撮影された105の輝度範囲を伝送路でも105の輝度範囲を維持し、HDR対応テレビで105の輝度範囲を再現する。
現行のSDRではテレビのピーク輝度が100 nitが標準であったため、せいぜい103程度しか伝送していなかった。
HDR信号とSDR信号(現状の伝送)の比較を図 3‑7に示す。窓の外を見るとSDRでは明るいところが表現できていないことがわかる。
図 3‑7 HDRになった際の画像例
(出典:総務省放送システム委員会HDR作業班資料 HDR作1−3「HDR技術に関する動向」)
ITU-R WP6C(番組制作および品質評価)SWG6C-4(映像)SWG4 DG-1(ハイダイナミックレンジテレビ)でHDRを審議しており、当初はEIDRTV(Extended Image Dynamic Range TV: 映像ダイナミックレンジ拡張テレビ)と呼んでいた。
2016年7月、米国案PQ(Perceptual Quantization)方式と日本/英国案であるHLG(Hybrid Log-Gamma)方式の2方式を記載した新勧告案「BT.2100」(番組制作と国際番組流通で使用するHDRテレビの映像パラメータ値)がITU-Rで承認された。両方式の比較を表 3‑4に示す。
表 3‑4 HDR方式の比較
ハイブリッド ログ-ガンマ(HLG)方式は、暗部に従来のガンマカーブ、明部にログカーブを採用するハイブリッド方式で、「基準白」との相対値による変換式を使用するため従来のテレビとの互換性が高いのが特徴である。
カメラ側で光の輝度を電気信号に変換する光-電気伝達関数(OETF:Opto-Electronic Transfer Function)を規定しており、カメラ側のフィルタのように用いるため、放送のように生の映像を届けなければならない場合に適している。逆に、ディスプレイ側で電気信号を光の輝度に変換する特性は、電気-光伝達関数(EOTF:Electro-Optical Transfer Function)と呼ぶ。
本方式は、メタデータを利用せずに異なる輝度の画面間や異なるメーカの相互運用性を担保する。
HLG方式のOETFとEOTFのカーブを図 3‑8に示す。
図 3‑8 OETF/EOTF(HLG)
(出典:総務省放送システム委員会HDR作業班資料
HDR作2-3別紙「HDR放送方式の提案」説明資料)
最大10,000nitまでの輝度値を絶対輝度で扱い、人間の視覚特性に基づく新たなガンマカーブ(PQ:Perceptual Quantization)を採用する。PQカーブを図 3‑9に示す。
電気信号をイコライジングするグレーディング作業で予め決められた絶対値による入力/出力の関係式を使用するため、制作に時間とコストを掛けられる映画などの作品性を持つコンテンツに適している。
図 3‑9 EOTF(PQ)
(出典:総務省放送システム委員会
HDR作業班資料HDR作2-3別紙「HDR放送方式の提案」)
日本国内で放送方式としてHDR方式を規格化するためには総務省の省令告示を以て放送法を改定する必要があったが、ARIB(一般社団法人電波産業会)では2015年7月にARIB STD-B67 1.0版「“Essential Parameter Values for the Extended Image Dynamic Range Television (EIDRTV) System」を策定した。
その後、HDRを適用する映像の空間特性と時間特性を含めた国際的な合意が得られ、勧告ITU-R BT.2100が2017年6月に改訂されたことを受け、2018年1月に2.0版を策定し、規格名を「Parameter Values for the Hybrid Log-Gamma(HLG) High Dynamic Range Television (HDR-TV) System」に変更した。
ITU-Rの勧告およびISO/IEC JTC 1/SC 29/WG 11 (MPEG)の標準規格から参照されることを想定するため、英文版が正本となっている。内容はHLG方式を定めたもので、以下の4項目について規定している。
(1) OETFにおけるシステムパラメータを規定(送出側の規定)
(1) 測色パラメータ (原色、基準白色の座標):ITU-R BT.2020を採用
(2) 信号フォーマット(非線形関数):Gamma+Logのハイブリッド方式
(3) デジタル値:公称Peak値、基準白レベル値、黒(0%)レベル値等のデジタル値(10bit/12bit)を規定
HDR放送方式全般については、情報通信審議会 情報通信技術分科会 放送システム委員会HDR作業班が、2016年3月にHLGとPQ双方への対応や、多重化ストリームにおける伝達関数の識別等について報告書にまとめている。その概要を表 3‑5に示す。
表 3‑5 HDR放送方式の概要
次世代の4Kに対応したブルーレイの規格として標準化団体BDA(Blu-ray Disc Association)が「Ultra HD Blu‒Ray」規格を制定した。図 3‑10に示すように、この中にはHDRも標準仕様として規定されており、EOTFとしてSMPTE(Society of Motion Picture and Television Engineers:米国映画テレビ技術者協会)が規格化してITU-Rに米国案として提案しているST2084(PQ)を採用した。また、SMPTEは高輝度、広色域のメタデータ規格ST2086も規定しており、こちらについても採用された。そのため、BDプレイヤーやHDR対応テレビを製造販売するCTA(Consumer Technology Association)は、HDRのためのST2086メタデータを適用したインタフェース仕様CTA-861.3(メタデータ拡張規格)を制定した。
これに対し、HDMIフォーラムのHDMIインタフェースは、CTAのインタフェース仕様を参照している規格のため、2.0版を2.0a版に改定してCTA-861.3への対応を行った。
SMPTE ST2084のEOTFは、もともとドルビー社がHDRを実現するための表示装置で、人間の視覚特性に合わせた映像を再現することをコンセプトに提唱したものであるが、ドルビー社はドルビービジョンという商標で、自然界に近い映像を高輝度ディスプレイ上で再現するためにメタデータを含め12ビットをデュアルレイヤーで送出するシステムを開発しており、UHD BDのオプションとして採用されている。
図 3‑10 Ultra HD Blu-ray
HDRは4Kの次に来る魅力的な高画質化の技術であり、さらに広色域(ITU-R BT.2020)の要素が組み合わさることにより、大幅に映像表現の可能性が広がり、さまざまな展示会や公開実験等のイベントでもその画質改善の効果が認められている。
2018年12月1日に開始された新4K・8K衛星放送にはHLG方式が採用されていることから、同放送を再放送する日本ケーブルラボ「高度BSデジタル放送 トランスモジュレーション運用仕様」(SPEC-033/034)では、STBのHLG方式への対応を必須とし、また4K自主放送を行う「高度ケーブル自主放送」(SPEC-035)でもHLGへの対応を必須としている。
HDRの運用において重要なのは、新旧のTV/STBが混在する環境下でのハイダイナミックレンジ(HDR)と従来方式(SDR)の識別と、切替えである。このうち、映像ストリームの伝達関数の識別については、VUI(Video Usability Information)のtransfer characteristicsを”18”とすることでHLGを識別する。VUIは、MPEG-2 TSではビデオデコードコントロール記述子(ARIB STD-B10)に含まれ、MMTでは映像コンポーネント記述子(ARIB STD-B60)に含まれる。
一方、HLG(HDR)映像を受信したSTBは、接続されているTV(テレビモニター)がHDR対応か否か識別する必要がある。STBとTV間がHDMI 2.0bで接続されている場合は、HDR(HLG)対応か否かを判定できる。TVがHDR(HLG)対応の場合は、HDRのまま映像を出力し、そうでない場合の動作は日本ケーブルラボ運用仕様では商品企画としているが、最新のSTBではHDRをSDRに変更して出力することが期待される。
図 3‑11に受信にかかわるSTBとTVの動作を示す。また、図 3‑12には番組制作から受信までの信号処理と関連する機器を示す。
図 3‑11 HDR対応STBの動作
図 3‑12 HDR対応のSTBとTVなど周辺機器
3.1.4.5 項において、CTA規格とHDMI規格におけるHDR(PQ方式)への対応を述べたが、最新の両規格は、以下によりHLG方式にも対応している。
2016年11月:CTA-861-G「非圧縮高速デジタルインタフェース用DTVプロファイル」を策定。前版のCTA-861-FはCTA-861.3で拡張されPQ方式のHDR(HDR10方式)をサポートしていたが、CTA-861-GはHLG方式のサポートを追加
2016年12月:HDMI 2.0bを改定。2.0bは最新版であったが、CTA-861-Gに対応してHLG方式のHDRをサポートするためにHLG伝達関数のシグナリングを追加(版番号2.0bは変更無し)
2017年11月:HDMI 2.1規格正式リリース
- 帯域幅拡大:18Gbps(HDMI2.0系)→48Gbps
- 10K解像度まで対応
- 高フレームレート4K p100/120、 8K p100/120、10K p100/120をサポート
- ケーブルは新規格だが後方互換性があり、コネクタは従来どおり
- PQ、HLGのシグナリングに加えてSMPTE ST2094の動的メタデータをサポートし、動的メタデータを使ってシーン/フレームごとに色深度やディテール、明るさ、コントラスト、色域を最適化するダイナミックHDRを実現
図 3‑13、図 3‑14に新4K8K衛星放送に利用されるMMT(MPEG Media Transport)等の多重化方式を示す。MMT-TLV(Type Length Value)方式を基本としつつ、現行のMPEG-2 TS方式についても規定が追加され、運用することも可能である。
(新規:NTP・MMT・MMT-SI、既存規定:データ伝送・UDP/IP・TLV)
図 3‑13 MMT・TLV多重化方式
(出典:総務省 超高精細度テレビジョン放送システム報告概要)
(新規に規定する部分:タイムライン、規格を修正する部分:PSI/SI、
すでに規定されている部分:PCR・PES・Section・TS)
図 3‑14 MPEG-2 TS方式
(出典:総務省 超高精細度テレビジョン放送システム 報告概要)
現行のデジタル放送システムが開発された当初に比べ、放送を取り巻くコンテンツ配信の環境が大きく変化した。ブラウザで見ることのできるマルチメディアコンテンツが増加し、映像フォーマット、コンテンツを利用する端末、伝送路も多様化してきている。そこでMPEGでは、次世代放送システムでのサービスを可能とする、さまざまなネットワークでのメディア伝送に対応する新しい伝送規格としてMMTの検討が進められ、 High Efficiency Video Coding (HEVC)と3D Audioを組み合わせた新たな標準規格であるMPEG-Hシステムの一部分(MPEG-H Part1、Part10、Part11、Part12)となり、標準化された。
4K/8Kの実用放送における運用仕様は、ARIB TR-B39高度広帯域衛星デジタル放送運用規定 1.2版が策定され、多重化方式の技術標準としてはARIB STD-B60 デジタル放送におけるMMTによるメディアトランスポート方式 1.8版が策定されている。
また、ケーブルテレビでは、MPEG-2 TSに代わる新多重化方式MMTを利用した第3世代STB向けの高度BS再放送の運用仕様として、JLabs SPEC-033 高度BSデジタル放送トランスモジュレーション運用仕様(単一QAM変調方式)とJLabs SPEC-034 高度BSデジタル放送トランスモジュレーション運用仕様(複数QAM変調方式)を策定している。
MPEG-2 TSは、制御信号やクロックも含めて各コンポーネントを1つのストリームとして扱うため、単一の伝送路による放送の仕組みを想定した方式である。しかし現在では多様なコンテンツが存在し、またそれを利用する端末も多様化しており、放送と通信との連携によるコンテンツ配信など、利便性の高いサービスが期待されるようになってきた。このような環境変化に対し、MPEG-2 TSで最新の放送・通信サービスに対応するには以下の点で制約がある。
ストリーム内で多重化が完結し、他のストリームとの多重化ができない(例:放送ストリームと通信ストリームを多重)
異なるストリーム間で時刻同期ができない(例:放送と通信の時刻同期)
パケット長が固定(188バイト)で、大容量コンテンツの伝送では非効率
大容量ファイルの伝送が困難
MPEG-2 TSで上記の制約に対応するには限界があるため、新たに次世代放送システムで利用可能なメディアトランスポート方式として以下のような対応を図り、IP伝送を考慮したMMTが標準化された。
異なるストリームを束ねるためのメタデータを規定
異なる伝送媒体を経由したストリーム間の時刻同期が可能
可変長パケットを利用し、大容量コンテンツ(UHDTVなど)の伝送を効率化
ファイル伝送を効率化
MMTの機能の特徴は、通信回線上の参照先を指定して、サーバから取得した番組関連情報などを同時に表示するという放送と通信の連携によるハイブリッド配信できることであり、そのイメージを図 3‑15に示す。
図 3‑15 スポーツ中継において主映像を放送波で伝送し、
アングルの異なる映像を通信で伝送する場合のイメージ
ハイブリッド配信の主な機能要素として、以下の内容が挙げられる。
伝送路をシームレスに切り替える機能を有し、一例として送信側では多視点映像を複数の伝送路で配信が考えられる。また受信側では、たとえば衛星放送での降雨減衰などの際には通信で配信される情報を受信することで、継続視聴を可能とするサービスを提供する。あるいは階層(Scalable)符号化に対応したストリームを配信することにより、ベースレイヤを放送で伝送し、拡張レイヤを通信で伝送するサービスなどが考えられ、その一例を図 3‑16に示す。
時刻同期にNTP(Network Time Protocol)を利用することで、従来のMPEG-2 TS多重化方式では困難だった放送/通信コンテンツ間の絶対時刻同期を実現し、異なる伝送路を経由したストリーム間の同期が可能になる。また協定世界時UTC(Coordinated Universal Time)形式で統一されたプレゼンテーションタイムスタンプ(Presentation Time Stamp)が映像や音声などのコンポーネント(アセット)に付与されることにより、高精度に同期したサービスが提供できる。
アセットごとに、提示する受信端末に合わせてその画面上での表示領域を指定することができる。
図 3‑16 MMTによる階層伝送の例
現行の放送システムでは多重化方式(メディアトランスポート方式)としてMPEGで標準化されたMPEG-2 TSが多く用いられている。MPEG-2 TSでは単一の伝送路による放送を想定し、制御信号やクロックも含めて各コンポーネントを一つのストリームとして扱っているが、多様な伝送路やテレビのみならずタブレットやスマホ等のデバイスが混在する環境下で高度なサービスを提供するには限界がある。
このような混在環境下におけるメディア配信に用いられる一連の規格として2014年3月に国際標準化されたのが、ISO/IEC 23008 MPEG-H(High efficiency coding and media delivery in heterogeneous environments)であり、MMTはそのPart 1となっている。
ちなみに、Part 2は4K/8Kの映像符号化に用いられるHEVC(H.265)であり、他に3D Audio(Part 3)、Forward Error Correcting Codes for MMT(Part 10)、Composition coding for MMT(Part 11)等が規定されている。
MMTにおける符号化信号の構造をMPEG-2 TSと比較して図 3‑17に示す。
図の最上位にあるネットワーク抽象化レイヤ(NAL:Network Abstraction Layer)ユニットは、HEVC(H.265)エンコーダーが出力する符号化信号で、さまざまな制御情報を含む非VCL-NALと、圧縮された映像スライスデータであるVCL(Video Coding Layer)-NALユニットがある。非VCL-NALユニットと最低1個のVCL-NALを連結したものはアクセスユニット(AU)と呼ばれ、1枚のフレーム(Picture)に相当する。
次のMFU(Media Fragment Unit)はMMTにおける最小の処理単位で、HEVC(H.265)映像信号の場合はVCL-NALユニットを用いる。この場合のMFUはMPEG-2 TSのPESに相当する。また、単一または複数の非VCL-NALもMFUとなる。
MPU(Media Processing Unit)は図 3‑18に示すように、メタデータと複数のサンプルデータ(VCL-NALユニット/MFU)が連結したものであり、HEVC(H.265)のようなフレーム間予測を用いる符号化信号を用いる場合には、GOP(Group of Picture)と同じ単位である必要がある。MPUは独立して復号が可能な符号化単位であり、提示時刻や復号時刻もMPU単位で指定可能である。
MMTPペイロードをMPU/MFUから生成する方法は2つある。1つ目は、MPUを分割する方法、2つ目はMFUからMPUを構成する処理を省略し、MFUを直接MMTPペイロードとする方法であり、放送では遅延を削減する目的からも2つ目の方法が用いられる。この場合、MPUに含まれるべきメタデータは、制御情報(MMT-SI)として送信される。MMTPペイロードは可変長だが、サイズにより複数のNALユニットを格納する場合や、NALユニットを分割して格納する場合がある。
最後に、MMTPペイロードにヘッダーを付加してMMTPパケットとなる。ヘッダーにはペイロードタイプ、配信タイムスタンプ、パッケージシーケンス等の情報が含まれる。
図 3‑17 MMTにおける符号化信号の構造とMPEG-2 TSとの比較
図 3‑18 MPUの一般的な構造
(出典:ARIB STD-B60)
MMTにおける放送のプロトコルスタックを図 3‑19に、また通信でのプロトコルスタックを図 3‑20に示す。MMTでは、IPの上位層となるUDPやTCPで伝送される、MMTP(MMT Protocol)パケット、およびそのパケット内に符号化されたメディアを格納するMMTペイロードを規定している。
また、メディアの各コンポーネットを扱う形式として、MFU/MPUを定義している。
MMTPパケットは、通信で利用する場合はIPパケット化して伝送する。放送の伝送路で伝送するためには、IPパケット化したMMTPパケットを、TLV多重化方式を適用して伝送する。TLVでは、複数のMMTのサービスを多重して、TLVストリームとして伝送することができる。(MMT・TLV方式)
このように両者の上位レイヤが共通構成であるため、放送と通信とを同様に扱うことができるのが特徴である。
図 3‑19 MMTを用いる放送システムのプロトコルスタック
(出典:ARIB STD-B60「デジタル放送におけるメディアトランスポート方式」)
図 3‑20 通信回線におけるプロトコルスタック
(出典:ARIB STD-B60)
前項で記載した2つのプロトコルスタックは非常に類似しており、これはMMTが放送伝送路と通信伝送路を同じように扱うことができるという特徴によるものである。
図 3‑21に放送伝送路と通信伝送路の両方を用いるサービスの構成を示す。図 3‑21は、映像コンポーネント1、音声コンポーネント1、データ1を放送伝送路で、映像コンポ―ネント2、音声コンポーネント2、データ2を通信伝送路で伝送する形態を示している。放送伝送路では映像、音声、データの3つのコンポーネントを1つのIPデータフローに多重し、同一のTLVストリームで伝送している。これは、送信した情報がすべての端末に伝送されるためである。
また、通信伝送路で伝送するコンポーネントは、端末ごとの個別の要求に応じるため、コンポーネントごとに異なるIPデータフローで伝送する。
ここで、放送サービス(コンテンツ)に対応する括りを「パッケージ」と呼び、1つのサービスにおいて開始および終了時刻により区別される番組を「イベント」と呼ぶ。
図 3‑21 放送・通信横断におけるサービスの構成
(出典:ARIB STD-B60)
MMT-SIは、放送番組の構成などを示す伝送制御信号でメッセージ・テーブル・記述子の3種類からなる。メッセージはテーブルや記述子を伝送時に格納するための制御信号、テーブルは特定の情報を示す要素や属性を記載した制御情報、記述子はより詳細な情報を示す制御情報である。MMTの制御メッセージの形式とし、MMTPペイロードに格納しMMTPパケットとしてIPパケット化して伝送する。
メッセージの一つにPA(Package Access)メッセージがあり、その中にMPT(MMT Package Table)で個々の番組が構成するアセットのリスト、URL等を記述する。
複数のパッケージ(放送コンテンツ)を多重する場合には、図 3‑22に示すようにPAメッセージの中にパッケージリストテーブルが含まれ、このパッケージリストテーブルに他のパッケージのMPTを含むPAメッセージを伝送するMMTPパケットのリストが含まれる。
図 3‑22 パッケージリストテーブルによるパッケージのMPTの参照
(出典:ARIB STD-B60「デジタル放送におけるメディアトランスポート方式」)
総務省の答申で示されている新CAS方式の概要について表 3‑6に示す。
表 3‑6 高度広帯域衛星放送(BS/110度CS)のスクランブルサブシステム
ケーブルテレビ業界では、2.10項の第3世代STBと4K運用仕様で既に述べたように、高度BS再放送や高度ケーブル自主放送において、新CAS方式としてACASを用いる。
ACASは次のような特徴を持つ。
ARIB STD-B61第一編のアクセス制御方式(第2世代)に準拠
スクランブル方式にAES128を利用し、セキュリティを強化
STD-B61第二編規定のダウンローダブルCAS(D-CAS)には該当しないが、CASソフトウェアを安全に更新する仕組みを有する
ここで、ARIB STD-B61第一編に準拠するACASは、セキュリティ向上のための小規模なソフトウェア更新機能を有するが、第二編に規定されるCASプログラムの全面的なアップデート機能(D-CAS)には対応していないことに注意が必要である。
図 3‑23 ACAS
ケーブルテレビ事業者がACASを利用するためには、利用用途に応じて表 3‑7に示す2つの区分から選択して日本ケーブルテレビ連盟のACASスキームに参加する。ただし、パススルーによる再放送においてSTBを使用せず、民生テレビで受信する場合は、本スキームの対象外となり、スキームへの参加は必要としない。
表 3‑7 連盟ACAS利用スキーム
本スキームでは、J:COM、JDS、JCCが新CAS協議会との間にEMM(Entitlement Management Message)中継設備を有する。
J:COMおよびJDS、JCC傘下の事業者は、この中継回線を介して、ACASシステムとの間でEMM情報のやり取りを行い、新CAS協議会に対してEMMの暗号化を依頼すると共に、連盟経由で暗号化費用を支払う。
放送音声では、ステレオや5.1chサラウンドによって映画館のような臨場感ある音響が既に実現されているが、8K放送では、22.2ch三次元マルチチャンネル音響方式が規格化され、5.1chサラウンドを超えた高臨場感のある音響も計画されている。
この方式は、空間的に配置された22チャンネルと低音効果用の2チャンネルから構成され、3次元的な空間音響を再生するものである。
5.1ch音響のスピーカ配置を
図 3‑24に、22.2ch音響のスピーカ配置を図 3‑25に示す。この22.2ch音響の24個のスピーカによる音声は5.1chサラウンドを超えた高臨場感があり、パブリックビューイングやシアターなどに有効である。
また、家庭でのさまざまな4K/8Kテレビ視聴環境に対応するために、22.2マルチチャンネル音響をより少ないスピーカ数で再生する再生法の開発もNHK放送技術研究所で進められており、フラットパネルディスプレーに一体化された12個のスピーカによるバイノーラル再生法等が提案されている。この方法では、24個のスピーカを設置することなく、22.2chマルチチャンネル音響を体験することができるとしている。
図 3‑24 5.1chサラウンドのスピーカ配置
図 3‑25 22.2ch音響のチャンネル配置図
日本国内において22.2ch音響方式による8K放送を実現するために、総務省令第87号「標準テレビジョン放送等のうちデジタル放送に関する送信の標準方式」の改定が行われている。
高度BSデジタル放送、高度狭帯域CSデジタル放送および高度広帯域CSデジタル放送における最大入力音声チャンネル数は、「22チャンネルおよび低域を強調する2チャンネルとする」こと、符号化方式は、「MPEG-4 AAC規格およびMPEG-4 ALS規格に準拠する方式とする」ことが規定されている。
また、総務省令・告示に対応して、ARIB STD-B32「デジタル放送における映像符号化、音声符号化及び多重化方式」の改定が行われ、最大22.2チャンネルのマルチチャンネル音声モードに対応したMPEG-4 AAC音声符号化方式のより詳細な仕様に関する追加規定が行われている。同ARIB規格では、22.2ch音響を用いるときに、2ch、5.1ch音響も同時に送る仕組みが規定されている。
表 3‑8に示すとおり、省令・告示およびARIB標準規格において、8K放送に用いるサンプリング周波数は48kHz、量子化ビット数は16ビット以上と規定されており、MPEG-4 AAC符号化方式のAAC-LC(Low Complexity)プロファイルを用いることが定められている。
表 3‑8 22.2ch音響のデジタル音響信号規定
サンプリング周波数 |
48kHz、96kHz(オプション) |
量子化ビット数 |
16ビット、20ビット、24ビット |
衛星デジタル放送とケーブルデジタル放送について説明する。特に、ケーブルデジタル放送伝送技術として、デジタル有線テレビジョン放送方式(ITU-T勧告J.83 Annex C=64/256QAM)、複数搬送波伝送方式、衛星デジタル放送の中間周波数(IF)パススルー伝送方式、および高度ケーブル自主放送について示す。
衛星デジタル放送には、高度狭帯域伝送方式(東経124/128度CSデジタル放送:スカパーJSAT)と高度広帯域伝送方式(BS/東経110度CSデジタル放送)があり、4K・8K映像符号化方式にはH.265(HEVC)が同じく利用されるが、多重化方式や伝送路符号化は異なっている。衛星デジタル放送の高度化伝送技術の概要について総務省ホームページ掲載資料を参照して表 3‑9に示す。
高度広帯域衛星デジタル放送の伝送路符号化方式では、ロールオフ率を0.1から0.03に低減することで、シンボルレートを32.5941Mbaudから33.7561Mbaudへと高速化しており、8PSK(3/4)の場合、現行衛星放送と同等以上のサービス時間率で約72Mbpsの伝送が可能となっている。また、新符号化率として7/9を追加し、16APSK(7/9)を採用することでトランスポンダ当たり約100Mbpsの伝送が可能である。無線通信規則の出力上限値(60dBW)とした場合、16APSK(7/9)で最悪月サービス時間率99.7%以上を確保できる。
表7-9には規格上の複数のパラメータや方式が記載されているが、高度BS衛星放送の実際の運用における変調方式は16APSK、符号化率は7/9、スクランブル方式はAES128、多重化方式はMMT・TLV、等となっている。
なお、東経110度CS放送は衛星放送に比べダウンリンク電力(e.i.r.p.)が小さいため、符号化率2/3を使用し、トランスポンダ当たり約66Mbsの伝送が可能となっている。
表 3‑9 衛星デジタル放送の高度化伝送技術
デジタル有線テレビジョン放送方式(ITU-T勧告J.83 Annex C=64/256QAM)、複数搬送波伝送方式、衛星基幹放送のパススルー伝送方式(衛星デジタル放送のIFパススルー方式)、および高度ケーブル自主放送について示す。
既存のデジタル有線テレビジョン放送方式(ITU-T勧告J.83 Annex C=64/256QAM)では、H.265 (HEVC)、MPEG-2 TS多重化、256QAMを用いて4K実用放送(自主放送)が可能である。その例を図 3‑26に示す。この方式は4Kフォーマットまでを基本として、現行のケーブルテレビの放送サービスとの相互運用性をできる限り確保し、既存の設備等を最大限活用することで、ケーブルUHD TV放送サービスの早期の導入および運用を可能とすることを目的としている。
図 3‑26 既存のデジタル有線テレビジョン放送方式での4K放送
(出典:情報通信審議会 情報通信技術分科会 放送システム委員会
ケーブルテレビUHDTV作業班 報告(案))
J.83 Annex Cを基本に大容量のデータを送るための技術として、複数TS伝送方式の1搬送波(64 QAM/256 QAM)の伝送容量を超えるストリーム(TSもしくはTLV)を複数の搬送波を用いて分割伝送し、受信機で合成する方式である。分割した大容量ストリームの一部と既存のデジタル放送のTSパケットを区別して同一フレーム内に多重化することも可能である。
この方式による実用化としての特徴を以下に示す。
(1) 衛星放送と同じサービスをケーブルテレビで提供
64QAM(約30Mbps)と256QAM(約40Mbps)を任意の物理周波数に設定して分割伝送
MMT・TLVおよびMPEG-2 TSの双方に対応可
(2) 現行のケーブル施設の性能で8K UHD TV伝送可能
ITU-T J.83 Annex Cがベース
搬送波を束ねる方式により大容量伝送を実現
複数搬送波伝送方式、ITU-T勧告J.183を利用
既存サービスの空きスロットを有効活用可能
例えば地デジ(トランスモジュレーション)の空きスロットを束ねて4K伝送など、現行方式と後方互換性を有する
(3) 実際のケーブルテレビ施設で実証実験に成功
日本ネットワークサービス、山梨県 2013年2月
ジュピターテレコム(現:JCOM)、東京都 2014年5月
この方式を実現するため、既存の複数TS多重フレーム(TSMF: Transport Stream Multiplexing Frame )を拡張する。以下の説明では、拡張する複数TS多重フレームを「拡張TSMF(Extended TSMF)」と称する。
また、複数搬送波伝送方式の信号を受信するため、新たに有線複数搬送波伝送分配システム記述子(channel_bonding_cable_delivery_system_descriptor)が定義された。
図 3‑27に複数搬送波伝送方式の概要を示す。
図 3‑27 複数搬送波伝送方式の概要
(拡張TSMFを適用して2つの256 QAMと1つの64 QAMで分割伝送する例)
(出典:情報通信審議会 情報通信技術分科会
放送システム委員会ケーブルテレビUHDTV作業班 報告(案))
複数搬送波伝送方式で送信する分割したストリームの伝送路符号化方式は、既存のデジタル有線テレビジョン放送方式の伝送路符号化方式と同一とする。シンボルクロックは搬送波群を構成する各搬送波で同期しているものとする。
複数搬送波伝送方式の各搬送波は、既存のデジタル有線テレビジョン放送方式と同一の伝送路符号化方式(変調方式、ロールオフ率、エネルギー拡散方式、誤り訂正方式、インターリーブ方式、フレーム同期信号、フレーム構造)を用いる。これにより、図 3‑28に示すように、既存のデジタル有線テレビジョン放送方式と同じ信号形式として処理することが可能であり、これまでに開発してきた技術や規格を活用することが可能であることが、実証実験により確認されている。
先頭バイトの値が0x47で188バイトのデータ列を採用することにより、単一TS伝送方式や複数TS伝送方式と同様に、複数搬送波伝送方式を既存の伝送路符号化方式で扱うことが可能である。搬送波群を構成する各搬送波のシンボルクロックを同期させることで送受信機の構成を簡素化できる。
図 3‑28 複数搬送波伝送方式
(大容量のストリームを1つの64 QAMと2つの256 QAMに分割して伝送する例)
(出典:情報通信審議会 情報通信技術分科会 放送システム委員会
ケーブルテレビUHDTV作業班 報告(案))
(1) 4K、8Kサービスの伝送例
4K 8K放送を効率よく放送する応用例として、図 3‑29に4Kと2Kそれぞれ1チャンネルを伝送する例を、また図 3‑30に8Kと2Kをそれぞれ1チャンネル伝送する例を示す。
図 3‑29 4Kと2Kそれぞれ1チャンネルを伝送する実施例
(出典:情報通信審議会 情報通信技術分科会 放送システム委員会
ケーブルテレビUHDTV作業班 報告(案))
図 3‑30 8Kと2Kそれぞれ1チャンネルを伝送する実施例
(出典:情報通信審議会 情報通信技術分科会 放送システム委員会
ケーブルテレビUHDTV作業班 報告(案))
(2) 大容量のTSパケットを伝送する技術
4K、8Kなどの大容量なTSパケットまたはTLV分割パケットを伝送するために複数搬送波に分割して伝送する応用例として搬送波群に属する搬送波の変調方式が等しい場合のスロットの配列順を送信側信号、多重化装置、受信機側信号に分けてそれぞれ図 3‑31、図 3‑32、図 3‑33に示す。
送信側TS |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
|
8 |
9 |
時刻
図 3‑31 送信側TS信号を送信前のスロットの配列順イメージ(100Mbps)
(出典:情報通信審議会 情報通信技術分科会 放送システム委員会
ケーブルテレビUHDTV作業班 報告(案))
時刻
図 3‑32 搬送波群に分割したスロットの配列順イメージ(25Mbps×4ch)
(出典:情報通信審議会 情報通信技術分科会 放送システム委員会
ケーブルテレビUHDTV作業班 報告(案))
受信合成後TS |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
時刻
図 3‑33 受信側TS信号を送信前のスロットの配列順イメージイメージ(100Mbps)
(出典:情報通信審議会 情報通信技術分科会 放送システム委員会
ケーブルテレビUHDTV作業班 報告(案))
(3) TLV信号の拡張TSMFへの多重化
拡張TSMF多重化装置は、TS信号入力ポートに入力したTS信号もしくはTLV信号入力ポートに入力したTLV信号を、拡張TSMF上のスロットに、入力TS信号もしくは入力TLV信号の独立性を保ちながら多重化し、出力するものである。
多重化するTLV信号に含まれるTLV-NITがケーブルテレビネットワーク(自ネットワーク)用のものでないときは、ケーブルテレビネットワーク(自ネットワーク)用に書き換えたTLV-NITをTLV信号に挿入して出力する。
TLV信号は、可変長なTLVパケットの集合である。拡張TSMF多重化装置では、TLVパケットを固定長(188バイト)の分割TLVパケットに変換し、スロットに多重する。分割TLVパケットは、先頭の3バイトをヘッダーとし、これに続く185バイトをペイロードとする。
図 3‑34にTLVパケットを分割して、分割TLVパケットが生成される例を示す。ペイロードには、分割された複数のTLVパケットが含まれることもある。
図 3‑34 分割TLVパケットの例
(出典:情報通信審議会 情報通信技術分科会 放送システム委員会
ケーブルテレビUHDTV作業班 報告(案))
参考として、拡張TSMF多重化の機能ブロック構成例を図 3‑35に示す。拡張TSMF多重化装置では、入力TLV信号の伝送速度に対して、これを欠落なく送出可能とするスロット数をあらかじめ確保しておく。換算された伝送速度が入力TLV信号の伝送速度を上回る場合には、ヌルTLVパケットを挿入して速度調整を行い、確保されたスロットのすべてを分割TLVパケットで埋めなくてはならない。
図 3‑35 TS信号およびTLV信号を拡張TSMF多重する構成例
FTTH化しているシステムにおいては、IFパススルー方式により4K・8Kの放送を伝送することが可能である。高度広帯域衛星デジタル放送方式の16APSK変調方式においては、誤り訂正符号化率9/10の時に要求される受信者端子におけるC/Nは、17dB以上で、この信号をケーブル事業者が受信して、IFパススルー方式により再放送サービスを行うためには、現行規格の標準衛星デジタルテレビジョン放送のIF パススルー規格11dBよりも6dB高いC/Nを確保する必要がある。図 3‑36に衛星基幹放送のパススルー伝送方式におけるサービス例を示す。
IFの最高周波数は、ND-23を伝送すると約3224MHzとなる。全てのIF周波数は、表 3‑10に記載されている。
図 3‑36 衛星基幹放送のパススルー伝送方式におけるサービス例
(出典:情報通信審議会 情報通信技術分科会 放送システム委員会
ケーブルテレビUHDTV作業班 報告(案))
以下に、アンテナによる衛星放送波の受信や衛星基幹放送のパススルー伝送に関連した参考情報を示す。
衛星放送波の円偏波とは、図7-37に示すように偏波面が回転しているものをいう。水平偏波や垂直偏波よりも、衛星の姿勢による偏波方向の変化からの影響を受けにくい。
円偏波については、電波の進行方向に向かって時計回りの右旋円偏波と反時計回りの左旋円偏波がある。右旋と左旋の電波は互いに干渉しないため、衛星放送波においては同じ周波数帯を共用することが可能である。現在の放送に使われているのは右旋のみであるが、左旋も使用が開始された。ケーブル上においては、同じ周波数帯の共用は不可能であるため、互いに異なる周波数に変換して伝送される。
図 3‑37 衛星放送波の偏波面(出典:衛星放送協会)
図 3‑38はケーブル上で使用するIFへの周波数変換の原理を示している。衛星放送波と右旋用あるいは左旋用の局部発信周波数とを混合し、差周波数成分をフィルタで選別してIFを取り出す。なお、左旋用の局部発振周波数はARIB STD-B63において改定されており、従来のARIB STD-B21準拠のアンテナとは互換性が無いので注意が必要である。
図 3‑38 BS/110度CS IFへの周波数変換 (出典:ARIB STDより作図)
表 3‑10は、BS/110度CS-IFの周波数一覧である。この表に示すように、左旋円偏波の利用により多数のIFが追加されており、ケーブル上における最高伝送周波数は3223.25MHzとなった。このような高い周波数における信号レベルやC/Nを確保するために、宅内・棟内の同軸ケーブル、ブースタ、分配器、テレビ端子などの交換作業が必要となる場合がある。
表 3‑10 BS/110度CS-IF周波数一覧
表 3‑11は、このようなIFをパススルー伝送するために定められた技術基準である。
表 3‑11 衛星基幹放送のパススルー伝送方式の主な技術基準
IoT(Internet of Things)とは、異なる種類の物理的なデバイスやオブジェクトがインターネットに接続され、相互に通信し、データを交換する技術や概念でである。IoTは「モノのインターネット」とも呼ばれ、日常生活や産業活動において、様々な物品がインターネットを介して相互に連携し、情報を共有することを可能にしている。
具体的には、センサやアクチュエーターを搭載したデバイスが、ネットワークに接続され、リアルタイムでデータを収集し、処理し、制御を行う。これにより、生産性の向上、効率化、自動化、サービスの改善などの様々な利点が期待される。
IoTの基盤となる技術には、センサ技術、ネットワーク技術、クラウドコンピューティング、ビッグデータ処理、人工知能などが含まれる。これらの技術が統合されることで、IoTシステムが実現され、新たなビジネスモデルやサービスの生成が期待されている
IoTの歴史は古い。インターネットが人のコミュニケーションのみから離れはじめたのは、1990年代初頭にマーク・ワイザー(Mark Weiser)によって提唱された”ユビキタスコンピューティング”が発端と思われる。彼は、1991年に発表した論文で、コンピュータが人々の日常生活に浸透し、目に見えない形で人々の周囲に溶け込んで使われるようになることを提起した。
1990年代後半から2000年代初頭にかけては、ユビキタスコンピューティングの実装と研究の進展が見られた。特に日本ではユビキタスネットワークという名で広く知れわたり、国による数多くの研究開発が開花した。これには、センサテクノロジーの進歩、モバイルコンピューティングの普及、3G携帯電話システムをはじめとするワイヤレス通信技術の発展の貢献が大きい
IoTの用語が公に現れたのは、おそらくIUT-Tによる”The Internet of Things”(ITU INTERNET REPORTS2005)[1]からではないか、と思われる。この中では通信の対象が機械やセンサまで拡大され、あらゆるものがネットワークに繋がり関連するコンテンツや情報が提供されるパラダイムを提示した。
2000年代中頃からは、センサ技術の進化や4G/Wi-Fi通信技術の発展に支えられ、様々なIoTデバイスが開発され、普及をみせた。特に、スマート家電、スマートメータ、自動車のテレマティクスなど、生活や産業のさまざまな分野でIoTが利用され始まったのもこの頃からである。
2010年代中頃以降、IoTはデータ駆動を主旨に進化を始める。IoTデバイスが収集するデータ量は急速に増加し、インターネット上に大量に流れ始める。それをビッグデータ技術やクラウドコンピューティングが支え、データ分析や機械学習を活用した価値創造が行われるようになっていった。いくつかの利便性の高いデータ処理基盤も出現し、データの瑕疵かも進んでいった。一方では、セキュリティの重要性も増し、IoTデバイスやネットワークのセキュリティ対策が強化されていった。
現代は、IoTの処理基盤はほぼ確立し、エンドのセンサも知的な進化が進んでいる。クラウドのみに頼らず、センサ近くでの処理を重視するエッジコンピューティングや人工知能(AI)などの新たな技術が今やIoTに統合され、リアルタイムでのデータ処理や洞察の提供が期待されよう。
IoTを構成する主な機能要素としては、IoTを支える基盤としては、大きく分けて、センサ/エンドデバイス、センサノード、通信ネットワーク、クラウドプラットフォーム、そしてデータ分析処理、アプリケーション/ユーザーインターフェース、セキュリティ、制御/アクチュエーショ機能になると考えられる。以下これらについて概説する。
IoTで利用されるセンサは、さまざまな種類があり、様々な用途に応じてデータを収集する。以下に、一般的なIoTセンサの種類とその用途をいくつか挙げる。
温度センサ:
温度を測定し、環境の温度変化を監視する。家庭や産業用途での気候管理、冷蔵庫や冷凍庫の温度管理などに使用される。
湿度センサ:
湿度を測定し、湿気や乾燥の状態を監視する。家庭や産業用途での湿度管理や、植物栽培のモニタリングなどに使用される。
光センサ:
光の量を測定し、照明や環境の明るさを調整する。また、日光の量を測定して、太陽光発電システムの最適な配置を決定するのにも使用される。
加速度センサ:
物体の加速度を測定し、振動や動きを検出する。スマートフォンやウェアラブルデバイスなどの動作検出や、地震のモニタリングなどに使用される。
圧力センサ:
圧力を測定し、気圧や水圧の変化を監視する。天候予測や高度の計測、水圧のモニタリングなどに使用される。
距離センサ:
物体までの距離を測定し、障害物検知や位置測定などに使用される。自動車の駐車支援システムやロボットの障害物回避などに利用される。
ガスセンサ:
特定のガスの濃度を測定し、ガス漏れや環境汚染の監視を行う。可燃性ガス検知器や空気品質センサなどがある。
音声センサ:
周囲の音を測定し、音量や周波数を分析する。音声認識システムや騒音監視などに使用される。
IoTで使われるセンサノードとは、センサと通信機能を組み合わせた小型のデバイスを指す。センサノードは、センサ近傍に配備され、主にセンサとのインタフェース、マイクロコントローラ、通信モジュールなどから構成され、センシングしたデータを適切にクラウドに送ることを目的としている。
センサノードの代表的な例としては、Arduinoが挙げられる。Arduinoは、オープンソースプラットフォームで、マイクロコントローラーを中心としたハードウェアと、それをプログラムするためのArduino IDEと呼ばれるソフトウェア開発環境から構成される。Arduinoボードは、センサやアクチュエータなどの周辺機器を接続し、制御するためのプロトタイピングやハードウェア開発に広く使用されている。図 3‑39はAdruino UNOの写真である。
図 3‑39 Arduinoボード(WikiPediaより引用).
Arduinoと並んで広く利用されているセンサノードが低コストで小型のシングルボードコンピュータRaspberry Piである。Raspberry Piは、豊富なGPIO(General Purpose Input/Output)ピンやUSBポートを備え、さまざまなセンサやデバイスを接続して使用することが可能である。Linuxベースのオペレーティングシステム(e.g., Raspberry Pi OS)を実行し、Pythonやその他のプログラミング言語で開発することが可能である。初期のRaspberry Piは簡単なIoT処理用と考えられていたが、パフォーマンスもバージョンが上がる毎に進化し、GPUも搭載されるに至っている(2024年1月時点ではRaspberry Pi 5が発表されている)。またRaspberry Pi OSには数式処理ソフトウェアであるWolfram社のMathematicaが無料でバンドルされていることも特筆される。
図 3‑40 Raspbery Pi 4 Model B(WikiPediaより引用)
手軽にIoT用のセンサノードとして利用可能なマイクロコントローラボードとしては、ESP8266およびESP32がある。これらはWiFiやBluetoothを備え、Arduino IDEでプログラミングすることができ、多くの開発者やコミュニティに支持されている。
図 3‑41 ESP32モジュールの例(WikiPediaより)
また最近ではNVIDIA社よりGPUを搭載した組み込みIoTアプリケーションにて適用可能なJetson Nanoが発売され、後述するようなセンサノードでのAI処理を可能にしてきている。
IoTアプリケーションではさまざまなセンサ機能やアクチュエータ機能を備えたスマートデバイスもよく利用される。ここではその例を挙げる。
スマートホン
もはやコモディティとして、列挙する必要もないが、iPhoneやAndroid端末のようなスマートホンは、疑いなく現代の代表的なスマートデバイスである。機能的なユーザインタフェース、ネットワークサービス機能、GPS、通信機能、セキュリティ機能他を備え、人々の生活を支える必須のツールとなった。IoTの観点からは、ユーザへのリーチを支える意味で必須デバイスである。
スマートスピーカ
Amazon Echo、Google Home、Apple HomePodなどのスマートスピーカーは、音声アシスタントを搭載し、音声コマンドを受け付け、ユーザが要求する情報の提供や家庭内の機器やサービスの制御を行うことができる。
スマート照明
Philips Hue、TP-Linkなどのスマート電球は、スマートフォンや音声アシスタントを介して、明るさや色温度を調整したり、タイマーを設定したりすることが可能である。
スマートコンセント
SwitchBotやTP-Linkなどのスマートコンセントは、家電製品をリモートでオン/オフしたり、消費電力をモニタリングしたりすることが可能である。
スマートカメラ
TP-Link他各社から提供されているスマートカメラは、ネットワーク機能を有しており、リアルタイムで家の中や外の状況をモニタリングしたり、動きを検知してアラートを送信したりでき、見守りや防犯に広く活用されている。
エアタグ
「エアタグ」は、Appleが開発した小型軽量の追跡デバイスで、正式には「AirTag」と呼ばれ、紛失したり見つけにくい物品を追跡するために用いられる。通信手段としてはBluetoothとUltra Wideband(UWB)の技術を組み合わせて動作させる。Bluetoothで近距離でユーザーのiPhoneとペアリングし、UWBを使用して、エアタグの正確な位置を特定する。
スマートデバイスの一種であるが。特に人に装着して用いられるものはウェアラブルデバイスと呼ばれる。代表的なデバイスをいくつか列挙する。
スマートウォッチは、腕に装着するデバイスで、時計の機能だけでなく、健康やフィットネスのトラッキング、通知の受信、音楽の再生、決済等の機能を提供する。代表的なものにApple Watchがある。
フィットネスバンドは、手首や腕に装着するデバイスで、運動や活動量、睡眠などの健康情報をトラッキングし、ユーザーの健康管理やフィットネス目標の達成を支援する。代表的なものにGoogleのFitbitがある。
スマートグラスは、メガネのような形状のデバイスで、ディスプレイやカメラ、センサを搭載し、情報の表示やAR(拡張現実)体験を提供する。例としてはセイコーエプソンが早くからMOVERIOを発売している。
ウェアラブルカメラは、身に着けることができるカメラで、アクティビティやイベントを記録し、ハンズフリーでの撮影や動画配信が行える。GoProが有名である。
ウェアラブルヘッドセットは、頭部に装着するデバイスで、音声の受信や送信、仮想現実(VR)や拡張現実(AR)体験を提供する。Metaが提供するMeta QuestやMicrosoftが提供するHoloLensが有名である。
IoTではセンサ等が分散して配備されることが多く、これらより生成される情報を適切に集約するために通信技術はほぼ必須となっている。IoTアプリケーションの場合、通信距離はさほど長くなくてもよく、伝送速度も低速で良い代わりに低消費電力が強く要求されることが多い。ここではいくつか代表的な技術を列挙する。
Wi-Fiは、無線LANを利用した通信技術であり、家庭やオフィスなどの屋内環境でよく使用され、高速かつ安定した通信を提供する。最近ではWi-Fi6やWi-Fi6Eなどの広帯域な方式も出現してきた。
Bluetoothは、近距離無線通信技術であり、スマートフォンやスマートウォッチなどのデバイス間での接続に広く使用されている。省電力通信を目的としたBluetooth Low Energy(BLE)などの規格も登場している。
Zigbeeは、低消費電力のデバイス間での通信に特化した無線通信規格であり、スマートホームや産業用途で広く使用されている。メッシュネットワークの構築が可能である。なお近距離/低消費電力を実現する通信方式としては、Z-WaveやANTなどがある。
LPWA(Low Power Wide Area)は長距離での通信を可能にする低消費電力の無線通信技術であり、広域のセンサネットワークの構築に使用される。産業用途や農業、都市インフラのモニタリングなどで利用されることが多い。LPWAには各種のシステムがあり、LoRa, LoRaWAN, NB-IoT, Sigfox, ELTRES, ZETAなどが知られている。
IoTでは、伝送する情報は他のアプリケーションに比べしばしば少量であることが多い。そのため、通信に用いられるプロトコルは軽量でかつ少量のデータ用にオーバーヘッドの少ないものが用いられる。代表的な通信プロトコルとしては下記のようなものがある。
もともとIBMによって開発された軽量なメッセージングプロトコルで、IoTデバイス間の通信に広く使用されている。低帯域幅や不安定なネットワーク環境でも効率的に動作し、いわゆるパブサブ(Publish/Subscribe)と呼ばれる、間にブローカを介するモデルを採用している。
ウェブアプリケーションで広く使用される標準的なプロトコルですが、RESTfulな考え方を導入することで、センサの値を問い合わせて得るなどIoTデバイス間の通信にも広く利用されている。RESTful APIを実装することで、デバイス間のデータ交換や制御を用意に行うことができます。
HTTPは比較的重いプロトコルであるため、機能を軽量化したプロトコルである。IoTデバイスやセンサネットワークでの通信に適している。UDP上で動作し、RESTfulなインタフェースを提供している。
メッセージ指向ミドルウェアシステム向けに、MQTTと同様Publish/Subscribe 方式を用いたプロトコルである。基本は金融機関でのシステムのようなメッセージキューの安全な転送や配信を行うために使用されるが、IoTシステムにおいても、信頼性の高い通信を実現する際に利用される。
IoTで用いられるデータフォーマットとしては、軽量でかつ可読性に優れたフォーマットが望まれる。代表的なものとして下記が挙げられる。
軽量で人間にも可読性が高いデータフォーマットで、キーと値のペアからなるテキストベースの形式である。WebアプリケーションやRESTful APIなどで広く使用されている。
構造化されたデータを表現するためのマークアップ言語で、タグと要素からなるテキストベースの形式である。ウェブサービスやデータの交換フォーマットとして広く使用されてきたが、近年はJSONに取って代わられることが増えている。
Googleが開発したバイナリ形式のデータフォーマットで、プロトコルバッファとも呼ばれる。効率的なデータの直列化(階層を持たないフラットな一つながりのデータに変換する)や逆直列化を実現し、プロトコルバージョン管理やデータ構造の拡張性を提供している。
RDFはデータをグラフ構造で表すための表記法で、トリプレットとして表現された文を用いてデータモデルを表現する。意味を表現できるセマンティックWebを支える技術と言われているが、IoTの領域で用いられることはあまりない。
IoTによって得られたデータに対しては適切に処理分析を行うことによって、さまざまな解釈や洞察、傾向を得ることができる。ここでは一般的な技術をいくつか列挙する。
データマイニングは、大量のデータからパターンや関係性を発見するための手法である。集められたデータに対して、クラスタリング、分類、回帰、異常検出など統計技術やAI技術が適用される。
似た特徴を持つデータポイントをグループ化する手法で、データの構造や関係性を理解するのに役立つ。代表的な手法には、K-means法、階層的クラスタリング、DBSCANなどがある。
機械学習は、データから学習し、パターンや予測モデルを構築する技術である。教師あり学習、教師なし学習、強化学習などのアプローチがあり、現在最も進化が激しい領域となっている。代表的な手法として、回帰分析、決定木、ランダムフォレスト、ニューラルネットワークなどがある。
統計解析は、統計的手法を用いてデータセットの特性や関係性を理解するために用いられる。平均、標準偏差、相関、回帰などの統計量が使用され、標準的な解析技術のひとつである。
ビッグデータ処理技術は大容量のデータを効率的に処理するための手法で、クラウドコンピューティングを行うためには必須の技術となっている。Hadoopなどの分散処理フレームワークが使用される。
リアルタイム処理技術は、データを即座に処理してリアルタイムの洞察を得るための手法です。特に高速で大量のデータに対し瞬時に反応できるよう、ストリーム処理、複雑イベント処理(CEP: Complex Event Processing)、リアルタイム分析などが用いられる。
センサで得られたデータはネットワークを介して集約され、適切な処理/分析が行われて可視化されるのが通常である。この一連の処理を行うプラットフォームは通常クラウドの中で実現されることが多い。
早期のプラットフォームとしては2007年に出現したPachubeがあり、IoTのアーリアダプタによく用いられた。2011年の東日本大震災ではPachubeを用いた放射能拡散情報が広く閲覧された。同サービスはその後2011年にXivelyに名を変えた後、2018年にはGoogle IoT クラウドの一部となった。
現在では大手のクラウドプラットフォーム(AWS, Google, Azureなど)はいずれもIoT向けのサービスをまとめて提供している。ここではAWS(Amazon Web Services)を例にとってIoT向けのクラウドコンピューティングサービスに触れる。
AWS IoTは、IoTデバイスからのデータを収集し、デバイスの管理やリアルタイム分析、予測分析などの機能を提供している。
Amazon S3は、クラウドストレージとして大容量のデータを保存し、必要な時にアクセス可能である。
Amazon DynamoDBは大規模なクラウドデータベースで、大規模なデータセットを管理し、高速でスケーラブルなデータ処理を実行する。
Amazon EC2は、仮想サーバをクラウド上で動的に割り当て、IoTデバイスからのデータの処理を支援するクラウドコンピューティングサービスである。処理能力も柔軟に割り当てることができる。
AWS Lambdaは、は、必要に応じてコードを実行し、リソースの管理を自動化するサーバーレスコンピューティングサービスである。IoTセンサなどからのトリガをベースとしたイベントドリブンなコンピューティングが容易に実現可能である。
本章では、IoTの代表的なサービス例を説明する。
家庭内の様々なデバイス(照明、センサ、家電など)をモバイルアプリや音声アシスタントによって、遠隔からデバイスを制御したり、自動化したりすることを行う。家電制御や照明制御、エアコンの制御による温度管理、セキュリティカメラ、スマートロック、エネルギー管理システムなどが含まれる。2022年にはアマゾン、グーグル、アップルなどが中心となったスマートホームのための共通規格Matter(マター、以下マター)がリリースされ、これに準拠することで、多様な家電の制御管理が可能になろうとしている。
公共交通システムの監視、ゴミ箱のフル状態のモニタリング、道路交通の流れの最適化、公共照明の制御など、都市インフラの効率化や改善に活用されえる。
土壌センサ、気象センサ、灌漑システムなどのデバイスを使用して、農作物の生育状況をモニタリングし、効果的な農業管理を行う。
製造プロセスの監視と最適化、機器の保全管理、供給チェーンの可視化など、工場や倉庫での効率化や生産性向上に活用される。
身につけるデバイス(ウェアラブル)やセンサを用いて、個人の健康状態をリアルタイムでモニタリングし、医療機関や介護者と共有する。
自動運転車の開発や、車両のリモート監視、運転データの収集、交通情報のリアルタイム更新などに利用される。
在庫管理、販売データの収集、顧客行動の分析、スマートショッピング体験の提供など、小売業界における効率化や顧客サービス向上に応用される。
スマートメーターの導入による電力使用量のリアルタイム監視や最適化、再生可能エネルギーの効率的な利用などが含まれる。
本章では、国内外におけるIoTに関連した標準化機関やフォーラム、協議会について触れる。
グローバルな標準化機関としては、国際機関ITU-Tのグループの一つであるITU-T SG20 が挙げられる。SG20はスマートシティとその通信に関するIoTアプリケーションに焦点を当てて検討が行われている。
IEEEにおいては、IoT全般の技術の発展、標準化、および応用をサポートすることを目的としている。
OneM2Mは、2012年に設立された異なる業界のIoTデバイスやアプリケーション間の相互運用性と効率性を確保することを目的とした、グローバルな組織である。標準化、セキュリティ、相互運用性の確保に関して検討されている。
国内においては、IoTを目的として各種の協議会やフォーラムが設立され活動を行っている。ここでは主な組織を紹介する。
スマートIoTフォーラムは、2015年10月に設立され、IoT等に関する、技術開発、標準化、およびスマートIoTソリューションの実用化を支援するために、産業界、学術界、政府機関が協力して活動している。
同プラットフォームは、政府機関、民間企業、市民との協力を通じてスマートシティの開発を促進するための取り組みである。このプラットフォームは、IoTやその他の先進技術を使用して、さまざまな都市機能やサービスを統合し、より効率的で持続可能、そして住みやすい都市を創造することを目指している。本プラットフォームには、内閣府、総務省、経済産業省、国土交通省、デジタル庁らが名を連ねている。
日本における地域DX推進ラボや地方版IoT推進ラボは、デジタルトランスフォーメーション(DX)とIoT技術の地域への導入と普及を目的として活動を行っている。IPAが主幹である。本ラボは、特に地方自治体や地域経済の活性化に焦点を当て、先進技術を活用して地域固有の課題を解決し、新たな価値創出を目指している。
同協議会は、IoTデバイスやサービスのセキュリティを強化し、信頼できるIoT環境の構築を目指す団体である。IoTの普及に伴いセキュリティの確保は極めて重要な課題であり、協議会は、セキュリティリスクに対処し、安全なIoTエコシステムを推進することを目的としている。
IoTサービス連携協議会は、異なるIoTサービスやプラットフォーム間の連携を促進し、統一されたIoTエコシステムの構築を目指す団体である。この協議会の主な目的は、機器やプラットフォームの相互互換性・相互運用性を向上させることにある。
3.では各種のIoTサービスについて触れたがここではこれらのビジネス化とそれにともなう課題について述べる
ビジネス領域ではB2BとB2Cの両分野においてIoTビジネスの取り組みが実施されている。
B2B領域では先のスマートIoTフォーラムに多くの事例が掲載されている通り、製造業を代表例として、生産ラインの最適化や機械の遠隔監視、予防保全、エネルギー管理、サプライチェーンの効率化などが行われている。また、製造業に限らず物流、農業、建設など他の産業でも活発な利用の機運がある。
一方B2C領域ではスマートホームデバイス、ウェアラブル技術、健康管理アプリケーションなど、消費者向けのIoT製品の普及が始まっている。また、自動車業界におけるナビゲーションや車両管理を行うコネクテッドカーも、一般消費者向けIoT技術として重要である。
ビジネス化は、市場のニーズや業界の成熟度によって異る。B2Bソリューションは、コスト削減や効率化を図る目的で、比較的早期から進んでいる一方、消費者に直接関わるB2Cに関しては、一層の消費者の受け入れの意識拡大が期待される。
日本では、スマートシティや社会課題の解決を目指したプロジェクト、またローカル5Gの利用促進など、政府からの積極的な支援策もあり、B2BおよびB2Cの両方でIoTのビジネス化が進みつつあると言えよう。
世界的に見たとき日本のIoTビジネスの現状はどのようになっているのだろうか?
図 3‑42は、総務省 “IoT国際競争力指標 -2021年実績 [概要]- から抜粋したIoT市場の国・地域別シェアと成長率を示したものである。これを見ると、IoT市場全体では中国のシェアが最も高く、米国と日本が次いでいるが日本のシェアは2016年から2021年にかけ
図 3‑42 IoT市場の国・地域別社と成長率(総務省 “IoT国際競争力指標 -2021年実績 [概要]- )から抜粋”
て27%から17%にまで下降していることがわかる。世界的にはIoT市場は成長を続ける一方、日本の競争力は相対的に低下していることがわかる。この原因はおそらくこの20年来のICT投資が世界の他国に比べて日本が立ち遅れてきたのと通じる点にあるのではないだろうか?
ここに記さずとも、日本のDX化の遅れ、ICTへの投資は単なる効率化・省力化を目的としたケースが多く、新たなビジネスを立ち上げるような新価値創造につながっていないとの指摘があるが、ここにも当てはまるかと思われる。IoTによる新ビジネス創出が期待される。
日本でグローバル化されたIoTビジネスを阻害している原因のひとつにグローバルな標準化を進める能力に欠けている点も挙げられよう。言語バリアもある上にどうしてもオールジャパンとして動くモーメンタムがあり、クロスボーダで標準化、ひいてはビジネスを牽引するところまで行ってない感がある。
概論
エンドユーザの家庭を直接顧客として確保しているケーブルテレビ事業者は、IoTを活用して様々な分野で新たなサービスやビジネスモデルの構築を目指すのは非常に望ましいことである。ケーブルTV事業者は、エンドユーザへのリーチに加えて、地域顧客志向のスモールクラウド的な機能を導入することでいくつものサービスの可能性が開け得ると思われる。
図 3‑43 ケーブル事業者がIoTサービスを検討する際のSWOT例
一般的ではあるが、日本のケーブルTV会社がIoTビジネスを検討するに際してのSWOTを書いてみた。これを図 3‑43に示す。強みは既に多くの家庭にリーチしているネットワーク基盤ならびに帯域を有していることで、かつコンテンツ配信が可能な機能が既にある点である。一方弱みは業界での個々の社の規模が小さいため、思い切った投資や全国的なスペック統一が容易ではない点が挙げられよう。機会としては地域全体をカバーしているので、それを生かして例えば地域全体をカバーするような防犯や、自然災害監視などが他よりも提供が有利になると思われる。最後に弱点を挙げるとすれば、地域をカバーしているが故に、何かインシデントが発生した際にはその影響が地域全体に及びうる点かもしれない。
これを受けて、既に数々のケーブルTVではサービス提供が行われているが、代表的なビジネスとしては次のような項目が例として挙げられよう。
第一はスマートホームサービスである。先に述べたスマートホームデバイスやネットワーク接続された家電を提供し、顧客の家庭をスマートホーム化するためのサービスの展開である。
次の候補としては、セキュリティサービスの提供であろう。 ケーブルTV事業者がセキュリティカメラやホームセキュリティシステムを提供し、IoT技術を活用して顧客の家庭やビジネスのセキュリティを向上させるサービスの展開があり得よう。ケーブルTV事業者の場合、地域に面的に展開することが可能なので、個別顧客のセキュリティのみならずエリアとしてのセキュリティを提供する機会も得られるチャンスがあると思われる。
さらに候補となるのは地域全体で管理可能なエネルギー管理サービスが挙げられる。 ケーブルTV事業者がエネルギーモニタリングシステムやスマートメーターを提供し、顧客のエネルギー使用量を監視し、節約や効率化を支援するサービスを展開するサービスが考えられる。この場合、地域としての気温や電力供給の度合いを見計らい、最適な制御をトータルで評価した後、各家庭やオフィスへの制御を行うシナリオが考えられる。これはB2Cへの適用である一方、B2Bとしてのエネルギーマネージメントであるともいえる。
本章では、やや五月雨的ながら、今後のIoTにとって大きく発展を遂げる手掛かりになりそうな項目について説明したい。
疑う余地もなく、AIはIoTデバイスが生成する膨大なデータから意味のある洞察を抽出し、スマートな意思決定をサポートすることで、IoTの可能性を大きく広げよう。特にIoTではxxを検出したい、といったような定型的な要請も多いため、機械学習によって人間が関わることなく、また難しいモデリンクも不要で必要な処理を行える可能性がある。列挙できる機能例としては、
• リアルタイムデータ分析: センサからのリアルタイムデータを迅速に分析し、即時のフィードバックやアクションを実施する。
• パターン認識: 機械学習をさせることで、取得データの中からパターンを認識し、異常検知や予測分析を実施。
• 予測保守: 故障予測や機器のメンテナンスが必要なタイミングを予測し、ダウンタイムを減少。
• パーソナライゼーション: ユーザの習慣や好みを学習し、カスタマイズされたユーザーエクスペリエンスを提供する。
• セキュリティ監視: 異常なネットワークトラフィックや不審な行動を検出して、セキュリティ侵害を防ぐための早期警告システムを提供する。
機械学習とIoTの組み合わせは、単にデータを収集するだけでなく、そのデータを活用して新たな価値を創造し得る。
IoTにおけるエッジコンピューティングは、データを集中データセンターやクラウドではなく、データの発生源に近い「エッジ」、典型的には現地でデータを集約するノードで処理するアプローチである。これにより、応答時間の短縮、通信帯域幅の節約、プライバシとセキュリティの向上が可能となる。その特徴として、送信にかかる時間を省略し、リアルタイムに近い処理を可能にする低遅延性、必要または重要なデータのみをエッジで選択して送信することによるネットワークの帯域節約、不要なユーザデータはフィルタして送らないことによるプライバシーとセキュリティの確保、仮にネットワークが障害となってもローカルで動作継続し得る堅牢性などがメリットとして挙げられる。
エッジコンピューティングは、自動運転車、スマートファクトリー、都市インフラ管理、工場内の生産物管理など、遅延が許されない環境でのIoTアプリケーションに特に重要である。
特にデバイスが分散配置されるケースが多いIoTソリューションで注目される機械学習技術のひとつはFederated Learningであろう、データのプライバシーを保護しながら機械学習モデルをトレーニングするためのアプローチで、2017年Googleによって提案された。例えば個人個人のスマートホンの文字入力について、全ての入力をクラウドに集めず個々のスマートホンで分散学習した結果のみをアップロードして戻すことで個人データのプライバシを守りつつ、学習を実施できるため、今後特に、医療、金融、スマートシティなど、データの機密性が特に重要なIoTアプリケーションで連合学習は重要になると考えられる。
FIWAREは、ヨーロッパで始まったイニシアティブで、標準化されたスマートソリューションの開発のためのプラットフォームである。スマートシティ、スマートインダストリー、スマートアグリカルチャーなど、さまざまな分野のデジタル変革を支援するためのAPIやデータモデルが定義され提供されている。
FIWAREの主要なコンポーネントとしては、デバイスやセンサからの情報を集約し、データをリアルタイムで処理するオリオンコンテキストブローカー、異なるIoTプロトコルとコンテキストブローカーとの間で情報を変換するIoTエージェント、アプリケーションが容易にデータにアクセスできるためのデータ/コンテキストAPI、アプリケーション間で共通の理解を促進するための標準化されたデータモデルが挙げられる。
FIWAREは特に、相互運用性の問題を解決することに焦点を当て、コンテキストを厳密に表現できるスキームが提供されている。このため公共のインフラ管理、交通管理、エネルギー管理など多岐にわたる用途に適用されている。一方で、記法がオントロジ的であるので、用いられる広い領域で語彙の合致が必要かと思われる。
IoTは、これから日本にとって間違いのない課題となる少子高齢化、防災・減災対策、インフラ維持、人々の健康維持、各種産業の発展にとってエッセンシャルな役割を果たすことになる。ただし、その速度は決して一気に進むわけではなく、数多くのトライアルのベストプラクティスの中からB2Bのビジネスが生まれ、消費者が多くのデバイスに触れ、その利便性を感じた後、あって当たり前の日常のコモディティとなるときにB2Cのビジネスも成長発展してゆくであろう。
始めは普及もはかばかしくなかった一方で現在は広く普及している例としてIPv6がある。2000年初頭に日本はIPv6技術に秀でていると言われながら、普及は全く進んでいなかった。しかしながらIPv4が枯渇し、アップルやマイクロソフト、GoogleらがこぞってIPv6のサポート/移行を進めると、あっという間に世界にとって当たり前の存在になった。IoTもまだ普及しないしない、と言いながら、いつのまにか気がついたら身の回りにあって当たり前で誰もそれを不思議と思わない世界になっていると筆者は想像する。
Society 5.0の実現に向けて、フィジカル空間とサイバー空間を一体化する構想であるCPS(サイバー・フィジカル・システム)が掲げられている。その構想を具現化するための技術のひとつがXRである。XRは、VR (Virtual Reality) やAR (Augmented Reality) 、MR (Mixed Reality) など、サイバー空間とフィジカル空間を融合させた結果を人間の知覚にフィードバックする技術の総称である。サイバー空間においてAIなどで分析した結果を、フィジカル空間に伝達することで、人の行動などを変容させる役割を担う。XR技術を活用したコンテンツは、五感がミックスされたこれまでにない臨場感を伴う体験を、あらゆる生活シーンの中で創出することができる。
2030年には、あらゆる場所に設置されたIoTデバイスやセンサにより、フィジカル空間の情報はスキャンされ、サイバー空間上でフィジカル空間を再現できるようになり、そこに架空の風景やモノまで重ね合わせるような拡張も実現されることが期待される。
これらは、サイバー空間上で構築された世界であるメタバースなどのプラットフォームを介してXR技術によりユーザに提示される。視覚的には、平面的な映像表示に留まらず、VR/ARグラスでの提示はもちろん、立体映像を表示するホログラフィによる実物と見分けが付かない立体表現が実現される。また、場の広がりまでも感じられる立体音響やモノに触れた感覚を得られるフォースフィードバックなどの様々な知覚表現を組み合わせて五感に伝達するマルチモーダル連携が実現される。さらには、サイバー空間とフィジカル空間をつなぎ、これらの膨大なデータを瞬時に受け渡しが可能な高効率伝送が実現される。
こうしたXR技術の進化がコミュニケーションスタイルに多大な変革をもたらす。具体的には、自分の部屋にいながら、過去に訪れた場所を再現し、その思い出を遠隔の家族や友人と共有する。親しい人の肩に触れ、そっと手を重ねる。そんな言葉だけでは伝わらない繊細なニュアンスの表現までも可能とする。
フィジカル空間をセンシングした情報はサイバー空間で拡張され、五感に働きかけるXRコンテンツとして、高効率にデータ圧縮された形で、タイムラグを感じさせることなく互いの空間を行き来する。その結果、CPSにおいてシームレスなXR体験をもたらす。
COVID-19の感染拡大に伴うリモートワークやバーチャルイベントの急速な普及に伴い、メタバースを中心として、XR技術を活用した遠隔でのコミュニケーションやコラボレーションがより一般的となりつつある。エンターテインメントからビジネスの領域まで幅広い用途で活用されている。エンターテインメントの領域においては、オンラインでつながった参加者と一緒に遊ぶことが可能なゲーム、音楽パフォーマンスなどのイベント鑑賞、バーチャルモール内でのショッピングといったユースケースが考えられる。ビジネスの領域においては、3D空間内での研修・トレーニングなどの教育や、参加者同士で場を共有しながらディスカッションを行う会議を目的とした利用が考えられる。
実際に、VRグラスを介した視聴体験と、アバターによる自己表現を駆使したバーチャル会議や展示会が増えてきている[1]。同様の技術を活用して、バーチャルキャンパスやバーチャルオフィスを本格導入する米国の大学や企業も登場している[2][3]。視聴デバイスの進化も進んでおり、VR/ARグラスに関して、米国や中国などの大手IT企業を中心に高画質・広視野角・小型・軽量といった性能向上が着実に進められており、利用シーンが拡大している。
このように、XR技術の普及は着実に進んでいるものの、従来は特定の商品・サービスのみがデジタル化され、サイバー空間のフィードバックを受けられる体験は断片的なものに留まっていた。
ここで、エンターテインメントの領域におけるユースケースの一例として、KDDIが発表したバーチャル渋谷を紹介する。このバーチャル渋谷では、サイバー空間内では渋谷の街並みがデジタルツインとして再現され、24時間、世界中どこからでも、自身がアバターとなって参加することが可能である[4]。また、渋谷区においては、スマートフォンやスマートグラスに搭載されたカメラ越しの映像から空間を認識するVPS (Visual Positioning Service)を活用して、実際の渋谷の景色に飲食店情報などがARで表示されるサービスの実証実験が行われた(図 3‑44)[5]。
図 3‑44 渋谷スクランブル交差点における実証実験での体験イメージ
このように、XR技術を活用した新体験の創出事例は徐々に出てきているが、更なるユースケースの拡大や深化においては解決すべき課題もある。ここでは、本稿で紹介するメタバース、点群データやホログラフィなどの立体表現の観点での課題について述べる。
まずメタバースに関する課題について述べる。メタバースでは、遠く離れた人と同じ空間を共有しながら、自分の分身としてのアバターを介してコミュニケーションなどを行うことが可能である。図 3‑45はメタバース内で表現される空間やアバターのイメージであるが、これらはCG(Computer Graphics)で表現される[6]。ユースケースによっては、現実をより忠実に再現することが求められる。視覚の観点では、例えば、メタバース内でのショッピングやスポーツ観戦などを想定すると、人物や衣服などの質感まで再現されることが期待される。
図 3‑45 メタバース上に構築された空間とアバターによる表現
また、図 3‑46はメタバース内で表現される音響表現のイメージである[7]。メタバース内のユーザやオブジェクトの位置や向きなどによって、音の聞こえ方を変化させる立体音響の表現がある。立体音響は、シアター鑑賞用途では、マルチチャンネルのサラウンドオーディオシステムを利用してより臨場感の高い表現が可能となってきている[8]。一方で、メタバースなどでの利用においては、スマートフォンのスピーカーやヘッドフォンなどによるステレオ再生が一般的である。ステレオ再生における立体音響の表現を行うアプローチも検討されている[9]。メタバース内での音楽演奏やコミュニケーションなどを想定すると、複数の人が演奏したり、発話したりする際の、空間内の音の広がりを模擬できることが期待される。
図 3‑46 メタバース内での音響表現のイメージ
触覚においても、メタバース内の人やオブジェクトに触れた際の感覚を提示できることが望ましい。ゲームのコントローラーやグローブ型のデバイスなどを介した振動によるフィードバックなどが実現されているが[10][11]、ユースケースに適したデバイスにおいて、手軽に繊細なフィードバックが行えることは有用であると考えられる。その他、嗅覚や味覚の再現については、萌芽的な事例がいくつか出てきた段階ではあるが、メタバース内の臨場感のある体験をさらに後押しするフィードバックが期待される[12][13]。
次に立体表現に関する課題について述べる。従来のサイバー空間からの視覚的なフィードバック体験は、主に2Dディスプレイを介する形態に制限されていたが、3Dに拡張することで、図 3‑47のようなより臨場感のある体験を実現できると考えられる。
図 3‑47 立体表現を活用した視覚的なフィードバックのイメージ
3D映像のデータ表現形式として、空間にある物体を点の集合として表現する点群がある。点群は空間を点の位置とその色で表現するシンプルなデータ構造であり、様々なユースケースで利用される。一方で、3D情報を持つため、そのデータ量は膨大となる。そのため、点群データを圧縮する技術は必要不可欠と言えるであろう。3Dコンテンツの普及とともに、ネットワークに流通するデータ量は今後益々増大すると考えられるため、更なる高効率な圧縮が求められる。
また、3D映像の表示技術として、透過型ディスプレイやハーフミラーなどによって3D空間中に2Dの高画質CGを投影するアプローチが検討されている[14]。一方で、実物と見分けることが原理的に不可能な映像表現を実現すべく、実物体の表面から反射して得られる光波を記録・再生するホログラフィを活用した立体表示ディスプレイ技術[15]の研究開発が進められているが、表示用デバイスなどの制約から、高画質・広視野角の映像表示は実現されていない状況である。
このような状況の中で、更なるユースケースの探索や課題解決に向けた取り組みも出てきている。次節以降において、XRが目指す世界を実現する構成要素として、メタバース、点群データ、ホログラフィに焦点をあてて、それぞれの詳細について述べる。
まずメタバースの動向について述べる。メタバースについては、明確な定義はないが、ユーザ間でコミュニケーションが可能な、インターネット等のネットワークを通じてアクセスできる、仮想的なデジタル空間と言われている[16]。
上述のような体験を提供するサービスをいくつか紹介する。世界最大級のメタバースとして、VRChat [17]と呼ばれるサービスが提供されており、世界中から参加するユーザとアバターを介した会話やイベントへの参加などを楽しむことができる。また、Epic Games社が提供するFortnite [18]などのように、ゲーム機能も持ち合わせたサービスも存在する。Fortniteでは、ユーザが空間をデザインすることができ、その空間を他のユーザと一緒に楽しむことも可能である。また、ビジネス向けのコラボレーションツールとして、Microsoft Meshなどが提供されている[19]。また、Meta社はメタバースサービスの提供に加えて、より没入感の高い体験を可能とするためのXRデバイスの開発や提供を行っている[20]。日本発のメタバースとしては、クラスター社のメタバースプラットフォームであるcluster[21]が提供されており、スマートフォン、PC、VRヘッドセットなどの多様なデバイスから参加することができる。また、実在する都市を再現した空間内を散策できる都市連動型メタバースであるKDDIらが推進するバーチャル渋谷なども提供されている[4]。
このように、メタバースとして様々なサービスが提供されているが、これらをさらに高度化する取り組みも出てきている。ここでは、メタバースの進化に向けた取り組みの一例として、アバターのフォトリアル表現とマルチモーダル連携について紹介する。
メタバースの高度化のひとつとして、あたかも現実と同じように感じる空間の写実的な再現がある。上述の都市連動型メタバースのように、実在する場所をサイバー空間に再現する取り組みが進められている。その上で、メタバースでの自身のアバターを、人間そっくりに表現可能なバーチャルヒューマンが提案されている[22]。店舗での接客や案内、教育・介護などで日常的に活用され、人に寄り添う存在として社会的に受容されるようになる。バーチャルヒューマンのイメージを図 3‑48に示す[23]。バーチャルヒューマンは人とのインタフェースとしての役割のみに留まらず、商品の企画・デザイン段階におけるサンプル制作のバーチャル化等、サプライチェーンのDX化の手段としても幅広く活用されるようになる[24]。また、サイバー空間においては自身のエージェントがデジタルツインとして存在し、容姿や服装はもちろん、仕草や表情さえもシチュエーションに応じて最適に制御され、特にビジネスシーンにおいては対面以上のコミュニケーション手段として日常的に活用されるようになる。
図 3‑48 バーチャルヒューマンのイメージ
このような写実的に表現されたバーチャルヒューマンは、メタバースなどで利用されるスマートフォンで表示する場合、そのデバイスの描画処理能力の制約から、サーバでCGの描画処理を行い、その結果を2D映像としてストリーミング配信する手法が一般的である。その際に、データ通信量および端末処理負荷が課題となるが、サーバとスマートフォン側の描画処理を適切に分散することにより、スマートフォンでのフォトリアルなレンダリングを可能とする技術も提案されている[22]。これにより、通信量を抑えつつスマートフォンでの表示品質を維持することが可能となる。
メタバースの高度化を実現するためには、視覚的な表現力の向上だけでなく、立体的な音場による視聴体験、人やモノに触れる感覚などを再現することは重要である。
例えば、メタバース内での音楽ライブ視聴のユースケースにおいては、物理的に離れた空間が音場も含めてリアルタイムに接続され、あたかも今その場にいるかのような、ライブ視聴を超越した没入体験が可能になると想定される。
このような音の立体的な表現を実現する技術として、KDDIは「音のVR」という立体音響技術を提案している。空間中の任意の範囲にズームした音場をリアルタイムに合成することで、360度映像中の見たい、聴きたい部分に自由自在にフォーカスできるインタラクティブ視聴体験が可能となっている[25]。図 3‑49は、立体音響技術を活用したバーチャルコンサートの例である。
図 3‑49 立体音響技術を活用したバーチャルコンサートの例
視覚や聴覚に加えて、触覚、嗅覚、味覚の再現技術とも組み合わせることで、メタバースを通じて、時空の制約を超えて、ユーザに対して五感フィードバックが提供され、実体験と遜色のない、自然で豊かな体験、あるいは現実を超える驚きの体験が得られることが期待される。
近年、3次元データの生成・処理・提示に関する技術の発展に伴い、様々な分野において3次元データの利活用が進められている。最も代表的な3次元データのひとつに点群データがある。点群データとは、3次元空間内の複数の点からなるデータの集合である。各点は座標(x,y,z)の幾何情報と色(r,g,b)や反射率などの属性情報をもつ。点群データは非常に汎用性の高い表現形式であるため、幅広い用途で利用される。例えば、建設業では建造物や地形をLiDARなどのセンサでスキャンし、得られた点群データを施工やメンテナンスの過程で利用する。AR/VR/MRなどに向けたコンテンツ制作では、フォトグラメトリなどを用いて生成した点群データを3次元シーンの表現に利用する。また、PCやタブレット、スマートフォン、ヘッドマウントディスプレイなど、点群データを扱う端末も用途に応じて多様化している。このような状況で、一般に膨大なデータ量となる点群データによるストレージや通信への負荷を削減するため、点群圧縮技術への期待が高まった。
こうした背景から、マルチメディアを扱う国際標準化団体であるMPEG (Moving Picture Experts Group) は、点群圧縮技術であるPCC (Point Cloud Compression) の規格化を行っている。PCCは元の点群の品質を維持しながら大幅な圧縮性能を達成しており、データ量の大きな点群データを圧縮してモバイル回線経由で安定的に伝送することも可能になった。一方、点群のエンコード時の処理負荷には課題があったが、最近の開発事例では高速化技術との組み合わせによりリアルタイム動作も実現されている。
なお、国際標準として規定されているのは復号処理のみであり、符号化処理には目的に応じて最適化する余地が残されている。つまり、用途に応じたパフォーマンスを実現するため、柔軟な実装が可能であり、例えばリアルタイム処理を目指す場合は、高速化の仕組みと組み合わせたエンコーダの実装が行われる。
MPEGが規格化したPCCでは、点群データの幅広いアプリケーションを考慮し、点群データの特性に応じて、V-PCC (Video-based Point Cloud Compression)とG-PCC (Geometry-based Point Cloud Compression)の2方式が定められている。以下にそれぞれについて、方式の概略、ならびにリアルタイムエンコーダの開発事例を説明する。
V-PCC (Video-based Point Cloud Compression)[26] は、国際標準化機関のISO/IECで2020年10月に規格化された。名前に「Video-based」とある通り、点群データを動画のように変換して、既存の映像符号化技術であるVVC (Versatile Video Coding)やHEVC (High Efficiency Video Coding)を利用する点が特徴である。点群データを動画化する処理の都合により、動きのある人物などの物体の点群の処理に適している。
V-PCCは動きのある人物などの物体の点群を効率よく圧縮できることから、例えば、フォトリアルな人物表現によるライブコマースやショーなど、主にコンテンツ配信での利用が期待される。このようなユースケースではリアルタイム性も重要となるが、点群のエンコード時の処理負荷には課題があった。これに対し、V-PCCリアルタイムエンコーダ [28],[29] ではMPEGが公開している参照ソフトウェア [30] をベースにエンコーダに対して高速化の仕組みを導入し、リアルタイム動作可能なシステムを開発した。
V-PCCのエンコーダの処理の概要を図 3‑50に示す。V-PCCのエンコーダは、点群フレーム群GOF (Group of Frames)が入力されると、各点群フレームをパッチと呼ばれる単位に分解し、点群の周囲に仮定した直方体の面にパッチを投影する。パッチへの分解と各パッチの投影面の判定は、各点の法線方向などの情報に基づき処理される。パッチの投影により複数種類の画像を生成し、それぞれの画像をGOF単位でまとめて既存の映像符号化技術により符号化する。
これに対し、V-PCCリアルタイムエンコーダでは、パッチへの分解と各パッチの投影面の判定処理に関する改善を行った。具体的には、参照ソフトウェアでは数点ごとにこの判定処理が行われおり、膨大な処理時間が費やされていたのに対し、3次元空間をパッチよりもさらに小さな小空間に分割し、その小空間ごとに判定処理を行うことで高速化した。加えて、V-PCCに適したタスクスケジューリング方式によりCPU使用率を改善した。
図 3‑50 V-PCCのエンコーダ処理
このV-PCCリアルタイムエンコーダを用いたシステムで実際のユースケースを想定した伝送実験を行った。システムの構成イメージを図 3‑51に示す。事前にスタジオで撮影した人物の高密度点群(約2000万点/秒)をV-PCCリアルタイムコーデックによって符号化し、5Gを経由して遠隔の視聴拠点までライブ配信した。遠隔地ではホログラフィックステージやスマートフォンでコンテンツを安定的に再生できることを確認した。
図 3‑51 V-PCCリアルタイム伝送実験のシステム構成
V-PCCを用いてリアルタイムに点群データの伝送ができることにより、例えば音楽やファッションなどのショーイベントを対象に、ボリュメトリックスタジオで撮影した映像をそのままメタバースに参加させるといった新しいイベント体験の創出が期待できる。
G-PCC (Geometry-based Point Cloud Compression)[27] は、国際標準化機関のISO/IECで2023年3月に規格化された。V-PCCとは異なり点群を3次元データのまま符号化し、どのような点群データに対しても使用可能である点が特徴である。文化財などの静止した物体や空間を表す点群や、LiDARで取得した点群などの物体や空間を表す疎な点群に適している。
G-PCCは、V-PCCと異なり広域の3次元シーンの点群やLiDARで取得した疎な点群に対して点群の品質を損なわず効率よく圧縮できることから、建設現場支援や災害対策など幅広い活用が期待されている。このようなユースケースでは、屋外にある可搬型機器で取得した点群を、モバイル回線を経由して即時に遠隔地に伝送して確認できることが望ましい。しかしながら、G-PCCの場合においても点群のエンコード時の処理負荷には課題があった。これに対し、G-PCCリアルタイムエンコーダ [29] ではMPEGが公開している参照ソフトウェア [31] をベースにエンコーダ高速化と機能追加を実施し、リアルタイム動作可能なシステムを開発した。
現時点で規格化が完了しているG-PCCは、フレーム毎の処理が独立している。そのため、入力が複数フレームある場合にはマルチスレッド処理で並列にエンコードすることで、シングルスレッドの動作時と同じ結果を高速に得ることができる。そこでG-PCCリアルタイムエンコーダでは、フレーム単位の並列処理を行うことで高速化を実現した。また、機能追加として、点群データのストリーミング入出力機能とネットワーク送受信機能を実装した。これによりノートPCで8並列処理とした場合に200万点/秒を超える処理が可能になった。これは、多くの高性能LiDARで取得できる点群をリアルタイムで処理することができる性能である。
このG-PCCリアルタイムエンコーダを用いてシステムを構成し、実際のユースケースを想定した伝送実験を行った。システムの構成イメージを図 3‑52に示す。LiDARとRGBカメラでリアルタイムに取得している点群データをノートPCでエンコードし、5Gを経由して遠隔地に伝送した。LiDAR は、約32 万点/秒 (3.2 万点/フレーム、10フレーム/秒) の 点群データを取得していた。遠隔地では、受信した点群データをPC画面に表示した。受信側では、点群データ取得から約500ミリ秒の遅延で、点群を安定的に再生できることを確認した。
G-PCCを用いてリアルタイムに点群データの伝送ができることにより、例えばドローンを利用して現場の様子をライブ配信し、災害時の救援活動やインフラ構築時の遠隔作業支援の円滑化が期待できる。
図 3‑52 G-PCCリアルタイム伝送実験のシステム構成
ホログラフィとは、実空間において目に届く光の波を再現することで「あたかも実物がそこにあるかのように見える」立体映像表示を可能とする技術であり、「究極の立体映像技術」とも呼ばれている。物体からの光を再現する性質から、眼鏡などのデバイス着用を伴わない裸眼立体映像鑑賞も可能である。また、ホログラフィは人間の立体知覚の4要因(両眼視差・運動視差・輻輳・焦点調節)をすべて満たす技術とされており、従来の立体映像技術とは異なり、「輻輳調節矛盾(鑑賞者の得る奥行き感と実際のディスプレイ面との距離情報に矛盾が生じること)が起こらない」という特徴から、眼精疲労や不快感などの鑑賞者の身体的負担の少ない映像技術としても期待されている [32].上記を代表例として、ホログラフィは従来の立体映像にはない長所を備えており、当該立体映像によってもたらされるユーザ観点のメリットは以下の通りである.
1. 実物のような立体感を得られる
2. 輻輳調節矛盾による身体的負担が起こらない
3. 深い正確な奥行表現が可能
4. ユーザの視力に応じた再生像の補正が可能
5. 透過表示による実空間との重畳が可能
6. 裸眼立体映像鑑賞が可能
これらの特徴から、ホログラフィはユーザ負担の少ない長時間鑑賞可能な裸眼立体映像であり、日常的な利用や公共空間での利用、正確な奥行情報を求めるユースケースに適しているといえ、具体的例としては、以下のユースケースが挙げられる。
(1)立体映像広告・情報提示
ホログラフィの、実物のような立体感を得られる映像表示を可能とし、また深い正確な奥行表現が可能であるという特徴から、立体映像広告に応用することでユーザへの高いアピール効果が期待される。また、公共空間において立体映像での案内標識などの情報提示を行うことで、より直感的な情報理解の促進が期待される。
(2)遠隔コミュニケーション
ホログラフィの、実物のような立体感を得られる映像表示という特徴から、遠隔コミュニケーションにおける映像表示に利用することで、「より相手を身近に感じる遠隔コミュニケーションの実現」が期待される。テレビ会議などに利用することで綿密なコミュニケーションを実現し、効率的な働き方の実現にも寄与する。
(3)遠隔教育
ホログラフィによる実物のような立体感を得られる映像表示により、より直感的な空間情報の理解につながる。具体的には、スポーツにおける遠隔指導などにおいて、指導者の動きを正確に理解できることから対面での指導と同等の指導効果の実現が期待される。また、身体的負担が起こらないという特徴から、子供向けの教育教材への応用も可能であり、効果的な遠隔教育による地域格差の解消なども期待される。
(4)遠隔医療
ホログラフィの、深い正確な奥行表現が可能であるという特徴から、より高度な遠隔医療の実現が期待される。具体的には、遠隔地においても患部の状態を立体的かつ正確に見ることができるようになり、対面とそん色のない診断が可能となる。また、ロボット制御技術などと組み合わせることで、遠隔での執刀なども可能となることが期待され、これらにより、医療のさらなる高度化や地域格差の解消が期待される。
ホログラフィの再生にあたって、近年ではコンピュータ上で生成されるディジタルデータ「計算機合成ホログラム(computer-generated hologram: CGH)」を「空間光変調器(spatial light modulator: SLM)」上で表示し、立体映像を再生する手法が広く研究されている[33]。コンピュータ上の3D空間上に配置された物体からの光をシミュレートしてCGHを得るという特徴から、「現実に存在しない仮想的な物体を被写体とすることができる」、「ディジタルデータとして遠隔地への伝送等が可能となる」といった利点がある。CGHを用いた立体映像の再生は主に次の3つのプロセスからなり、そのプロセスの概要を図 3‑53に示す。
(1)物体光データの生成
コンピュータの仮想的な3D空間上に3Dモデルデータ(物体)を配置し、鑑賞対象となるシーン(鑑賞対象シーン)を構成する。この鑑賞対象シーンに対して、SLMの位置に相当する平面(ホログラム面)を設定する。鑑賞対象シーンの物体からホログラム面へ光の伝搬計算を行い、ホログラム面上の光の振幅位相分布(物体光データ)を得る。このとき、物体光データは2次元平面上に分布する振幅と位相情報(もしくはその複素数表現)となる。
(2)CGHの生成
ホログラム面に生成された物体光データとは別の光源である参照光を設定し、当該参照光と物体光データの干渉パターンを算出する。この干渉パターンがCGHである。実際にSLMにて表示する際には、CGHは2bitや8bitのビット深度をもつ画像へと変換される。
(3)CGHを用いた立体像の再生
CGHをSLMに表示したうえで、参照光と同様の位置から同様の波長をもつ光(再生照明光)を照射する。CGHのパターンに従って再生照明光がSLM上で回折することによって、鑑賞対象シーンの立体像が再生される。
図 3‑53 ホログラフィの再生プロセス
ホログラフィによる立体映像の実現には大きく以下の技術課題がある。
(1)ディスプレイの大型化と広視域化
立体映像においてはディスプレイサイズとユーザの鑑賞可能範囲(視域)は重要な要素の一つである。ホログラフィの原理から、ユーザの鑑賞する再生像の視域は、ホログラムの画素間の距離(画素ピッチ)によって決定される。例えば赤色光の波長を620〜750nmとすると、おおよそ視域30°となる立体映像を実現するためには、CGHの画素ピッチが少なくとも1μm(=1,000nm)以下である必要があることがわかる。これは極めて高画素密度なディスプレイが必要であることを意味する。特にSLMについては、最新の研究技術においても、現実的に映像鑑賞用途として映像を十分楽しめるデバイスは実現されていない[33]。
この課題に対して、KDDIではSLMではなくレーザーリソグラフィを用いたCGHを応用することで、大型かつ広視域なCGHアニメーションを実現している[34]。
(2)データサイズの圧縮
上記(1)の課題に記載した高密度なディスプレイにおいては、表示されるデータの画素数も膨大となる。例えば、縦横10cm×10cmのディスプレイサイズでは、上記1μm画素ピッチを満たすディスプレイの画素数は10億画素にものぼる。同時に、このようなディスプレイ向けに生成されるホログラムのデータサイズも大きなものとなる。ホログラムは2次元平面における光の振幅位相などの分布で表現されるため、一般の画像・映像フォーマットと親和性が高く、既存の映像符号化技術を適用することが可能である。一方で、CGHのもつ信号特性は自然画像とは大きく異なる。そのため、既存の映像符号化技術を単純にCGHに適用しただけではインター予測、イントラ予測といった機能が効果的に働かず、効率的な圧縮は難しい。これ対して、物体光を記録する位置を物体近傍に設定した上で符号化し、復号側でホログラム面へ光波を伝搬するといったアプローチが提案されている [35]。当該アプローチにより、CGHの信号特性が自然画像に近づくため、既存の映像符号化技術が効果的に働くことが報告されている。
【参考文献】
[1] 亀岡他, “学会オンライン化・VR開催の幕開け”, 日本バーチャルリアリティ学会誌, 2020, 25巻, 2号, p.35-43, 2020.
[2] https://universitybusiness.com/how-about-using-a-digital-avatar-on-a-virtual-campus/
[3] https://www.nikkei.com/article/DGXMZO60130810Z00C20A6I00000/
[4] https://news.kddi.com/kddi/corporate/newsrelease/2020/05/15/4437.html
[5] https://news.kddi.com/kddi/corporate/newsrelease/2019/08/28/3979.html
[6] https://news.kddi.com/kddi/corporate/newsrelease/2023/03/07/6588.html
[7] https://www.kddi-research.jp/newsrelease/2019/100702.html
[8] https://www.dolbyjapan.com/dolby-cinema
[9] https://www.sony.jp/feature/contents/220606/
[10] https://article.murata.com/ja-jp/article/miraisens-3d-haptics-technology-1
[11] https://www.senseglove.com/
[12] https://aromajoin.com/ja
[13] https://www.meiji.ac.jp/koho/press/6t5h7p0000342664.html
[14] https://group.ntt/jp/newsrelease/2018/11/26/181126d.html
[15] Yoneyama他, “Holographic head-mounted display with correct accommodation and vergence stimuli, “Opt. Eng. 57(6), 061619, 2018.
[16] https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r05/html/nd131210.html
[17] https://hello.vrchat.com/
[18] https://www.fortnite.com/
[19] https://adoption.microsoft.com/ja-jp/microsoft-mesh/
[20] https://about.meta.com/ja/
[21] https://cluster.mu/
[22] https://www.kddi-research.jp/newsrelease/2021/021801.html
[23] https://news.kddi.com/kddi/corporate/newsrelease/2021/03/10/5006.html
[24] https://news.kddi.com/kddi/corporate/topic/2021/09/10/5401.html
[25] 堀内他, “視聴者ごとの見たい・聴きたいを実現する音メディア技術”, 信学誌, Vol.104, No.1, pp.22-26, 2021年1月
[26] "V-PCC codec description", ISO/IEC JTC1/SC29/WG7 N0100 (June2020)
[27] "G-PCC codec description", ISO/IEC JTC1/SC29/WG7 N0217 (Apr.2022)
[28] https://www.kddi-research.jp/newsrelease/2022/102401.html
[29] https://www.kddi-research.jp/newsrelease/2023/012401.html
[30] https://github.com/MPEGGroup/mpeg-pcc-tmc2
[31] https://github.com/MPEGGroup/mpeg-pcc-tmc13
[32] D. M. Hoffman, A. R. Girshick, K. Akeley, and M. S. Banks, “Vergence–accommodation conflicts hinder visual performance and cause visual fatigue,” J. Vis. 8(3), 33, 2008.
[33] 町田 賢司,空間像再生用表示デバイスの研究開発動向,NHK技研R&D 秋号,No.187, 2021.
[34] https://www.kddi-research.jp/newsrelease/2022/050901.html
[35] 小島他,"VVCによる計算機合成ホログラムの動画像符号化の一検討," 2024年電子情報通信学会総合大会講演論文集, No.D-11A-34, 2024年3月.
生成AI(Generative Artificial Intelligence)は、データの学習を通じて新しい、未知のデータを生成する能力を持つ人工知能の一分野である。従来のAIが既存の情報を分析し、分類することに重点を置いていたのに対し、生成AIは、学習したデータから新たなコンテンツを「生み出す」。このプロセスは、人間が経験や知識から新しいアイデアを生み出す方法とある程度類似している。
生成AIの核心は「モデル」にある。これはデータセットを分析し、そのデータセットに潜むパターンや分布を理解する構造である。この理解を基に、モデルは新たなデータポイントを生成することができる。例えば、多くの猫の画像から学習した生成モデルは、実在しないがリアルに見える猫の画像を生成することが可能である。
生成AIは、特にGenerative Adversarial Networks(GANs)やVariational Autoencoders(VAEs)といった技術の進歩により、注目を集めている。これらの技術は、リアリティのある画像、音声、テキストを生成するだけでなく、データ拡張、仮想環境のシミュレーション、匿名化されたデータセットの作成など、多岐にわたる応用を可能にしている。
しかし、生成AIの能力は創造に限定されない。この技術は、データの理解を深め、それを活用する新しい方法を提供することで、科学、医療、芸術などの分野に革新をもたらすことが期待されている。生成AIが開く可能性は大きく、その影響は我々の生活のあらゆる側面に及ぶだろう。
生成AIの歴史は、人工知能研究の初期に遡ることができる。最初の人工知能プログラムの一部は、簡単な言語パターンの生成や数学的証明の生成などを実行することを目的としていた。しかし、これらの初期の取り組みは限定的なものであり、生成AIの可能性を完全に引き出すことはできなかった。
生成AIの研究における大きな転換点は、深層学習とニューラルネットワークの進歩によってもたらされた。特に、2014年に導入されたGenerative Adversarial Networks(GANs)は、生成AIの分野に革命をもたらした。GANsは、生成器と識別器の二つのニューラルネットワークが互いに競争しながら学習を進める仕組みであり、非常にリアルな画像やビデオ、音声を生成する能力を持つ。
その後の年月を経て、多様な生成モデルが開発され、それぞれが異なるアプローチでデータの生成を行うようになった。例えば、Variational Autoencoders(VAEs)は、データの確率的モデルを学習し、そのモデルから新しいデータをサンプリングする。一方、Recurrent Neural Networks(RNNs)は、特にテキストや音楽の生成において優れた性能を発揮する。これらは後に解説する。
生成AIの応用範囲も急速に拡大している。初期の画像生成から始まり、現在では自然言語生成、3Dモデルの生成、医療画像の合成など、多岐にわたる分野での応用が進んでいる。このような進歩は、生成AIが実世界の問題解決において重要な役割を果たす可能性を示している。
生成AIの歴史と発展は、人工知能技術の進化とともに、私たちの創造性とイノベーションの限界を拡張し続けている。
機械学習は、データから学習し、その学習を通じて特定のタスクを実行する能力をコンピュータに与える技術分野である。この広範な分野の中で、生成AIは機械学習のうちの特別なカテゴリに位置づけられる。機械学習がデータを分析し、パターンを認識することに注力するのに対し、生成AIはそのパターンを基に新たなデータを生成することを目的としている。
機械学習モデルは、一般に入力データに対して予測や分類を行うが、生成AIのモデルは、与えられたデータセットに基づいて新しいデータインスタンスを「生成」する。この違いは、両者が追求する目的の根本的な違いから来ている。機械学習の多くは予測的な性質を持つが、生成AIは創造的な性質を持つ。
生成AIのモデルは、機械学習の技術を利用してデータの分布を学習する。学習されたデータの分布から新しいサンプルを生成することで、モデルは実際に存在するかもしれないが、まだ観測されていないデータポイントを想像することができる。このプロセスは、機械学習における教師なし学習の一形態と見なすことができる。
機械学習の枠組みの中で、生成AIは新しい可能性を開く。生成AIのアプローチは、従来の機械学習が直面していたいくつかの問題、例えばデータ不足や過剰適合などを緩和する手段を提供する。また、機械学習が生み出した知識を、完全に新しい方法で活用することを可能にする。
機械学習と生成AIの関係性を探り、生成AIが機械学習の範囲内でどのように特別な位置を占めているかを解説する。また、生成AIの基本的な概念とその機能についても詳細に説明する。
機械学習の手法は大きく二つに分けられる。一つは教師あり学習、もう一つは教師なし学習である。これらは学習する際のデータの形態と、モデルがどのようにデータから学習するかに基づいて区別される。
教師あり学習では、モデルは入力データとそれに対応する出力データ(ラベル)の両方から学習する。このプロセスでは、モデルが正しい出力を生成するように、入力データと出力データの関係を理解することが目的である。教師あり学習の典型的な例としては、画像に写っている物体を識別する分類問題や、ある特徴から家の価格を予測する回帰問題などがある。
一方、教師なし学習では、出力データ(ラベル)なしで入力データのみから学習を行う。この場合、モデルはデータ内の構造やパターンを自動的に見つけ出し、それに基づいてデータを分類したり、新しいデータを生成したりする。教師なし学習は、データのクラスタリングや次元削減、そして生成AIにおける生成モデルの学習に利用される。
生成AIにおける教師なし学習の応用は特に重要である。生成モデルは、ラベル付けされていない大量のデータから複雑なデータ分布を学習し、その分布に基づいて新しいデータインスタンスを生成する。これにより、教師なし学習は、新しいコンテンツの生成、データ拡張、さらには教師あり学習モデルのトレーニングデータとしての利用など、多岐にわたる応用が可能となる。
GAN、すなわちGenerative Adversarial Networksは、2014年にイアン・グッドフェローらによって提案された生成モデルである。このモデルは、生成器(Generator)と識別器(Discriminator)の二つのネットワークから構成される。生成器は新しいデータサンプルを生成する役割を持ち、識別器はそのサンプルが本物のデータか生成されたデータかを識別する役割を持つ。
GANの学習プロセスは、生成器と識別器が互いに競争するゲームのような形で進む。生成器はより本物らしいデータを生成しようと試み、識別器は本物のデータと生成されたデータを正確に識別しようとする。この競争を通じて、生成器は徐々に高品質なデータを生成する能力を向上させ、識別器はより精度高く識別する能力を向上させる。
GANは特に画像生成において顕著な成果を上げており、写真のようにリアルな画像を生成することができるようになった。また、スタイル変換、画像補完、画像から画像への変換など、多様な応用が可能である。
しかし、GANの学習は不安定であり、モード崩壊と呼ばれる現象が起こることがある。これは、生成器が限られた種類のサンプルしか生成しなくなる状態を指す。さらに、高品質な生成物を得るためには、慎重なパラメータの調整が必要となる。
GANの研究は、そのポテンシャルと応用の広がりにより、生成AI分野において活発に行われている。新しいアーキテクチャの開発や、学習プロセスの安定化、応用範囲の拡大など、多くの進歩が見られる。
VAE、すなわちVariational Autoencodersは、データの確率分布を学習することにより、新しいデータを生成する生成モデルである。VAEはオートエンコーダの一形態であり、エンコーダとデコーダの二つの主要な部分から構成される。エンコーダは入力データを低次元の潜在空間にマッピングし、デコーダはその潜在空間から元のデータ空間へのマッピングを学習する。
VAEの特徴は、潜在空間における点が有意義な方法で連続していることである。これにより、潜在変数を操作することで、データの滑らかな変化を生成することが可能となる。例えば、顔画像の生成において、潜在変数を変化させることで、表情や髪型が連続的に変わる画像を生成できる。
VAEの学習プロセスでは、エンコーダによってデータの確率分布を近似し、デコーダはその分布からサンプリングされた潜在変数を元のデータに再構成する。この過程で、KLダイバージェンスと呼ばれる損失関数を最小化することにより、エンコーダの近似分布がデータの真の分布に近づくように学習が進む。
VAEはその柔軟性と効率性から、画像生成だけでなく、異常検出、データの圧縮、さらには強化学習における状態表現の学習など、幅広い応用が可能である。また、潜在空間の解釈可能性は、データの理解を深めるための有用な手段を提供する。
しかし、VAEには限界もある。再構成されたデータが元のデータに比べてぼやけてしまう傾向があり、これは特に画像データにおいて顕著である。また、複雑なデータ構造を持つデータの生成には適していない場合がある。
VAEの研究は、より高品質な生成物を得るための新しいアーキテクチャや学習手法の開発に焦点を当てて進められている。VAEの概念は、生成AIの分野において重要な役割を果たし続けるであろう。
RNN、すなわちRecurrent Neural Networksは、時系列データや順序付けられたデータを扱うためのニューラルネットワークの一種である。RNNの特徴は、過去の情報を記憶し、それを現在の入力と組み合わせて処理する能力にある。この特性により、RNNは自然言語処理や音楽生成など、連続的なデータが関わるタスクに適している。
RNNの基本的な構造はシンプルであるが、内部にループを持つことで、時系列の各時点での入力とともに、一つ前の時点からの情報を引き継ぐことができる。これにより、RNNは文脈やシーケンス内の依存関係をモデル化する能力を持つ。
RNNは特に生成モデルの文脈で有効である。過去のデータポイントを考慮しながら新しいデータポイントを一つずつ生成することで、文章やメロディなどの連続したデータを生成することが可能となる。例えば、与えられたテキストの続きを生成したり、旋律に基づいて新しい音楽を作曲したりすることができる。
しかし、RNNにはいくつかの課題も存在する。特に、長期間の依存関係を捉えることが困難であるという問題がある。これは勾配消失問題や勾配爆発問題と関連しており、学習過程で重要な情報が失われることが原因である。この問題を克服するために、LSTM(Long Short-Term Memory)やGRU(Gated Recurrent Unit)などの改良されたRNNが開発されている。
RNNとその変種は、生成AIの分野において重要なツールであり続けている。文脈を考慮したデータ生成の能力は、多くの応用において価値を提供する。RNNの研究と開発は、より効果的で柔軟なモデルを目指して進められている。
ディープラーニングは、深層ニューラルネットワークを用いた機械学習の一分野であり、近年、生成AIの進展において中心的な役割を果たしている。ディープラーニングのモデルは、多数の層を持つことで、複雑なデータの表現を学習する能力がある。この能力により、ディープラーニングは、画像、音声、テキストなど、多様なデータの生成に適している。
生成AIにおけるディープラーニングの応用は、主に生成モデルの構築に関わる。深層ニューラルネットワークを用いることで、高度に複雑なデータ分布をモデル化し、新しいデータインスタンスを生成することが可能となる。特にGANやVAEなどの生成モデルは、ディープラーニングの枠組みの中で発展しており、リアルな画像や自然な言語テキストの生成に成功している。
ディープラーニングによる生成AIのアプローチは、データの階層的な表現を学習することに基づいている。ニューラルネットワークの各層は、入力データの異なる特徴を捉え、これらの特徴を組み合わせることで複雑なデータ構造を模倣する。このプロセスは、人間の脳が情報を処理する方法に類似しているとも考えられている。
ディープラーニングを用いた生成AIは、優れた成果を上げている一方で、大量のトレーニングデータと計算資源を必要とする。また、生成されたデータが元のデータセットに含まれる偏りを反映することや、解釈性の欠如など、いくつかの課題も存在する。
ディープラーニングと生成AIの関係は、今後もAI技術の発展において重要なテーマであり続ける。研究者たちは、より効率的なモデルの開発、データの偏りへの対処、モデルの解釈性向上など、これらの課題に取り組んでいる。
ニューラルネットワークのアーキテクチャは、生成AIにおける中核的な要素である。これは、データから複雑な特徴やパターンを学習し、新たなデータを生成するための計算モデルの構造を指す。ニューラルネットワークは、単純なパーセプトロンから複雑な深層学習モデルまで、さまざまな形態が存在する。
一般に、ニューラルネットワークは入力層、隠れ層、出力層の三つの主要な層から構成される。入力層はデータを受け取り、隠れ層は複数のレベルでデータの抽象化と特徴抽出を行い、出力層は最終的な結果を提供する。隠れ層の数とノード(ニューロン)の数が多いほど、ネットワークはより複雑な関数を表現できるが、計算コストと過学習のリスクも増大する。
ニューラルネットワークのアーキテクチャは、タスクの性質、使用するデータの種類、求められる出力によって大きく異なる。深層学習における最新の進歩は、特定のタスクに最適化されたアーキテクチャの開発によってもたらされている。例えば、畳み込みニューラルネットワーク(CNN)は画像関連のタスクに、トランスフォーマーモデルは自然言語処理のタスクに特化している。
ニューラルネットワークのアーキテクチャの設計と最適化は、生成AIの性能を決定する上で重要な要素である。研究者たちは、より効率的で、表現力豊かで、学習が安定するネットワークアーキテクチャを求めて、継続的に新たなモデルの開発に取り組んでいる。
損失関数は、ニューラルネットワークの学習において、モデルの出力が目標とする値からどれだけ離れているかを定量化する指標である。生成AIにおいて、損失関数はモデルが生成したデータが本物のデータとどれだけ似ているか、または特定の目的をどれだけ達成しているかを評価するために用いられる。最適化とは、この損失関数の値を最小化するようにモデルのパラメータを調整するプロセスである。
生成AIにおける損失関数は多種多様であり、特定の生成モデルやタスクに応じて異なる。例えば、GANでは、識別器が本物のデータと生成されたデータをどれだけ正確に識別できるかを表す損失関数と、生成器が識別器を騙すことにどれだけ成功しているかを表す損失関数が用いられる。VAEでは、再構成誤差とKLダイバージェンスを含む損失関数が使用され、データの再構成精度と潜在空間の正則化を同時に行う。
最適化アルゴリズムは、損失関数の最小化を効率的に行うための手法であり、勾配降下法やその変種が一般的に使用される。勾配降下法は、損失関数の勾配、つまりパラメータに関する損失関数の導関数を計算し、その勾配が示す方向にパラメータを少しずつ更新していく。このプロセスを繰り返すことで、最終的に損失関数が最小となるパラメータの値に収束させる。
最適化の過程では、学習率の設定が重要であり、これは各ステップでパラメータをどれだけ更新するかを決定する。学習率が大きすぎると最適な解をオーバーシュートしてしまい、小さすぎると収束までに時間がかかりすぎる。また、ミニバッチ勾配降下法やモメンタムを用いることで、学習の安定性を向上させ、収束速度を早めることができる。
損失関数と最適化は、生成AIにおけるモデルの性能と学習効率を決定する上で重要な要素である。研究者たちは、より良い生成物を得るために、新しい損失関数の設計や最適化アルゴリズムの改良に取り組んでいる。
自然言語生成は、生成AIが活用される代表的な領域の一つである。これは、機械が人間が理解できる言語でテキストを自動生成する技術であり、データの要約、報告書の作成、会話型エージェント、ストーリーの創作など、多岐にわたる応用が存在する。
自然言語生成のプロセスは、一般にデータや意図されたメッセージを入力として受け取り、それをもとに文や文章を構築する。この過程では、文法的に正確で、かつ意味が通じるテキストを生成することが求められる。生成AI技術、特にRNNやトランスフォーマーモデルなどの深層学習モデルは、このタスクにおいて重要な役割を果たす。
自然言語生成の応用例としては、天気予報、スポーツイベントの結果、財務報告の要約などがある。これらの応用において、生成AIは大量のデータから関連情報を抽出し、それを人間が理解しやすい形式のテキストに変換する。また、チャットボットや仮想アシスタントでは、ユーザーの質問や要望に対する自然な返答を生成するためにこの技術が用いられる。
自然言語生成の技術は、クリエイティブな文芸作品の創作にも応用されている。例えば、既存の文学作品のスタイルを模倣して新たな物語を生成することや、ユーザーからのプロンプトに基づいて詩や小説を創作することが可能である。
自然言語生成技術の発展により、テキスト生成の自動化が進み、多くの産業において作業の効率化が図られている。しかし、生成されたテキストの品質や文脈の適切さを保証すること、生成される内容の倫理性を確保することなど、解決すべき課題も多い。研究者や開発者は、これらの課題に対処しながら、より高度な自然言語生成技術の開発に取り組んでいる。
画像生成と編集は、生成AI技術が顕著な成果を挙げている分野である。この技術は、学習した画像データの分布から新しい画像を生成する能力に基づいている。特にGANやVAEなどの深層学習モデルは、写真リアルな画像の生成に成功しており、アート、エンターテイメント、広告など、多様な領域での応用が進んでいる。
画像生成における応用例としては、キャラクターデザイン、風景画像の生成、ファッションアイテムのデザインなどがある。これらの応用において、生成AIは人間の創造性を支援し、新たなビジュアルコンテンツの創出を可能にする。
画像編集においても、生成AIは大きな可能性を秘めている。例えば、既存の画像のスタイルを変換したり、画像の一部を自然に修正・削除したり、高解像度化することができる。これにより、従来は専門家の手によってのみ可能であった高度な画像編集が、より手軽に、かつ効率的に行えるようになる。
また、画像生成技術は、仮想現実や拡張現実といった分野においても重要な役割を果たしている。リアルな環境やオブジェクトを生成し、それらを仮想空間に統合することで、没入型の体験を提供することができる。
画像生成と編集技術の発展には、倫理的な課題も伴う。特に、リアルな人物画像や映像を生成する能力は、虚偽の情報の拡散やプライバシーの侵害に悪用される可能性がある。このため、技術の開発と応用にあたっては、その社会的な影響を十分に考慮し、適切なガイドラインのもとで行う必要がある。
画像生成と編集は、生成AIの応用の中でも特に視覚的に魅力的な分野であり、今後も技術の進歩とともに、さらに多様な応用が期待されている。図 3‑54は代表的な画像生成アプリケーションStable Diffusionで生成した日本の温泉の風景の例である。
図 3‑54 Stable Diffusionで生成した温泉の風景
音声合成と音楽生成は、生成AI技術が活用される重要な領域である。これらの技術は、テキストから自然な音声を生成したり、新しい楽曲を創作したりすることを可能にする。
音声合成、すなわちテキスト・トゥ・スピーチ(TTS)は、書かれたテキストを人間の声に変換する技術である。近年の生成AIの進歩により、音声合成の品質は大きく向上しており、発音、イントネーション、感情表現など、人間の自然な話し方を模倣することが可能となっている。この技術は、音声アシスタント、オーディオブックの生成、視覚障害者支援システムなど、多岐にわたる応用がある。
音楽生成においても、生成AIは新たな可能性を開いている。AIは、特定のジャンルやアーティストのスタイルを学習し、それに基づいてオリジナルの楽曲を創作することができる。このプロセスには、メロディ、ハーモニー、リズムなど、楽曲のさまざまな要素が含まれる。生成された音楽は、映画やゲームのサウンドトラック、アーティストの創作活動、さらには音楽教育においても利用される。
音声合成と音楽生成の進展は、生成AIの能力を示すとともに、クリエイティブな分野におけるAIの役割を再定義している。AIによる音声や音楽の生成は、人間の創造性を拡張し、新しいアートフォームの探求を促している。
しかし、これらの技術の応用には、著作権や創作物のオリジナリティといった課題も伴う。AIが生成した音声や音楽が人間のクリエイターの権利を侵害しないよう、適切な枠組みのもとで技術が使用されることが求められる。
音声合成と音楽生成は、生成AIの応用として大きな注目を集めており、今後も技術の発展と共に、その応用範囲は広がり続けるであろう。
データ拡張は、既存のデータセットから追加のトレーニングサンプルを生成する手法であり、特に機械学習モデルの学習において重要な役割を果たす。生成AIは、このプロセスにおいて中心的な技術となっている。データ拡張を行うことで、モデルの一般化能力を向上させ、過学習を防ぐことができる。
画像データにおけるデータ拡張では、生成AIを用いて新しい画像を生成することが一般的である。これには、既存の画像を回転させたり、反転させたり、色調を変更したりする単純な手法から、GANを使用して全く新しい画像を生成するより複雑な手法までが含まれる。これにより、学習データセットの多様性が増し、モデルが実世界のさまざまな状況に対応できるようになる。
テキストデータにおいても、生成AIを利用したデータ拡張が行われている。自然言語処理モデルのトレーニングのために、既存のテキストデータから新たな文や文章を生成し、データセットを拡充する。このプロセスには、単語の置換、文の再構成、新しい文の生成などが含まれる。
音声データの場合、データ拡張は音声のピッチや速度を変更したり、背景ノイズを追加することにより行われることが多い。生成AIを用いることで、これらの変換をより洗練された方法で行い、より現実的なトレーニングデータを生成することができる。
データ拡張は、限られた量のトレーニングデータしか利用できない場合や、モデルをより堅牢にする必要がある場合に特に有用である。生成AIを活用することで、従来の手法では実現できなかったレベルのデータ拡張が可能となり、機械学習モデルの性能向上に貢献している。
マーケティングや広告業界における生成AIの活用は、近年、大きな注目を集めている。生成AIは、パーソナライズされた広告コンテンツの作成、消費者の関心を引くビジュアルコンテンツの生成、効果的なマーケティング戦略の策定など、さまざまな形で活用されている。
パーソナライズされた広告コンテンツの生成は、生成AIの重要な応用例である。消費者の過去の購買履歴やオンラインでの行動パターンを分析し、その情報を基にして個々の消費者に合わせたカスタマイズされた広告メッセージや画像を生成する。これにより、広告の関連性が高まり、消費者の関心をより効果的に引きつけることができる。
また、ビジュアルコンテンツの生成においても、生成AIは大きな役割を果たしている。新製品のプロモーションビジュアルや、SNS用のクリエイティブな画像、バナー広告など、魅力的で目を引くビジュアルコンテンツの生成が、生成AIにより容易になっている。特にGANの技術は、写真のようにリアルな画像を生成することが可能であり、広告ビジュアルの品質を向上させる。
さらに、生成AIはマーケティング戦略の策定においても利用されている。消費者の行動や嗜好に関するデータからインサイトを抽出し、それに基づいてマーケティングキャンペーンのコンセプトやメッセージを生成する。これにより、よりターゲットに合致した、効果的なマーケティング戦略の策定が可能となる。
マーケティングや広告業界における生成AIの活用は、企業にとって競争力を高める重要な要素となっている。しかし、個人のプライバシー保護や倫理的な広告実践に関する課題に留意し、適切な利用が求められる。
エンターテイメント業界における生成AIの利用は、創造性と技術の融合によって新たな価値を生み出している。映画、音楽、ビデオゲーム、そしてアートといった分野で、生成AIはコンテンツ制作のプロセスを変革し、観客に未体験のエンターテイメントを提供している。
映画業界において、生成AIは特殊効果や背景の生成に利用されることが増えている。リアルなCGキャラクターや風景を生成することで、製作コストの削減とともに、映像表現の可能性を広げている。また、脚本の自動生成や、既存の映像素材から新たなシーンを創出する実験も行われており、映画制作の未来に革新をもたらす可能性を秘めている。
音楽分野では、生成AIを用いた楽曲制作が注目を集めている。AIが学習した数多くの楽曲のスタイルを基に、オリジナルのメロディやハーモニーを生成する。これにより、アーティストは新たなインスピレーションを得ることができ、創作活動の幅が広がる。さらに、生成AIによるライブパフォーマンスや、インタラクティブな音楽体験の提供も可能となっている。
ビデオゲーム業界においては、生成AIがゲーム内の要素を自動生成するために用いられている。キャラクター、アイテム、さらにはゲームのレベルや環境まで、AIがプレイヤーの行動や好みに応じて動的にコンテンツを生成し、ユニークなゲーム体験を提供する。
アートの領域では、生成AIを活用した新たなアート作品の創出が進んでいる。AIが学習した歴史的なアートスタイルを元に、独自のビジュアルアートを生成することで、従来のアート制作の枠を超えた作品が生み出されている。
エンターテイメント業界での生成AIの利用は、観客に新しい感動や驚きを提供するとともに、クリエイターの表現の幅を拡げている。しかし、AIによる創作物の著作権や、人間のクリエイターの役割といった議論も引き起こしており、技術の進展とともに、これらの課題に対する解決策も模索されている。
ケーブルTV業界における生成AIの利用は、コンテンツの推薦システムの強化、視聴者データの分析、パーソナライズされた広告の提供など、多方面にわたる。これらの技術は、視聴体験の向上と業界のビジネスモデルの革新を目指している。
推薦システムは、ケーブルTV業界における生成AIの代表的な応用例である。生成AIを用いた推薦システムは、視聴者の過去の視聴履歴や好みを分析し、それに基づいて個々の視聴者に最適な番組や映画を推薦する。これにより、視聴者は自身の関心に合ったコンテンツを容易に見つけることができ、視聴体験が向上する。
視聴者データの分析においても、生成AIは重要な役割を果たしている。視聴者の行動パターンや嗜好を深く理解することで、ケーブルTV事業者はより魅力的なコンテンツを企画・制作することが可能となる。また、視聴率の予測や番組の最適な放送スケジュールの策定など、運営の効率化にも貢献している。
パーソナライズされた広告の提供は、ケーブルTV業界における生成AIの応用の中でも特に注目されている分野である。生成AIを活用することで、視聴者一人ひとりの興味やニーズに合わせた広告をリアルタイムで生成し、放送することができる。これにより、広告の効果が向上し、広告主にとっても魅力的な広告プラットフォームとなる。
ケーブルTV業界における生成AIの利用は、視聴者のニーズに応えるだけでなく、新たなビジネスチャンスを創出する可能性を持っている。しかし、個人のプライバシー保護やデータの安全性といった課題に対する配慮も必要であり、技術の進歩とともに、これらの問題に対する解決策の開発も進められている。
生成AIの発展は、社会全体に多大な影響を与えている。この技術は、クリエイティブ産業の変革、個人のプライバシーとセキュリティの問題、労働市場への影響など、様々な側面で社会に影響を及ぼしている。
クリエイティブ産業における生成AIの利用は、アート、音楽、文学など、人間の創造性の領域に新たな可能性をもたらしている。AIによって生成された作品は、従来のクリエイティブなプロセスを補完し、新しい形式のアートを創出する。しかし、これらの技術が人間のアーティストに代わるものとなるのか、あるいは共存するものとなるのかについては、引き続き議論が必要である。
個人のプライバシーとセキュリティに対する生成AIの影響も重要な懸念事項である。特に、リアルな画像や映像、音声を生成する能力は、偽情報の拡散や詐欺、プライバシーの侵害といったリスクを高める。これに対処するためには、技術的な解決策の開発とともに、適切な法的枠組みの整備が求められる。
労働市場においては、生成AIは一部の職種やタスクの自動化を可能にし、労働の性質を変える可能性がある。一方で、新たな職業やスキルの需要を生み出すことも予想される。この変化に適応するためには、教育や訓練のシステムを再考し、将来の労働市場に備える必要がある。
生成AIの社会的影響は、技術の利用方法や制御の仕方に大きく依存する。そのため、技術者、政策立案者、社会全体が協力し、生成AIのポテンシャルを最大限に活用しつつ、リスクを最小限に抑えるバランスを見つけることが重要である。生成AIの発展は、倫理的なガイドラインと社会的な合意に基づくべきであり、その過程で透明性と公平性を確保することが求められる。
生成AIの研究は、技術的な進歩と社会的な需要の両方によって加速されている。この分野における研究動向は、新しいアーキテクチャの開発、学習プロセスの最適化、応用範囲の拡大といった方向性に集約される。
新しいアーキテクチャの開発においては、より高品質な生成物を得るための新たなネットワーク構造が探求されている。これには、生成モデルの効率性を向上させるアルゴリズムの改良や、異なるタイプの生成モデルの統合といったアプローチが含まれる。また、学習プロセスの安定性を高めるための研究も進められており、特にGANにおけるモード崩壊問題への対処が重要な課題となっている。
生成AIの応用範囲の拡大については、従来の領域に加え、医療、製造業、都市計画といった新たな分野への応用が模索されている。例えば、医療画像の生成による診断支援や、製品設計のための新素材の生成、都市のシミュレーションによる持続可能な都市計画の策定などが挙げられる。
未来における生成AIの研究は、これらの技術的な進歩に加え、倫理的な課題への対応も重要なテーマとなる。偽情報の拡散やプライバシーの侵害といったリスクへの対策、AIによる創作物の著作権やオリジナリティの問題への取り組みが求められている。また、AI技術の民主化に向けたアクセスの平等性や、技術の透明性と説明責任の確保も、将来の研究において重要な要素となる。
生成AIの未来は、技術的な革新とともに、社会的な責任と倫理的な考慮を伴うものとなる。研究者、開発者、政策立案者、そして社会全体が協力し、生成AIが持続可能で倫理的な方法で発展し得るように取り組むことが重要である。
生成AIは、その発展により、クリエイティブな作品の生成、データ拡張、パーソナライズされたコンテンツの提供といった多くの可能性を開いている。これらの技術は、エンターテイメント、マーケティング、医療、科学研究といった幅広い分野で革新をもたらし、人間の創造性と生産性を大きく拡張する。生成AIによって生み出された新しいアイデアやコンテンツは、従来の方法では考えられなかった形式や解決策を提供する。
しかし、生成AIの技術は、その利用方法や目的によっては、倫理的な問題や社会的な懸念を引き起こす可能性もある。偽情報の生成やプライバシーの侵害、知的財産権の問題は、この技術の責任ある使用を求める声を高めている。また、AIによる自動化が進む中で、労働市場への影響や人間の役割に関する根本的な問いも提起されている。
生成AIの未来は、これらの技術の可能性を最大限に活用しつつ、同時にリスクを管理し、倫理的な指針に沿った使用を確保することにかかっている。このためには、技術者、研究者、政策立案者、さらには一般の人々も含めた社会全体での対話と協力が不可欠である。
最終的に、生成AIの可能性と限界は、人間がこれらの技術をどのように受け入れ、適用し、規制するかによって形作られる。生成AIの持続可能な発展は、技術的な進歩だけでなく、倫理的、社会的な洞察に基づく総合的なアプローチを必要とする。生成AIが人類にとって真に有益なツールとなるためには、その可能性を探求し、限界を認識し、共に成長するための道を模索する必要がある。