メディア情報処理 解答例 2010-2001

学科内の知識共有のために.
メディア情報処理10年分の解答例を作成しました.

問題自体は著作物であると判断し載せませんでした.
各自で用意してください.

誤りなど指摘していただければ嬉しいです!

 

●メディア情報処理 2010

1.音声

(1)音の大きさとは, 音場において人間の感覚で音と感じる感覚量である. 一方で音圧とは, 音の物理的な強弱を測るための数値のことである.

(2)まず音声合成のために録音して蓄積する単位を2音素ないし3音素としてこの音素片に対応する音声波形をラベリングして直接蓄積する. そして合成時には入力されたテキストを連音節に分解して, 各連音素に対応するラベルの付いた波形を順に結合し再生する手法である.

2.画像

(1)光源から発せられる色で, 赤・緑・青の光の三原色を混ぜるごとに明るさが増していくのが加法混色である.一方で他の色を吸収し反射する色で, シアン・マゼンタ・イエローの3原色を混ぜるごとに明るさが減少し黒に近づくのが減法混色である.

(2)フレーム間予測符号化とは動画像において1フレーム前の画像の同一位置の予測位置の予測を用いて予測値との誤差分を符号化するという手法である. 動き補正フレーム間予測符号化とは, 前後のフレームを比較して物体の動きを検知し,その動き量分だけ前にフレームで予測に用いる画素の位置を補正する手法である.

3.ケプストラム分析

(1)もとの時間信号をフーリエ変換により振幅スペクトルにして, 対数をとり対数振幅スペクトルにする. そして逆フーリエ変換を行うことでケプストラムを求める事ができる.

(2)ケプストラムに変換した信号の中でピークの点をもつところがピッチ周波数である. またリフタにより信号を低ケフレンシー部と高ケフレンシー部に分け, 低ケフレンシー部のみを切り出してフーリエ変換を行い指数をとることでスペクトル包絡を求めることができる.

●メディア情報処理 2009

1.ケプストラム分析

(1)もとの時間信号をフーリエ変換により振幅スペクトルにして, 対数をとり対数振幅スペクトルにする. そして逆フーリエ変換を行うことでケプストラムを求める事ができる.

(2)ケプストラムに変換した信号の中でピークの点をもつところがピッチ周波数である. またリフタにより信号を低ケフレンシー部と高ケフレンシー部に分け, 低ケフレンシー部のみを切り出してフーリエ変換を行い指数をとることでスペクトル包絡を求めることができる.

2.MP3の特徴, 圧縮原理, 処理手順

MP3とはMPEG1 Audio Layer3の略で, 高い圧縮率を持ちながら高音質での再生を可能とする音声圧縮技術である. 人間の心理聴覚特性である最小可聴限界とマスキング効果という2つの原理を利用して圧縮を行う. 圧縮の処理手順としては, まず変換元の音声データを高速フーリエ変換して上記2原理より人間の耳で聞き取れない領域を算出する. そしてその結果を元に音声データの各ブロックを何ビットで量子化するかを個別に指定して符号化を行うという方法をとる.

3.Zバッファ法

(1)まず, Zバッファの全画素の値を視点から最も遠い値(無限遠=無限)に初期設定する. 次に立体を構成するポリゴンをスクリーンに投影してラスタイズを行なって各画素毎に奥行き値を計算する. 奥行き値がZバッファの値より小さければフレームバッファにそのポリゴンの色を, Zバッファにはその奥行き値を記憶させ, この処理を一番手前まで繰り返す.

(2)Zバッファ法はポリゴンをいったんZバッファとフレームバッファに書きこめばポリゴンを保持しておく必要がない. そのため大量のポリゴンを表示する場合にはスキャンライン法などに比べてメモリ面で有効. 一方でZバッファやフレームバッファに対しては大量のメモリを必要とする. アルゴリズムが単純で処理する多角形単位で並列処理やパイプライン処理が容易なため, ハードウェア化にも向いたアルゴリズムである.

●メディア情報処理 2008

1.ホルマント周波数

(1)ホルマント周波数とはスペクトル包絡に存在するピーク点の周波数のことである.

(2)スペクトル包絡に存在する各ピーク点を周波数の小さい方から対応付けることで第1,第2,第3…ホルマントを決定する.

(3)第1,第2ホルマントをそれぞれ縦軸と横軸にとり平面上にプロットすると, 男女の差はあれ各母音がそれぞれの領域を形作る. そこで音声がどの領域に属しているかを判断することで母音の音声認識を可能にする.

2.MP3の特徴, 圧縮原理, 処理手順

MP3とはMPEG1 Audio Layer3の略で, 高い圧縮率を持ちながら高音質での再生を可能とする音声圧縮技術である. 人間の心理聴覚特性である最小可聴限界とマスキング効果という2つの原理を利用して圧縮を行う. 圧縮の処理手順としては, まず変換元の音声データを高速フーリエ変換して上記2原理より人間の耳で聞き取れない領域を算出する. そしてその結果を元に音声データの各ブロックを何ビットで量子化するかを個別に指定して符号化を行うという方法をとる.

3.シェーディングモデル

(1)環境光とは直接光による反射光以外をまとめて取り扱った光のことで, 面に関係なくある物体全ての面に適用される.面の反射率をka, 環境光の強さをIambとすると, 環境光による反射光の強さIaはIa=ka*Iambで表される.

拡散反射光とは視点の位置に依存しないどの方向にも均等に反射する光である. そのため光源の位置および強さに依存する. 光源から物体への入射角をθ, 材質に依存する拡散反射係数kd, 入射光の強さIlとすると, 拡散反射光の強さIdがId=kd*Il*cosθで表される.

鏡面反射光とは物体の表面上で反射する成分であり, 鏡面反射によるハイライトを表す. 入射角をθ, 反射角と視点との角度をγ, nは物体に依存する数値, kはθを含む関数とすると, 鏡面反射光の強さIsはIs=ks(θ)*Il*(cosγ)^nで表される.

(2)まずスキャンラインと交差する辺の点(xa,ya)と(xa,yb)の明るさIa,IbをI1I2とI1I3の線形補間により計算する. 次に三角形内部のスクリーン座標(xs,ys)における明るさIcをIa,Ibから線形補間により求める.

●メディア情報処理 2007

1.ケプストラム分析

(1)もとの時間信号をフーリエ変換により振幅スペクトルにして, 対数をとり対数振幅スペクトルにする. そして逆フーリエ変換を行うことでケプストラムを求める事ができる.

(2)ケプストラムに変換した信号の中でピークの点をもつところがピッチ周波数である. またリフタにより信号を低ケフレンシー部と高ケフレンシー部に分け, 低ケフレンシー部のみを切り出してフーリエ変換を行い指数をとることでスペクトル包絡を求めることができる.

2.ヒストグラム変換によるコントラスト変換

画画素の濃淡レベルをヒストグラム形式に変換し, それらを明度の高い画素から順に取り出して平坦化し一様分布たヒストグラムになるよう再配置する.

2/1/5/4
1/4/5/3
0/0/2/3

3.キーワード語句説明

シェーディングモデルとは, 環境光, 拡散反射光, 鏡面反射光をもとに物体から反射する光の強さを表すモデルのことである. 物体特有の反射率入射角, 反射角と視点との角度により算出される.

音の3要素とは音の高さ, 音量, 音色の3つである. 音の高さを決定づける上でベースとなる基本周波数のことをピッチ周波数とよぶ. また, 音量を物理的に数値化したものを音圧といい, 音色の違いは波形やエンベロープや周期の時間変化の差が混ぜ合わさって生まれる.

●メディア情報処理 2006

1.隠れマルコフモデル

q1→q1→q3→q5 (0.3*0.7)*(0.2*0.5)*(0.3*0.6)=0.00378
q1→q2→q3→q5 (0.5*0.8)*(0.6*0.6)*(0.3*0.6)=0.02592
q1→q2→q4→q5 (0.5*0.8)*(0.2*0.6)*(0.5*0.4)=0.00960
q1→q3→q3→q5 (0.2*0.5)*(0.4*0.1)*(0.3*0.6)=0.00072
q1→q3→q4→q5 (0.2*0.5)*(0.3*0.4)*(0.5*0.4)=0.00240
q1→q3→q5→q5 (0.2*0.5)*(0.3*0.4)*(1.0*0.1)=0.00120
よって6通りの結を合計して観測される確率は0.04362

2.MPEG符号化

(1)動き補正フレーム間予測符号化とは, 前後のフレームを比較して物体の動きを検知し,その動き量分だけ前にフレームで予測に用いる画素の位置を補正する手法である.

(2)Iピクチャでは予測符号化を行わず他の画面とは独立に符号化される. Pピクチャは直前のIまたはPピクチャから推定した予測信号との差を符合する. Bピクチャはその画面の前後似位置するIまたはPピクチャから推定した予測信号との差を符号化する.

3.Zバッファ法

(1)まず, Zバッファの全画素の値を視点から最も遠い値(無限遠=無限)に初期設定する. 次に立体を構成するポリゴンをスクリーンに投影してラスタイズを行なって各画素毎に奥行き値を計算する. 奥行き値がZバッファの値より小さければフレームバッファにそのポリゴンの色を, Zバッファにはその奥行き値を記憶させ, この処理を一番手前まで繰り返す.

(2)Zバッファ法はポリゴンをいったんZバッファとフレームバッファに書きこめばポリゴンを保持しておく必要がない. そのため大量のポリゴンを表示する場合にはスキャンライン法などに比べてメモリ面で有効. 一方でZバッファやフレームバッファに対しては大量のメモリを必要とする. アルゴリズムが単純で処理する多角形単位で並列処理やパイプライン処理が容易なため, ハードウェア化にも向いたアルゴリズムである.

●メディア情報処理 2005

1.ケプストラム分析

(1)もとの時間信号をフーリエ変換により振幅スペクトルにして, 対数をとり対数振幅スペクトルにする. そして逆フーリエ変換を行うことでケプストラムを求める事ができる.

(2)ケプストラムに変換した信号の中でピークの点をもつところがピッチ周波数である. またリフタにより信号を低ケフレンシー部と高ケフレンシー部に分け, 低ケフレンシー部のみを切り出してフーリエ変換を行い指数をとることでスペクトル包絡を求めることができる.

2.JPEG

(1)まず, 入力画像を色成分ごとに8×8画素のブロックに分割して各ブロックを8×8行列データとしてDCT変換を行う. 変換の結果各ブロックは8×8DCT係数となる. 係数は(1,1)が直流成分でそれ以外の63個が交流成分となり, 左上から右下に向かうほど高周波数の交流成分に藍甕する. そして各色成分ごとに8×8の量子化テーブルを用意し, その係数で各DCT係数を除算し, 小数点以下を四捨五入して整数値化する. データを直流成分と交流成分にわけ, 直流成分は1つ前に処理したブロック直流成分との差をとり差分をグループ分けして出現頻度ごとにハフマン符号化を行う. 交流成分は周波数の低い方から左上からジクザグにデータを並べ出現頻度ごとにハフマン符号化を行い処理が完了となる.

(2)人間の眼では高周波数領域の画素を認識しにくい. そのため量子化テーブルを用意し係数で各DCT係数を除算し整数化する際に高周波数領域に対応する係数を大きくすることで高画質を維持したまま圧縮率を上げることができる.

3.アフィン変換

a=-2√2 b=2√2 c=-10√2
d= 2√2 e=2√2 f=  2√2

4.MP3の特徴, 圧縮原理

MP3とはMPEG1 Audio Layer3の略で, 高い圧縮率を持ちながら高音質での再生を可能とする音声圧縮技術である. 人間の心理聴覚特性である最小可聴限界とマスキング効果という2つの原理を利用して圧縮を行う. 圧縮の処理手順としては, まず変換元の音声データを高速フーリエ変換して上記2原理より人間の耳で聞き取れない領域を算出する. そしてその結果を元に音声データの各ブロックを何ビットで量子化するかを個別に指定して符号化を行うという方法をとる.

●メディア情報処理 2004

1.量子化誤差/折り返し誤差

量子化では連続値のアナログデータを離散的な有限個のデジタルデータに変換するが, 変換の際には整数値への近似が必要となり元の値とは違った値となる. この量子化前後の値の差を量子化誤差という. 一方で標本化の過程ではナイキスト周波数以上の信号成分を除去するが, 個のフィルタの特性によりナイキスト周波数を超える信号が含まれることによって生じるのが折り返し誤差である.折り返し誤差はモアレとなり現れる.

2.録音編集方式/規則合成方式

録音編集方式とは, ある決められた単位で人間が発生した音声を記録しておき適宣連結して再生する方式をいう. 一方で規則合成方式とは音素や音節などの細かな単位でコンピュータにより結合を行い人間の発声を再現した音声を作成する合成方式である.

3.JPEG

(1)まず, 入力画像を色成分ごとに8×8画素のブロックに分割して各ブロックを8×8行列データとしてDCT変換を行う. 変換の結果各ブロックは8×8のDCT係数となる. 係数は(1,1)が直流成分でそれ以外の63個が交流成分となり, 左上から右下に向かうほど高周波数の交流成分に藍甕する. そして各色成分ごとに8×8の量子化テーブルを用意し, その係数で各DCT係数を除算し, 小数点以下を四捨五入して整数値化する. データを直流成分と交流成分にわけ, 直流成分は1つ前に処理したブロック直流成分との差をとり差分をグループ分けして出現頻度ごとにハフマン符号化を行う. 交流成分は周波数の低い方から左上からジクザグにデータを並べ出現頻度ごとにハフマン符号化を行い処理が完了となる.

(2)人間の眼では高周波数領域の画素を認識しにくい. そのため量子化テーブルを用意し係数で各DCT係数を除算し整数化する際に高周波数領域に対応する係数を大きくすることで高画質を維持したまま圧縮率を上げることができる.

4.コンピュータグラフィクス

(1)シェーディングモデルとは, カメラの位置や光源情報, 物体面光学性質を用いて面の明るさを計算するモデルのことである.

(2)グローシェーディングでは, まず多面体頂点での明るさを求め, 多面体内の任意の点の明るさは多面体の頂点での明るさから線形補間によって求める.

●メディア情報処理 2003

1.ケプストラム分析

(1)もとの時間信号をフーリエ変換により振幅スペクトルにして, 対数をとり対数振幅スペクトルにする. そして逆フーリエ変換を行うことでケプストラムを求める事ができる.

(2)低ケフレンシー部はフーリエ変換を行い指数をとることでスペクトル包絡を求める事ができる. また, 高ケフレンシー部ではピーク点から基本周波数を求めることができる.

(3)ピッチ周波数から基本周波数が読み取れ, 男性の基本周波数125Hzに近い値を示していることから話者は男性といえる.

2.JPEG

まず, 入力画像を色成分ごとに8×8画素のブロックに分割して各ブロックを8×8行列データとしてDCT変換を行う. 変換の結果各ブロックは8×8のDCT係数となる. 係数は(1,1)が直流成分でそれ以外の63個が交流成分となり, 左上から右下に向かうほど高周波数の交流成分に藍甕する. そして各色成分ごとに8×8の量子化テーブルを用意し, その係数で各DCT係数を除算し, 小数点以下を四捨五入して整数値化する. データを直流成分と交流成分にわけ, 直流成分は1つ前に処理したブロック直流成分との差をとり差分をグループ分けして出現頻度ごとにハフマン符号化を行う. 交流成分は周波数の低い方から左上からジクザグにデータを並べ出現頻度ごとにハフマン符号化を行い処理が完了となる.

3.モデリング/レンダリング

コンピュータグラフィックを生成する手順として, 画像として描きたい物体に関する情報を数値データとしてコンピュータに格納する作業をモデリングという. そしてモデルがどのように見えるかを計算によってCG画像を作成するステップのことをレンダリングという.

4.LANの物理形態
(→現在は試験範囲外)

●メディア情報処理 2002

1.FM音源およびPCM音源
(→現在は試験範囲外)

2.ディザ法の処理過程

ディザ法とは入力画像の濃淡レベルを一定の規則で算出したしきい値と比較し, それ以上ならon(1:白)それ以下ならoff(0:黒)の2色で表示する手法である. 例として組織的ディザ法では, まずN×N個のしきい値からなるサブマトリックスを設定し, このマトリックスを画像に重ねあわせて各画素値とマトリックスのしきい値の比較を行う.

3.モデリング/レンダリング

コンピュータグラフィックを生成する手順として, 画像として描きたい物体に関する情報を数値データとしてコンピュータに格納する作業をモデリングという. そしてモデルがどのように見えるかを計算によってCG画像を作成するステップのことをレンダリングという.

4.テレビジョン信号
(→現在は試験範囲外)

●メディア情報処理 2001

1.音場再生

室内で伝達される音は, 音源から直接伝わる音である直接音と壁や天井で反射して伝わる間接音に分けられる. 間接音のうち1回程度の反射により到来するものを初期反射音といい, 何度も反射を繰り返しながら徐々に減衰しつつ到来するものを高次反射音という.

2.JPEG

まず, 入力画像を色成分ごとに8×8画素のブロックに分割して各ブロックを8×8行列データとしてDCT変換を行う. 変換の結果各ブロックは8×8のDCT係数となる. 係数は(1,1)が直流成分でそれ以外の63個が交流成分となり, 左上から右下に向かうほど高周波数の交流成分に藍甕する. そして各色成分ごとに8×8の量子化テーブルを用意し, その係数で各DCT係数を除算し, 小数点以下を四捨五入して整数値化する. データを直流成分と交流成分にわけ, 直流成分は1つ前に処理したブロック直流成分との差をとり差分をグループ分けして出現頻度ごとにハフマン符号化を行う. 交流成分は周波数の低い方から左上からジクザグにデータを並べ出現頻度ごとにハフマン符号化を行い処理が完了となる.

3.Zバッファ法/レイトレーシング法

Zバッファ法とは奥行き値を保持する2次元配列を用いて隠面消去を行う方法である. この2次元配列はZバッファと呼ばれ, フレームバッファと同じ画像サイズを持ちそれぞれの画素に対応した奥行き方向の距離を保持する.

レイトレーシング法とは光線追跡法と呼ばれ, 視点から各画素へ視線を引き, 全ての面について視線と最初に交わる点を探索する方法である. 反射, 屈折, 透過など光の現象の表現に適している.

4.テレビジョン信号
(→現在は試験範囲外)

 

以上, 頑張りましょう!

 

■関連記事:

Comments are closed.