腑に落ちない。確率密度関数を使うから“わけわからん”のだと思う。
Sは確率的圏〈stochastic category〉(ジリィ型モナドから作られたマルコフ圏)として、統計モデル(と呼ばれるマルコフ核) M:Θ→*X in S がある状況を考える。
何らかの意味でベイズ反転して得られた L:X→*Θ をMの尤度マルコフ核と呼ぶ。要するに、ベイズ反転(の結果)と尤度は同じこと。実際、ベイズ反転を尤度と呼んでいた例はあったと思う。
パラメータ空間Θに、標準測度Λが載っていて、次のように書けるとする。
- L(dθ|x) = ℓ(θ|x)Λ(dθ)
このとき、ℓを尤度関数と呼ぶ。要するに、尤度マルコフ核が密度関数表示を持つときの密度関数が尤度関数。一般的には、尤度マルコフ核=ベイズ反転マルコフ核=何かを条件化〈conditionalize〉したマルコフ核 が密度関数表示を持つことは保証されないし、そもそもΘ上の標準測度Λの決め方も分からない。
尤度関数=ベイズ反転の密度関数 の存在は特殊な状況でしか保証されないが、ともかく存在するときにそう呼ぶ。尤度関数の存在に関わらず“尤度=統計モデルのベイズ反転”は定義可能。
標準測度Λに対する確率密度関数表示を持つマルコフ核を、Λに対して絶対連続だという(普通の言い方)。Lが(Λに対して)絶対連続な尤度であり、かつ、密度関数が連続関数であるとき最尤法が適用できる。さらに、密度関数が可微分関数のとき勾配法が適用できる。こう考えると、尤度勾配法は矢鱈に仮定が多い。
- Θは測度空間。シグマ有限な標準測度Λがないと、絶対連続性が議論できず、密度可測関数が定義できない。
- Θは位相空間。そうでないと、尤度関数=尤度マルコフ核の密度関数の連続性が議論できない。
- Θは可微分多様体。そうでないと、尤度関数=尤度マルコフ核の密度関数の可微分性が議論できない。
結局、パラメータ空間は測度可微分多様体である必要がある。リーマン多様体なら、標準測度を誘導できるから、測度可微分多様体より特殊なリーマン多様体を取ってもいい、つうか、たぶん普通リーマン多様体を取っている。
上記の設定で、「尤度関数が定義できる空間としてのパラメータ空間」としての情報多様体構造が意味を持つのだろう。
それと、標本とか抽出とかの“わけわからん”が絡む。
M:Θ→*X に対して、ΔnΘ:Θ→Θn をn-対角とする。Mをテンソル積の意味でn累乗したものを M⊗n:Θn→Xn とする。M<n> := ΔnΘ;;M⊗n と定義する。「;;」はチャップマン/コルモゴロフ結合の図式順結合記号。
M<n>:Θ→*Xn をMのn-独立ベキと呼ぶ。モデルの独立ベキはまたモデルだから、改めて X' := Xn, M' := M<n> と置けば、M':Θ→*M' はパラメータ空間Θを持つ統計モデルになり、尤度マルコフ核 L':X'→*Θ' も同様に議論できる。
パラメータ空間が測度可微分多様体だとすると、値の空間も同種の空間のほうがなにかと楽だろう。よって、対象が測度可微分多様体(境界無しにするか角付きにする)で、それぞれの対象の標準測度に対して絶対連続なマルコフ核だけを射とする圏を考えることができる。
マルコフ核 F:X→*Y の絶対連続性から密度関数族 f:X→Φ≧0(Y) の存在は保証される。が、密度関数族の関数がどんなクラスに属するかは色々。多様体のなめらか関数の族に入るとすると一番議論しやすい。そのようなマルコフ核は“なめらかなマルコフ核”と言っていいだろう。
測度多様体となめらかなマルコフ核の圏を考えることはできるが、確率圏としてのオペレータ/コンビネータで、なめらかさが閉じているか? が問題だ。その前に、なめらかなマルコフ核の圏がマルコフ圏になるか? が問題か、大丈夫そうだが。
ユークリッド・アフィン・ガウス雑音入り圏〈Euclidean affine Gaussian noised category〉は、なめらかなマルコフ核の圏の簡単な例。