モデリングの一般論と注意点 - (新) 檜山正幸のキマイラ飼育記メモ編

注意点がいっぱいあるなー。順不同に：

現象、観察、モデル、検証をちゃんと区別する。
説明変数と被説明変数という言い方は良いと思う。原因結果であるかどうかは分からないから。
「モデル」において、モデル族（モデルインスタンスの集合）とモデルインスタンスを区別する。例えば、正規分布族と正規分布インスタンス、線形関数族と線形関数インスタンス。
モデル族の記述にパラメトリックとノンパラメトリックがあるが。絶対的な区別ではない。自分自身（集合）をパラメータ領域とするパラメータ族もある。
観測と実験は、現象を観測・実験するのか、モデル内で観察と実験をシミュレートするのか？の違いがある。モデル内では、“観測・実験のモデル”であり、本物の観測・実験とは別である。ここで、入れ子の世界の構造が出てくるので混乱・混同する。
介入は現象＝実世界での話。だが、“介入のモデル”は構成できる。
モデリングは、現象のモデルを構成する行為。観察と考察を伴う行為。
モデリングは、モデリング言語とモデリング構造を使って行われる。これは、モデリング体系の構文論と意味論である。
モデリングが、モデル族を構成する行為なのか、モデルインスタンスを構成する行為なのかを区別する。
通常は、モデル族を構成し、そのなかから適切なモデルインスタンスを決定する。モデルがパラメトリックなら、モデル決定はパラメータ決定になる。
モデルは階層的な構造を持つので、モデルテンプレートのプレースホルダー（テンプレート変数）にモデル要素（部品）をはめ込んで構成する。
検証は、選択したモデルがどの程度現象をうまく説明するかを確認する行為である。
どんなモデルもすべて（普通の意味で）仮説である。

モデルの構成要素ごとにサブモデル族がある。例えば、ワルドの枠組みだと、確率モデル族として、確率分布の族があり、関数モデル族として決定関数の族がある。それぞれがパラメトリック族だとすると、モデル全体では、複数のパラメータ領域を持つことになる。

例えば、確率モデル族として正規分布族、関数モデル族として線形関数族を使えば、正規線形回帰になる。

話がややこしくなるのは、因果が出てくるとき。すべてのモデルは因果モデルと言えるが、現象の観測データから因果構造が決定できない。よって、因果モデルの候補インスタンスがたくさんある。因果モデルの質的側面は図式のトポロジーで表現し、因果モデルの量的側面はその図式に対する割り当て〈assignment〉で表現するだろう。

因果モデルのトポロジー的側面を表す図式を因果図式と呼ぶことにする。ベイジアンネットワーク（のトポロジー部分＝DAG）とかストリング図は因果図式になる。因果図式はモデリング言語（構文論）に属する存在物だ。その因果図式のモデル内構造（これを単にモデルとも言う）と観測データの比較で検証はできる。が、この検証は因果図式が適切なことを何も保証しない。

純粋に観測的な立場〈observational study | non-interventional study〉なら、因果モデルの適切さを観測的な根拠から比較するのは難しい。まったく別な判断基準として、因果モデルの構文側＝因果図式や割り当てに注目することは出来る。が、これは現象説明能力を比較はしてない。

また、モデル／モデル要素を、決定{論}?的、可能{性論}的、確率{論}?的のどれに選ぶかの問題もある。線形回帰は、誤差モデル（観測経路が誤差付きチャンネル）は確率的で、因果の関数モデルは決定性〈決定論的〉である。モデル全体のどの部分を決定性にして、どの部分を確率的にするかの選択も仮説的、あるいは恣意的である。

同一の現象（の観測データ）を説明できる“モデリング言語による記述”（因果図式など）はものすごくたくさんあるかもしれない。それらの優劣を客観的に比較することは出来ないかも知れない。したがって、モデルインスタンスの選択は、趣味嗜好／恣意的／無根拠である可能性がある。

たいていの誤解・混同・混乱の原因がそうであるように、現象とモデルを区別できない、モデルの多様性を考慮しない、無根拠に根拠を求める、のような問題がある。モットーは：

どんなモデルも仮説である。
モデルは本来的に恣意的である。
現象を説明可能なモデルはたくさんあるかも知れない。
特定のモデルの選択〈採択〉は無根拠かも知れない。