追加された目標:構造・内容の分離と統計量

  1. 構造的情報と内容的〈非構造的〉情報の完全分離
  2. 統計量の算出と統計的分析が可能

このために、内容をラベルにより隠蔽する。ラベルを見ても内容を想像はできない。が、ラベルは構造的情報の基礎となる。

統計的分析を可能とするために、マルチ集合〈バッグ〉とマルチ関係〈マルチグラフ〉を基本とする。マルチ集合はマルチ関係の特別なもの。演算は、自然数の半環を使う。

  1. 足し算とスカラー倍(線形演算)
  2. 制限引き算
  3. アダマール積(成分ごとにminを取る)
  4. サイズの拡張と制限
  5. 行列の掛け算
  6. クリーネスター、クリーネプラス
  7. ブール化
  8. 総和(結果はスカラー)

出てくる行列(一部)

  • タームの出現行列
  • タームのの定義行列
  • 内部参照〈内部リンクアンカー〉の出現行列
  • 直接外部参照〈外部リンクアンカー〉の出現行列
  • 引用キー〈間接外部リンクアンカー〉の出現行列
  • 外部タームの宣言行列 : ターム +→ 外部ラベル

マルチ集合やマルチ関係はヒストグラム〈頻度グラフ〉やヒートマップで可視化できる。ラベルのツリー構造に沿った集計や、トークン空間のクラスタリングによる集計ができる。