文書構造と分類システム

文書構造は:

  1. 文書ツリー構造: アイテム達に親子関係がある。ツリーなので、ルートノードとリーフノードがある。
  2. ターム出現構造: タームが文書内のどの位置に出現するかの構造。索引で表現される。

分類システムは:

  1. 型システム: アイテム、タグ、ターム、型に型付けする。
  2. 属性システム: アイテム、タグ、ターム、型に属性付けする。型システムに従属する。
  3. タグシステム: アイテム、タグ、ターム、型にタグ付けする。
  4. カインドシステム: アイテム、タグ、ターム、型にカインド付けする。自明。

分類システムは、分類子のトークン空間を持ち(自明なシングルトンセットでもよい)、共通プロパティ仕様、分類子ごとの固有プロパティ仕様を持つ。

分類システムが分類の対象とする集合をシングの集合と呼ぶ。シングはレス〈res〉とも呼ぶ。分類子とプロパティ割当〈property assignment〉があると、それに対してシング達の外延が決まる。

外延は集合なので、集合ブール演算が可能となり、部分集合順序を持つ集合束となる。

タグシステムの分類子はタグであり、タグはシングに無重複リストとして割り当てる。タグのトークン構文は:

  1. 接頭辞を認める。接頭辞の展開はコンテキストで指定される。
  2. 数値接尾辞を認める。数値接尾辞の正規表現は '-' (number | '.')+ 。
  3. フレーズは認めない。