Dは文書空間 D = {(v, l)∈V×L | v = dec(l)} とする。文書空間D内の文書族は、集合 S から Dへの写像。index family of documents のこと。
一例として、I を文書IDの集合、Σ をツリー構造のパスセグメントラベルの集合。J をフラグメントIDの集合として、A = def(d) ⊆ I×(J + Σ*) として、d: I×(J + Σ*) ⊇ A → D を考えると、次の状況を記述する。
- I の要素であるIDで識別される文書の集合
- 各文書の内部パーツにフラグメントIDまたはパスでアクセスできる。
文書族 d: A → D に対して、ℓ:R → Rel(A, A) を加えた構造がハイパー文書。ハイパー文書の構成素は:
- 文書空間 D = (V, L, decD)
- V 文書の値空間
- L 文書の字句空間
- dec デコーダー写像
- 文書族 d:A → D
- A インデキシング集合
- d 写像
- D 文書空間
- リンク構造 ℓ:R → Rel(A, A)
- R 関係タイプ〈リンクタイプ〉の集合、関係のインデキシング集合
- ℓ 関係族
ハイパー文書であって、関係タイプの集合が空集合のとき、そのハイパー文書はスレート文書と呼ぶ。スレート文書も特殊なハイパー文書とみなす。