(新) 檜山正幸のキマイラ飼育記メモ編

いろいろゴタゴタとメモ

blit 文書処理 tagging メモ

ターム／シンボルはどのように出現するか？
タームの出現は暗黙にレキシコンのレコードを参照すべきで、レキシコン・レコードは意味を与える。
アイテムコレクションのインデックス〈マップテーブル〉は、タームをキーにしてその出現（複数）を返す。
意味が欲しいならレキシコンを引く、出現が欲しいならインデックスを引く
タームにはタイプ（分類子）／タグ（文脈）がある。タイプ／タグが曖昧性解決に使える。
用語集の生成には、「とは、」のような文パターンが必要。明示的なマークアップがないと、自然言語解析では難しいだろう。
出版物内のアイテムの出現に対するマップテーブルは目次（ラベル, タイトル → アイテム）
ブリット内の出版物の出現に対するマップテーブルはカタログ（メタデータ → 出版物）
マップテーブルの種類

+ 目次
+ カタログ
+ 索引
+ 記号索引
+ 辞書
+ 用語集

不定キーによるレコード検索／検索式〈問い合わせ式〉による検索が問題
検索結果の表示意使うレコードがスニペット／サムネ要約
ターム（テキストターム、シンボルターム）は発見可能でなくてはならない。
シンボルは形状に基づく画像検索が必要。
絵文字検索とかも。
TeXなどが決めている名前からの検索も。
メタデータ検索するか、全内容検索するか？
シンボルの出現をどうやって抽出するか、が問題。
テキストタームとシンボルタームの相互関係も問題だ。
ターム空間には、同義同値関係 ≡ 、略記・省略関係 ~~> があり、言語の違い、表記のゆれ、などの同義の理由がある。
著述コンテンツに事前にある内在情報と、後付けする追加情報。内在情報の出現判断と抽出で外在化させる。それが機械的に出来るか？
自動抽出データに追加情報を追加したモノは、メンテナンスが大変！
抽出判断が非機械的（人間労働）なら、変更のたびに労力がかかる。
変更に労力がかかると、著者への更新抑制圧力になる。
読者への更新通知のチャネルを完備すべき。
教育資料では、主題の説明と練習問題とヒントと解答例の関係をハッキリさせるべき。