Namazu 2.0 入門
 本文書の目的
 2.0.12 版
 簡単・組立済
  NetBSD/pkgsrc
  FreeBSD/Ports
  RedHat Linux/RPM
  Debian
  MacOS X
お急ぎのあなたに
  準備
  configure, make
  make install
  動作確認
始める前に
 mknmz と namazu(.cgi)
 make に必要なもの
 upgrade 更新
  索引の互換性
mknmz
 configure と make
  File-MMagic
  ./configure, make
  make check
 make install 前に
 make install
 --help の表示
 動作確認 mknmz
 URL を合わせる
  --replace
  .namazurc(Replace)
 検索を作る対象
  ~/.mknmzrc での設定
  操作行での指定
 ~/.mknmzrc
  1. 書き方
  2. 位置
  3. .mknmzrc 内変数
 新規と更新
 Filter(前処理)
 各種文書形式
 EXCLUDE_PATH
  最初に | は不可
namazu
 .namazurc
 動作確認
 namazu.cgi
 日本語処理
 環境変数の設定
 --indexing-lang 引数
  環境変数
  日本語表示
  日本語の文字を変える
 型紙(template)のこと
  参照指定 (mknmz)
  参照指定 (namazurc)
  型紙図示
応用編
 項目(field)検索
 複数索引
 窓を付ける
 日記
 Wanderlust
 mhonarc
 表示を自分用に変更
 検索結果の画面を変更
用語
 索引
 kakasi(他)
参照 (URL's)
 他の方の TIPS
その他
 Namazu で出来ること
 出来ないこと
 歴史など
 資源について(準備中)
  最大インデックス
  Out of memory!
  Benchmark
 dbname -> idxname
 チェックポイント機構
 同じ文章を検索対象から外す
 更なる情報源
 うまく行かない
  設置が正しく
  設定
  参照されているか
  索引すべき譜はありません
  FAQ
  情報検索
  バグ追跡システム
  文字化け
 Namazu 採用地点
  番外
  私家版修正
 質問の仕方
  自分の環境を伝えるには
 被参照地点
  UTF-8

Software 入口 | Hardware | NetBSD 解説 | packages | macppc | TsubaiBSD 絹/software/全文検索

3. .mknmzrc 内変数

ここでは ~/.mknmzrc に書ける変数について説明するが、それ以外の mknmzrc に関する情報は 一つ前に書いてある。 ~/.mknmzrc の見本は、 /usr/local/etc/namazu/sample/mknmzrc-sample あるいは /usr/pkg/etc/namazu/mknmzrc-sample 等にある。

これらの中で設定される変数は、 実際にはnamazu-2.0.x/pl/conf.pl が設置される先の /usr/local/share/namazu/pl/conf.pl 等に定義されている。

変数名に (*) の付いているものの初期値は、 ./configure 時 に決定される

(その事情は pl/conf.pl.in を見れば分る)

variables at ~/.mknmzrc ( see conf.pl also)
変数名 初期値(例)説明

(関係)操作行選択

$ADDRESS (*)
# admin's email address (config 時に設定される)
$HTML_SUFFIX "html?|[ps]html|html\\.[a-z]{2}" この接尾語を持つものだけ処理する
$ALLOW_FILE ".*\\.(?:$HTML_SUFFIX)|.*\\.txt" 対象譜 (正規表現)(注 1)-a, --allow= PATTERN
$DENY_FILE ".*\\.(gif|png|jpg|jpeg)| .*\\.tar\\.gz| core|.*\\.bak|.*~|\\..*|\x23.*" 除外譜 (正規表現)(注2) --deny= PATTERN
$EXCLUDE_PATH undef除外 path (正規表現) --exclude= PATTERN
$DIRECTORY_INDEX "" URL が / で 終っている時の意味。(実際には、表示の時に取除く。一例 index.html
$REMAIN_HEADER "From|Date|Message-ID" RFC 822 Header などのうち本文として検索出来るものを指定する (本文の反対語は 項目検索 )。filters/mailnews.pl だけで参照している。
$SEARCH_FIELD "message-id|subject| from|date|uri| newsgroups|to|summary|size" 項目検索 (「+subject: 検索語」のような形式)に使える項目を指定する
$META_TAGS "keywords|description"<META の中で見る項目 mknmz に -M を付けると、 項目検索 の項目として索引を作る
%FIELD_ALIASES ('title' => 'subject', 'author' => 'from') 項目検索の時の項目について、 メール見出名の置換法を指定する
$NON_SEPARATION_ELEMENTS 'A|TT|CODE|SAMP|KBD|VAR|'. 'B|STRONG|I|EM|CITE|'. 'FONT|U|STRIKE|BIG|'. 'SMALL|DFN|ABBR|'. 'ACRONYM|Q|SUB|'. 'SUP|SPAN|BDO' これらがあっても単語は切らない
$ON_MEMORY_MAX 5000000 (5M) namazu は文書を次々と読んで、それらから、まとめて索引を作る。 その作業は全て記憶域で行なう。 その読んだ文書の大きさの合計が、この数字を越えると、 一旦索引を書き出す。そうして空にしてから、また次を読む。 この大きさと、必要な記憶域の大きさは、単調増加の関係にある。 (注3)
$FILE_SIZE_MAX 2000000これ以上の大きさの譜は無視する
$TEXT_SIZE_MAX 600000 これ以上の大きさの文字形式の譜は無視する(フィルタ後)
$WORD_LENG_MAX 128これ以上の長さの単語は処理しない(bytes)
%Weight (長いので省略) HTML 素子による重み付け点数
$INVALID_LENG 128 これ以上の長さの文字は重み付けから外す。 <Hn> .. </Hn> を書体の大小指定だと思っている人がいるため
$MAX_FIELD_LENGTH 200 (NMZ.field.* に保存する)文字列の大きさ (bytes)
$NKF (*)"module_nkf"NKF 起動法
$KAKASI (*)"module_kakasi -ieuc -oeuc -w" kakasi 起動法
$CHASEN (*)"module_chasen -j -F '\%m '" chasen 起動法
$CHASEN_NOUN (*)"module_chasen -j -F '\%m %H\\n'"
$WAKATI (*) $KAKASI わかち書きに kakase を使うか chasen を使うか-c, -k
(注1)
$ALLOW_FILE などについては語頭・語尾の ^ $ はつける必要はなく、そう解釈する。
(注2)
$DENY_FILE は -a と同時に使うと便利かも知れない。 ( .. を除く全てというような指定が出来る)
(注3)
$ON_MEMORY_MAX に設定する数字について
shell で、limit という操作をして表示される中の datasize が適切でないと、 この指定は意味を持たない。
( $ON_MEMORY_MAX の制限よりも datasize 制限が大きい必要がある。 ただし単位は同じではない。(既定値の) 5M の文書を覚えておくには 64M 以上の記憶域が必要となる(はず))。 記憶域は沢山あるという時には、良く分らなければ、 安易には unlimit datasize としておくのが良い。
検索

この画面は jeedosaquin を使って表示している。

Last Update: Tue, 22 Apr 2008 21:33:00 GMT 1.1.1.1 2008/03/12