日本語の文字化けが発生する場合は文字コードをEUCにして検索してください。
NIIドメインのWebサーバ上のページをロボット(SPIDER)を使用して収集し、全文のインデクスを作成しています。任意の検索語を含むホームページを取り出すことができます。
検索エンジンにはOpenText社のサーチエンジンを使用しており、高速な検索が可能になっています。
このインデクスサーバには、国立情報学研究所のドメイン内 (*.nii.ac.jp) にあり、トップレベルのホームページ (http://www.nii.ac.jp/index.html) からリンクをたどって到達可能な URL のうち、ロボットによる収集が許された公開ページを含んでいます。詳細については「検索対象」をご覧下さい。
なお、検索フォームごとに検索対象を絞り込んでいる場合があります。検索対象についてはそれぞれの検索ページの説明をご覧下さい。
収集したホームページの構造は以下のようになっています。基本的にはホームページの全文を検索するので、あまり気にする必要はありませんが、詳細検索においてこの構造を利用した検索が可能になります。検索精度や検索速度を向上させたいときにこの構造がわかっていると何を検索しているのかがはっきりしてきます。
●レコードの構造 <OTDoc> <OTData> <UMETA> <UMETA:Summary> [ページ概要] ただし、機械的に作成していますので、あまり正確ではありません。 </UMETA:Summary> <UMETA:URL> [ページURL] </UMETA:URL> </UMETA> <UDATA> <HTML> [ページ本文] </HTML> </UDATA> <UANC> <UANC:I> <UANC:U> [リンク元URL] </UANC:U> <UANC:T> [アンカーテキスト] </UANC:T> </UANC:I> ... </UANC> </OTData> </OTDoc>
簡易検索には3つのモードがあります。
検索にはいずれも<UDATA>..</UDATA>と<UANC>..</UANC>を組み合わせて使っています。
| 検索方法: | 検索語すべてを含むもの |
|---|---|
| 検索語: | 情報 検索 データベース |
こちらは簡易検索よりも対象を絞り込んだ検索ができます。
上の例はホームページ(UDATA)に"情報検索"が含まれ、かつ、URL内に"research.nii.ac.jp"が含まれ、かつ、ホームページ(UDATA)に"データベース”が含まれないレコードを抽出します。ただし、ランキングは指定した範囲に含まれる検索語の頻度に基づいて行うため、ランキングの質は一般に簡易検索の方が高くなります。