NII SITE SEARCH

簡易検索 詳細検索 利用方法 検索対象
NII SITE SEARCHでは国立情報学研究所 (NII) Webサーバ上のページを任意のキーワードで検索することができます。

!ご注意

日本語の文字化けが発生する場合は文字コードをEUCにして検索してください。

はじめに

NIIドメインのWebサーバ上のページをロボット(SPIDER)を使用して収集し、全文のインデクスを作成しています。任意の検索語を含むホームページを取り出すことができます。

検索エンジンにはOpenText社のサーチエンジンを使用しており、高速な検索が可能になっています。

インデクス対象

このインデクスサーバには、国立情報学研究所のドメイン内 (*.nii.ac.jp) にあり、トップレベルのホームページ (http://www.nii.ac.jp/index.html) からリンクをたどって到達可能な URL のうち、ロボットによる収集が許された公開ページを含んでいます。詳細については「検索対象」をご覧下さい。

なお、検索フォームごとに検索対象を絞り込んでいる場合があります。検索対象についてはそれぞれの検索ページの説明をご覧下さい。

データ構造

収集したホームページの構造は以下のようになっています。基本的にはホームページの全文を検索するので、あまり気にする必要はありませんが、詳細検索においてこの構造を利用した検索が可能になります。検索精度や検索速度を向上させたいときにこの構造がわかっていると何を検索しているのかがはっきりしてきます。

	●レコードの構造
	<OTDoc>
		<OTData>
			<UMETA>
				<UMETA:Summary>
					[ページ概要]
					ただし、機械的に作成していますので、あまり正確ではありません。	
				</UMETA:Summary>
				<UMETA:URL>
					[ページURL]
				</UMETA:URL>
			</UMETA>
			<UDATA>
				<HTML>
					[ページ本文]
				</HTML>
			</UDATA>
			<UANC>
				<UANC:I>
					<UANC:U>
						[リンク元URL]
					</UANC:U>
					<UANC:T>
						[アンカーテキスト]
					</UANC:T>
				</UANC:I>
				...
			</UANC>
		</OTData>
	</OTDoc>

検索の仕方

簡易検索

簡易検索には3つのモードがあります。

検索にはいずれも<UDATA>..</UDATA>と<UANC>..</UANC>を組み合わせて使っています。

検索例


検索方法:検索語すべてを含むもの
検索語:情報 検索 データベース

上の場合はUDATA内に"情報"、"検索"、"データベース"がすべて含まれるページを抽出し、UDATAとUANC内でのこれらの検索語の出現頻度に基づく独自の方法でランキングしています。

詳細検索

こちらは簡易検索よりも対象を絞り込んだ検索ができます。

検索例

検索式: ) 重み:
) 重み:
) 重み:

上の例はホームページ(UDATA)に"情報検索"が含まれ、かつ、URL内に"research.nii.ac.jp"が含まれ、かつ、ホームページ(UDATA)に"データベース”が含まれないレコードを抽出します。ただし、ランキングは指定した範囲に含まれる検索語の頻度に基づいて行うため、ランキングの質は一般に簡易検索の方が高くなります。


wwwadm@nii.ac.jp