情報検索(2):検索のテクニック
到達目標
論理演算子を使って検索式を組み立てられる
検索エンジンで正確な検索のための工夫ができる
高度な情報検索
検索システムの検索欄に言葉を入力すれば検索できるが,それだけではない
高度な検索方法を習得し,効率的な検索を目指そう
注意事項
利用する検索システムによって使える場合と使えない場合がある。使えても指定方法が異なる場合がある
検索してみて,挙動が予想と違う場合はヘルプ・マニュアル等を確認する
大抵の検索システムの場合,スペース区切りはAND検索だが,OR検索になるものも存在する(下記説明参照)
主要な検索システムのヘルプページ
KOSMOS
CiNii Research
国立国会図書館サーチ
簡易検索と詳細検索
検索フィールド: データベース中のどの項目を検索するか
簡易検索
フィールドを指定せず収録されたデータのどこかにマッチすれば検索結果として表示
→ 検索結果は多くなるが,余計なもの(ノイズ)が見つかることも多い
例)村上春樹が書いた本を探したかったのに,村上春樹について論じた本も検索されてしまう
どんな情報を探せばいいか分からないときには有効
詳細検索(英語ではadvanced searchなど)
項目を指定して検索
検索結果は少なくなるが,余計なものが見つからず正確になる(既知事項検索の際に有効)
https://gyazo.com/df7689c7f09c79a919ab21f421b69939
検索語の組み合わせ(ブール演算子)
検索欄には複数の言葉を入力することができる。
複数の言葉を入力した際に,それらの言葉同士の関係を表現するための記号を,検索演算子や論理演算子などという
以下,AとBを検索に入力するキーワードと考えてください
論理積 AND検索
A AND B: AとBの両方を含む
検索結果を絞り込む → 検索結果は少なくなり正確になる
論理和 OR検索
A OR B: AかBのどちらかを含む
網羅的な検索になる = 検索結果の数は増える
論理差 NOT検索
A NOT B: Aを含むがBを含まないもの
→検索結果を絞り込む
NOT検索の場合,NOTの前後の順番を間違えると違う意味になるので注意が必要
東京 AND 図書館 = 図書館 AND 東京
図書館 NOT 東京(東京以外の図書館) ≠ 東京 NOT 図書館(図書館以外の東京に関する情報)
table:AND,OR,NOT
演算子 例 検索式の意味
AND 東京 AND 図書館 東京の図書館
OR 東京 OR 図書館 東京か図書館
NOT 図書館 NOT 東京 東京以外の図書館(神奈川,愛知,福岡などその他の地域の図書館を検索)
https://gyazo.com/2381874cb0b79f67959aecd773a4197e
検索条件の組み合わせの例
「教科書」と「歴史」でそれぞれの組み合わせの意味を考えてみましょう
教科書 AND 歴史:
教科書 OR 歴史:
教科書 NOT 歴史:
★複数の検索演算子の利用
2つだけでなく,3つ以上の言葉(条件)を組み合わせることもできる
例1)東京 AND 明治 AND 図書館 → 明治期の東京の図書館
例2)日本 OR JAPAN OR ジパング → 日本かJAPANかジパング
ANDとORを組み合わせる場合には,どちらを優先するかが問題になる
一般的には,AND > ORの順で優先される = 算数の四則演算の順序と同じ
例1) 図書館 OR 博物館 AND 東京 → 図書館か東京の博物館 ≠ 東京の図書館か東京の博物館
ORの優先順序を上げたい場合は,ORの周りを()でくくる
例2)(図書館 OR 博物館) AND 東京 → 東京の図書館か東京の博物館
ただし,これは原則であって,システムによっては()でくくっても優先されないものもあるので注意が必要(例Google)
考えていることを検索システムが理解できるように変換する
専門的には検索質問を,論理演算子を使って検索式に変換する
検索質問:「記号で具体的に表現された情報要求.通常自然言語で表現される.」(『図書館情報学用語辞典』)
検索式(クエリ): 「特定の情報検索システムで処理できる形式に変換された情報要求あるいは検索質問.」(〃)
= 検索語(検索につかう言葉)を論理演算子等で組み合わせて,検索質問を表現し直したもの
検索質問を検索式に変換する際の基本的な考え方
一緒に検索したい言葉はAND,したくない言葉はNOTでつなぐ
同義語・類語はORでつなぐ,ANDかNOTがある場合は,ORの部分は()でくくる
table: 検索質問と検索式の例
検索質問 東京でおいしいイタリア料理が食べたい 検索したいことを言葉で表現したもの
検索式 東京 AND (イタリアン OR イタリア料理) AND 美味しい 検索式をコンピュータが理解できる形に変換したもの
★その他の検索の機能
比較演算
出版年: [2001]から[  ]
2001年以降のものを検索
出版年: [2001]から[2006]
2001年以降2006年までのものを検索
部分一致(トランケーション)
単語の一部が一致する語を拾いだして検索する機能
英語の語形変化などに対して有効
変化しても良い部分のことをワイルドカードと呼ぶ
「*」(大抵複数文字)や「?」(一文字だけ)で表すことが多い
↓に示しているように,両端検索はできない検索システムも多い
table:部分一致の種類
種類 例 結果の例 意味
前方一致 図書館* 図書館学,図書館情報学,図書館社会学 前方は一緒で後方は違ってもいい
後方一致 *図書館 公共図書館,公立図書館,学校図書館,専門図書館 前方は違ってもいいが,後方は一緒
中間一致 *図書館* 公共図書館,学校図書館,図書館学 どこかにキーワードが含まれている。普通の検索はこれ
両端一致 図書*館 図書情報館,図書文化館 間になにか他の言葉が入ってもいい
完全一致検索
前後に余計な文字列がつかないように検索
/山内龍/ => 小山内龍,山内龍一などは検索されない
/図書館/ => 公共図書館,学校図書館,図書館学などは検索されない
最近は完全一致検索ができない検索システムが増えている
フレーズ検索
語の連なりを一語として検索したい
"mannual of style"
一般的に"of"は通常の検索では検索されない語(ストップワード)で無視される
完全一致と似ているように感じるかもしれないが,フレーズ検索の場合は語順が一致していれば前後に別の言葉が付いていても良い
table:主要なシステムでの対応状況
システム 部分一致 完全一致 フレーズ検索 ヘルプのURL
KOSMOS ワイルドカード検索 ❌ ⭕ https://libguides.lib.keio.ac.jp/c.php?g=919419&p=6629733
NDLサーチ 前方一致,後方一致 ❌ ⭕ https://ndlsearch.ndl.go.jp/help/bibsearch#search-detail
CiNii Resarch 前方一致 ❌ ⭕ https://support.nii.ac.jp/ja/cir/manual_keyword
★正規表現検索
正規表現とは、ある特定のパターンを持つ文字列を指定する表記法の一つ。文字列の検索や置換、抽出などを行う際の対象の指定などのために用いられる。/ 通常の文字の並びの中に、「メタキャラクタ」(metacharacter)と呼ばれる特別な意味を与えられた記号などの組み合わせを埋め込む形でパターンの特徴を記述することができる(e-Words)
ワイルドカードやトランケーションをより柔軟に表現できるような仕組み
実装はそれぞれのシステム・プログラミング言語によって異なる
NDL Ngram Viewerを使った正規表現検索の例
○はあけぼの: .はあけぼの
社会○○学: 社会.{2}学
わがはいは~である: (吾輩|我輩|わがはい)は.+である
正規表現の参考資料
正規表現言語(Microsoft)
正規表現辞典 改訂版 / 佐藤竜一
検索に使う言葉(検索語)の種類
自由語
普段使っている言葉。普段の言葉なので使いやすいが,以下のような問題もある
問題1 おなじ概念(事柄)に対して複数の表現がある = 同義語・類語がある
例1)本,図書,書籍,書物,書など(ニュアンスは異なるが大体一緒)
例2)日本,にほん,ニッポン,JAPAN,일본など(表現する言語・文字が異なるが同じ国を差している)
もし網羅的に検索したい場合,考えうるすべての同義語をOR検索でつなぐ必要がある
本 OR 図書 OR 書籍 OR 書物 OR 書 OR BOOK OR・・・
網羅性を目指すと, 正確さが低下(余計なものが引っかかる可能性が高い)
問題2 一つの表現に対して複数の概念を表現できる = 多義語がある
ネット => インターネットと網のネットの両方が引っかかってしまう
もし正確に検索したい場合,ほかの言葉とAND検索でつなぐ必要がある
正確さを目指すと, 網羅性が低下(本来必要なものが引っかからなくなる可能性)
→ 自由語での検索では,網羅性と正確さの両立は難しい
統制語
検索用につかうと決められた言葉
件名標目表: 図書館で使われる統制語。「件名」と表記されることが多い
シソーラス: データベース類で使われる統制語。
https://gyazo.com/fb4cd155c3663857acf0cfd1a65aecc5
★統制語の考え方の例
本,図書,書籍,書物,書 → 本のようなものは統制語として「図書」をつかうと決める(検索できるようにラベルを付ける)
→ 検索する資料で実際には本という言葉や書籍という言葉が使われていようが,図書という言葉ですべて検索できるようになる
→ 正確で網羅的な検索が可能に!
概念と表現を1対1で対応付け
同義語をまとめる → 網羅性の向上
多義語を区別する → 正確性の向上
統制語の使い方の実際
件名標目表やシソーラスで,どのような語が統制語になっているか調べる必要がある(がそんなことは面倒くさい)
検索結果の詳細画面から,件名標目や件名などと書かれた言葉のリンクをクリックすれば,同じ統制語が与えられたレコードが見つかる(ので楽で効率的)
KOSMOSでは主題の部分がリンクになっている(下図点線部)ので,そこをクリックすると統制語を使って検索できる
1冊良い資料を見つけたら,主題の部分のリンクをクリックして,ほかに良い資料がないか確認するのを心がけましょう
https://gyazo.com/21dbb7f3ef90155fc4f2ba126f955be2
検索エンジンで高度な検索をする
論理演算子を使うには?
table:論理演算子の例
種類 演算子 例
AND検索 (半角スペース),AND 東京 図書館
OR検索 OR 東京 OR 図書館
NOT検索 -(マイナス記号) 図書館 -東京
検索での句読点、記号、演算子(Google)
高度な検索オプション(Bing)
DuckDuckGo Search Syntax(DuckDuckGo)
検索結果を絞り込んで正確にする(検索オプション)
論理演算子の利用に加えて,言語やサイト,ファイル形式などで絞り込んで検索可能
検索結果の上の「ツール」→「詳細検索」
頻繁にアクセス方法・表示は変更されるので注意が必要
https://www.google.com/advanced_search から直接アクセス可能
https://gyazo.com/d6a6d154140cd2d4d20bf7a756484b77
サイトまたはドメイン site:
ドメインで絞って検索
ファイル形式 filetype:
PDF(論文,記事などに使われることが多い),PPT(プレゼンテーションファイル)などで絞って検索
https://gyazo.com/93c00e72467301d8d60f434ac02a1b9d
Bing,DuckDuckGoでも同じような検索が可能
検索ツール
言語,期間,完全一致(曖昧な検索をしない)
https://gyazo.com/3af988e4f17bbbe6590bbfd01b496912
期間
最近のページに限定して検索する場合に有効
特に時事的な話題・技術情報・法律などの情報はページの作成日を意識することが大事
検索設定
プライバシーやコンテンツについて設定できる https://www.google.com/preferences
セーフサーチ: 検索結果からアダルト コンテンツなどを除外
アカウントに基づく情報の表示: 自分との関連性が高いコンテンツを検索結果に表示させるかどうか
ほかにも,言語・場所など
https://gyazo.com/8af3075119fa7ab7de6cc8c4a750a0b1
AI検索
AI検索の特徴
これまでは,情報を検索するために,調べたいこと(検索質問)を,検索語(検索式)に変換して,検索
AI検索では,検索質問を,AIに伝えるだけで,AIが検索し情報を得ることができる
入力された会話(プロンプト)に対してインターネット上に存在している最新の情報から検索し,検索結果から回答を生成する
回答の生成に使用したウェブサイトの情報を引用として載せてくれるため,そのウェブサイトも閲覧できる
AIの方からさらなる検索の掘り下げを提案してくれることもある
Deep Researchとしてさらに進化している
AI検索利用上の注意点
回答が間違っている可能性がある → 結果を自分でしっかり検証すること
https://gyazo.com/1f83d336420e572e7ac0782e0769ae3d
(総務省『生成AIはじめの一歩』より)
適切な情報を得るためには,プロンプト(入力)の工夫が必要(=プロンプトエンジニアリング)
プロンプト エンジニアリング: 概要とガイド(Google)などが参考になる
AI検索の例
AIツール・AI検索は日々進化しているので最新の状況と異なる可能性がある
Copilot(Microsoft)
Edgeを起動し,Bingにアクセスして検索画面上部の「Copilotに質問」をクリックすると利用できる。会話のスタイルを選択してAI側の回答方法を指定できる。
Edgeの「検出」からはMicrosoftアカウントなしでも利用可能。
https://gyazo.com/747de972d798d3db3376e5ff9c09740d
Gemini(Google)
慶應のGoogleアカウントでは利用できない。ログアウトすれば利用できる
https://gyazo.com/6f6b18ab451a573f5a778656cf1d8b60
「東京都港区三田のグルメ情報を教えてください」と入力したときの回答例
Copilot
https://gyazo.com/e38a846756af3f682f55b5a9e53fb35b
Bard(現 Gemini)
https://gyazo.com/6773b0e544a36f20685339458d46f9d7
#授業 #情報検索