Zasoby Informacyjne Internetu

Wyraźnie widać jak wyszukiwarki (search engines) są ważne dla użytkowników przy poszukiwaniu informacji w Sieci. Ale czym jest wyszukiwarka i w jaki sposób może być najefektywniej wykorzystywana? Termin "wyszukiwarka" jest zazwyczaj nadużywany i obejmuje się nim zarówno właściwe wyszukiwarki jak i katalogi internetowe. Na przykład, Yahoo! jest katalogiem stron www o uporządkowanej strukturze, a przy jego budowie i opracowaniu bierze udział wielu ludzi. Kiedy przeszukiwanie katalogu daje wynik negatywny wtedy katalog Yahoo! wykorzystuje wyszukiwarkę Inktomi do znalezienia stron www.

Prawdziwa wyszukiwarka jednocześnie "wędruje" po Internecie aby pobrać informację o nowych witrynach oraz je indeksuje. Po otrzymaniu zapytania wyszukiwarka przeszukuje indeks a nie bezpośrednio całą Sieć - to mogłoby zająć bardzo dużo czasu biorąc pod uwagę rozmiar Sieci. Hasła indeksu prowadzą do opatrzonych krótkim komentarzem odnośników do stron www, które są wyświetlane dla użytkownika. Na ile przeprowadzone wyszukiwanie jest kompletne zależy więc od tego, jaki jest zasób stron www zindeksowanych przez wyszukiwarkę. Użytkownicy często zakładają, że wyszukiwarka przeszukuje całą Sieć - to jest jednak dalekie od prawdy. Aktualne informacje, z 1 września 1999 r., o stanie wyszukiwarek można znaleźć na stronach Danny Sullivana. Uszeregował on poszczególne wyszukiwarki w następującym porządku:

Jak widać, nawet wyszukiwarka FAST indeksująca 200 milionów stron, obejmuje tylko 25% całej Sieci - prawdopodobnie to jeden z powodów zmiany poprzedniej nazwy (All-the-Web - Cała Sieć). Wszechstronność indeksowania w Sieci ma zarówno dobre jak i złe strony. To prawda, że im więcej stron zostanie znalezionych tym większe prawdopodobieństwo związku z zadanym zapytaniem, ale z drugiej strony nadmiar informacji może być gorszy niż jej brak.

Multiwyszukiwarki

Zgodnie z przysłowiem "Co dwóch to nie jeden", niektóre wyszukiwarki prowadzą multiwyszukiwanie, oznacza to, że wpisane słowa kluczowe są automatycznie wysyłane do wielu wyszukiwarek, a rezultaty poszukiwań są generowane dla użytkownika. Na ile takie wyszukiwarki są efektywne zależy od tego, czego się od nich oczekuje - jeżeli poszukiwania dotyczą skomplikowanego zagadnienia, a wybrana pierwotnie wyszukiwarka dostarcza zbyt mało informacji, wykorzystanie multiwyszukiwarki może poprawić rezultat wyszukiwań. Z drugiej strony, jeżeli wyszukiwarka przedstawi po prostu większą liczbę odnośników, ale bez uporządkowania ich w jakikolwiek sposób, sytuacja użytkownika nie poprawi się dopóki nie oddzieli informacji zbędnej od użytecznej.

MetaCrawler, teraz część Go2Net sortuje odnalezione odnośniki wyświetlając w pierwszej kolejności te, które najbardziej odpowiadają zadanemu kryterium wyszukiwawczemu, a także dopuszcza wylistowanie według kategorii stron, jak w dołączonej liście: (zamknij okno aby wrócić do lekcji)

lub według źródłowych wyszukiwarek (MetaCrawler wykorzystuje About.com, AltaVista, DirectHit, GoTo.com, Infoseek, LookSmart, Lycos, Thunderstone i Webcrawler.

Osobliwie nazwany Dogpile (także część Go2Net) ma automatycznie skonfigurowane wyświetlanie wyników uporządkowanych według wyszukiwarek źródłowych. Multiwyszukiwarka wykorzystuje osiemnaście wyszukiwarek i nie wydaje się aby pozwalała na alternatywne listowanie.

InferenceFind prowadzi wyszukiwanie przy pomocy takich wyszukiwarek jak: WebCrawler, Yahoo!, Lycos, AltaVista, InfoSeek i Excite, a gromadzi wyniki według kombinacji następujących kryteriów: kategorii stron i (można tak sądzić) występowania frazy wyszukiwawczej w tytule lub w meta-znacznikach dokumentów.

Ostatecznie, chociaż jest jeszcze jedna bądź dwie więcej, The Big Hub prowadzi poszukiwania przy pomocy: Yahoo!, Infoseek, WebCrawler, HotBot, AltaVista, Excite, Lycos, Goto a wyświetla wyniki albo w formie streszczonej, to znaczy bez segregowania, albo uszeregowane według wyszukiwarki.

Podstawy wyszukiwania informacji

Wyszukiwarki są systemami wyszukiwania informacji (information retriewal systems - IR), a stosowane przez nie metody indeksowania i mechanizmy wydobywania danych opierają się głównie na standardowych technikach. Najbardziej podstawowe odwołują się do poszukiwań za pomocą operatorów boolowskich (nazwa pochodzi od matematyka George Boole'a, pioniera logiki symbolicznej). Wyszukiwanie to polega na łączeniu słów operatorami logicznymi: AND, OR, NOT ("i", "lub", "nie").

Tak więc, rezultatem wyszukiwania wyrażenia urban AND planning będą wszystkie zindeksowane dokumenty zawierające obydwa słowa; podczas gdy kombinacja urban OR planning da wszystkie zindeksowane dokumenty zawierające przynajmniej jedno z podanych słów - nie trzeba dodawać, że prawdopodobnie otrzymamy dużo więcej dokumentów używając operatora OR. Przykładowo, korzystając z wyszukiwarki AltaVista, wynik w pierwszym przypadku (urban AND planning) wynosił prawie 400.000 stron, podczas gdy w drugim (urban OR planning) znaleziono ponad 7 milionów odnośników! Należy dodać, że tego typu poszukiwania można prowadzić tylko przy użyciu opcji wyszukiwania w trybie zaawansowanym (Advanced Search).

NOT informuje system aby pomijał dokumenty, w których występuje słowo poprzedzone tym operatorem. W ten sposób z dokumentów wyszukanych według frazy urban AND planning NOT economic zostaną wyłączone te dotyczące economic planning. Korzystając z wyszukiwarki AltaVista pomoże to zredukować liczbę stron do nieco powyżej 233.000. Należy zauważyć, że ta wyszukiwarka (oraz kilka innych) nie akceptuje samego wyrażenia NOT, dlatego trzeba go używać zawsze łącznie z AND. Tak więc, fraza wyszukiwawcza powinna mieć postać: urban AND planning AND NOT economic.

[UWAGA! W wyszukiwarkach AltaVista i MSN Search operatory logiczne należy pisać zawsze WIELKIMI LITERAMI, inne wyszukiwarki akceptują małe litery.]

Większość wyszukiwarek pozwala na umieszczenie słów kluczowych w nawiasach - aby to było możliwe należy użyć strony oferującej wyszukiwanie w trybie zaawansowanym lub jej ekwiwalentu np. "Power Search". Wracając do poprzedniego przykładu. Wyszukiwanie będzie bardziej sprecyzowane jeżeli ułożymy naszą frazę w następujący sposób: (urban AND planning) AND NOT (economic AND planning) aczkolwiek AltaVista nie zredukowała liczby wyszukanych stron.

Większość wyszukiwarek akceptuje użycie symboli zamiast AND i NOT. Znaczenie tych symboli może się w poszczególnych wyszukiwarkach nieco różnić, ale "+" (znak plus) oznacza, że "strona musi zawierać to słowo", a "-" (znak minus) oznacza, że "strona nie może zawierać tego słowa". Można także połączyć poszczególne wyrazy ujmując je w cudzysłów - w ten sposób wyszukujemy całe frazy, np. wpisując "economic development" odnajdziemy strony, na których te dwa słowa występują obok siebie jako jedno wyrażenie, podczas gdy rezultatem kombinacji economic AND development będą strony indeksujące te słowa, lecz w tym wypadku nie muszą one stanowić jednej frazy.

Niektóre wyszukiwarki dopuszczają stosowanie "wieloznaczników" - zwykle jest to symbol "*". Pozwala to na rozszerzenie wyszukiwań o słowa posiadające ten sam rdzeń wyrazu: zatem wpisując ciąg znaków imag* otrzymamy strony indeksujące słowa: image, images lub imaging. Jednak używając wieloznaczników należy zachować ostrożność ponieważ imag* oznacza także dokumenty zawierające słowo imagination. Kolejny problem dotyczący wieloznaczników wiąże się z tym, że ich znaczenie zależy od stosowanego języka - pod tym względem angielski jest stosunkowo prosty lecz słowa w niektórych językach przechodzą istotne zmiany strukturalne zależące od zasad gramatycznych, np. koniugacja czasowników. Z pozoru proste "obcięcie" końcówki wyrazu może nie dać oczekiwanych efektów.

Przetwarzanie języka naturalnego

Standardowe metody wyszukiwania informacji opierają się na założeniu, że słowa używane przez pytającego są skojarzone ze słowami w tekście lub w indeksie, w ten sposób pozyskane dokumenty źródłowe są związane z pierwotnym pytaniem. Biorąc pod uwagę miliony zindeksowanych stron www uzasadnione wydaje się oczekiwanie, że przynajmniej kilka stron będzie odpowiednich, lecz jeśli nawet ta lista jest długa, wciąż pozostaje sporo pracy do wykonania.

Przetwarzanie języka naturalnego (natural language processing - NLP) wymaga znajomości lingwistyki dla ustalenia związków między wyrazami. Zdanie jest rozbite na poszczególne elementy, takie jak rzeczowniki, czasowniki czy przymiotniki i kombinacje, takie jak wyrażenia rzeczownikowe i przymiotnikowe, a związki oparte na tej analizie składniowej są przetwarzane na wyrażenie wyszukiwawcze. Zakłada się, że ustalenie związków składniowych pomiędzy słowami w pytaniu, a słowami na stronie www da lepsze efekty przy poszukiwaniu właściwych stron.

NLP może być wykorzystywane w wyszukiwarkach boolowskich, jeżeli analiza składniowa jest przełożona na wyrażenia Boole'a. Taka próba została podjęta przez wyszukiwarkę Electric Monk:

Korzystając z wyszukiwarki Electric Monk na zadane pytanie: "W jaki sposób przetwarzanie języka naturalnego jest wykorzystywane w wyszukiwarkach" otrzymano sporo informacji związanych z tym zagadnieniem, lecz pierwszy odnośnik (dotyczący innej wyszukiwarki opartej na NLP - Ask Jeeves) był do nieistniejących stron www, dwa lub trzy odnośniki prowadziły do stron edukacyjnych zawierających projekty kursów na temat IR (information retrieval) lub stron domowych wykładowców, a trzeci odsyłacz kierował do listy wyszukiwarek. Ostatni z odnośników prowadził do stron zamieszczających serwis News i nie miał żadnego związku z zadanym pytaniem. Jak widać, przetwarzanie języka naturalnego w tej formie może nie przynosić oczekiwanych rezultatów. [Po sprawdzeniu tego odnośnika okazało się, że serwis już nie istnieje, podczas gdy towarzystwo macierzyste wciąż utrzymywało, że "prowadzi pasjonujące prace badawcze nad Językiem Naturalnym".]

Ask Jeeves to kolejna wyszukiwarka przypisująca sobie wykorzystanie metod języka naturalnego przy odpowiadaniu na pytania - wszystkie wyszukiwarki oparte na NLP wymagają aby wprowadzone wyrażenie wyszukiwawcze miało formę pytania, a nie postać jednego lub dwóch terminów ponieważ im więcej podamy "informacji składniowej", tym przypuszczalnie, rezultaty wyszukiwania będą lepsze.

Na zadane pytanie: "W jaki sposób przetwarzanie języka naturalnego jest wykorzystywane przez wyszukiwarki?" Ask Jeeves nie znalazła niczego co by wydawało się bezpośrednio użyteczne - większość odnośników dotyczyła wyszukiwarek lecz nie przetwarzania języka naturalnego. Po zmianie pytania na: "W jaki sposób przetwarzanie języka naturalnego jest wykorzystywane przy wyszukiwaniu informacji?" wynik wyszukiwania był bardziej obiecujący, a jeden z odnośników prowadził do artykułu Feldmana, zamieszczonego w adnotacji poniżej.

Zasoby Informacyjne Internetu

Spis treści

2. Wyszukanie informacji w Internecie: korzystanie z wyszukiwarek

Czym są wyszukiwarki?

Multiwyszukiwarki

Podstawy wyszukiwania informacji

Przetwarzanie języka naturalnego

Jak znaleźć najlepszą wyszukiwarkę?

Więcej o wyszukiwarkach.