Zasoby Informacyjne InternetuSpis treści
2. Wyszukanie informacji w Internecie: korzystanie z wyszukiwarekCzym są wyszukiwarki?W swojej pracy pt. of Accessibility of information on the Web Lawrence i Giles piszą: Powszechnie indeksowalny World Wide Web w tej chwili zawiera około 800 milionów stron, obejmuje około 6 terabajtów danych tekstowych na 3 milionach serwerów. Społeczeństwo wykorzystuje Sieć do wszystkich stron życia; na przykład, konsumenci korzystają z Sieci przy poszukiwaniu i kupowaniu towarów lub przy podejmowaniu decyzji (takich jak wybór miejsca na wakacje, opieka lekarska czy głosowanie w wyborach). Naukowcy coraz częściej używają wyszukiwarek do prac badawczych: niektórzy rzadziej korzystają z bibliotek szukając artykułów naukowych dostępnych online; wydawcy korzystają z wyszukiwarek poszukując potencjalnych recenzentów. Użytkownicy sieci spędzają wiele czasu korzystając z wyszukiwarek przy poszukiwaniu użytecznych informacji w rozległej i nieuporządkowanej pajęczynie. Około 85% użytkowników używa wyszukiwarek w swoich poszukiwaniach, a kilka wyszukiwarek konsekwentnie zalicza się do dziesięciu najczęściej odwiedzanych miejsc w Sieci. Wyraźnie widać jak wyszukiwarki (search engines) są ważne dla użytkowników przy poszukiwaniu informacji w Sieci. Ale czym jest wyszukiwarka i w jaki sposób może być najefektywniej wykorzystywana? Termin "wyszukiwarka" jest zazwyczaj nadużywany i obejmuje się nim zarówno właściwe wyszukiwarki jak i katalogi internetowe. Na przykład, Yahoo! jest katalogiem stron www o uporządkowanej strukturze, a przy jego budowie i opracowaniu bierze udział wielu ludzi. Kiedy przeszukiwanie katalogu daje wynik negatywny wtedy katalog Yahoo! wykorzystuje wyszukiwarkę Inktomi do znalezienia stron www. Prawdziwa wyszukiwarka jednocześnie "wędruje" po Internecie aby pobrać informację o nowych witrynach oraz je indeksuje. Po otrzymaniu zapytania wyszukiwarka przeszukuje indeks a nie bezpośrednio całą Sieć - to mogłoby zająć bardzo dużo czasu biorąc pod uwagę rozmiar Sieci. Hasła indeksu prowadzą do opatrzonych krótkim komentarzem odnośników do stron www, które są wyświetlane dla użytkownika. Na ile przeprowadzone wyszukiwanie jest kompletne zależy więc od tego, jaki jest zasób stron www zindeksowanych przez wyszukiwarkę. Użytkownicy często zakładają, że wyszukiwarka przeszukuje całą Sieć - to jest jednak dalekie od prawdy. Aktualne informacje, z 1 września 1999 r., o stanie wyszukiwarek można znaleźć na stronach Danny Sullivana. Uszeregował on poszczególne wyszukiwarki w następującym porządku:
Jak widać, nawet wyszukiwarka FAST indeksująca 200 milionów stron, obejmuje tylko 25% całej Sieci - prawdopodobnie to jeden z powodów zmiany poprzedniej nazwy (All-the-Web - Cała Sieć). Wszechstronność indeksowania w Sieci ma zarówno dobre jak i złe strony. To prawda, że im więcej stron zostanie znalezionych tym większe prawdopodobieństwo związku z zadanym zapytaniem, ale z drugiej strony nadmiar informacji może być gorszy niż jej brak. MultiwyszukiwarkiZgodnie z przysłowiem "Co dwóch to nie jeden", niektóre wyszukiwarki prowadzą multiwyszukiwanie, oznacza to, że wpisane słowa kluczowe są automatycznie wysyłane do wielu wyszukiwarek, a rezultaty poszukiwań są generowane dla użytkownika. Na ile takie wyszukiwarki są efektywne zależy od tego, czego się od nich oczekuje - jeżeli poszukiwania dotyczą skomplikowanego zagadnienia, a wybrana pierwotnie wyszukiwarka dostarcza zbyt mało informacji, wykorzystanie multiwyszukiwarki może poprawić rezultat wyszukiwań. Z drugiej strony, jeżeli wyszukiwarka przedstawi po prostu większą liczbę odnośników, ale bez uporządkowania ich w jakikolwiek sposób, sytuacja użytkownika nie poprawi się dopóki nie oddzieli informacji zbędnej od użytecznej. MetaCrawler, teraz część Go2Net sortuje odnalezione odnośniki wyświetlając w pierwszej kolejności te, które najbardziej odpowiadają zadanemu kryterium wyszukiwawczemu, a także dopuszcza wylistowanie według kategorii stron, jak w dołączonej liście: (zamknij okno aby wrócić do lekcji) lub według źródłowych wyszukiwarek (MetaCrawler wykorzystuje About.com, AltaVista, DirectHit, GoTo.com, Infoseek, LookSmart, Lycos, Thunderstone i Webcrawler. Osobliwie nazwany Dogpile (także część Go2Net) ma automatycznie skonfigurowane wyświetlanie wyników uporządkowanych według wyszukiwarek źródłowych. Multiwyszukiwarka wykorzystuje osiemnaście wyszukiwarek i nie wydaje się aby pozwalała na alternatywne listowanie. InferenceFind prowadzi wyszukiwanie przy pomocy takich wyszukiwarek jak: WebCrawler, Yahoo!, Lycos, AltaVista, InfoSeek i Excite, a gromadzi wyniki według kombinacji następujących kryteriów: kategorii stron i (można tak sądzić) występowania frazy wyszukiwawczej w tytule lub w meta-znacznikach dokumentów. Ostatecznie, chociaż jest jeszcze jedna bądź dwie więcej, The Big Hub prowadzi poszukiwania przy pomocy: Yahoo!, Infoseek, WebCrawler, HotBot, AltaVista, Excite, Lycos, Goto a wyświetla wyniki albo w formie streszczonej, to znaczy bez segregowania, albo uszeregowane według wyszukiwarki.
Podstawy wyszukiwania informacjiWyszukiwarki są systemami wyszukiwania informacji (information retriewal systems - IR), a stosowane przez nie metody indeksowania i mechanizmy wydobywania danych opierają się głównie na standardowych technikach. Najbardziej podstawowe odwołują się do poszukiwań za pomocą operatorów boolowskich (nazwa pochodzi od matematyka George Boole'a, pioniera logiki symbolicznej). Wyszukiwanie to polega na łączeniu słów operatorami logicznymi: AND, OR, NOT ("i", "lub", "nie"). Tak więc, rezultatem wyszukiwania wyrażenia urban AND planning będą wszystkie zindeksowane dokumenty zawierające obydwa słowa; podczas gdy kombinacja urban OR planning da wszystkie zindeksowane dokumenty zawierające przynajmniej jedno z podanych słów - nie trzeba dodawać, że prawdopodobnie otrzymamy dużo więcej dokumentów używając operatora OR. Przykładowo, korzystając z wyszukiwarki AltaVista, wynik w pierwszym przypadku (urban AND planning) wynosił prawie 400.000 stron, podczas gdy w drugim (urban OR planning) znaleziono ponad 7 milionów odnośników! Należy dodać, że tego typu poszukiwania można prowadzić tylko przy użyciu opcji wyszukiwania w trybie zaawansowanym (Advanced Search). NOT informuje system aby pomijał dokumenty, w których występuje słowo poprzedzone tym operatorem. W ten sposób z dokumentów wyszukanych według frazy urban AND planning NOT economic zostaną wyłączone te dotyczące economic planning. Korzystając z wyszukiwarki AltaVista pomoże to zredukować liczbę stron do nieco powyżej 233.000. Należy zauważyć, że ta wyszukiwarka (oraz kilka innych) nie akceptuje samego wyrażenia NOT, dlatego trzeba go używać zawsze łącznie z AND. Tak więc, fraza wyszukiwawcza powinna mieć postać: urban AND planning AND NOT economic. [UWAGA! W wyszukiwarkach AltaVista i MSN Search operatory logiczne należy pisać zawsze WIELKIMI LITERAMI, inne wyszukiwarki akceptują małe litery.] Większość wyszukiwarek pozwala na umieszczenie słów kluczowych w nawiasach - aby to było możliwe należy użyć strony oferującej wyszukiwanie w trybie zaawansowanym lub jej ekwiwalentu np. "Power Search". Wracając do poprzedniego przykładu. Wyszukiwanie będzie bardziej sprecyzowane jeżeli ułożymy naszą frazę w następujący sposób: (urban AND planning) AND NOT (economic AND planning) aczkolwiek AltaVista nie zredukowała liczby wyszukanych stron. Większość wyszukiwarek akceptuje użycie symboli zamiast AND i NOT. Znaczenie tych symboli może się w poszczególnych wyszukiwarkach nieco różnić, ale "+" (znak plus) oznacza, że "strona musi zawierać to słowo", a "-" (znak minus) oznacza, że "strona nie może zawierać tego słowa". Można także połączyć poszczególne wyrazy ujmując je w cudzysłów - w ten sposób wyszukujemy całe frazy, np. wpisując "economic development" odnajdziemy strony, na których te dwa słowa występują obok siebie jako jedno wyrażenie, podczas gdy rezultatem kombinacji economic AND development będą strony indeksujące te słowa, lecz w tym wypadku nie muszą one stanowić jednej frazy. Niektóre wyszukiwarki dopuszczają stosowanie "wieloznaczników" - zwykle jest to symbol "*". Pozwala to na rozszerzenie wyszukiwań o słowa posiadające ten sam rdzeń wyrazu: zatem wpisując ciąg znaków imag* otrzymamy strony indeksujące słowa: image, images lub imaging. Jednak używając wieloznaczników należy zachować ostrożność ponieważ imag* oznacza także dokumenty zawierające słowo imagination. Kolejny problem dotyczący wieloznaczników wiąże się z tym, że ich znaczenie zależy od stosowanego języka - pod tym względem angielski jest stosunkowo prosty lecz słowa w niektórych językach przechodzą istotne zmiany strukturalne zależące od zasad gramatycznych, np. koniugacja czasowników. Z pozoru proste "obcięcie" końcówki wyrazu może nie dać oczekiwanych efektów.
Przetwarzanie języka naturalnegoStandardowe metody wyszukiwania informacji opierają się na założeniu, że słowa używane przez pytającego są skojarzone ze słowami w tekście lub w indeksie, w ten sposób pozyskane dokumenty źródłowe są związane z pierwotnym pytaniem. Biorąc pod uwagę miliony zindeksowanych stron www uzasadnione wydaje się oczekiwanie, że przynajmniej kilka stron będzie odpowiednich, lecz jeśli nawet ta lista jest długa, wciąż pozostaje sporo pracy do wykonania. Przetwarzanie języka naturalnego (natural language processing - NLP) wymaga znajomości lingwistyki dla ustalenia związków między wyrazami. Zdanie jest rozbite na poszczególne elementy, takie jak rzeczowniki, czasowniki czy przymiotniki i kombinacje, takie jak wyrażenia rzeczownikowe i przymiotnikowe, a związki oparte na tej analizie składniowej są przetwarzane na wyrażenie wyszukiwawcze. Zakłada się, że ustalenie związków składniowych pomiędzy słowami w pytaniu, a słowami na stronie www da lepsze efekty przy poszukiwaniu właściwych stron. NLP może być wykorzystywane w wyszukiwarkach boolowskich, jeżeli analiza składniowa jest przełożona na wyrażenia Boole'a. Taka próba została podjęta przez wyszukiwarkę Electric Monk: Celem nowego narzędzia wyszukiwawczego nazwanego Electric Monk jest sprawienie, aby poszukiwania w Sieci przypominały proste zadawanie pytań. Aby znaleźć informacje przy użyciu Electric Monk wystarczy raczej wprowadzić pytanie, takie jak "Gdzie w Sieci można kupić bilety na samolot?" niż streszczać je do pary słów kluczowych, próbując jednocześnie wykalkulować, które słowo wpisać jako pierwsze. Korzystając z wyszukiwarki Electric Monk na zadane pytanie: "W jaki sposób przetwarzanie języka naturalnego jest wykorzystywane w wyszukiwarkach" otrzymano sporo informacji związanych z tym zagadnieniem, lecz pierwszy odnośnik (dotyczący innej wyszukiwarki opartej na NLP - Ask Jeeves) był do nieistniejących stron www, dwa lub trzy odnośniki prowadziły do stron edukacyjnych zawierających projekty kursów na temat IR (information retrieval) lub stron domowych wykładowców, a trzeci odsyłacz kierował do listy wyszukiwarek. Ostatni z odnośników prowadził do stron zamieszczających serwis News i nie miał żadnego związku z zadanym pytaniem. Jak widać, przetwarzanie języka naturalnego w tej formie może nie przynosić oczekiwanych rezultatów. [Po sprawdzeniu tego odnośnika okazało się, że serwis już nie istnieje, podczas gdy towarzystwo macierzyste wciąż utrzymywało, że "prowadzi pasjonujące prace badawcze nad Językiem Naturalnym".] Ask Jeeves to kolejna wyszukiwarka przypisująca sobie wykorzystanie metod języka naturalnego przy odpowiadaniu na pytania - wszystkie wyszukiwarki oparte na NLP wymagają aby wprowadzone wyrażenie wyszukiwawcze miało formę pytania, a nie postać jednego lub dwóch terminów ponieważ im więcej podamy "informacji składniowej", tym przypuszczalnie, rezultaty wyszukiwania będą lepsze. Na zadane pytanie: "W jaki sposób przetwarzanie języka naturalnego jest wykorzystywane przez wyszukiwarki?" Ask Jeeves nie znalazła niczego co by wydawało się bezpośrednio użyteczne - większość odnośników dotyczyła wyszukiwarek lecz nie przetwarzania języka naturalnego. Po zmianie pytania na: "W jaki sposób przetwarzanie języka naturalnego jest wykorzystywane przy wyszukiwaniu informacji?" wynik wyszukiwania był bardziej obiecujący, a jeden z odnośników prowadził do artykułu Feldmana, zamieszczonego w adnotacji poniżej.
Jak znaleźć najlepszą wyszukiwarkę?Jak można zauważyć, poszczególne wyszukiwarki indeksują różną liczbę stron i często w różny sposób przedstawiają zadane pytania oraz w różny sposób przeprowadzają proces wyszukiwania. Jedną z możliwości szybkiego dostępu do wyszukiwarek jest utworzenie własnych "zakładek" (bookmarks) w przeglądarce. W rezultacie, w końcu wybiera się jedną lub dwie wyszukiwarki wyglądające na najszybsze i najefektywniej wyszukujące potrzebne informacje. Najlepszym rozwiązaniem jest przeprowadzenie prawdziwych poszukiwań przy użyciu różnych wyszukiwarek i zdecydowanie się na korzystanie z najodpowiedniejszej dla siebie. Przede wszystkim należy się dowiedzieć w jaki sposób można najefektywniej korzystać z wybranej wyszukiwarki. To zastanawiające jak niewiele osób zdaje sobie sprawę, że w większości wyszukiwarek należy umieścić wyrażenie wyszukiwawcze w cudzysłów ("..."), inaczej bowiem wyszukiwarka odszuka wszystkie słowa w dokumencie, tak jakby były połączone operatorem logicznym OR. Przykładowo, jeżeli szukamy "urban planning application" wyszukiwarka odnajdzie strony zawierające całą frazę, podczas gdy opuścimy cudzysłów otrzymamy strony obejmujące "urban OR planning OR application" - różnica może być zdumiewająca. AltaVista znalazła 21 stron, kiedy zastosowano frazę wyszukiwawczą, a 7,799,658 stron, kiedy opuszczono cudzysłów. Najlepszym sposobem poszerzenia swojej wiedzy o wyszukiwarkach oraz o metodach najefektywniejszego ich wykorzystania jest użycie odnośników do stron www, gdzie takie informacje sa zamieszczane. To nie zawsze jest proste. Odnosi się wrażenie, iż niektóre wyszukiwarki nie starają się aby pomóc użytkownikom "rozwinąć" bardziej wyszukaną strategię wyszukiwawczą. Przykłady wyszukiwarek zawierających "pomoc" (Help) - Zwróć uwagę, że to są strony skopiowane i zredagowane dla potrzeb kursu, lecz jeśli klikniesz na jakiekolwiek łącze przeniesiesz się do stron www poza systemem.
Oczywiście zawsze można wrócić do stron Danny Sullivana. Znajduje się na nich przewodnik wyjaśniający strategie wyszukiwawcze we wszystkich większych wyszukiwarkach. Pomimo, że w większości wyszukiwarek i katalogów obowiązuje język angielski (nie jest to dziwne, ponieważ ponad 60% informacji w Sieci jest w języku angielskim) pojawiło się kilka polskich:
Więcej o wyszukiwarkach.CNet Internet. Search engine shoot-out - przewodnik dla "Multiwyszukiwaczy".
Feldman, Susan. NLP trafia na Jabberwocky:
Przetwarzanie języka naturalnego w pozyskiwaniu informacji,
ONLINE, maj 1999.
Lager, Mark.
Spinning a Web search, 1996.
Lawrence, S. i C. Lee Giles (1999) Dostępność informacji na stronach www "Nature", 400 (8 lipca) 107-109 [Dostęp dla subskrybentów: http://www.nature.com] Notess, G.R. Search Engine Showdown. "Search Engine Showdown jest przewodnikiem pomocnym w przeszukiwaniu sieci. Porównuje i ocenia wyszukiwarki internetowe z punktu widzenia osoby szukającej informacji. Zaprojektowana w taki sposób aby na bieżąco gromadzić dane na temat wyszukiwarek. Witryna zawiera:
Schallhorn, Klaus. Suchmaschinen: ein systematischer Vergleichstest (Dostępne 13 listopada 1999)
Sullivan, Danny, Search Engine Watch Winship, Ian, Narzędzia wyszukiwawcze dostępne na www - ocena. VINE nr 99, 1999, 49-54 [Informacje, trochę w tej chwili nieaktualne, lecz użyteczne dla początkujących.] (Dostępne 13 listopada 1999) Winship, Ian, Web search service features. (Dostępne 13 listopada 1999)
Kurs przygotowany i przeprowadzony przez
Profesora Toma Wilsona
z Wydziału Studiów Informacyjnych Uniwersytetu w Shefffield w ramach projektu Tempus realizowanego we współpracy z
Międzynarodowym Centrum Zarządzania Informacją UMK w Toruniu oraz
Wydziałem Bibliotekoznawstwa i Studiów Informacyjnych University College w Dublinie.
|