Vyhledávání na internetu a hluboký web

02.01.2008, 22:29

Internet, vyhledávání a zdroje hlubokého webu.

1.       Charakteristika Internetu
2.       Vyhledávací stroje
3.       Hluboký web
      3.1 Kategorie zdrojů hlubokého webu
        3.2 Vyhledávací služby hlubokého webu
        3.3 Informační průmysl
        3.4 Budoucnost hlubokého webu

1. Charakteristika Internetu

Celosvětová počítačová síť Internet, je, paradoxně, jedním z nejvýznamnějších plodů studené války mezi USA a Sovětským svazem. Hrozba jaderného konfliktu totiž počátkem šedesátých let dvacátého století dovedla vládu USA k myšlence na vytvoření počítačové sítě, která by propojovala hlavní vojenská, vládní a vědecko-výzkumná centra. Zároveň šlo o to, aby fungování sítě nebylo závislé na výpadku či zničení jednoho či více center. Každý uzel tak měl být v rovnocenném postavení s ostatními; měl mít tedy možnost vysílat i přijímat zprávy.

První testovací síť založená na této myšlence byla uvedena do provozu v roce 1968 v britské Národní výzkumné laboratoři. Americké ministerstvo obrany pak požádalo o její instalaci v USA, kde se k ní v roce 1969 připojily první čtyři uzly, tři univerzitní a jeden vědeckovýzkumný. Síť dostala označení ARPANET. V roce 1971 bylo k síti připojeno 16 uzlů, v roce 1972 již 37. Příznačné je, že hlavním využitím sítě byla komunikace prostřednictvím elektronické pošty.

Hlavními mezníky rozšiřitelnosti sítě bylo schválení komunikačních protokolů TCP/IP, jejichž vývoj byl dokončen roku 1983 a v roce 1984 zavedení systému efektivního přidělování jmen počítačů pomocí doménového systému DNS (Domain Name Services).

V roce 1983 došlo k nastartování masivního růstu připojených počítačů. V roce 1984 počítačová síť obsahovala 1 000 připojených uzlů, v roce 1987 to bylo již 10 000. Síť ARPANET byla v roce 1990 zrušena, její místo zaujal Internet. Hranice jednoho miliónu připojených uzlů pak padla v roce 1992.

Neustálý růst různých zdrojů na počítačové síti s sebou přinesl problém orientace a vyhledávání. Prvním pokusem o vytvoření vyhledávacích služeb byla v roce 1989 služba Archie pro vyhledávání souborů v rámci FTP (File Transfer Protocol) serverů. Univerzálnější službou pak byla služba Gopher, která byla poprvé předvedena v roce 1991 na University of Minnesota. O rok později vznikla služba Veronica, která sloužila pro vyhledávání v prostoru Gopher serverů. Tím byla vytvořena základna pro nástup hypertextově orientované služby World Wide Web.

Až do roku 1991 byl Internet sítí výhradně nekomerční – vědeckou, akademickou. V tomto roce však americký Kongres schválil zákon High Performance Computing Act, kterým umožnil komerční využití Internetu. Masivní vstup komerčních firem pak nastal v roce 1993 a začal se utvářet Internet tak, jak jej známe dnes.

2. Vyhledávací stroje

První Internetový vyhledávací stroj se objevil v roce 1993. Byl nazván NCSA Mosaic. V prosinci téhož roku pak spatřil světlo světa WWW Worm, který jako první využil na vytváření svého indexu služeb robota. V roce 1994 pak začala práce na hierarchickém vyhledávacím stroji Yahoo! i na dalších vyhledávacích nástrojích WebCrawler (jako první umožnil fulltextové vyhledávání) a Lycos. V roce 1995 se objevili Excite, Hotbot a AltaVista, která se z nich stala nejznámější. Nejúspěšnější m vyhledávacím strojem se však stal Google, který si svoje dominantní postavení udržuje až do dnešních dnů.

V zásadě se rozlišují tři architektury prohledávání Internetu.

V první řadě jde o zdaleka nejpoužívanější univerzální centralizovanou architekturu, kde je cílem vyhledávacích strojů indexovat co největší část webu, nezávisle na tematickém zaměření či aplikační doméně.

Stěžejní součástí vyhledávacího mechanismu je robot (angl. crawler či spider), což je program, který se pohybuje po webu a sbírá informace rekurzivním pohybem přes hypertextové odkazy ze startovacích stránek. Informacemi se zde míní názvy stránek a další údaje zapsané do zdrojového html kódu webových stránek. URL a jejich vazby jsou přenášeny do modulu, který robota řídí a rozhoduje o dalším pohybu po grafu webu. Roboti jsou nastaveni tak, aby automaticky vylučovaly určité slovní druhy (jako například členy, předložky atd.) a po uplynutí předem stanovené doby přestanou pracovat, aby neuvázly na jediné webové stránce nebo v jediném webovém sídle. Takto získané informace jsou zkompilovány a ukládány do repozitáře stránek, což je obdoba knihovního katalogu sestaveného z katalogizačních lístků.

Dalším způsobem prohledávání obsahu Internetu je použití tzv. metavyhledávání. Jde o způsob vyhledávání nad textovými databázemi, k čemuž se využívá tzv. sumarizace obsahu jednotlivých databází. Důležitým aspektem sumarizace obsahu databází je statistika frekvence slov v dokumentech, které se v jednotlivých databázích vyskytují. Algoritmus výběru pak určí váhu jednotlivých databází. Problémem ovšem je, že existuje významné množství autonomních databází, které jsou sice přístupné přes web, ale nevystavují o svém obsahu žádná metadata. Mezi metavyhledávače patří např. Dogpile či MetaCrawler, jenž byl, jako první metavyhledávač, spuštěn v roce 1996 a umožňoval souběžné vyhledávání mezi službami Lycos, AltaVista, Yahoo, Excite, WebCrawler a Infoseek.

Metavyhledávač provádí tři hlavní operace. Uživatel zadá dotaz, metavyhledávač vybere databáze s největší vahou (operace výběru databáze), potom pro tyto databáze přeloží dotaz do vhodné formy (operace překladu dotazu) a nakonec vybírá a slučuje výsledky z vybraných databází (operace vytváření výsledků). Výsledek pak zobrazí uživateli.

Třetím typem architektury vyhledávání je tzv. distribuované vyhledávání, které se snaží minimalizovat dvě nevýhody centralizovaného vyhledávání: vysokou cenu výpočtu a slabé řazení. Principem distribuovaného vyhledávání je tak federace nezávisle řízených metavyhledávačů a více specializovaných vyhledávacích strojů.

Nepříjemným aspektem webu je však jeho nestálost. Existují studie, které hovoří o tom, že poločas rozpadu webové stránky je o něco kratší než dva roky a poločas rozpadu webového místa o něco delší než dva roky. Vedle otázky existence či neexistence webových stránek je dalším typem změn jejich aktualizace. Americká studie z roku 2001 uvádí, že 23% běžných webových stránek se mění denně, zatímco komerčních webových stránek se mění denně až 40%. Pro vyhledávací nástroje tak vyvstává v dohledné době neřešitelný úkol, udržet vždy aktuální údaje o obsahu webu.

3. Hluboký web

Hluboký nebo také neviditelný, skrytý web (angl. deep, invisible, hidden web) je charakterizován jako vše, co není součástí povrchového webu. Povrchový web je potom vše, co je indexovatelné univerzálními vyhledávacími nástroji. Hluboký web představují typicky hodnotné stránky, které vyžadují autorizaci či předchozí registraci či prostě vše, co se nedá prohledat prostými skoky z jednoho hypertextového odkazu na druhý. Ve srovnání s povrchovým webem je obsah neviditelného webu uložen převážně do elektronických databází.

Příhodné je přirovnání hlubokého webu k rybolovu, kdy použitím techniky standardních rybářských sítí jsou vyloveny pouze ryby, které žijí v nepříliš velké hloubce pod hladinou, zatímco mimo dosah těchto sítí žije mnohem větší množství ryb.

Odhad z roku 2001 hovoří o tom, že se na skrytém webu nachází 400 až 550x více informací než na webu povrchovém. V konkrétních číslech to představuje objem dat o velikosti přes 7 500 TB a více než 550 miliard vlastních dokumentů. O kvalitě neviditelného webu se soudí, že je 1000 – 2000x větší než kvalita povrchového webu.

Mnohdy je hranice mezi viditelným a hlubokým webem nejasná. Určitým návodem může být přítomnost znaku „?“ v URL. Pokud je v adrese URL takový znak, je právě zobrazený dokument zřejmě součástí hlubokého webu.

3.1 Kategorie zdrojů hlubokého webu

Zdroje, které můžeme počítat k neviditelnému webu, můžeme rozdělit do několika kategorií.

První kategorií jsou stránky, jejichž obsah není propojen s dalšími stránkami pomocí hypertextových odkazů. Výsledkem je, že se vyhledávací roboti, při svém pohybu z odkazu na odkaz, na tyto stránky vůbec nedostanou.

Kontextuální web. Jde o případ, kdy se obsah stránky mění v závislosti na druhu přístupu.

Stránky s omezeným přístupem. Jde o stránky, jež pomocí technických prostředků brání vyhledávacím robotům v indexaci obsahu. Používá se metod jako Robot Exclusion Standard, CAPTCHA (Completely Automated Public Turing Test to tell Computers and Human Apart; způsob zpřístupnění Internetových stránek pouze uživatelům pomocí nutnosti přepsat do určeného vstupního políčka obsah zobrazeného obrázku, který obsahuje deformovaný text) či html metatagů zakazujících indexování (pragma:no-cache).

Stránky se skriptovaným obsahem. Protože vyhledávací roboti indexují pouze informace zapsané do tagů značkovacího jazyka html, uniká jim obsah stránek, který je zobrazován pomocí skriptů jako je JavaScript, FLASH či AJAX.

Stránky s multimediálním obsahem. Stránky s audio soubory, video soubory a obrázky nejde za použití současných vyhledávacích prostředků nijak indexovat. Pokud nejsou doprovázeny metadaty, není jejich vyhledání možné.

Poslední kategorií jsou stránky s tzv. dynamickým obsahem (dynamické stránky), které jsou dostupné pouze po vyplnění přihlašovacích údajů.

3.2 Vyhledávací služby hlubokého webu

Protože nelze hluboký web postihnout službami běžných vyhledávacích strojů, je nutné využít k vyhledávání informací ukrytých v hlubokém webu pomocí specializovaných služeb, které fungují na principu analogickém k předmětovým katalogům. Vyhledávání pomocí těchto služeb je dvoukrokové. V prvním kroku je třeba identifikovat nejvhodnější databází a až na ní, ve druhé kroku, uplatnit konkrétní dotaz.

Mezi službami nabízejícími prohledávání skrytého webu jsou nejvýznamnější tyto:

Ø DirectSearch – jedna z prvních služeb mapujících neviditelný web. Nabízí odkazy na více než 1 000 databází

Ø Lycos Invisible Web Catalog – jde o jednu z nejlepších služeb pro orientaci v prostředí hlubokého webu. Mapuje více než 10 000 databází.

Ø Infomine Multiple Database Search – rozcestník k více než 15 000 databázím, určeným především pro akademickou komunitu. Jeho součástí jsou i odkazy na elektronické časopisy, knihy, knihovní katalogy apod.

Ø AlphaSearch – služba, která nabízí jedny z nejkvalitnějších odkazů, ačkoli jejich počet není z nejvyšších. Při mapování neviditelného webu se tato služba zaměřuje na zdroje označované jako „vstupní brány“. Jde o takové zdroje, které se soustřeďují na určitou tematickou oblast a k ní se snaží shromáždit a účelně organizovat odkazy na primární informační zdroje, které se k danému tématu vztahují.

Ø The Big Hub – nabízí orientaci ve více než 3 000 věcně specializovaných databází.

Ø WebData – databázový portál nabízející k jednotlivým databázím anotace, recenze a hodnocení kvality.

3.3 Informační průmysl

Nejvýznamnějším zdrojem hlubokého webu je komerční sféra Internetu, kterou můžeme označit souhrnným názvem Informační průmysl. Představitelé informačního průmyslu jsou producenti a prodejci informací, knihovnická servisní centra, databázová centra, inteligentní „vstupní brány“ a informační konzultační firmy. Zaměřme se na nejtypičtějšího představitele informačního průmyslu – na databázová centra.

Databázová centra jsou systémy hromadného ukládání a online zpřístupňování databází vesměs bibliografického a dokumentačního charakteru. Jsou nejčastěji orientována na vědu, techniku, medicínu, ekonomii a další obory. Informace jsou získávány od producentů a konvertovány do databázových programových systémů s vysokou selekční schopností a rychlostí vyhledávání.

Zdaleka největším představitelem databázových center je systém Dialog, který mnoho let udával trend vývoje databázových center. U zrodu tohoto databázového centra stála firma Lockheed Inc., která v roce 1963 založila laboratoř pro výzkum a vývoj systému automatizovaného zpracování informací. Komerční služba databázového centra společnosti Lockheed s názvem Dialog Information Service byla spuštěna v roce 1972. V roce 1988 Dialog od společnosti Lockheed odkoupil informační koncern Knight-Ridder a v roce 1997 získala Dialog firma M.A.I.D. (cena údajně činila 420 milionů dolarů). Statistiky, které v roce 1998 společnost vykázala, dokladují, že se tehdy jednalo o „největší informační fond na planetě“. Tento fond představoval 6 miliard stran textů, 3 miliony grafických souborů, tedy celkem 9 TB online zpřístupňovaných informačních zdrojů. Počet registrovaných uživatelů se pohyboval okolo 150 000.

Mezi další představitele databázových center patří např. BRS (od roku 1994 působící pod názvem OVID), ORBIT, Data-Star, ESA-IRS vybudované Evropskou agenturou pro kosmický výzkum, německý STN International, DIMDI a britský BLA-ISE. Žádné z uvedených databázových center však nedosáhlo ve srovnání s Dialogem ani polovičního počtu zpřístupněných databází a registrovaných uživatelů.

I databázová centra procházejí vývojem. Za jejich druhou generaci můžeme označit databázová centra, která se výrazně orientují na přímý kontakt s konečným uživatelem. Nevystavují už pouze strukturovaná data ve formě záznamů, nýbrž plné texty dokumentů a také graficky znázorněné informační útvary, které jsou snadno čitelné a pochopitelné nejširším uživatelským vrstvám. Největší reprezentant této kategorie je americký CompuServe s jedním milionem uživatelů, mezi další představitele můžeme zařadit např. americký LEXIS/NEXIS (původně MDC – Mead Data Central) i oblíbené informační systémy devadesátých let Prodigy a AOL.

Nejnovější vývojové stadium databázových center představují tzv. videotexové systémy. V nich jde o poskytování různých online služeb obyvatelstvu, od zpřístupňování informačních zdrojů přes vyřizování rezervací, nákupů, finančních transakcí, až po zábavné hry. Na rozdíl od dříve zmíněných databázových center jsou založeny na celých sítích hostitelských, resp. servisních počítačů. Nejznámějších představitelem tohoto druhu služeb je francouzský systém Minitel, resp. Télétel, který poskytuje služby až 30 miliónům uživatelů.

3.4 Budoucnost hlubokého webu

Hranice mezi viditelným a neviditelným webem se postupně smazává. Lví podíl na tom má vývoj moderních vyhledávacích strojů, které přestávají být závislé na obsahu stránek psaném v html kódu. Např. společnost Google, největší současný hráč na trhu, spustila i fulltextové prohledávání dokumentů ve formátu pdf (portable document format).

Dalším důvodem je pochopitelně i to, že čím dál tím víc institucí, firem, vědeckých pracovišť, univerzit a dalších školských zařízení zpřístupňují obsahy svých stránek volnému vyhledávání.

Literatura:

Sklenák, V. a kol. Data, informace, znalosti a Internet. 1. vyd. Praha : C. H. Beck, 2001. 507 s. ISBN 80-7179-409-0.

Vlasák, R. Světový informační průmysl. 1. vyd. Praha : Karolinum, 1999. 341 s. ISBN 80-7184-840-9.

Pokorný, J.; Snášel, V.; Kopecký, M. Dokumentografické informační systémy. 2. přeprac.vyd. Praha : Karolinum, prosinec 2005. 184 s. ISBN 80-246-1148-1

Gowan, M. Najděte vše rychleji. PC WORLD [online]. 2001, č. 11 [cit. 2007-12-30]. Dostupný z WWW: < http://www.pcworld.cz/pcw.nsf/archiv/A86E448FEB118A2EC12572B10054BE0F>. ISSN 1210-1079.

Wikipedia. Deep web [online]. last mod. 2007-12-28 [cit. 2007-12-30]. Dostupný z WWW: < http://en.wikipedia.org/wiki/Deep_web>.