Information retrieval
Článok na wikipédii objasňujúci pojem "information retrieval (IR)", teda získavanie/vyhľadávanie
informácií. IR je náuka o vyhľadávaní dokumentov, informácií v dokumentoch, metadát
o dokumentoch, ďalej o prehľadávaní relačných databáz, www atď. Dochádza k prekrývaniu
pojmov "data retrieval" (vyhľadávanie dát), "document retrieval" (vyhľadávanie dokumentov),
"information retrieval", "text retrieval" (textové vyhľadávanie). Každý z týchto
odborov má svoju teóriu, literatúru, zaužívanú prax a pod. IR je interdisciplinárna,
založená na vedách o spracovaní informácie (computer science), matematike, knižničnej
vede (library science), teórie informácie (information science), kognitívnych vedách,
lingvistike, štatistike a fyzike.
Zautomatizované systémy na vyhľadávanie informácií sa používajú na zníženie tzv.
pretlaku informácií (information overload). Univerzity, knižnice a ďalšie inštitúcie
používajú IR systémy na prístup ku knihám, článkom a iným dokumentom. Najbežnejšími
IR aplikáciami sú webové prehliadače.
História
Idea použitia počítačov na vyhľadávanie relevantných informácií bola spopularizovaná
v článku Vannevara Busha As We MayThink z roku 1945. Prvé zautomatizované
IR systémy sa potom objavili v päťdesiatych a šesťdesiatych rokoch. Od r. 1970 sa
začali objavovať rozličné IR techniky na dátach malého rozsahu, neskôr sa záber
zväčšil. V r. 1992 sa uskutočnila prvá TREC (Text Retrieval Conference) konferencia,
ktorej úlohou bolo spojiť úsilie IR komunity s americkým ministerstvom obrany a
NIST (národným inštitútom pre štandardy a technológie) pri dodávkach potrebnej infraštruktúry
potrebnej na vývoj metód pre vyhľadávanie v obrovských textových kolekciách. Výsledkom
bol vývoj metód pre veľke korpusy. Nástup webových vyhľadávačov urýchlil vývoj takýchto
IR systémov ešte viac.
Používanie digitálnych metód na ukladanie a získavanie informácií vedie ku fenoménu
digitálneho zastarávania. Digitálne zdroje totiž prestávajú byť čitateľné z dôvodov
fyzikálneho zastarania, z technologického zastarania čítača, hardwaru, softwaru
a pod. Paradoxne teda síce dochádza k oveľa ľahšiemu prístupu k informáciám, ako
v prípade papierových médií, ale rýchlo sa strácajú.
Podstata
Proces získavania informácií začína vo chvíli, keď užívateľ vkladá dopyt do systému.
Dopyty sú formálnymi vyjadreniami toho, čo užívateľ potrebuje vyhľadať (napr. vyhľadávací
reťazec vo webových prehliadačoch). Väčšinou tento dopyt neidentifikuje jednoznačne
hľadaný objekt v kolekcii, naopak, takýchto objektov môže byť veľmi veľa s rôznou
mierou relevantnosti.
Objekt je entita reprezeneovaná informáciou v databáze. Užívateľské dopyty sa porovnávajú
s informáciámi v databáze. V závasislosti na aplikácii dátovými objektami môžu byť
texty, dokumenty, obrázky, videá. Často dokumenty samotné nie sú uložené v IR systéme,
ale namiesto toho reprezentované ich zástupcami alebo metadátami.
Väčšina IR systémov vypočítava skóre, ktorý objekt v databáze ako odpovedá požiadavkám
v dopyte a klasifikuje objekty pomocou tejto hodnoty. Najvyššie hodnotené objekty
sa potom zobrazia užívateľovi. Proces sa môže opakovať na prianie užívateľa.
Miery výkonnosti
Na posúdenie jednotlivých IR systémov sa používajú rozličné ukazovatele (miery).
Všetky potrebujú kolekciu dokumentov a dopyt. My v krákosti popíšeme tie miery,
ktoré predpokladajú presnú znalosť relevantnosti (o každom dokumente vieme povedať,
či je alebo nie je relevantný). V praxi to tak väčšinou nebýva.
- Presnosť (Precision): Podiel počtu relevantných obdržaných dokumentov
ku všetkým obdržaným dokumentom.
- Odozva (Recall): Podiel počtu relevantných obdržaných dokumentov
ku všetkým relevantným dokumentom. V binárnej klasifikácii hovoríme o špecifikácii
(specification) a môžeme na to pozerať ako na pravdepodobnosť, že nejaký relevantný
dokument je vrátený dopytom.
- Odpad (Fall-out): Podiel počtu nerelevantných obdržaných dokumentov
ku všetkým nerelevantným dokumentom. V binárnej klasifikácii ide o doplnok špecifikácie.
- F-miera (F-measure): Vážený harmonický priemer presnosti a odozvy.