vladoyak's page

Information retrieval

Článok na wikipédii objasňujúci pojem "information retrieval (IR)", teda získavanie/vyhľadávanie informácií. IR je náuka o vyhľadávaní dokumentov, informácií v dokumentoch, metadát o dokumentoch, ďalej o prehľadávaní relačných databáz, www atď. Dochádza k prekrývaniu pojmov "data retrieval" (vyhľadávanie dát), "document retrieval" (vyhľadávanie dokumentov), "information retrieval", "text retrieval" (textové vyhľadávanie). Každý z týchto odborov má svoju teóriu, literatúru, zaužívanú prax a pod. IR je interdisciplinárna, založená na vedách o spracovaní informácie (computer science), matematike, knižničnej vede (library science), teórie informácie (information science), kognitívnych vedách, lingvistike, štatistike a fyzike.

Zautomatizované systémy na vyhľadávanie informácií sa používajú na zníženie tzv. pretlaku informácií (information overload). Univerzity, knižnice a ďalšie inštitúcie používajú IR systémy na prístup ku knihám, článkom a iným dokumentom. Najbežnejšími IR aplikáciami sú webové prehliadače.

História

Idea použitia počítačov na vyhľadávanie relevantných informácií bola spopularizovaná v článku Vannevara Busha As We MayThink z roku 1945. Prvé zautomatizované IR systémy sa potom objavili v päťdesiatych a šesťdesiatych rokoch. Od r. 1970 sa začali objavovať rozličné IR techniky na dátach malého rozsahu, neskôr sa záber zväčšil. V r. 1992 sa uskutočnila prvá TREC (Text Retrieval Conference) konferencia, ktorej úlohou bolo spojiť úsilie IR komunity s americkým ministerstvom obrany a NIST (národným inštitútom pre štandardy a technológie) pri dodávkach potrebnej infraštruktúry potrebnej na vývoj metód pre vyhľadávanie v obrovských textových kolekciách. Výsledkom bol vývoj metód pre veľke korpusy. Nástup webových vyhľadávačov urýchlil vývoj takýchto IR systémov ešte viac.

Používanie digitálnych metód na ukladanie a získavanie informácií vedie ku fenoménu digitálneho zastarávania. Digitálne zdroje totiž prestávajú byť čitateľné z dôvodov fyzikálneho zastarania, z technologického zastarania čítača, hardwaru, softwaru a pod. Paradoxne teda síce dochádza k oveľa ľahšiemu prístupu k informáciám, ako v prípade papierových médií, ale rýchlo sa strácajú.

Podstata

Proces získavania informácií začína vo chvíli, keď užívateľ vkladá dopyt do systému. Dopyty sú formálnymi vyjadreniami toho, čo užívateľ potrebuje vyhľadať (napr. vyhľadávací reťazec vo webových prehliadačoch). Väčšinou tento dopyt neidentifikuje jednoznačne hľadaný objekt v kolekcii, naopak, takýchto objektov môže byť veľmi veľa s rôznou mierou relevantnosti.

Objekt je entita reprezeneovaná informáciou v databáze. Užívateľské dopyty sa porovnávajú s informáciámi v databáze. V závasislosti na aplikácii dátovými objektami môžu byť texty, dokumenty, obrázky, videá. Často dokumenty samotné nie sú uložené v IR systéme, ale namiesto toho reprezentované ich zástupcami alebo metadátami.

Väčšina IR systémov vypočítava skóre, ktorý objekt v databáze ako odpovedá požiadavkám v dopyte a klasifikuje objekty pomocou tejto hodnoty. Najvyššie hodnotené objekty sa potom zobrazia užívateľovi. Proces sa môže opakovať na prianie užívateľa.

Miery výkonnosti

Na posúdenie jednotlivých IR systémov sa používajú rozličné ukazovatele (miery). Všetky potrebujú kolekciu dokumentov a dopyt. My v krákosti popíšeme tie miery, ktoré predpokladajú presnú znalosť relevantnosti (o každom dokumente vieme povedať, či je alebo nie je relevantný). V praxi to tak väčšinou nebýva.

Presnosť (Precision): Podiel počtu relevantných obdržaných dokumentov ku všetkým obdržaným dokumentom.
Odozva (Recall): Podiel počtu relevantných obdržaných dokumentov ku všetkým relevantným dokumentom. V binárnej klasifikácii hovoríme o špecifikácii (specification) a môžeme na to pozerať ako na pravdepodobnosť, že nejaký relevantný dokument je vrátený dopytom.
Odpad (Fall-out): Podiel počtu nerelevantných obdržaných dokumentov ku všetkým nerelevantným dokumentom. V binárnej klasifikácii ide o doplnok špecifikácie.
F-miera (F-measure): Vážený harmonický priemer presnosti a odozvy.