Query expansion
Článok na wikipédii objasňujúci pojem "query expansion" (rozšírenie dopytu). Ide
o proces reformulácie vyhľadávacieho dopytu kvôli zvýšeniu výkonu pri vyhľadávaní
informácií. V kontexte webových prehladačov to zahŕňa vyhodnotenie užívateľskeho
vstupu (ktoré slová užívateľ napísal do vyhľadávacej oblasti) a rozšírenie tohto
vstupu tak aby zachytil viac dokumentov.
QE zahŕňa niekoľko rôznych techník, napr:
- nájdenie synoným vložených slov, následne vyhľadavá aj pomocou nových slov
- nájdenie všetkých morfologických foriem (skloňovanie, časovanie, ...)
- nájdenie preklepov a vyhľadávanie opravených slov
- váženie termov v dopyte
Kompromisy medzi presnosťou a odozvou
Vyhľadávače používajú rozvoje dopytov na zvýšenie kvality výsledkov vyhľadávania.
Predpokladá sa, že užívateľ nie vždy používa najvhodnejšie slová na vytvorenie vyhľadávacích
reťazcov.
Pri použití rôznych morfologických tvarov zadaného slova nám je vyhľadaných viac
dokumentov (máme vlastne viac kľúčových slov). To nám zvyšuje celkovú odozvu (teda
pomer nájdených relevantných dokumentov ku všetkým relevantným). Ide to však na
úkor presnosti (pomer nájdených relevantných dokumentov ku všetkým nájdeným dokumentom).
Podobne to je pri rozvoji dopytu pomocou synoným. Príčinou je spôsob výpočtu presnosti.
Vieme tiež, že zvýšená odozva má negatívny dopad na celkovú kvalitu vyhľadávania,
pretože užívatelia nechcú viac výsledkov, aby sa nimi museli prečesávať.
Hlavnou úlohou rozširovania užívateľského dopytu je teda zvyšovanie odozvy pomocou
zahrňovania tých stránok do výsledkov, ktoré sú relevantnejšie alebo aspoň rovnako
relevantné. Tak sa do výsledkov dostanú aj stránky, ktoré by sa bez takéhoto rozvoja
nedostali. Mnoho súčasných systémov používa pri ohodnocovaní aj frekvenciu jednotlivých
slov. Ohodnotíme výskyty užívateľmi vkladaných slov, synoným a morfologických foriem,
dokumenty s vyššou hustotou výskytu majú tendenciu stúpať vyššie vo výsledkoch,čo
vedie k vyššej kvalite výsledkov vyhľadávania v najvyšších pozíciách, napriek vyššej
odozve.
Riešenie týchto kompromisov je jedným z určujúcich problémov v QE, s ohľadom na
to či sa vypláca prevádzať dané rozporuplné efekty na presnosti a odozve. Kritici
tvrdia, že slovníky a tezaury sú vedené ľudskými pohnútkami a má to vplyv na výsledky
v neautomatickom správaní.