Query expansion

Článok na wikipédii objasňujúci pojem "query expansion" (rozšírenie dopytu). Ide o proces reformulácie vyhľadávacieho dopytu kvôli zvýšeniu výkonu pri vyhľadávaní informácií. V kontexte webových prehladačov to zahŕňa vyhodnotenie užívateľskeho vstupu (ktoré slová užívateľ napísal do vyhľadávacej oblasti) a rozšírenie tohto vstupu tak aby zachytil viac dokumentov.

QE zahŕňa niekoľko rôznych techník, napr:

  1. nájdenie synoným vložených slov, následne vyhľadavá aj pomocou nových slov
  2. nájdenie všetkých morfologických foriem (skloňovanie, časovanie, ...)
  3. nájdenie preklepov a vyhľadávanie opravených slov
  4. váženie termov v dopyte

Kompromisy medzi presnosťou a odozvou

Vyhľadávače používajú rozvoje dopytov na zvýšenie kvality výsledkov vyhľadávania. Predpokladá sa, že užívateľ nie vždy používa najvhodnejšie slová na vytvorenie vyhľadávacích reťazcov.

Pri použití rôznych morfologických tvarov zadaného slova nám je vyhľadaných viac dokumentov (máme vlastne viac kľúčových slov). To nám zvyšuje celkovú odozvu (teda pomer nájdených relevantných dokumentov ku všetkým relevantným). Ide to však na úkor presnosti (pomer nájdených relevantných dokumentov ku všetkým nájdeným dokumentom). Podobne to je pri rozvoji dopytu pomocou synoným. Príčinou je spôsob výpočtu presnosti. Vieme tiež, že zvýšená odozva má negatívny dopad na celkovú kvalitu vyhľadávania, pretože užívatelia nechcú viac výsledkov, aby sa nimi museli prečesávať.

Hlavnou úlohou rozširovania užívateľského dopytu je teda zvyšovanie odozvy pomocou zahrňovania tých stránok do výsledkov, ktoré sú relevantnejšie alebo aspoň rovnako relevantné. Tak sa do výsledkov dostanú aj stránky, ktoré by sa bez takéhoto rozvoja nedostali. Mnoho súčasných systémov používa pri ohodnocovaní aj frekvenciu jednotlivých slov. Ohodnotíme výskyty užívateľmi vkladaných slov, synoným a morfologických foriem, dokumenty s vyššou hustotou výskytu majú tendenciu stúpať vyššie vo výsledkoch,čo vedie k vyššej kvalite výsledkov vyhľadávania v najvyšších pozíciách, napriek vyššej odozve.

Riešenie týchto kompromisov je jedným z určujúcich problémov v QE, s ohľadom na to či sa vypláca prevádzať dané rozporuplné efekty na presnosti a odozve. Kritici tvrdia, že slovníky a tezaury sú vedené ľudskými pohnútkami a má to vplyv na výsledky v neautomatickom správaní.