Implicit Feedback for Inferring User Preference: A Bibliography
Veľmi dobrý prehľadový článok poskytuje základný prierez problematikou. Je rozdelený
na 5 častí, z ktorých pre nás sú dôležité prvé štyri. Pozrieme sa na nich podrobnejšie.
- Úvod - História skúmania spätnej väzby relevantnosti informácií
("relevance feedback") siaha ku histórii vyhľadávania informácií, čo je asi 30 rokov
pred vydaním článku. Typické použitie tejto techniky vidí autor v 2 oblastiach:
krátkodobé modelovanie ("short-term modelling"), kde skúmame okamžité potreby užívateľa
(špeciálne ide o techniku rozširovania užívateľských dopytov) a dlhodobé modelovanie
("long-term modelling"), kde sa naopak zaujímame o dlhodobé záujmy a preferencie.
Sú v zásade 2 možnosti, ako takéto informácie od užívateľa získať: explicitne
a implicitne. Explicitné získavanie dát znamená, že užívateľ sám
zadáva potrebné informácie (kľúčové slová v dopytoch, značkovanie dokumentov, odpovede
na otázky o preferenciách). To mu samozrejme pridáva prácu naviac, čo nie je každý
ochotný akceptovať. Ďalším problémom je, že nie vždy je možné zozbierať vhodné dáta.
Efektívnosť tejto metódy je teda limitovaná. Na druhej strane implicitné metódy
nevtieravo a sústavne získavajú informácie o užívateľovi (sledujú jeho správanie
na internete, napr. čas strávený čítaním informácie, ukladanie informácií, vytlačenie
niektorých dokumentov a pod.). Implicitné techniky sa týkajú hlavne rozšírovania
užívateľských dopytov a získavaním a ukladaním informácií o správaní jednotlivých
užívateľov. Hlavnou výhodou teda je zníženie (odstránenie) potreby zásahu užívateľa.
Všeobecne sa tieto metódy považujú za menej presné ako explicitné, ale ich užitočnosť
a presnosť stúpa s množstvom dát, ktoré získajú. Obe metódy sa dajú aj vhodne kombinovať.
Náš článok sa venuje práve implicitným technikám (používajú sa na vydolovanie, filtrovanie
a ďalšie spracovanie rôznych objektov, ako sú odkazy, webové dokumenty, odborné
články, emailové správy, internetové články, filmy, knihy atď.). K tejto téme už
existuje väčšie množstvo literatúry a článok sa snaží priniesť jej prehľad.
- Klasifikácia - Implicitné techniky článok ďalej klasifikuje do
niekoľkých oblastí (do týchto oblastí sú potom zaradené aj všetky články, ktoré
sú v prehľade zahrnuté). Kritériá na delenie sú dva: prvým je užívateľské správanie,
druhým minimálny rozsah. Výsledkom tohoto delenia je nasledujúca
tabuľka:
|
časť objektu
|
objekt
|
trieda objektov
|
skúmať
|
vidieť
|
označiť
|
prehľadávať ("browsovať")
|
počuť
|
|
|
rolovať
|
|
|
nájsť
|
|
|
dopytovať
|
|
|
uložiť
|
tlačiť
|
záložkovať
|
predplatiť
|
|
uložiť
|
|
|
zmazať
|
|
|
potvrdiť
|
|
|
emailovať
|
|
odkazovať
|
copy-paste
|
odoslať
|
|
citovať
|
odpovedať
|
|
|
zalinkovať
|
|
|
ocitovať
|
|
spoznámkovať
|
označkovať
|
ohodnotiť
|
usporiadať
|
|
publikovať
|
|
vytvoriť
|
písať
|
autorizovať
|
|
editovať
|
|
|
Toto rozdelenie nie je jednoznačné (príklady v článku). Nie je ani vyčerpávajúce.
Obsahuje aj explicitné aj implicitné druhy správania, v ďalšom priebehu budeme samozrejme
uvaˇňžovať len tie implicitné. Väčšina výskumu sa zameriava na časť tabuľky "examine/object",
čo je v našom preklade "skúmať/objekt". Tento fakt nie je prekvapujúci, keďže do
tejto skupiny patria merané parametre ako čas prezerania stránok alebo výber dokumentu.
Tieto parametre sú ľahko merateľné a dostupné pre každý objekt, s ktorým užívateľ
príde do styku. Táto oblasť je preto ešte ďalej rozdelená pomocou
2 kategórií: v ktorej časti štandardného cyklu vývoja sw sa nachádzame
a či pracujeme s užívateľom jednotlivcom alebo skupinou užívateľov.
- Prehľad článkov - V tejto časti je rozobratých presne 7 článkov
(niektoré z nich som potom preštudoval samostatne). V krátkosti si ich popíšeme:
- Claypoll, le, Waseda, Brown (2001) - Implicit interest indicators,
článok kategorizuje indikátory záujmu užívateľa (zaoberá sa explicitnými aj implicitnými
technikami). Snaží sa zodpovedať na otázku, ktoré aspekty správania môžu byť použité
ako implicitné meradlá užívateľských preferencií. Referuje o vykonanom experimente,
kedy autori vytvorili vlastný prehliadač a zaznamenávali online správanie 75 študentov
(tí mali použiť tento prehliadač v časovom limite 20-30 minút na bežné prehliadanie
stránok). Skúmali sa parametre ako: kliknutia myšou, rolovanie stránok, čas strávený
na stránke, pričom sa brali do úvahy celkový súhrnný čas aj frekvencia. Naviac boli
užívatelia požiadaní explicitne ohodnotiť každú stránku. Vo výsledkoch sa napr.
ukázalo, že existuje vztah medzi celkovým časom stráveným na stánke a hodnotením
stránky, podobne to platí aj pre čas rolovania stránok. Naopak, počty kliknutí myšou
žiadnu úlohu nezohrávali.
- Morita, Shinoda (1994) - Information filtering based on user behaviour analysis
and best match text retrieval, autori skúmali správanie užívateľov, ktorí
čítali novinky v rôznych tzv. "newsgroups" a ako by sa tieto údaje dali použiť ako
spätná väzba pre údaje o konkrétnom profile. Skupina 8 užívateľov bola 6 týždňov
sledovaná, pričom účastníci mali za úlohu čítať všetky správy vo svojích listoch
a explicitne ich hodnotiť. Skúmali sa tri parametre: dĺžka dokumentu, čitateľnosť,
počet neprečítaných správ v liste a autori zaznamenávali čas čítania, ukladanie
správ, preposielanie a pod. Jedinou relevantnou koreláciou bolo, že čas čítania
zaujímavejších správ bol dlhší ako tých menej zaujímavých (bez ohľadu na dĺžku!).
Na základe toho autori určili niekoľko prahov pre identifikáciu zaujímavých článkov.
- Rafter, Smyth (2001) - Passive profilingfrom server logs in an online recruitment
enviroment, autori sa zaoberajú faktom, že väčšina prác berie za relevantný
parameter dĺžku času, ktorý užívateľ strávi na danej stránke (správe, objekte..).
Problémom je, že s týmto údajom sa ťažko pracuje, pretože rozdelenie tohoto javu
nie je normálne, má tzv. "dlhé chvosty". Pri zbieraní dát sa v nich často vyskytujú
nesprávne či skresľujúce údaje. Získané distribúcie teda potrebujú vhodné transformácie.
Autori článku preto navrhli dvojfázový proces na predchádzanie nepresných dát čítacích
časov. Princípom je výpočet akejsi "normálnej hodnoty" (medián mediánov čítacích
časov). Autori tiež zbierali dáta bez uvedenej transformácie a zistili, že výsledky
pri ich postupe sú presnejšie.
- White, Ruthven, Jose (2001) - Finding relevant documents using top ranking
sentences, článok skúma čas čítania dokumentov ako hlavný parameter pre
automatické prehodnocovanie vetných zhrnutí pre dané dokumenty. V pokuse užívatelia
pracovali s 3 rôznymi typmi systémov, pričom hodnotili relevantnosť dokumentov ku
zhrnutiam. Porovnania výsledkov implicitných a explicitných technológii však nepreukázalo
vhodnosť takýchto technológií.
- Golovchinsky, Price, Schilit (1999) - From reading to retrieval: Freeform
ink annotations as quries, poukazuje na to, že výskum, ktorý skúma texty,
ktoré generuje užívateľ (poznámky, výstupy z aplikácií), prináša sľubné výsledky.
Autori skonštruovali fulltextové dotazy založené na informáciách od užívateľa a
porovnali ich s bežnými technikami. Experiment prevedený na 10 ľudoch potvrdil dobré
výsledky.
- Budzik, Hammond (1999) - Anticipating and contextualizing information needs,
pripravili systém, ktorý automaticky vracal užívateľovi dokumenty a odporúčané
webové adresy na základe toho, čo užívateľ napísal. Autori článku navrhli, že je
rozumné sledovat všetky informácie z aplikácií, s ktorými užívateľ pracuje. Previedli
experiment, kde požiadali užívateľov, aby ohodnotili dokumenty, ktoré pre nejaký
text vyhodil ich systém. Najmenej 8 užívateľov zhodnotilo, že aspoň jeden výsledok
bol relevantný.
- Authoritative sources in a hyperlinked enviroment, ukazuje, že
asi najdôležitejším využitím implicitných techník sa stretávame pri analýze webových
odkazov (vyhľadávače). Ukážkou je Kleinbergova práca s "authorities" (relevantné
informácie) a "hubs" (kolekcie autorít). Autor tvrdí, že dobré "hubs" rozoznáme
tak, že prislúchajú veľa "authorities" a opačne. Klasický príklad takéhoto postupu
vidíme pri vyhľadávači Google.
Späť k článkom