Implicit Feedback for Inferring User Preference: A Bibliography

Veľmi dobrý prehľadový článok poskytuje základný prierez problematikou. Je rozdelený na 5 častí, z ktorých pre nás sú dôležité prvé štyri. Pozrieme sa na nich podrobnejšie.

  1. Úvod - História skúmania spätnej väzby relevantnosti informácií ("relevance feedback") siaha ku histórii vyhľadávania informácií, čo je asi 30 rokov pred vydaním článku. Typické použitie tejto techniky vidí autor v 2 oblastiach: krátkodobé modelovanie ("short-term modelling"), kde skúmame okamžité potreby užívateľa (špeciálne ide o techniku rozširovania užívateľských dopytov) a dlhodobé modelovanie ("long-term modelling"), kde sa naopak zaujímame o dlhodobé záujmy a preferencie. Sú v zásade 2 možnosti, ako takéto informácie od užívateľa získať: explicitne a implicitne. Explicitné získavanie dát znamená, že užívateľ sám zadáva potrebné informácie (kľúčové slová v dopytoch, značkovanie dokumentov, odpovede na otázky o preferenciách). To mu samozrejme pridáva prácu naviac, čo nie je každý ochotný akceptovať. Ďalším problémom je, že nie vždy je možné zozbierať vhodné dáta. Efektívnosť tejto metódy je teda limitovaná. Na druhej strane implicitné metódy nevtieravo a sústavne získavajú informácie o užívateľovi (sledujú jeho správanie na internete, napr. čas strávený čítaním informácie, ukladanie informácií, vytlačenie niektorých dokumentov a pod.). Implicitné techniky sa týkajú hlavne rozšírovania užívateľských dopytov a získavaním a ukladaním informácií o správaní jednotlivých užívateľov. Hlavnou výhodou teda je zníženie (odstránenie) potreby zásahu užívateľa. Všeobecne sa tieto metódy považujú za menej presné ako explicitné, ale ich užitočnosť a presnosť stúpa s množstvom dát, ktoré získajú. Obe metódy sa dajú aj vhodne kombinovať. Náš článok sa venuje práve implicitným technikám (používajú sa na vydolovanie, filtrovanie a ďalšie spracovanie rôznych objektov, ako sú odkazy, webové dokumenty, odborné články, emailové správy, internetové články, filmy, knihy atď.). K tejto téme už existuje väčšie množstvo literatúry a článok sa snaží priniesť jej prehľad.
  2. Klasifikácia - Implicitné techniky článok ďalej klasifikuje do niekoľkých oblastí (do týchto oblastí sú potom zaradené aj všetky články, ktoré sú v prehľade zahrnuté). Kritériá na delenie sú dva: prvým je užívateľské správanie, druhým minimálny rozsah. Výsledkom tohoto delenia je nasledujúca tabuľka:
      časť objektu objekt trieda objektov
    skúmať vidieť označiť prehľadávať ("browsovať")
    počuť    
    rolovať    
    nájsť    
    dopytovať    
    uložiť tlačiť záložkovať predplatiť
      uložiť  
      zmazať  
      potvrdiť  
      emailovať  
    odkazovať copy-paste odoslať  
    citovať odpovedať  
      zalinkovať  
      ocitovať  
    spoznámkovať označkovať ohodnotiť usporiadať
      publikovať  
    vytvoriť písať autorizovať  
    editovať    
    Toto rozdelenie nie je jednoznačné (príklady v článku). Nie je ani vyčerpávajúce. Obsahuje aj explicitné aj implicitné druhy správania, v ďalšom priebehu budeme samozrejme uvaˇňžovať len tie implicitné. Väčšina výskumu sa zameriava na časť tabuľky "examine/object", čo je v našom preklade "skúmať/objekt". Tento fakt nie je prekvapujúci, keďže do tejto skupiny patria merané parametre ako čas prezerania stránok alebo výber dokumentu. Tieto parametre sú ľahko merateľné a dostupné pre každý objekt, s ktorým užívateľ príde do styku. Táto oblasť je preto ešte ďalej rozdelená pomocou 2 kategórií: v ktorej časti štandardného cyklu vývoja sw sa nachádzame a či pracujeme s užívateľom jednotlivcom alebo skupinou užívateľov.
  3. Prehľad článkov - V tejto časti je rozobratých presne 7 článkov (niektoré z nich som potom preštudoval samostatne). V krátkosti si ich popíšeme:
    • Claypoll, le, Waseda, Brown (2001) - Implicit interest indicators, článok kategorizuje indikátory záujmu užívateľa (zaoberá sa explicitnými aj implicitnými technikami). Snaží sa zodpovedať na otázku, ktoré aspekty správania môžu byť použité ako implicitné meradlá užívateľských preferencií. Referuje o vykonanom experimente, kedy autori vytvorili vlastný prehliadač a zaznamenávali online správanie 75 študentov (tí mali použiť tento prehliadač v časovom limite 20-30 minút na bežné prehliadanie stránok). Skúmali sa parametre ako: kliknutia myšou, rolovanie stránok, čas strávený na stránke, pričom sa brali do úvahy celkový súhrnný čas aj frekvencia. Naviac boli užívatelia požiadaní explicitne ohodnotiť každú stránku. Vo výsledkoch sa napr. ukázalo, že existuje vztah medzi celkovým časom stráveným na stánke a hodnotením stránky, podobne to platí aj pre čas rolovania stránok. Naopak, počty kliknutí myšou žiadnu úlohu nezohrávali.
    • Morita, Shinoda (1994) - Information filtering based on user behaviour analysis and best match text retrieval, autori skúmali správanie užívateľov, ktorí čítali novinky v rôznych tzv. "newsgroups" a ako by sa tieto údaje dali použiť ako spätná väzba pre údaje o konkrétnom profile. Skupina 8 užívateľov bola 6 týždňov sledovaná, pričom účastníci mali za úlohu čítať všetky správy vo svojích listoch a explicitne ich hodnotiť. Skúmali sa tri parametre: dĺžka dokumentu, čitateľnosť, počet neprečítaných správ v liste a autori zaznamenávali čas čítania, ukladanie správ, preposielanie a pod. Jedinou relevantnou koreláciou bolo, že čas čítania zaujímavejších správ bol dlhší ako tých menej zaujímavých (bez ohľadu na dĺžku!). Na základe toho autori určili niekoľko prahov pre identifikáciu zaujímavých článkov.
    • Rafter, Smyth (2001) - Passive profilingfrom server logs in an online recruitment enviroment, autori sa zaoberajú faktom, že väčšina prác berie za relevantný parameter dĺžku času, ktorý užívateľ strávi na danej stránke (správe, objekte..). Problémom je, že s týmto údajom sa ťažko pracuje, pretože rozdelenie tohoto javu nie je normálne, má tzv. "dlhé chvosty". Pri zbieraní dát sa v nich často vyskytujú nesprávne či skresľujúce údaje. Získané distribúcie teda potrebujú vhodné transformácie. Autori článku preto navrhli dvojfázový proces na predchádzanie nepresných dát čítacích časov. Princípom je výpočet akejsi "normálnej hodnoty" (medián mediánov čítacích časov). Autori tiež zbierali dáta bez uvedenej transformácie a zistili, že výsledky pri ich postupe sú presnejšie.
    • White, Ruthven, Jose (2001) - Finding relevant documents using top ranking sentences, článok skúma čas čítania dokumentov ako hlavný parameter pre automatické prehodnocovanie vetných zhrnutí pre dané dokumenty. V pokuse užívatelia pracovali s 3 rôznymi typmi systémov, pričom hodnotili relevantnosť dokumentov ku zhrnutiam. Porovnania výsledkov implicitných a explicitných technológii však nepreukázalo vhodnosť takýchto technológií.
    • Golovchinsky, Price, Schilit (1999) - From reading to retrieval: Freeform ink annotations as quries, poukazuje na to, že výskum, ktorý skúma texty, ktoré generuje užívateľ (poznámky, výstupy z aplikácií), prináša sľubné výsledky. Autori skonštruovali fulltextové dotazy založené na informáciách od užívateľa a porovnali ich s bežnými technikami. Experiment prevedený na 10 ľudoch potvrdil dobré výsledky.
    • Budzik, Hammond (1999) - Anticipating and contextualizing information needs, pripravili systém, ktorý automaticky vracal užívateľovi dokumenty a odporúčané webové adresy na základe toho, čo užívateľ napísal. Autori článku navrhli, že je rozumné sledovat všetky informácie z aplikácií, s ktorými užívateľ pracuje. Previedli experiment, kde požiadali užívateľov, aby ohodnotili dokumenty, ktoré pre nejaký text vyhodil ich systém. Najmenej 8 užívateľov zhodnotilo, že aspoň jeden výsledok bol relevantný.
    • Authoritative sources in a hyperlinked enviroment, ukazuje, že asi najdôležitejším využitím implicitných techník sa stretávame pri analýze webových odkazov (vyhľadávače). Ukážkou je Kleinbergova práca s "authorities" (relevantné informácie) a "hubs" (kolekcie autorít). Autor tvrdí, že dobré "hubs" rozoznáme tak, že prislúchajú veľa "authorities" a opačne. Klasický príklad takéhoto postupu vidíme pri vyhľadávači Google.
Späť k článkom