Klábosení a Křišťálová lupa

Sdílet

Twittrem letí RT o nominaci www.klaboseni.cz pro kategorii vyhledavač a databáze letošního ročníku \Křišťálové lupy\. Já pro to nevidím důvod:
proč tento web nominovat jako vyhledavač, když dokáže vyhledat pouze termín nebo frázi (s použitím tří logických operátorů)?
proč tento web nominovat jako databázi, když data, které v sobě má, neumožňuje pořádně prohledávat, ačkoli je jasné, že jsou k mání? Obsahuje tedy data, která nejsme schopni (není nám umožněno je) najít.

Tohle je odpověď pro @josefslerka, bo do 140 znaků jsem se zaboha nemohl dostat. I po krácení slov.

Odbočka – twitter a já

Twittrovat jsem začal nedávno – dnes je to čtrnáct dní zpět. A tweetovat jsem začal ještě o týden později. Je to takový můj standard – několik let pozoruju, čtu. Pak se ve mě něco zlomí a já mám pocit, že bych do pozorované mozaiky mohl také přispět svým střípkem. Podobné to bylo i s mým blogováním – čet jsem \„otce českého blogování\“ snad od roku 2002 (2003?), tento blog jsem si usmolil před dvěma lety, listopad 2008. Pěkné šestileté zpoždění… U twitteru jsem na tom tedy lépe, ztráta tak roky dva.

Teď mě napadá, do čeho se pustím příště – co jaký trend/web/aplikaci dnes běžně sleduju, ale svou účast v ní ignoruju?

Inicializátor, povzdech a dotaz

Nevím, zda to začalo níže uvedeným tweetem přímo od @klaboseni, ale mám pocit, že jsem ještě před tímto viděl nějaký jiný – i když ze stejného zdroje (myšleno okolo Ataxa).

klaboseni : Udelejte nam radost, nominujte Klaboseni na Krystalovou Lupu v kategorii Vyhledavace a databaze http://bit.ly/gMdDe Diky! (pls RT)

Podotýkám, že na tweetu nevidím nic špatného. Klábosení jsem za těch 14 dní potkal, dokonce využíval, takže proč ne. Jenomže čím víc přibývalo RT, tím víc ve mě sílil pocit, že tento web je nějakej nedomrlej – a tudíž si nominaci vlastně nezaslouží.

Reagoval jsem pozvdechem bez udání směru výkřiku (žádne reply)

3knedle : proč nominovat @klaboseni na KLupu, kdyz je to nedodelany projekt? co a kdy se uklada je zahadou, vyhledavani bohuzel zakladni… mozna priste

Na tento tweet následovala reakce

josefslerka : @3knedle jak by podle tebe vypadal dodelany? Se zretelem k tomu, ze by mel byt nejak vydelecny?

A tak se dostáváme k tomu, proč vůbec píšu tento post – do tweetu jsem to nenarval.

Klábosení – co má a co umožňuje

Začnu odhady:

Jaká data Ataxo získává z twitteru? Samozřejmě všechna co jsou u tweetu:

  • identifikátor tweetu
  • autor tweetu
  • vlastní tweet
  • datum čas
  • zda je to odpoved
    • na koho je to odpoved
    • na co je to odpoved
  • a z obsahu tweetu hádám je systém schopen určit, zda je to RT a tudíž kdo je původce tweetu (pokud si s tím dost pohráli)

Je to sice odhad, ale vzhledem k určování \TOP 101 český a slovenský twitteristů\ bych se vsadil, že jejich algoritmus, kterým určují svůj TrustRank, má základní kameny v RT, Reply a uvedeni @twitterjmena ve tweetu. Plus další a další tajné přísady a váhy do kterých nevidím a nikdy vidět nebudu.

Konec odhadů

Při spuštění Klábosení bylo zveřejněno, že za 10 měsíců (tj. už 10 měsíců před spustěním webu sbírali data, parsovali a analyzovali je, a nakonec tvořili algoritmus pro TrustRank…) mají přes milion tweetů.

A co umožňuje klábosení vyhledávat?

  1. termín – převede se na \„termin OR #termin\“
  2. fráze: \„minimálně dvěslova\“
  3. fráze s logickými operátory: \„termin1 AND termin2\“, \„rum OR vodka\“, \„direct -upc\“

což znamená z výše zmíněných ukládaných dat využíváte:

  • vlastní tweet

Není to málo na vyhledávání v něčem co je označeno jako archiv – přesněji \„archiv českého Twitteru\“? Archiv, ke kterému se nemáte jak dostat.

Nedodělaný aneb Jak by mělo Klábosení vypadat

abych jej nominoval na Křišťálovou lupu

  1. chtěl bych podrobné vyhledávání – časové omezení, omezení autora, omezení typu (Reply, RT)
  2. chtěl bych vyhledání všech odpovědí (Reply) na určitý tweet

a další méně podstatné

  1. chtěl bych zobrazení linearni konverzace (A – B – A – B – A)
  2. vyhledávání mezi twitteristy, případně abecední výpisy

Nevěřím, že tyto úpravy (minimálně první dva body) jsou nesplnitelné – naopak, za týden práce (IMHO ještě hrubě přestřeluju) není o čem mluvit…

Úplnost, zpoždění, historie

Tohle není výtka, jen informace.

úplnost (wtf?)

Když jsem kontroloval hashtag #legie (čekali jste neco jiného?) narazil jsem na nesrovnalost u archivovaných dat:

Můj profil na Klábosení je – http://www.klaboseni.cz/profil.php?profil=3knedle Ovšem na jakém základě byl označen pro archivování, můžu jen odhadovat:

  • počet statutů mám 0, tudíž nemohli rozpoznat, že jsem čech podle textu;
  • že by TimeZone: Praha ?

Avšak je to týden od mého prvního tweetu a stále nic – žádný z mých tweetů v Klábosení není. Důvod netuším – asi to má neco společného se způsobem

Systém funguje na cyklickém procházení publikovaných pípnutí, není proto zcela real-time

pod kterým si toho moc nedokážu představit.

zpoždění (info)

Namátkou jsem zjišťoval zpoždění tweetů v tomto archivu – a dnes/teď je to cca 2,5 hodiny…

historie (info)

Namátkou jsem proklikal několik hashtagů a k nejstarší záznam z nich byl 2006–12–24 – to není zlé – našli jste starší?

Dovětek

Klábosení se mi líbí a za těch 14 twitter dnů jsem se jej naučil používat. Bohužel mi vadí, že nám není umožněno pořádně využít uložená data.

A ještě k druhé Pepově (uff, neva?) větě

Se zretelem k tomu, ze by mel byt nejak vydelecny?

Nejsem si jist, zda její význam chápu – takže takto:

Klábosení má být komerční? Myslím, že to neplánujete a nemyslím, že to má být (váš/něčí/hlavní) cíl – vaše priorita bude/je ve využití zde získaných dat pro různé analýzy, které využijete ve vašem byznysu.

Doba vzniku první verze tohoto blogpostu: 2:25:07 (h:m:s)

tagy:
Publikováno: 11.08.2010 15:52
Knedle

blog comments powered by Disqus