Děkuji za vynikající článek. Mám jednu poznámku (spíše dotaz). Co stránka, která odkazuje sama na sebe? Kdyby na obrázku 4 měla S4 několik odkazů sama na sebe (například 3). Trochu by to algoritmus zmátlo. V matici T by 4 řádek byl 0 0 0.2 0.6 0.2 a algoritmus by pak mohl dát „pokřivené“ výsledky. Obecně vysoká (spíše jakákoliv nenulová) čísla na hlavní diagonále matice by byly problém. Sám nevím jak se tohle řeší. Jednoduché řešení, které se nabízí, je ignorovat odkazy na sebe sama. To znamená na hlavní diagonálu dát vždy nuly. Tohle je ale v rozporu s pravidlem, že pokud ze stránky nevede žádný odkaz, je hodnota předávaného PR dána jako 1/n (jak se píše v článku). Jinýmy slovy problém je v prvku matice T na pozici 5,5. Což znamená, že stránka, která neodkazuje nikam zvýší sama sobě PR, ale stránka, která odkazuje jen sama na sebe by nezvýšila nic. Možná na hlavní diagonále jsou vždy nuly a pokud ze stránky nevede odkaz, tak předává ostatním (kromě sebe) ne 1/n jak se píše v článku, ale 1/(n-1). V praxi je číslo n tak vysoké, že je úplně jedno, jestli je někde 1/n, nebo 1/(n-1). Takže to asi ani nikdo neřeší.
Názory k článku
Komplexní teoretické i praktické vysvětlení PageRanku
Re: Odkaz na sebe sama
celé vláknoDobrý den Radime,
děkuji za pochvalu. Bohužel tento příklad se v originální literatuře neřeší a spíše je v oblasti spekulací (např. http://www.webmasterworld.com/…30/31315.htm, http://www.webworkshop.net/pagerank.html). Osobně se přikláním k Vašemu názoru. Tzn. odkazy, které vedou na sebe sama jsou prostě ignorovány a nezapočítávají se jak do počtu odchozích odkazů (kterými se dělí předávaný pagerank) tak do příchozích odkazů na danou stránku.
Díky za skvělý článek
celé vláknoProblematiku sice sleduji jen okrajově, ale přesto mě velice zaujal postupný vývoj rovnic a vůbec myšlenkové postupy okolo PR.
Jenom je škoda, že Google nezveřejní svůj aktuální algoritmus, určitě by bylo zajímavé sledovat, jak jej vyvíjeli dál :)
Re: Diky za skvely clanek
celé vláknoKdyby ho Google zverejnil, tak spousta lidi prijde na to, jak ho oblbnout a jejich vyhledavac ztrati smysl.
Je to asi podobne, jako kdyz zverejnis spamfiltr, tak neni problem vyrobit spam, ktery tim filtrem projde.
Pro zajímavost
celé vláknoPokud někoho zajímá, jaké jsou weby s nejvyšším Pagerankem v ČR doporučuji mrknout na http://katalog.czin.eu/top-pr-100/ – kde je komplexní přehled…
Re: Pro zajímavost
celé vláknoTyhle katalogy jsou hrozne vyhodne. Nekdo si da vas odkaz na stranku ktera se generuje dynamicky, a tim je vlastne na vsech strankach odkaz. a vy mu dáte jeden odkaz. To potom PR roste ;-).
Re: Pro zajímavost
celé vláknoTen seznam je o ničem :-(, zobrazuje pouze stránky vedené v nějakém katalogu
gratulace
celé vláknoDěkuji za tento článek, je psaný pochopitelnou formou a hezky postupně. Takových jen více!
Výborný článek
celé vláknoKe kompletnímu prostudování článku jsem se dostal až teď, ale dodatečně Vám musím poděkovat za vynikající vysvětlení PageRanku.
Jen malinkatá poznámka: Vysvětlení Markovova řetězce bych posunul výše. V článku je zmíněn několikrát ještě před tímto rámečkem a než jsem se k němu dostal, našel jsem si ho na Wikipedii.
Nicméně i tak vysoce kvalitní práce!