Co prozradila homepage velkých českých serverů?

web, zemekoule, svet, internet, grafika

Před časem jsme v redakci diskutovali s kolegou o tom, co vlastně prozrazují „hlavičky“ v HTTP protokolu. Že v nich putují zajímavé informace o klientu, to je známo i mírně poučeným uživatelům, ale co prozrazují naopak o serveru? Udělali jsme si drobný průzkum velkých českých serverů a zde jsou výsledky.

Vzorek

Kolegovi jsme v redakci ukázali asi šest hlaviček webů (ve Firebugu) a řekli jsme mu, co nám hlavičky prozrazují. Od toho vedl už jen krůček k myšlence podívat se na větší vzorek, reprezentativnější, a nějak získané informace setřídit a zpracovat.

Jako vzorek („velké weby“) jsme nakonec vzali data z měření NetMonitoru. Ano, nejsou to „všechny české velké weby“ a k metodice měření NetMonitoru můžeme mít výhrady, ovšem je to poměrně solidní vzorek „relevantních“ webů. Zdrojem pro měření byla veřejně dostupná statistika z května 2011.

Ze zprávy jsme vzali URL webů, a pro některé další výpočty jsme použili i RU (reální uživatelé) a PV (PageViews). Servery jsou ve zprávě uváděny většinou jako domény 2. úrovně. Při sběru dat jsme před tuto doménu přidávali „www“, pokud server nevrátil data nebo vrátil přesměrování, zkoušeli jsme i variantu bez www.

Sběr dat

Sběr dat proběhl z 483 adres dne 13. 7. 2011 (pro puntičkáře: bylo to mezi 14.46 a 14.51 SELČ). Časový úsek, během něhož musel server odpovědět, byl nastaven na 15 sekund, pokud neodpověděl, zůstal záznam prázdný a ve statistice se dostal do kolonky „nezjištěno“, „nezměřeno“ apod.

Skript ukládal odpověď serveru – jednak hlavičky HTTP protokolu, a kromě nich ještě začátek samotného HTML po element <body>. V hlavičkách jsme si všímali údajů Server, Content-Type a X-Powered-By, ve vlastním dokumentu jsme pak hledali deklaraci DOCTYPE, DTD, charset, zjišťovali jsme, zda servery používají jQuery, Google Analytics, zda nabízejí RSS, zda mají vyplněná metadata keywords a description, zda nabízejí tiskový styl a zda mají styl přímo v HTML, nebo v externím souboru.

Vzorek serverů zahrnoval weby od Seznamu (5.490,000 RU, 2973 mil. PV) až po stránky pokemon-guru.cz (880 RU, 11 227 PV), tedy od největších českých hráčů po miniaturní fanweb. Společným kritériem byla pouze přítomnost v NetMonitoru.

Výsledky

Pojďme se podívat na to, co nám servery o sobě prozradily a co jejich měření řeklo o českém internetu z technického hlediska.

Znaková sada

Začněme od snadno zjistitelného údaje, totiž od znakové sady. Na českých webech jednoznačně dominuje UTF-8 (73% z měřených serverů), za ním následuje Windows-1250 (14%) a na konci je ISO-8859–2 (zastoupení 4%). Zbytek do sta procent připadá, jak jsme si psali výš, na servery, které neodpověděly, nebo které informaci o znakové sadě vůbec neposílají.

Procentuální zastoupení jsme vypočítali, pro zajímavost, i podle RU, tedy „kolik uživatelů webů dostává jaké kódování“. V grafu jsou vyneseny obě hodnoty; je vidět, že se moc neliší.

Server

Zajímavější pohled nabídlo zjišťování použitých HTTP serverů dle hlavičky Server (resp. „posledního serveru před sítí“). Podle očekávání vede Apache, IIS používá z „velké desítky“ jediný server, iDnes. Apache používá 66 procent serverů. IIS pak 10 procent, nginx 8 procent, 14 procent nezjištěno, 0,8 procenta lighttpd.

U serverů jsme opět použili přepočet podle RU a podle PV, a tam se poměry dramaticky změnily. Obrovský objem uživatelů a stránek, generovaný Seznamem, pořadí serverů naprosto obrátil, takže zatímco „největší počet“ serverů běží na Apache, je „největší počet stránek“ (PV) posílán z nginx. Hezky to ilustruje následující graf.

Lze oprávněně tvrdit, že je pravděpodobné, že Apache je u malého serveru „technologie první volby“ – LAMP je univerzálně dostupný a téměř všude. Proto je Apache při přepočtu na počet serverů vítěz. Velké servery, které už mají nemalé počty odbavených uživatelů a stránek, místo náročného Apache používají rychlé alternativy, nejčastěji právě nginx – ovšem právě v kombinaci s obrovským počtem uživatelů a stránek vypadá statistika zcela jinak: Ano, Apache je skoro na všech serverech, ale na těch opravdu významných je právě nginx.

Jako perlička pak je, že IIS má svých 10 % jak podle počtu serverů, tak i podle počtu uživatelů či PV.

Serverový jazyk

Spíš doplňkem k měření bylo porovnávání serverových technologií. Naprostá většina webů nedává znát interní technologii pomocí přípon (.php, .aspx atd.), takže hrubý odhad jsme dělali pouze z hlavičky X-Powered-By. Téměř polovina serverů (45 procent) tuto hlavičku posílá prázdnou. 46 procent pak přiznává použití PHP, 9 % ASP.NET.

Čistě pro zajímavost: PHP4 uvedly pouhé 3 servery, 148 se hlásí k PHP5.2 a 33 k PHP5.3. 22 serverů pak v hlavičce Powered-By poslalo jako odpověď „Nette Framework“.

Značkovací jazyk

Z doctype a DTD jsme zjišťovali verzi použitého značkovacího jazyka. Zde potvrdilo svou dominantní pozici XHTML, a to verze 1.0 – rovná čtvrtina připadá na XHTML 1.0 Strict, 38 procent pak na XHTML 1.0 Transitional. XHTML1.1 používají pouhá dvě procenta serverů. Zbytek připadá na různé verze HTML4, jednotky procent patří HTML5 a u pětiny serverů se nepodařilo jazyk detekovat.

Neměřili jsme validitu ani jiné faktory, vycházeli jsme pouze z údajů, co servery tvrdily v doctype a v DTD.

I tento graf jsme si přepočítali podle RU, odchylky nebyly příliš velké:

Další údaje

Z hlaviček titulních stránek jsme získali i další údaje, které jsou shrnuty v následujícím gra­fu:

Měřili jsme počet webů, které mají stylopis přímo v HTML, pak počet webů s vyplněnými meta tagy keywords a description, existenci tiskového stylu, zastoupení jQuery, Google Analytics a nakonec i to, zda web nabízí RSS kanál (pomocí tagu  link application/rss+xml).

Inline stylopis je záležitost téměř pětiny webů (17 %). Osvětová práce lidových SEOlogů zdůraznila potřebu vyplnit tagy description a keywords – můžeme se o efektivitě těchto věcí přít, ale na druhou stranu, když už se to tam designéři naučili psát (keywords: 66 %, description: 75 %), je to určitě lepší, než kdyby tam nepsali nic, nebo svou kreativitu vybíjeli vymýšlením vlastních novinek.

Tiskový styl nabízí 30 procent webů. Je to hodně, nebo málo? Vzhledem k tomu, že tiskový styl může hodně pomoci zabudované funkci prohlížeče (nezapomeňte, to, jestli si vaši stránku někdo vytiskne, nezáleží na vás!) Navíc odladění takového stylu není většinou velký problém – tedy s dobře napsaným markupem. Určitě by to mohlo a mělo být víc.

Na jQuery jsme byli zvědavi, a po pravdě řečeno je výsledek slušný. Knihovna, která existuje vlastně jen pár let, má téměř 40% penetraci (zde mohlo dojít ke statistické chybě, kdyby si některý web přejmenoval „jquery-blabla.js“ na nějaký indiferentní název, to už by bylo pro nás bez analýzy dalších souborů nezjistitelné). Což je pěkné.

Čistě pro zajímavost jsme se podívali na přítomnost měřicích kódů Google Analytics. Vypadají téměř nepoužívané: 16% zastoupení. Ale toto měření je nutné brát opravdu cum grano salis – zachytili jsme pouze ty, kteří si jej dali do hlavičky souboru.

Poslední test, měření počtu serverů s RSS, ukázalo, že jej 42 procent nabízí. Při přepočtu podle RU vychází, že téměř polovina (48 procent) uživatelů má k dispozici odběr RSS serverů. Kolik z nich to opravdu využívá, to je jiná otázka.

Závěr

Statistika vznikla jako oddychové téma, jako odpověď na otázku: „Co vlastně můžeme o serveru z jeho metadat zjistit?“ Nepoužili jsme žádné invazivnější metody zkoumání, data jsme prostě sebrali a vyhodnotili. Přesto nám to poskytlo zajímavý (minimálně pro technika) pohled na české servery. Nelze z ní usuzovat nic víc než to, co říká – jsou to jen informace poskytnuté serverem. Proto se ve statistikách neobjevil např. Python nebo Ruby (servery tyto informace neposlaly). Nezkoumali jsme ani poddomény nebo další stránky. Šlo nám jen o to, co prozradí hlavičky na homepage.

Možná by nebylo od věci zopakovat takový test za čas a podívat se, zda a jak se český web v tomto směru vyvíjí.

Začal programovat v roce 1984 s programovatelnou kalkulačkou. Pokračoval k BASICu, assembleru Z80, Forthu, Pascalu, Céčku, dalším assemblerům, před časem v PHP a teď by rád neprogramoval a radši se věnoval starým počítačům.

Věděli jste, že nám můžete zasílat zprávičky? (Jen pro přihlášené.)

Komentáře: 61

Přehled komentářů

RPajik apache
Ruda Náprstek Re: apache
jf Re: apache
Martin Malý Re: apache
RPajik Re: apache
Martin Malý Re: apache
PavelM Re: apache
Martin Malý Re: apache
martinliptak Re: apache
Jura Re: apache
Martin Malý Re: apache
MProkop Přepočty na RU a PV
Martin Malý Re: Přepočty na RU a PV
MProkop Re: Přepočty na RU a PV
František Kučera RSS vs. Atom
Martin Malý Re: RSS vs. Atom
Martin Malý Re: RSS vs. Atom
Jakub Vrána Verze PHP
Jakub Vrána Meta značka Description
Bubák Opravdové XHTML
Franta Re: Opravdové XHTML
Bubák Re: Opravdové XHTML
František Kučera Re: Opravdové XHTML
František Kučera Re: Opravdové XHTML
Timy Re: Opravdové XHTML
blizz Re: Opravdové XHTML
František Kučera Re: Opravdové XHTML
blizz Re: Opravdové XHTML
Jiří Kosek Re: Opravdové XHTML
Martin Malý Re: Opravdové XHTML
Martin Malý Re: Opravdové XHTML
Jiří Kosek Re: Opravdové XHTML
Martin Malý Re: Opravdové XHTML
Jiří Kosek Re: Opravdové XHTML
Martin Malý Re: Opravdové XHTML
František Kučera Re: Opravdové XHTML
Martin Malý Re: Opravdové XHTML
Bubák Re: Opravdové XHTML
tomexx Re: Opravdové XHTML
Timy Re: Opravdové XHTML
blizz Re: Opravdové XHTML
František Kučera Re: Opravdové XHTML
Bubák Re: Opravdové XHTML
František Kučera Re: Opravdové XHTML
Timy Re: Opravdové XHTML
juraj Re: Opravdové XHTML
František Kučera Re: Opravdové XHTML
Paulos Re: Opravdové XHTML
František Kučera Re: Opravdové XHTML
Paulos Re: Opravdové XHTML
juraj Re: Opravdové XHTML
František Kučera Re: Opravdové XHTML
juraj Re: Opravdové XHTML
Martin Malý Re: Opravdové XHTML
Timy Re: Opravdové XHTML
Jiří Kosek Re: Opravdové XHTML
martinliptak Podobné štatistiky pre slovenský web
František Kučera Re: Podobné štatistiky pre slovenský web
martinliptak Re: Podobné štatistiky pre slovenský web
martinliptak Re: Podobné štatistiky pre slovenský web
Indrax Nevelká odchylka...
Zdroj: https://www.zdrojak.cz/?p=3518