Opera vyvíjí vyhledávací engine MAMA a má zajímavé údaje

Zdroják » Zprávičky » Opera vyvíjí vyhledávací engine MAMA a má zajímavé údaje

Nálepky:

Různé

Opera Software vyvíjí vyhledávací engine. Jmenuje se MAMA (Metadata Analysis and Mining Application) a indexuje 3.5 miliónu stránek. Jeho hlavním cílem je odpovědět na otázku: „Jak vypadá skutečný web?“ Jedná se tedy o podobnou analýzu, jakou provádí Google, ale výsledky MAMA jsou detailnější. MAMA dokáže vyhodnotit např. kolik webových stránek využívá kaskádové styly, jaký je průměrný počet znaků nebo odkazů na jedné stránce, ve které zemi se nejvíc používá AJAX, mikroformáty apod.

Již dnes jsou k dispozici první výsledky. Zajímá vás, kolik stránek projde validací? Podívejte se na Markup validation report, který obsahuje i zohlednění nejčastěji používaných CMS. Zajímá vás, jak vypadá průměrná webová stránka? Používá doctype HTML 4.x transitional, kódování iso-8859–1, není validní a obsahuje 38 odkazů, kaskádové styly i značku font. Zajímá vás srovnání České Republiky s ostatními zeměmi? Okolo 43% našich stránek obsahuje Flash, což je víc než v USA, kde jich je 32,6%, ale méně než v Čině, kde se jedná o 64%. Naopak AJAX používá v České republice pouze 2.88% stránek na rozdíl od Norska, kde je to 10,18%.

Více o MAMA najdete v tiskové zprávě a v článku What is the Web made of?.

Martin Hassman

Martin Hassman založil a řadu let vedl magazín Zdroják, absolvoval VŠCHT Praha, pořádal řadu konferencí, pomáhal s rozšířením otevřených technologií, byl u založení projektů CZilla, Dáme roušky a dalších. Vymyslel a dva roky vedl dobrovolnický projekt Movapp pod Česko.Digital. Nyní pracuje jako produktový manažer v datové platformě Golemio.cz.

Komentáře

Odebírat

3 Komentářů

Nejstarší

Nejnovější Most Voted

Satai

17 let před

Je to opravdu vyhledavac nebo jenom indexovaci engine?

Odpovědět

Martin Hassman

Autor

Odpovědět na Satai

17 let před

Opera to nazývá search engine. Zmíněné informace se z těch zaindexovaných stránek nějak museli taky nějak vyhledat (byť tu jde hlavně o data mining). Termín vyhledávač jsem záměrně nepoužil, protože si jej lidé spojují s klasickými vyhledávači a la Google.

Odpovědět

Tom

Odpovědět na Martin Hassman

17 let před

Konecne viem, co je to data mining. Diky

Odpovědět

Odysseus: PewDiePie vydal open-source AI workspace, který běží na vašem vlastním hardwaru

Felix Kjellberg, youtuber se 110 miliony odběratelů, strávil rok učením se programovat a fine-tuningem vlastních AI modelů. Výsledkem je Odysseus – bezplatný, open-source workspace pro práci s umělou inteligencí, který neposílá žádná data do cloudu. Projekt má týden, přes 61 000 hvězdiček na GitHubu a znovu otevírá otázku, komu vlastně patří váš digitální kontext.

Když Git už nestačí: jak izolovat databázový stav pro pokusy AI agentů

Gitová větev vývojářům oddělí kód, ale databáze často zůstává společná. U AI agentů je to slabé místo: rychle spouštějí migrace, mění data a zkoušejí víc cest najednou. Databázová větev jim dá vlastní pracovní prostor, jenže tím práce nekončí. Ještě je potřeba řešit citlivá data, oprávnění, životnost větve i zbytek stavu aplikace.

GitHub vyhrál pohodlím. Stejné pohodlí dnes ztěžuje odchod

GitHub kdysi působil jako přesný opak SourceForge: rychlý, přehledný a přirozený. Dnešní projekt na něm ale často nemá jen kód. Má tam issues, pull requesty, CI, balíčky, bezpečnostní pravidla i AI agenty. Lock-in nevzniká tím, že by nešel odnést Git repozitář, ale tím, že se běžný provoz týmu postupně přesune do jedné platformy.

Opera vyvíjí vyhledávací engine MAMA a má zajímavé údaje

Nálepky:

Martin Hassman

Komentáře

Odysseus: PewDiePie vydal open-source AI workspace, který běží na vašem vlastním hardwaru

Když Git už nestačí: jak izolovat databázový stav pro pokusy AI agentů

GitHub vyhrál pohodlím. Stejné pohodlí dnes ztěžuje odchod

Sledujte Zdroják:

Hádej co? Cookies!