Dnešní článek se bude zajisté hodit každému, kdo pracuje v oblasti machine learningu a potřebuje zpracovat velké množství textu, které se nachází v současné Wikipedii. Ukáži pár kousků kódu, které vám usnadní začátek při získávání čistého textu z MediaWiki stránek.
Archiv pro štítek: XML
Na Youtube kanál konference XMLPrague byla přidána videa otvírací a závěrečné keynote, a několika dalších přednášek a panelové diskuse týkajících se vztahu XML, HTML(5) a obecně standardů nejen v prostředí Webu. Jeni Tennison se v otvírací…
Když se občas na přednáškách ptám, jakou verzi HTML posluchači používají, jsem vždy překvapen tím, že naprostá většina se hlásí k XHTML. Při bližším ohledání stránek tvůrců v XHTML však vyjde najevo, že káží víno a pijí špinavou vodu. Svůj validní XHTML kód podsouvají prohlížeči se špatným MIME typem text/html a nutí jej používat parser HTML. HTML5 přináší některé změny syntaxe, které konečně umožňují tuto praktiku dělat tak, abychom se za ni nemuseli stydět.
Staticky generované weby byly poměrně dlouho v ústraní. Jako by se zdálo, že redakční systém je univerzální řešení, vhodné i pro ty nejmenší prezentace. Poslední dobou se ale začínají statické weby opět prosazovat – jednak díky cloudovým úložištím, které lze použít místo serveru, jednak i kvůli schopnostem HTML.
Server Ajaxian se věnuje ústupu XML z pozice podporovaného formátu pro webová API a jeho nahrazování JSONem (před časem na toto téma narazil Jiří Kosek ve svém komentáři ke GDD). Ajaxian cituje jednoho z návrhářů…
XML je hojně používaný formát pro ukládání a výměnu dat – oblíbený, ale i mnohdy kritizovaný. Chyba často nebývá v XML jako takovém, ale ve špatně navrženém formátu nad XML postaveném. Příkladem špatného formátu a návrhem…
Organizátoři konference XML Prague dnes zveřejnili seznam přednášejících a přednášek pro rok 2010. Mezi řečníky ani letos nebudou chybět přední osobnosti oboru; do Prahy se po roce vrací Michael Kay, Norman Walsh a Robin…
Před časem vzbudil článek s názvem XSLT: Jazyk budoucnosti velmi živou diskusi, která se motala kolem technických záležitostí a opomíjela podstatu problému nasazení XSLT u webových aplikací. Ta leží zcela jinde než v tom, která XSLT knihovna je rychlejší. Pojďme se dnes na otázku „XSLT na webu“ podívat SUBJEKTIVNĚ…
Po několik předchozích týdnů jsme se každé pondělí setkávali na tomto místě s úryvky z knihy Jiřího Koska, která nese název „PHP a XML“ a kterou letos v říjnu vydalo nakladatelství Grada. Autor přednesl některá témata z knihy i ve své přednášce na konferenci WebExpo. Pojďme se na knihu podívat podrobněji.
V dnešním pokračování seriálu o práci s dokumenty ve formátu XML v jazyce PHP se podíváme na dotazovací jazyk XPath. Na rozdíl od předcházejících metod zpracování XML v XPath neurčujeme, jak se má s informacemi naložit, ale specifikujeme, jaká data chceme.