Strojové popisování obrázků – jak moc je přínosné pro uživatele?

Články ‐ Radek Pavlíček ‐ Webdesign ‐ 29. 8. 2019

Se strojovým popisováním obrázků se setkáváme stále častěji. Podívejme se na proces z pohledu přístupnosti pro nevidomé uživatele.

Nálepky:

přístupnost

Text vyšel původně na webu autora.

Požadavek na definování smysluplné a výstižné textové alternativy grafickým prvkům, které nesou významovou informaci, patří mezi základní pilíře přístupnosti.

Stále více služeb a aplikací dnes nabízí svým uživatelům možnost strojového popisu obsahu obrázku. Tato tématika se opět dostala do popředí zájmu v souvislosti s nedávným výpadkem Facebooku (viz Výpadek Facebooku odhalil, jak síť strojově popisuje naše fotky) či postupnou integrací této funkcionality do nejpoužívanějších odečítačů obrazovky (funkce Picture Smart v JAWSu nebo Image Describer v NVDA), kdy ji uživatelé dostávají k dispozici doslova pod konečky prstů.

Zcela logicky se proto nabízí otázka, zda by strojový popis obrázků nemohl odlehčit těm, kdo vkládají na web obsah (co si budeme nalhávat, popsat několik set fotek, které je po skončení akce potřeba nahrát do fotogalerie, není úkol nijak triviální – popisky je jednak třeba vymyslet, jednak je potřeba vyhradit si nějaký čas na jejich doplnění k jednotlivým fotografiím).

Ačkoliv by se na první pohled mohlo zdát, že ano, klíčovým jsou zde ona přídavná jména smysluplná a výstižná.

Porovnejme si například popisky u následujícího příspěvku na Facebooku.

https://www.facebook.com/mathilda.cz/photos/a.1399378746980931/2294285180823612/?type=3

Zatímco autor příspěvku fotografii popsal slovy: Černý labrador Oscar sedí na peróně a čeká na vlak, který jej odveze na výlet, strojový popis obrázku vypadá následovně: Na obrázku může být: pes, boty, obloha, venku a příroda.

Na tomto příkladu je myslím dobře vidět, že strojové rozpoznávání je s přihmouřením obou očí momentálně dostačující k vytvoření si velmi hrubé představy o tom, co se asi na fotografii může nacházet. Popisek připravený člověkem je po stránce jeho kvality stále o několik řádů výše a poskytuje uživateli výstižnou informaci o tom, co se na fotografii nachází.

Pokud se budete chtít podívat, jaké popisky Facebook vkládá k vašim fotografiím (a případně je upravit), u konkrétní fotografie to můžete udělat přes Možnosti -> Změnit alternativní text.

Podobná situace nastává v případech použití optického rozpoznávání (OCR) či strojového překladu textu. Příkladem z posledně jmenované oblasti může být například nedávné zařazení seriálu Teorie velkého třesku se strojově přeloženými českými titulky do nabídky streamovací služby Netflix, kdy řada strojově přeložených pasáží moc nedávala smysl – více informací viz Strojový překlad nechceme! Fanoušci se bouří kvůli Teorii velkého třesku.

I přes výše zmíněné nedostatky si ale dokáži představit celou řadu případů použití v běžném životě, kdy strojové rozpoznávání (či překlad) může uživateli pomoci ve chvílích, kdy potřebuje získat aspoň nějakou informaci namísto žádné.

Stejně jako v jiných oblastech, i v této dochází k postupnému vylepšování používaných technologií. Jednou z posledních novinek je Cloudsight’s AI, který dokáže obsah obrazu rozpoznávat v reálném čase přímo v mobilním zařízení, viz video:

Závěr

Podobně jako u jiných funkcionalit založených na strojovém rozpoznávání a umělé inteligenci, i v případě strojového popisu obrázků je třeba mít na paměti omezení této služby. Pro vytvoření si velmi rámcové představy o obsahu obrázku je tato služba použitelná. Spolehnout se výhradně na strojový popis, který je mnohdy nepřesný až zavádějící, by proto byla chyba obzvláště u těch obrázků, u nichž uživatel potřebuje mít co nejpřesnější informace o tom, co obsahují.

Všude tam, kde je třeba uživateli nabídnout přesnou informaci o tom, co obrázek (či grafická předloha obecně) obsahuje, bude při přípravě popisků a alternativ hrát lidský mozek ještě nějaký čas nezastupitelnou roli.

Radek Pavlíček

Radek vystudoval informatiku na Fakultě informatiky Masarykovy univerzity v Brně. Od roku 1998 se věnuje přístupnosti a speciální informatice pro lidi s těžkým postižením zraku.

Strojové popisování obrázků – jak moc je přínosné pro uživatele?

Nálepky:

Závěr

Radek Pavlíček

Komentáře

Microbit robůtek Cutebot s joystickem

Vývoj nezastavíš. 7 developerských přednášek, které rozhýbají vaši práci

Enum a statická analýza kódu

Sledujte Zdroják: