Sémantika a elektronické dokumenty

Mnoho lidí, a to i těch, kteří používají počítače každodenně, jsou zvyklí pohlížet na texty spravované počítačem jako na pouhý zdroj "příštích tištěných stránek". Skutečnost je však jiná. Mhoho textů nebude nikdy vytištěno, ale bude publikováno jiným způsobem. Stroje s dokumenty pracují než nám je předloží, a to jestli s nimi pracují správně a jestli jsou schopny nám je také správně podat záleží na tom jak my lidé textové dokumenty zhotovíme... Texty uložené v grafické podobě mají odjakživa povahu konzervovaného lidského slova a je asi nezbytné k nim víceméně stejně přistupupovat i v informačním věku.
Počítač je jako politický činitel na státní návštěvě, který má číst projev v jazyce kterému vůbec nerozumí. Nadpisy, odstavce a interpunkční znaménka jsou jediné body, kterých se zmatená a trémou ztrápená mysl může přidržet. Naše stroje sice trémou netrpí, ale ...

Mezi počítačovým a jiným zápisem textu existuje jeden zásadní rozdíl - u mechanického (bráním se slovu analogový) zápisu je předem jasné, jak bude text prezentován, u elektronického dokumentu je např. možné že bude interpretován hlasovou čtečkou, jakou používají nevidomí. Toto  je první důvod proč se zabýváme sémantikou elementů textu : použijeme-li formátovací prvek který je sémanticky neutrální, nebude mít žádné uplatnění při interpretaci na zařízení bez možnosti vizuálního formátování.

To že ve zobrazeném (tištěném) textu přebírají sémantické elementy vlastnosti elementů čistě formátovacích hraje důležitou roli - zatímco v prezentační úloze mohou sémantické elementy zastoupit elementy formátovací, v úloze narativní jsou sémantické elementy nezastupitelné

Sémantika je jedním z pohledů na informační struktury a je určující při dalším vrstvení informací - větvení, násobení úložišť, redundance (nikoli na úrovni binární informatiky). Sémanticky hodnotné elementy jsou použitelné např. pro automatické rešerše. Hodnocení sémantické hodnoty elementů a odhad důveryhodnosti zdroje patří k základním pilířům tvorby systémů postavených na bázi popisovaných zdrojů - tedy metainformací. Kromě elementů které jsou sémantické (chcete-li samopopisné) implicitně, nabývají na významu i další elementy (jazykové jednotky) - svým použitím a začleněním do struktury. Toto je druhý důvod a tím se budeme zabývat dále.

Z našeho pohledu je zajímavý moment, kdy se z pouhého textu, zápisu jazyka, stává informace - z jazykové jednotky jednotka informační. Tehdy se stává že některé textové elementy - skutečné i ty logické*  přebírají  nové funkce a získávají nový význam, jiné naopak význam pozbudou.

*whitespaces jsou v analogovém světě čistě "technickými" znaky, zatímco ve světě diskrétních textů mají své číslo ve znakové sadě a dají se vyhledat a nahradit

Jako obsahové (sémantické) se jeví ty elementy, které vytvářejí kontejnery - nenechte se ovšem mýlit , sémantika elementů není podmíněna nějakým objektovým modelem - byla zde vždy. Struktura tištěného dokumentu je přímo určena rozvržením textu na médiu o předem známém formátu (A4 např.). Jediným způsobem konzumace (interpretace) tištěného textu je - přečíst ho.
Dokument na papíře obsahuje pouze znaky, které jsou vidět (printable), mezery jsou prostě mezety. Naproti tomu - počítačový dokument obsahuje i takové znaky, které suplují chování vozíku psacího stroje:

  • přeskok o znak - mezerník,
  • přeskok o zarážku - tabulátor
  • a návrat vozíku - konec řádku.

Na psacím stroji je mezerník běžná a jediná pomůcka na tvorbu asymetrických horizontálních mezer. V počítačové praxi je mezerník určen pouze pro tvorbu mezery mezi slovy o délce jednoho znaku.  Znak konce odstavce přirozeně vytváří datový kontejner (odstavec - který ve 2D zobrazení může být interpretován jako blokový). Naproti tomu - tabulátor je znak, který ztratil své uplatnění v okamžiku kdy text migroval z papírového média na obrazovku (počítače, či mobilního telefonu) o rozměrech které předem neznáme. Byl vytlačen skutečnými tabulkami, jichž byl doteď náhražkou a v textových dokumentech bychom se s ním setkávat neměli.

Tabulátor je tedy znak, který sice může mít podíl na strukturálním členění textového dokumentu, je však "prezentačně nezpůsobilý", významově bezobsažný a svou podstatou kolizní (z tohoto důvodu také prohlížeče www tabulátor ignorují), je v podstatě pouhou typografickou - nikoli jazykovou - jednotkou.
Mnohem zajímavější je pro nás buňka tabulky, jejíž povaha kontejneru je naprosto zřetelná, nám i stroji. A je zajímavá nejen jako kontejner - buňka má totiž naprosto zřetelný význam  i jako jazyková jednotka - přesto že to někteří odborníci (a konsorcium W3C) popírají. Stroj jednoznačně určí její poslání.

Pro nás je buňka také pěknou demonstrační pomůckou pro pochopení situace, kdy je možné ospravedlnit přítomnost prázdného kontejneru (elementu) a kdy už se takovýto stává planým:
  • prázdná buňka může být do počtu (všechny řádky tabulky mají mít stejný počet buňek,  je ovšem možné buňky spojovat),
  • prázdný odstavec je zbytečný a planý, 
  • nadbytečná mezera mezi znaky je natolik zbytečná, že prohlížeče obsahu www vice než jednu mezeru považují za jednu jedinou.
Některé elementy mají svůj význam dán již historicky (např. nadpis nebo odstavec), jiné elementy dostanou svůj význam - podíl na strukturálním členění - během tvorby dokumentu. Typicky to může být oddíl (kapitola...). Zatímco si umíme představit prázdný odstavec (a tohoto nešvaru se občas asi dopustí každý), prázdný oddíl je už nepředstavitelný.
Stroji je to ovšem jedno - zatímco můžeme chtít po akustické čtečce, aby ignorovala prázdpou buňku, můžeme naopak chtít, aby např. za koncem odstavce udělala krátkou pomlku. Jak krátkou, a jak dlouhá by byla, pokud pisatel textu použije 15 prázdných odstavců pro mezeru? A co teprve u sémanticky plnohodnotných elementů. Pokud bychom za sebou zanechali v textu několik prázdných elementů STRONG, mohla by se čtečka významně odmlčet...

 

Oddíl je generický do té míry, že pro stroj jiný než strukturální význam nemá (pro nemocné dítě ano - "maminko, ještě jednu kapitolku"), takže na rozdíl od prázdného odstavce (který může mít pro stroj "netušený" význam) by měl stroj prázdné oddíly ignorovat na libovolném výstupu.

Shrnutí

Můžeme tedy rozdělit textové elementy z hlediska sémantiky na tři zásadní skupiny - jejich význam je:
  • plnohodnotný - absolutní
  • relativní
  • neutrální
Mezi plnohodnotné zahrneme elementy používané ve značkovacích jazycích (EM, STRONG..., sémantické implicitně) a potom ty, které se přímo podílejí na struktuře dokumentu - přímo znamená  z podstaty. Dalo by se říci, že elementy tvořící osnovu, mají absolutní význam z hlediska úrovně dokumentu a každé další úrovně (libovolného vnoření), zatímco elementy typu phraze mají takovou hodnotu samy o sobě, bez ohledu na úroveň pohledu - v obou případech jde tedy skutečně o absolutní hodnoty.
Relativní význam mají elementy, které mají (nebo přebírají) funkci strukturální jednotky a kromě tohoto poslání  další význam mít mohou nebo také nemusí. Uvědomte si např. význam odstavců v zákonících, kde se na jednotlivý odstavec (paragraf) odvolává žaloba i rozsudek. Tato skutečnost napovídá že číslované odstavce mají svůj význam (jsou sémanticky hodnotné) díky tomu že jsou pojmenovány (číslovány) přičemž v každém dokumentu je dán počet a pořadí odstavců bez ohledu na to, zda jsou číslovány nebo nikoli.
Dalším příkladem mohou být seznamy, jejichž prvky nabývají (nebo ztrácejí význam - tedy skutečný význam) díky vnoření - úrovni pohledu.
Mezi seznamy patří naše pozornost především seznamu definic, který není v současnosti příliš využíván a který je dle mého názoru praotcem mikroformátů neboť tvoří pěkný ucelený kontejner jako by předurčený k efektivnímu strojnímu zpracování.
Můžeme tedy říci, že relativní význam mají ty elementy, které buď svou sémantickou povahu ztrácejí při pohledu na text z jiné úrovně a nebo jej naopak nabývají díky svému účelu.
Z hlediska našeho dalšího zkoumání - zrcadlení obsahu v metainformacích - jsou právě tyto elementy s proměnlivou sémantickou hodnotou nejzajímavější. Uvědomte si že pojmenovaný element zdroje na který se odkazujeme ze zdroje jiného nabývá na významu ve všech ohledech.
Sémanticky neutrální elementy jsou - jak naznačuje text výše - takové, které ovlivňují pouze chování daného výstupního zařízení.  Kromě těchto elementů jsou sémanticky prázné typografické jednotky (tedy ne jazykové) jako zalomení řádku , horizontální čára, již zmíněný tabulátor - a pak některé elementy značkovacích jazyků, které sice ovlivňují generování výstupu, ale jsou používány spíše z důvodů obecné kompatibility - např. značka PRE, a nejsou pro nás významné.




InternetRegion s.r.o.

+420 722 475 310

sekretariat(a)internetregion.cz

Provozovna

Žerotínovo nábř. 756,
667 01 Židlochovice