souborový formát pro ukládání dokumentů From Wikipedia, the free encyclopedia
PDF (zkratka anglického názvu Portable Document Format – Přenosný formát dokumentů) je souborový formát vyvinutý firmou Adobe pro ukládání dokumentů nezávisle na softwaru i hardwaru, na kterém byly pořízeny. Soubor typu PDF může obsahovat text i obrázky, přičemž tento formát zajišťuje, že se libovolný dokument na všech zařízeních zobrazí stejně. Vytvářet PDF dokumenty lze jak v komerčním softwaru Acrobat od Adobe, tak v dalších programech (často však pouze jako export do PDF). Prohlížení je snazší, existují volně dostupné prohlížeče pro mnoho platforem, nejznámějším je oficiální prohlížeč mateřské firmy Adobe Reader. Některé aktivní typy obsahu (jako například interaktivní formuláře, 3D grafika, videa, zvuk) nejsou v mnohých PDF prohlížečích podporované. PDF soubory mají příponu .pdf popřípadě .PDF. PDF je otevřeným standardem a je snadno přenositelný (jeho reprodukce je nezávislá na použitém softwaru i hardwaru), i proto je velice rozšířený a hojně využívaný. 1. července 2008 byl tento formát publikován jako standard ISO 32000-1:2008 (vycházející z PDF 1.7).[2] PDF soubory vytvořené podle ISO normy nadále umožňují použití proprietárních technologií definovaných jen firmou Adobe (např. Adobe XML Forms Architecture, Adobe JavaScript), přičemž v rámci ISO probíhá snaha o jejich standardizaci.
Přípona souboru | .pdf |
---|---|
Typ internetového média | application/pdf[1] |
Type code | 'PDF '[1] (včetně mezery) |
Uniform Type Identifier | com.adobe.pdf |
Tvůrce | ISO |
Standard(y) | ISO 32000-2 |
Otevřený formát | ano |
Website | https://www.iso.org/standard/63534.html |
Adobe představilo formát PDF v roce 1993. Specifikace formátu byla dostupná bezplatně, ale formát zůstal proprietární až do jeho oficiálního uvolnění 1. července 2008. Poté byl publikovaný Mezinárodní organizací pro standardizaci (ISO). Specifikace formátu schválená v ISO nadále odkazuje na použití proprietárních technologií, jako je například Rich Text používaný v interaktivních formulářích Adobe XML Forms Architecture. Pracovní skupina ISO požádala firmu Adobe, aby tyto technologie stabilizovala a předložila je ke standardizaci, aby mohly být zahrnuty v chystané nové verzi formátu – PDF 2.0, který je aktuálně ve vývoji.
Zpočátku nebyl balík pro prohlížení a vytváření dokumentu volně ke stažení, bylo potřeba si jej zakoupit. Při vydání verze 2.0 Adobe změnilo své stanovisko a začalo distribuovat program Acrobat Reader zdarma. To otevřelo formátu PDF cestu, aby se mohl stát jedním z nejpoužívanějších formátů pro dokumenty současnosti a de facto standardem pro výměnu dokumentů na internetu.
Formát PDF je založen na jazyce PostScript, některé prvky tohoto jazyka jsou však ve formátu PDF implementovány mírně odlišně, jiné nejsou použity vůbec, přidána pak je schopnost vkládat do dokumentu omezenou sadu znaků (subset) fontu, a jejich pozdější tisk na nePostScriptových zařízeních. Formát PDF také obsahuje systém pro uložení různých částí dokumentu do jediného souboru s použitím komprese, text komprimuje algoritmem LZW.
Soubor PDF se skládá především z objektů, kterých existuje osm druhů:[4]
Objekty mohou být přímé (vloženy do jiného objektu), nebo nepřímé. Nepřímé objekty jsou očíslovány číslem objektu a „generation number“. Tabulka indexů nazývána xref tabulka poskytuje offset bajtu každého nepřímého objektu od začátku souboru.[6] Tato konstrukce umožňuje efektivní libovolný přístup k objektům v souboru, a také umožňuje, aby kvůli malým změnám nemusel být přepisován celý soubor (inkrementální aktualizace). Od verze PDF 1.5 mohou být nepřímé objekty také umístěny do speciálních proudů (object streams). Tato technika snižuje velikost souborů, které mají velké množství nepřímých objektů, a je vhodná zejména pro Tagged PDF. Existují dvě rozložení PDF souborů, nelineární (neoptimalizované) a lineární (optimalizované). Nelineární PDF soubory spotřebují méně místa na disku než jejich lineární protějšky, mají však pomalejší přístup, protože některé z údajů potřebných pro sestavení stránky jsou roztroušeny po celém souboru. Lineární PDF soubory (také označovány jako optimalizovány nebo webově optimalizovány) jsou konstruovány způsobem, který jim umožňuje být čteny z pluginu webového prohlížeče bez nutnosti čekání na stažení celého souboru, protože jsou zapsány na disk lineárně (v pořadí podle stránek).[7] PDF soubory mohou být optimalizovány pomocí software Adobe Acrobat nebo QPDF.
Základní princip, jak je grafika reprezentována v PDF je velmi podobný tomu v PostScriptu, s výjimkou použití průhlednosti, která byla přidána do PDF od verze 1.4.
K popisu stránky používá PDF grafika kartézský souřadnicový systém nezávislý na použitém zařízení (device independent). Popis stránky PDF může používat matice pro rotaci, změnu měřítka, nebo zkosení grafických prvků. Klíčovým konceptem ve formátu PDF je stav grafiky (graphics state), stavové proměnné, což je kolekce grafických parametrů, které mohou být měněny, ukládány, a obnovovány popisem stránky. PDF má (od verze 1.6) 24 grafických stavových vlastnosti, z nichž 16 je nezávislých na použitém zařízení (device independent) a 8 na zařízení závislých (device dependent). Popis některých důležitých grafických stavových vlastností (device independent):
Některé grafické stavové proměnné jsou nastavovány pomocí konkrétních operátorů, některé pomocí příslušného záznamu v slovníku grafických stavových proměnných (graphics state parameter dictionary) a jiné pomocí obou. Například aktuální tloušťka čáry může být nastavena buď operátorem w, nebo (od PDF 1.3) pomocí LW záznamu v slovníku grafických stavových proměnných, zatím co aktuální barva je nastavována jenom pomocí konkrétního operátoru.[5]
Vektorová grafika ve formátu PDF, stejně jako v PostScriptu, je konstruována pomocí cest (path). Cesty jsou obvykle složeny z čar a kubických Bézierových křivek, ale mohou být také vytvořeny z obrysů textu. Na rozdíl od PostScriptu, PDF neumožňuje, aby jediná cesta (path) míchala tvar textu s čárami a křivkami. Cesty mohou být tahané (stroked), vyplněné, nebo použity pro ořezávání. Tahy a výplně mohou používat jakoukoliv sadu barev, včetně vzorů (patterns).
PDF podporuje několik typů vzorů. Nejjednodušší je dlaždicový vzor (tilling pattern), v němž je specifikován kousek předlohy, který se poté nanáší opakovaně. Může to být barevný dlaždicový vzor, s barvami specifikovanými ve vzorovém (pattern) objektu, nebo nebarevný dlaždicový vzor, který odkládá specifikaci barvy do doby vykreslování vzoru. Se začátkem PDF 1.3 se objevuje také stínovací (shading) vzor, který vykresluje nepřetržitě se měnící barvy. Existuje sedm druhů stínovacích vzorů, z kterých nejjednodušší jsou axiální odstín (typ 2) a radiální odstín (typ 3).
Rastrové obrázky v PDF (tzv. Image XObjects) jsou reprezentovány pomocí slovníků s asociovanými streamy. Slovník popisuje vlastnosti obrázku, a stream obsahuje obrazová data. (Méně často, může být rastrový obrázek přímo součástí popisu stránky jako vložený obrázek.) Obrázky jsou obvykle filtrovány pro účely komprese. Obrazové filtry podporované v PDF zahrnují některé obecné filtry:
Normálně veškerý obrazový obsah je součástí PDF souboru. Standard PDF však umožňuje aby obrazová data mohla být uložena v externích souborech s použitím externích streamů nebo alternativních obrázků. Některé standardizované podskupiny PDF, jako např. formát PDF/A a PDF/X, tyto funkce zakazují.
Text ve formátu PDF je reprezentován pomocí textových prvků v page content streams. Textový prvek definuje, že znaky by měly být vykresleny na určitých pozicích. Tyto znaky jsou specifikovány za pomocí kódování vybraného zdroje písma (fontu).
Font objekt ve formátu PDF je popis digitálního typu písma (typeface). Může buď popisovat vlastnosti typu písma, nebo může obsahovat vložený soubor s fontem. První případ se nazývá unembedded font, zatím co druhý embedded font. Soubory s fonty, které mohou být vestavěné v PDF, vycházejí z široce používaných formátů písem (fontů): Typ 1 (a jeho komprimované varianty CFF), TrueType, a (od PDF 1.6) OpenType. Navíc PDF podporuje variantu Typ 3, ve které jsou komponenty fontu písma popsané pomocí PDF grafických operátorů.
Čtrnáct typů písma – známé jako standardních 14 fontů – mají zvláštní význam v dokumentech PDF:
Tyto fonty jsou někdy nazývány jako základních čtrnáct fontů písma.[8] Tyto fonty, nebo vhodné substituční písma se stejnými metrikami, musí být vždy k dispozici ve všech PDF prohlížečích, a tak nemusí být vloženy v PDF souboru.[9] PDF prohlížeče musejí znát metriku těchto fontů. Ostatní fonty mohou být nahrazeny, pokud nejsou vloženy v pdf souboru.
V textovém řetězci jsou znaky zobrazeny pomocí kódu znaku (integer), které jsou mapovány na glyfy v aktuálním fontu pomocí kódování. Existuje řada předdefinovaných kódování, včetně WinAnsi, MacRoman, a velké množství kódování pro jazyky východní Asie, a fonty mohou mít své vlastní vestavěné kódování. (I když WinAnsi a MacRoman kódování jsou odvozeny od historických vlastností operačních systémů Windows a Macintosh, fonty používající tato kódování fungují stejně dobře na všech platformách.) PDF umožňuje specifikovat předdefinované kódování, vestavěné kódování fontů, nebo poskytnout vyhledávací tabulku (lookup table) rozdílů vůči předdefinovanému nebo vestavěnému kódování (nedoporučuje se pro TrueType fonty).[10] Kódovací mechanizmy v PDF byly navrženy pro fonty Typu 1 a pravidla pro jejich použití pro TrueType fonty jsou složitá.
Pro velké fonty nebo fonty s nestandardními glyfy, se požívá zvláštní kódování Identity-H (pro horizontální zápis) a Identity-V (pro vertikální). Pro takové druhy fontů je nutné poskytnout ToUnicode tabulku, pokud má být uchována informace o sémantice znaků.
Původní zobrazovací model PDF byl, stejně jako v PostScriptu, neprůhledný: každý objekt vykreslen na stránce zcela nahrazoval cokoliv dříve vykreslené na stejném místě. Od verze 1.4 byl PDF zobrazovací model rozšířen tak, aby umožňoval průhlednost. Je-li průhlednost použita, nové objekty interagují s dříve zobrazenými objekty, aby vytvořily efekt prolínání. Funkce transparentnosti byla do PDF přidána s ohledem na zpětnou kompatibilitu, tak aby mohla být ve verzích PDF 1.3 a předchozích ignorována. V důsledku toho by soubory, které používají malé množství transparentnosti, měly být zobrazeny přijatelně i ve starších prohlížečích. Avšak soubory využívající velké množství transparentnosti mohou být staršími prohlížeči zobrazeny nesprávně bez varování.
Rozšíření transparentnosti jsou založeny na klíčových pojmech jako: skupiny transparentnosti (transparency groups), režimů prolnutí (blending modes), tvar (shape) a alfa (alpha). Model je úzce spojen s funkcemi Adobe Illustrator verze 9. Režimy prolnutí byly založeny na těch, které byly v té době používány v Adobe Photoshop. Když byla zveřejněna specifikace PDF 1.4, byly vztahy pro výpočet režimy blendingu drženy v tajnosti. Od té doby je však společnost Adobe publikovala.[11]
Formát PDF je možné srovnat s dalšími formáty pro uložení (převážně) textových dokumentů:
Jak už bylo zmíněno, PDF z PostScriptu vychází, takže jejich schopnosti jsou do značné míry podobné. Nejviditelnější rozdíl je ve velikosti souborů. Jelikož soubory PDF automaticky používají kompresi, jsou typicky výrazně menší než odpovídající dokumenty ve formátu PostScript.
Jazyk HTML si za cíl klade popsat obsah WWW stránky tak, že konkrétní způsob zobrazení stránky je na libovůli prohlížeče, potažmo uživatele. To na jedné straně umožňuje zobrazovat dokumenty tak, aby vyhovovaly čtenáři, na straně druhé znemožňuje zaručit přesně stejný vzhled dokumentu u všech uživatelů. Oproti tomu je cílem formátu PDF zajistit co nejpřesněji stejné zobrazení na libovolném zařízení.
Formát PDF je proto před HTML upřednostňován zvláště v případě graficky bohatého návrhu, u kterého autor vyžaduje dodržení původního vzhledu, u reklamních materiálů, prospektů apod. V rámci HTML lze téhož dosáhnout pomocí bitmapové grafiky či (v poslední době) pomocí vektorové grafiky, např. ve formátu SVG. Takové řešení však trpí mnoha nedostatky a odstraňuje většinu předností jednoduchého textového formátu. Výsledné dokumenty jsou také obvykle výrazně větší než původní HTML text.
Typickým příkladem rozdílů je chování při zvětšování dokumentu, např. pro lepší čitelnost pro osoby s vadou zraku:
Většina software však umožňuje obejít certifikovaný podpis dokumentu v PDF.[12]
Kromě oficiálního bezplatně použitelného Adobe Readeru existuje celá řada programů schopných pracovat s formátem PDF. Patří mezi ně např. prohlížeč PDF-XChange Viewer, Foxit Reader, Sumatra PDF nebo open source prohlížeč Xpdf, který obsahuje i programy na extrahování textu, fontů a obrázků z PDF a též i převod PDF na PostScript nebo PPM.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.