Jak extrahovat informace ze souborů systému Office pomocí formátů souborů a schémat

Překlady článku Překlady článku
ID článku: 840817 - Produkty, které se vztahují k tomuto článku.
Rozbalit všechny záložky | Minimalizovat všechny záložky

Na této stránce

Souhrn

Pokud je třeba extrahovat informace ze sešitů aplikace Microsoft Excel, prezentací aplikace Microsoft PowerPoint nebo dokumentů aplikace Microsoft Word, lze k tomu použít několik metod. Tyto metody zahrnují programová volání rozhraní API a formáty Office Open XML, XML, RTF, nebo HTML. Pokud tyto metody nedopovídají vašim potřebám, může být pro vás výhodné zúčastnit se programu Royalty-Free File Format (formát souborů nevyžadující licenční poplatky) a obdržet technickou dokumentaci k určitým binárním formátům souborů systému Microsoft Office.

ÚVOD

Tento článek popisuje několik technik, které jsou k dispozici pro extrahování informací ze sešitů aplikace Excel, prezentací aplikace PowerPoint a dokumentů aplikace Word.

Další informace

Formát Office Open XML

Formáty Office Open XML jsou navrženy tak, aby dokumenty v těchto formátech bylo možné vytvářet a přistupovat k nim v řadě aplikací na řadě platforem. Pomocí formátu Office Open XML lze přímo manipulovat s formátem souborů. Soubory lze vytvořit nebo k nim přistupovat i bez aplikací systému Microsoft Office.

Výhody formátu Office Open XML

  • Je otevřený. Formát Office Open XML má otevřenou licenci a dokumentaci. Je upřesněn v otevřeném procesu organizace Ecma, takže funguje napříč širokou skupinou platforem, aplikací a způsobů použití.
  • Je to formát XML. Formát Office Open XML je standardní technologií, kterou může jednoduše a transparentně používat řada nástrojů a aplikací.
  • Je zpětně kompatibilní a interoperabilní. Tato vlastnost umožňuje zachovat během převodu dokumentů do otevřeného a moderního formátu jejich původní podobu. Různé aplikace mohou navíc používat formát Office Open XML s předvídatelnými výsledky.
  • Funguje požadovaným způsobem díky podpoře vlastního schématu XML, zdarma dostupným aktualizacím pro stávající verze systému Office a díky podpoře důležitých funkcí přístupnosti pro postižené uživatele.
  • Formát je připraven na budoucí vývoj. V rámci formátu Office Open XML lze k tvorbě dokumentů použít všechny funkce aplikací systému Microsoft Office 2007. Formát Office Open XML umožňuje použít podmnožinu těchto funkcí nebo jejich rozšíření, přičemž zajišťuje jejich soulad.
  • Může pomoci zvýšit zabezpečení. Postupy a aplikace zabezpečení IT mohou snadněji objevit a opravit potenciální problémy, přičemž se sníží pravděpodobnost poškození dokumentů.
Další informace o formátu Office Open XML naleznete v návrhu Office Open XML v1.0 na webu organizace Ecma International:
http://www.ecma-international.org/news/TC45_current_work/TC45-2006-50_final_draft.htm
Navíc lze navštívit také web OpenXMLDeveloper.org:
http://openxmldeveloper.org
Formáty Office Open XML používají k uložení informací o souboru Office Open XML na disk pravidla OPC (Open Packaging Convention). Další informace o tom, jak jsou pravidla OPC použita ve formátu Office Open XML, najdete v návrhu Office Open XML v1.0 v části 2 s názvem Open Packaging Conventions.

Rozhraní API (Application Programming Interface) systému Office

Binární formáty souborů systému Office jsou navrženy tak, aby k nim namísto přímé manipulace s formátem souborů bylo možné přistupovat pomocí rozhraní API (Application Programming Interface) systému Office. Vzhledem ke složitosti těchto formátů může přímá manipulace způsobit poškození a důrazně se nedoporučuje.

Další informace o rozhraních API systému Office naleznete na následujícím webu společnosti Microsoft:
http://msdn2.microsoft.com/en-us/library/aa165081(office.10).aspx
Binární formáty souborů systému Office 97–2003 používají rozhraní API Windows Structured Storage (Strukturované úložiště systému Windows). Informace specifické pro systém Office jsou v tomto obecnějším formátu uloženy jako proudy. K běžným prvkům, například k vlastnostem dokumentů, lze přistupovat pomocí rozhraní API Structured Storage a přitom není požadován přístup k dokumentaci binárních formátů souborů systému Office.

Další informace o rozhraní API Windows Structured Storage naleznete na následujícím webu společnosti Microsoft:
http://msdn2.microsoft.com/en-us/library/aa380369.aspx
Binární formát aplikace Microsoft Excel 2007 (XLSB) uchovává binární záznamy. Tento formát používá stejné dílčí a balíčkovací technologie jako formát SpreadsheetML. Formát SpreadsheetML je součástí formátu Office Open XML.

Důležité: Přímé čtení nebo manipulace se strukturou může způsobit poškození a důrazně se nedoporučuje.

Formát XML

Jazyk XML je metajazyk (jazyk pro definici značkovacích jazyků) založený na prostém textu v kódování Unicode. Formát XML není svázán s žádným programovacím jazykem, operačním systémem nebo dodavatelem softwaru. Formát XML poskytuje přístup k nepřebernému množství technologií sloužících k manipulaci s daty, k jejich strukturování, transformaci i k dotazování. Spolu s rostoucím použitím formátu XML existuje nyní všeobecná shoda, že formát XML není užitečný pouze k popisu nových formátů dokumentů, ale je vhodný také pro popis strukturovaných dat. Příklady strukturovaných dat zahrnují informace, které jsou v typickém případě obsaženy v tabulkách, konfiguračních souborech programů a síťových protokolech.

Systém Microsoft Office obsahuje podporu schémat XML. Společnost Microsoft udržuje licenční program pro určitá schémata XML systému Office.

Další informace o schématech XML systému Office naleznete na následujícím webu společnosti Microsoft v článku Microsoft Office System and XML: Bringing XML to the Desktop (Systém Microsoft Office a formát XML: přenesení formátu XML na osobní počítač):
http://msdn2.microsoft.com/en-us/library/aa159914(office.11).aspx

Formát RTF (Rich Text Format)

Specifikace formátu RTF (Rich Text Format) je metoda kódování formátovaného textu a grafiky sloužící pro snadný přenos mezi aplikacemi. Specifikace formátu RTF poskytuje formát pro výměnu textu a grafiky, který může být použit různými výstupními zařízeními, operačními prostředími a operačními systémy. Formát RTF používá pro řízení reprezentace a formátování dokumentu na obrazovce počítače i ve vytištěné podobě znakovou sadu ANSI (American National Standards Institute), PC-8, Macintosh nebo IBM PC. Specifikace formátu RTF umožňuje, aby dokumenty vytvořené v prostředí různých operačních systémů a pomocí různých aplikací byly přenášeny mezi těmito operačními systémy a aplikacemi.

Další informace o tom, jak napsat nebo implementovat vzorový nástroj pro čtení formátu RTF, naleznete na následujícím webu společnosti Microsoft, když do pole Prohledat knihovnu MSDN zadáte řetězec RTF Reader (Nástroj pro čtení formátu RTF).
http://msdn.microsoft.com

Schéma XML Visio

Díky dokumentaci společnosti Microsoft a zdarma dostupné licenci mohou zákazníci a partneři využít toto schéma XML ve svém nástroji pro tvorbu diagramů a vizualizaci dat. Dostupnost schématu Visio poskytuje úplný a se standardy sdružení W3C kompatibilní popis formátu souboru Visio XML (Extensible Markup Language). Umožňuje tak organizacím přistupovat k informacím vyjmutých z diagramů aplikace Visio a používat je v jiných programech schopných zpracovávat jazyk XML, jako jsou systémy CRM (řízení vztahů se zákazníky) a ERP (plánování podnikových zdrojů). Tyto informace se tak mohou stát součástí obchodních procesů. Další informace včetně souborů ke stažení naleznete na následujícím webu společnosti Microsoft:
http://www.microsoft.com/downloads/details.aspx?FamilyID=fe118952-3547-420a-a412-00a2662442d9

Formát HTML

Soubory ve formátu HTML jsou textové soubory, které obsahují informace zobrazované uživateli a značky s informacemi o formátování, které určují způsob zobrazení. Formát HTML lze použít pro ukládání, distribuci a prezentaci dokumentů a dat systému Office ve formátu, který lze zobrazit pomocí většiny webových prohlížečů. Přitom zůstane zachován plný obsah i funkčnost dokumentů systému Office.

Poznámka: V případě aplikace Microsoft Excel 2007 formát HTML nezachová funkce specifické pro tuto aplikaci. Formát HTML také v případě, že sešit uložíte jako formát HTML, nepodporuje nebo nezobrazuje všechny funkce aplikace Excel 2007.

Další informace o úpravách formátu HTML naleznete na následujícím webu společnosti Microsoft:
http://msdn2.microsoft.com/en-us/library/aa730778(vs.71).aspx
Další informace o práci s kódem a formátem HTML a zdrojové soubory naleznete na následujícím webu společnosti Microsoft:
http://msdn2.microsoft.com/en-us/library/efc4xwkb(vs.71).aspx

Program Royalty-Free File Format (formát souborů nevyžadující licenční poplatky)

Binární formáty souborů systému Microsoft Office

Společnost Microsoft zpřístupnila zdarma specifikace svých binárních formátů souborů DOC, XLS, XLSB a PPT, aby tak každý zájemce mohl bez obav ze žaloby implementovat veškeré součásti těchto specifikací ve svých produktech. Implementace zahrnuje možnost použít dokumentaci specifikace pro analytické a soudní účely.

V rámci tohoto programu je dostupný také formát souborů aplikace Microsoft Office Drawing 2007 a jazyka VBA (Visual Basic for Applications) 2007. Dokumentace pokrývající specifikace binárních formátů souborů je kumulativní a zahrnuje většinu nejnovějších forem formátů binárních souborů i jejich starší verze.

Specifikace binárních formátů systému Microsoft Office jsou k dispozici v rámci programu Open Specification Promise. Dokumentaci získáte na následujícím webu společnosti Microsoft:
http://www.microsoft.com/interop/docs/officebinaryformats.mspx

Vlastnosti

ID článku: 840817 - Poslední aktualizace: 14. dubna 2008 - Revize: 8.0
Informace v tomto článku jsou určeny pro produkt:
  • Microsoft Office Excel 2007
  • Microsoft Office Excel 2003
  • Microsoft Excel 2002 Standard Edition
  • Microsoft Excel 2000 Standard Edition
  • Microsoft Excel 97 Standard Edition
  • Microsoft Office PowerPoint 2007
  • Microsoft Office PowerPoint 2003
  • Microsoft PowerPoint 2002 Standard Edition
  • Microsoft PowerPoint 2000 Standard Edition
  • Microsoft PowerPoint 97 Standard Edition
  • Microsoft Office Word 2007
  • Microsoft Office Word 2003
  • Microsoft Word 2002 Standard Edition
  • Microsoft Word 2000 Standard Edition
  • Microsoft Word 97 Standard Edition
Klíčová slova: 
kbhowto kbexpertiseinter kbinfo KB840817

Dejte nám zpětnou vazbu

 

Contact us for more help

Contact us for more help
Connect with Answer Desk for expert help.
Get more support from smallbusiness.support.microsoft.com