Extrahera information från Office-filer med hjälp av Office-filformat och Office-scheman

Sammanfattning

Om du måste extrahera information från Microsoft Excel-arbetsböcker, Microsoft PowerPoint-presentationer eller Microsoft Word-dokument kan du använda flera olika metoder, däribland API-programmeringsanrop, Office Open XML, XML, RTF eller HTML. Om dessa metoder inte räcker till för dina behov kan du ha rätt att delta i ett royaltyfritt filformatprogram och erhålla teknisk dokumentation om vissa binära filformat i Microsoft Office.

INLEDNING

I den här artikeln beskrivs olika metoder att extrahera information från Excel-arbetsböcker, PowerPoint-presentationer och Word-dokument.

Mer Information

Office Open XML

Office Open XML-formaten är utformade så att flera program på olika plattformar kan skapa och komma åt Office Open XML-dokument. Genom att använda Office Open XML-formatet kan du manipulera filformatet direkt, och du behöver inte använda Microsoft Office-program för att skapa eller komma åt filerna.

Fördelar med Office Open XML

 • Det är öppet. Office Open XML är öppet licensierat och dokumenterat. Det har utvecklats inom ramen för den öppna Ecma-processen och fungerar för en rad olika plattformar, program och användningsområden.
 • Det är XML. Office Open XML är en standardteknik som enkelt och transparent kan användas i många verktyg och program.
 • Det är bakåtkompatibelt och interoperabelt, vilket gör att du kan bevara dokument i deras ursprungliga form när de konverteras till ett öppet, modernt format. Dessutom kan Office Open XML-formatet användas i olika program med förutsägbara resultat.
 • Det fungerar med vad du har genom anpassat XML-schemastöd, genom kostnadsfria uppdateringar för befintliga versioner av Office och genom stöd för viktiga hjälpmedelsfunktioner för funktionshindrade användare.
 • Det är framtidssäkrat. Med Office Open XML kan du använda alla funktioner i Microsoft Office 2007-program för att skapa dokument. Office Open XML ger möjlighet att utnyttja en del av dessa funktioner eller utvidga dem, samtidigt som likformigheten bibehålls.
 • Det kan bidra till ökad säkerhet. Eventuella problem kan enklare upptäckas och åtgärdas genom procedurer och program för IT-säkerhet, samtidigt som risken för att dokument skadas minskar.
Mer information om Office Open XML-formatet finns i Office Open XML v1.0-utkastet på följande Ecma International-webbplats: Besök också följande OpenXMLDeveloper.org-webbplats: I Office Open XML-formaten används Open Packaging-konventionerna för lagring av Office Open XML-filinformation på disk. Mer information om Open Packaging-konventionerna som används i Office Open XML finns i Office Open XML v1.0-utkastet, del 2, "Open Packaging Conventions".

Office-API:er (Application Programming Interfaces)

De binära filformaten i Office är tillgängliga via Office-API:er (Office Application Programming Interfaces) i stället för genom direkt manipulation av filformatet. Direkt manipulation kan orsaka skador på grund av formatens komplexitet och rekommenderas inte.

Mer information om Office-API:erna finns på följande Microsoft-webbplats:I de binära filformaten för Office 97–2003 används Windows-API:er för strukturerad lagring. Den Office-specifika informationen lagras som strömmar i detta mer generaliserade format. Gemensamma element, som dokumentegenskaper, kan nås via API:erna för strukturerad lagring och kräver inte tillgång till dokumentationen om binära filformat för Office.

Mer information om API:erna för Windows Structured Storage finns på följande Microsoft-webbplats:I det binära filformatet för Microsoft Excel 2007 (*.xlsb) lagras binära poster. Samma del- och förpackningsteknik som i SpreadsheetML används i formatet. SpreadsheetML ingår i Office Open XML-formatet.

Viktigt! Direkt läsning eller manipulering av strukturen kan orsaka skador och bör inte användas.

XML

XML är ett oformaterat, Unicode-baserat metaspråk (ett språk för att definiera kodspråk) och är inte bundet till ett programmeringsspråk, ett operativsystem eller en programleverantör. XML ger tillgång till en mängd olika metoder för att manipulera, strukturera, transformera och söka efter data. Allt eftersom användningen av XML har ökat är det nu allmänt accepterat att XML inte bara är användbart för att beskriva nya dokumentformat för webben utan även kan användas för att beskriva strukturerade data. Exempel på strukturerade data är information som normalt ingår i kalkylblad, programkonfigurationsfiler och nätverksprotokoll.

I Microsoft Office ingår stöd för XML-scheman. Microsoft har ett licensieringsprogram för vissa XML-scheman för Office.

Om du vill veta mer om XML-scheman för Office kan du besöka följande Microsoft-webbplats och läsa artikeln Microsoft Office System and XML: Bringing XML to the Desktop:
Om du vill veta mer om licensprogrammet för XML-scheman för Office kan du besöka följande Microsoft-webbplats och läsa artikeln File Format and Standards Licensing Programs:

RTF (Rich Text Format)

RTF-specifikationen (Rich Text Format) är ett sätt att koda formaterad text och grafik för enkel överföring mellan olika program. Denna specifikation ger ett format för text- och grafikutbyte som kan användas i olika utmatningsenheter, driftmiljöer och operativsystem. I RTF används ANSI- (American National Standards Institute), PC-8-, Macintosh- eller IBM PC-teckenuppsättningen för att styra återgivning och formatering av dokument på bildskärmen och vid utskrift. Tack vare RTF-specifikationen kan dokument som skapas i olika operativsystem och med olika program överföras mellan operativsystemen och programmen.

Om du vill veta hur du skriver eller implementerar en RTF-läsare besöker du följande Microsoft-webbplats och skriver RTF Reader i rutan Search MSDN For:

XML-schema för Visio

Med hjälp av Microsoft-dokumentationen och en royaltyfri licens kan kunder och partner dra fördel av XML-schemat i verktyget för diagram och datavisualisering. Visio-schemat ger en fullständig och W3C-kompatibel beskrivning av Visios XML-filformat (Extensible Markup Language), vilket gör det möjligt för företag att komma åt information i Visio-diagram och använda informationen tillsammans med andra XML-program, till exempel system för kundvård och resursplanering, inom ramen för affärsprocesserna. Mer information och hämtningsmöjligheter finns på följande Microsoft-webbplats:

HTML

HTML-filer är textfiler med information som användarna ser och taggar som anger hur informationen ska visas. Du kan använda HTML för att lagra, distribuera och presentera Office-dokument och Office-data i ett format som kan visas i de flesta webbläsare, samtidigt som Office-dokumentens innehåll och funktioner bibehålls.

Obs! I Microsoft Excel 2007 sparas inte funktioner som är specifika för Excel i HTML-filformatet. Dessutom stöds eller återges inte alla funktioner i Excel 2007 när en arbetsbok sparas som HTML.

Mer information om redigering av HTML finns på följande Microsoft-webbplats:Mer information om arbete med kod, HTML och resursfiler finns på följande Microsoft-webbplats:

Royaltyfria filformatprogram

Binära filformat för Microsoft Office

Microsoft gör sina binära DOC-, XLS- och PPT-filformatsspecifikationer tillgängliga enligt ett royaltyfritt avtal om att inte stämma någon som helt eller delvis önskar implementera dessa specifikationer i sina produkter. I implementeringen ingår möjlighet att använda specifikationsdokumentationen för analys och rättsliga ändamål. Microsoft Office Drawing File-formatet för 2007 och VBA-filformatet (Visual Basic for Applications) för 2007 är också tillgängliga inom detta program. Om du vill erhålla dokumentationen kan du kontakta Microsoft på följande e-postadress för att inledda avtalsprocessen: Lämna följande information i ditt meddelande:
 • Vilka filformatspecifikationer du är intresserad av
 • Företagets eller myndighetens namn
 • Er e-postadress
 • Stad
 • Region
 • Postnummer
 • Land
 • Kontaktperson
 • Kontaktpersonens titel
 • Kontaktpersonens telefonnummer
Egenskaper

Artikel-id: 840817 – senaste granskning 21 feb. 2007 – revision: 1

Feedback