Informatie over het extraheren van Office-bestanden met behulp van Office-bestandsindelingen en -schema 's

Samenvatting

Als u hebt om informatie te extraheren uit een Microsoft Excel-werkmappen, Microsoft PowerPoint-presentaties of Microsoft Word-documenten, kunt u op verschillende manieren. Deze methoden behoren API-aanroepen, Office Open XML, XML, RTF- of HTML-programmeren. Als deze methoden niet te voldoen blijken, komt u mogelijk in aanmerking voor deelname aan een Royalty-Free File Format Program en het ontvangen van technische documentatie voor bepaalde binaire bestandsindelingen van Microsoft Office.

INLEIDING

Dit artikel beschrijft verschillende technieken beschikbaar zijn voor het extraheren van gegevens uit Excel-werkmappen, PowerPoint-presentaties en Word-documenten.

Meer informatie

Office Open XML

De Office Open XML-indelingen zijn zodanig ontworpen dat meerdere toepassingen op meerdere platforms kunnen maken en gebruiken van Office Open XML-documenten. Met behulp van de Office Open XML-indeling, kunt u de bestandsindeling rechtstreeks manipuleren. Er geen gebruik van Microsoft Office-toepassingen te maken of om de toegang tot de bestanden.

Voordelen van Office Open XML

  • Het is geopend. Office Open XML is openlijk in licentie gegeven en gedocumenteerd. Het is gespecificeerd in het open Ecma-proces zodat het werkt in een groot aantal platforms, toepassingen en het gebruik.
  • XML is. Office Open XML is een standaardtechnologie waarvan veel hulpprogramma's en toepassingen kunnen eenvoudige en transparante wijze gebruiken.
  • Het is achterwaarts compatibel en interoperabel. Hiermee kunt u documenten in hun oorspronkelijke vorm behouden terwijl ze toch geconverteerd naar een open en moderne indeling. Daarnaast kunnen verschillende toepassingen de Office Open XML-indeling gebruiken met voorspelbare resultaten.
  • Het werkt met wat u aangepaste XML-schema-ondersteuning, gratis updates van bestaande versies van Office en ondersteuning van belangrijke toegankelijkheidsfuncties voor gehandicapte werknemers hebt.
  • Het is klaar voor de toekomst. Met Office Open XML, kunt u alle functies in het 2007 Microsoft Office-programma's kunt u documenten maken. Office Open XML biedt manieren om een subset of deze functies uitgebreid met behoud van conformiteit.
  • Deze kunt beveiliging verbeteren. IT-beveiligingsprocedures en -toepassingen kunnen eenvoudig ontdekken en oplossen van potentiële problemen, terwijl documenten minder waarschijnlijk beschadigd.
Lees voor meer informatie over de Office Open XML-indeling, het Office Open XML v1.0-concept op de volgende website van Ecma International:Bovendien gaat u naar de volgende website van OpenXMLDeveloper.org:De Office Open XML-indelingen gebruiken de Open Packaging Conventions om de Office Open XML-gegevens opslaan op schijf Zie de Office Open XML v1.0-concept, deel 2, 'Open Packaging Conventions' voor meer informatie over de Open Packaging Conventions zoals gebruikt in Office Open XML.

Office Application Programming Interfaces (API's)

Binaire bestandsindelingen van Office zijn ontworpen om te worden benaderd via Office Application Programming Interfaces (API's), in plaats van rechtstreekse manipulatie van de bestandsindeling. Vanwege de complexiteit van de indelingen rechtstreekse manipulatie kan leiden tot beschadiging en wordt sterk afgeraden.

Voor meer informatie over de Office API's, gaat u naar de volgende Microsoft-website:De binaire bestandsindelingen van Office 97-2003 gebruiken de Windows Structured Storage API's. De Office-specifieke informatie wordt opgeslagen als een stroom in deze meer algemene indeling. Gemeenschappelijke elementen, zoals documenteigenschappen, kunnen worden geopend via de Structured Storage API's en vereisen geen toegang tot de documentatie van Office binair bestandsindeling.

Voor meer informatie over de Windows Structured Storage API's, gaat u naar de volgende Microsoft-website:De binaire indeling van Microsoft Excel 2007 (*.xlsb) slaat binaire records op. Deze indeling gebruikt dezelfde onderdeel- en packaging-technologieën die zijn gevonden in SpreadsheetML. SpreadsheetML maakt deel uit van de Office Open XML-indeling.

Belangrijk Lezen of manipuleren van de structuur rechtstreeks kan leiden tot beschadiging en wordt sterk afgeraden.

XML

XML is een metataal tekst zonder opmaak, op Unicode zijn gebaseerd (een taal om opmaaktalen te definiëren). XML is niet gebonden aan een willekeurige programmeertaal, besturingssysteem of softwareleverancier. XML biedt toegang tot een breed spectrum van technologieën voor het manipuleren, structureren, transformeren en opvragen van gegevens. Als het gebruik van XML is gegroeid, is het nu algemeen geaccepteerd dat XML niet alleen nuttig voor het beschrijven van nieuwe documentformaten voor het Web, maar ook geschikt is voor het beschrijven van gestructureerde gegevens. Voorbeelden van gestructureerde gegevens bevatten informatie die doorgaans in spreadsheets, programmaconfiguratiebestanden en netwerkprotocollen.

Microsoft Office bevat ondersteuning voor XML-schema's. Microsoft onderhoudt een licentieprogramma voor bepaalde Office XML-schema's.

Ga naar de volgende Microsoft-website voor meer informatie over Office XML-schema's, de Microsoft Office System en XML: XML te brengen naar het bureaublad artikel:

Rich Text Format (RTF)

De Rich Text Format (RTF) specificatie is een methode voor het coderen van opgemaakte tekst en afbeeldingen voor eenvoudige overdracht tussen programma's. De RTF-specificatie biedt een opmaak voor het uitwisselen van tekst en afbeeldingen die met verschillende uitvoerapparaten, besturingsomgevingen en besturingssystemen kan worden gebruikt. RTF gebruikt de American National Standards Institute (ANSI), PC-8-, Macintosh- of IBM PC-tekenset voor de beschrijving en de opmaak van een document, zowel op het scherm en in afdrukken. Met de RTF-specificatie kunnen documenten die in verschillende besturingssystemen zijn gemaakt en die zijn gemaakt met behulp van verschillende programma's worden overgedragen tussen deze besturingssystemen en deze programma's.

Ga naar de volgende Microsoft-website voor meer informatie over het schrijven of implementeren van een programma voor het lezen en typt u RTF Reader in het vak Search MSDN For :

Visio XML-schema

Via de Microsoft-documentatie en een licentie vrij van royalty's, kunnen klanten en partners profiteren van het XML-schema in het hulpprogramma voor diagrammen en gegevens. De beschikbaarheid van het Visio-schema biedt een volledige en W3C compatibele beschrijving van de Visio Extensible Markup Language (XML)-indeling, waarmee organisaties toegang tot informatie in hun Visio-diagrammen zijn vastgelegd en wordt gebruikt met andere XML-programma's, zoals customer relationship management (CRM) en enterprise resource planning (ERP)-systemen, als onderdeel van hun bedrijfsprocessen. Ga voor meer informatie en downloadmogelijkheden naar de volgende Microsoft-website:

HTML-CODE

HTML-bestanden zijn tekstbestanden die de informatie bevatten die gebruikers zien en informatie weergegeven over hoe de gegevens worden weergegeven voor de opmaak opgegeven codes op het scherm. U kunt HTML-code opslaan, distribueren en aanbieden van Office-documenten en gegevens in een indeling die kan worden bekeken met behulp van de meeste webbrowsers behoud de volledige inhoud en functionaliteit van Office-documenten.

Opmerking In Microsoft Excel 2007 de bestandsindeling HTML-functies die specifiek voor Excel zijn niet opgeslagen. Ook de formele HTML-code niet ondersteuning of weergavemogelijkheden voor alle functies in Excel 2007 wanneer u een werkmap als HTML opslaat.

Ga naar de volgende Microsoft-website voor meer informatie over het bewerken van HTML-code:Ga naar de volgende Microsoft-website voor meer informatie over het werken met code, HTML en bronbestanden:

Royalty-Free File Format-programma 's

Binaire bestandsindelingen van Microsoft Office

Microsoft stelt de .doc, .xls, .xlsb en .ppt binaire specificaties beschikbaar onder een covenant vrij van royalty's niet te verrichten voor iedereen die wenst te implementeren of een deel van deze specificaties in hun producten. Implementatie omvat de mogelijkheid om de specificatiedocumentatie gebruiken voor analyse en gerechtelijke referentiedoeleinden.

Microsoft Office Drawing-bestandsindeling voor 2007 en Visual Basic for Applications (VBA)-bestandsindeling voor 2007 zijn eveneens beschikbaar onder dit programma. De documentatie het binaire bestandsspecificaties omvat is cumulatief en heeft betrekking op de meest recente vorm van de binaire bestandsindelingen als eerdere versies.

Specificaties van de binaire bestandsindeling Office zijn beschikbaar onder de Open Specification Promise. Als u de documentatie, gaat u naar de volgende Microsoft-website:
Eigenschappen

Artikel-id: 840817 - Laatst bijgewerkt: 14 feb. 2017 - Revisie: 2

Feedback