Extrahieren von Informationen aus Office-Dateien mithilfe von Office-Dateiformaten und -Schemas

SPRACHE AUSWÄHLEN SPRACHE AUSWÄHLEN
Artikel-ID: 840817 - Produkte anzeigen, auf die sich dieser Artikel bezieht
Dieser Artikel ist eine Übersetzung des folgenden englischsprachigen Artikels der Microsoft Knowledge Base:
840817 How to extract information from Office files by using Office file formats and schemas
Bitte beachten Sie: Bei diesem Artikel handelt es sich um eine Übersetzung aus dem Englischen. Es ist möglich, dass nachträgliche Änderungen bzw. Ergänzungen im englischen Originalartikel in dieser Übersetzung nicht berücksichtigt sind. Die in diesem Artikel enthaltenen Informationen basieren auf der/den englischsprachigen Produktversion(en). Die Richtigkeit dieser Informationen in Zusammenhang mit anderssprachigen Produktversionen wurde im Rahmen dieser Übersetzung nicht getestet. Microsoft stellt diese Informationen ohne Gewähr für Richtigkeit bzw. Funktionalität zur Verfügung und übernimmt auch keine Gewährleistung bezüglich der Vollständigkeit oder Richtigkeit der Übersetzung.
Alles erweitern | Alles schließen

Auf dieser Seite

Zusammenfassung

Wenn Sie Informationen aus Microsoft Excel-Arbeitsmappen, Microsoft PowerPoint-Präsentationen oder Microsoft Word-Dokumenten extrahieren müssen, stehen dafür diverse Methoden zur Verfügung. Zu diesen Methoden zählen API-Programmierungsaufrufe, Office Open XML, XML, RTF und HTML. Sollten diese Methoden Ihre Anforderungen nicht erfüllen, sind Sie eventuell berechtigt, an einem Programm für lizenzgebührenfreie Dateiformate teilzunehmen und technische Dokumentationen zu bestimmten Microsoft Office-Binärdateiformaten zu erhalten.

Einführung

Dieser Artikel beschreibt diverse Techniken, die zum Extrahieren von Informationen aus Excel-Arbeitsmappen, PowerPoint-Präsentationen und Word-Dokumenten zur Verfügung stehen.

Weitere Informationen

Office Open XML

Die Office Open XML-Formate wurden so entwickelt, dass viele Anwendungen auf diversen Plattformen Office Open XML-Dokumente erstellen und auf diese Art von Dokumenten zugreifen können. Wenn Sie das Office Open XML-Format verwenden, können Sie das Dateiformat direkt bestimmen. Sie müssen keine Microsoft Office-Anwendungen verwenden, um die Dateien zu erstellen oder auf diese zuzugreifen.

Vorteile von Office Open XML

  • Es handelt sich um ein offenes Format. Office Open XML ist offen lizenziert und dokumentiert. Es wird durch den offenen Ecma-Prozess weiter verbessert und ist daher für eine breite Palette von Plattformen und Anwendungen geeignet und bietet vielfältige Verwendungsmöglichkeiten.
  • XML-basiert. Office Open XML ist eine Standardtechnologie, die von vielen Tools und Anwendungen einfach und transparent genutzt werden kann.
  • Office Open XML ist abwärtskompatibel und interoperabel. Sie können Dokumente in ihrer ursprünglichen Form erhalten und sie gleichzeitig in ein modernes, offenes Format konvertieren. Außerdem können verschiedene Anwendungen das Office Open XML-Format mit vorhersagbaren Ergebnissen verwenden.
  • Das XML-Dateiformat bietet Unterstützung für ein spezielles XML-Schema, kostenlose Updates für vorhandene Versionen von Office und wichtige Eingabehilfen für Benutzer mit Behinderungen.
  • Es handelt sich um ein zukunftsfähiges Format. Mit Office Open XML können Sie alle Features in den 2007 Microsoft Office-Programmen nutzen, um Dokumente zu erstellen. Office Open XML bietet Möglichkeiten, nur einen Teil dieser Features zu übernehmen oder diese Features sogar noch zu erweitern, während die Konformität gewahrt bleibt.
  • Office Open XML kann die Sicherheit erhöhen. Prozeduren und Anwendungen im Bereich der IT-Sicherheit können potenzielle Probleme leichter erkennen und beheben, und die Wahrscheinlichkeit, dass Dokumente beschädigt werden, ist geringer.
Weitere Informationen zum Office Open XML-Format finden Sie in der Publikation zu der Version 1.0 von Office Open XML auf der folgenden Website von Ecma International:
http://www.ecma-international.org/news/TC45_current_work/TC45-2006-50_final_draft.htm
Besuchen Sie außerdem die folgende OpenXMLDeveloper.org-Website:
http://openxmldeveloper.org
Die Office Open XML-Formate wenden bei der Speicherung der Office Open XML-Dateiinformationen auf einem Datenträger die Open Packaging Conventions an. Weitere Informationen zu den Open Packaging Conventions, die bei Office Open XML zur Anwendung kommen, finden Sie in Teil 2 ("Open Packaging Conventions") der Ecma-Publikation zur Version 1.0 von Office Open XML.

Office-APIs (Application Programming Interfaces)

Office-Binärdateiformate sind auf den Zugriff über Office-APIs und nicht auf den Zugriff über direkte Änderungen des Dateiformats ausgelegt. Aufgrund der Komplexität der Formate können direkte Änderungen Dateien beschädigen, weswegen Microsoft ausdrücklich von solchen Änderungen abrät.

Weitere Informationen zu Office-APIs finden Sie auf folgender Website von Microsoft:
http://msdn2.microsoft.com/en-us/library/aa165081(office.10).aspx
Die Office-Binärdateiformate der Versionen 97-2003 verwenden die Windows-APIs für strukturierte Speicherung (Windows Structured Storage APIs). Die Office-spezifischen Informationen werden bei diesem eher allgemeinen Format in Form von Datenströmen gespeichert. Auf gebräuchliche Elemente, wie z. B. Dokumenteigenschaften, kann über die APIs für die strukturierte Speicherung zugegriffen werden; ein Zugriff auf die Dokumentation zu Office-Binärdateiformaten ist für diese Elemente daher nicht erforderlich.

Weitere Informationen zu Windows Structured Storage APIs finden Sie auf folgender Website von Microsoft:
http://msdn2.microsoft.com/en-us/library/aa380369.aspx
Das Microsoft Excel 2007-Binärformat (*.xlsb) speichert binäre Datensätze. Dieses Format verwendet die gleichen Parts- und Packaging-Technologien, die auch bei SpreadsheetML zur Anwendung kommen. SpreadsheetML ist Bestandteil des Office Open XML-Formats.

Wichtig: Es wird ausdrücklich davon abgeraten, die Struktur direkt zu lesen oder zu ändern, da dies zur Beschädigung von Daten führen kann.

XML

XML ist eine Nur-Text-, auf Unicode basierende Metasprache (eine Sprache zum Definieren sogenannter "Markup-Languages"). XML ist nicht an bestimmte Programmiersprachen, Betriebssysteme oder Softwareanbieter gebunden. XML ermöglicht den Zugriff auf zahlreiche Technologien zum Ändern, Strukturieren, Umwandeln und Abfragen von Daten. Da XML immer mehr an Bedeutung gewonnen hat, wird jetzt allgemein akzeptiert, dass XML nicht nur zur Beschreibung neuer Dokumentformate für das Web nützlich ist, sondern sich auch dafür eignet, strukturierte Daten zu beschreiben. Zu solchen strukturierten Daten zählen z. B. Informationen wie sie typischerweise in Kalkulationstabellen, Programmkonfigurationsdateien und Netzwerkprotokollen enthalten sind.

Microsoft Office unterstützt XML-Schemas. Microsoft betreibt zudem ein Lizenzierungsprogramm für bestimmte Office XML-Schemas.

Wenn Sie mehr über Office XML-Schemas erfahren möchten, besuchen Sie die folgende Microsoft-Website und lesen Sie dort den Artikel Microsoft Office System and XML: Bringing XML to the Desktop:
http://msdn2.microsoft.com/en-us/library/aa159914(office.11).aspx

Rich Text-Format (RTF)

Die RTF-Spezifikation stellt eine Methode dar, formatierten Text und Grafiken für den problemlosen Austausch zwischen Programmen zu kodieren. Die RTF-Spezifikation stellt ein Format für den Austausch von Text und Grafiken bereit, das in Verbindung mit verschiedenen Ausgabegeräten, Betriebsumgebungen und Betriebssystemen verwendet werden kann. RTF verwendet den ANSI (American National Standards Institute)-, PC-8-, Macintosh- oder IBM PC-Zeichensatz, um die Darstellung und das Format eines Dokuments sowohl auf dem Bildschirm als auch beim Druck zu steuern. Mit der RTF-Spezifikation können Dokumente, die in verschiedenen Betriebssystemen und mit unterschiedlichen Software-Anwendungen erstellt wurden, zwischen diesen Betriebssystemen und Anwendungen ausgetauscht werden.

Weitere Informationen zum Schreiben oder Implementieren eines RTF-Leseprogramms finden Sie auf der folgenden Microsoft-Website. Geben Sie dort RTF Reader in das Feld In MSDN suchen ein:
http://msdn.microsoft.com/de-de/default.aspx

Visio XML-Schema

Mithilfe der Microsoft-Dokumentation und einer gebührenfreien Lizenz können Kunden und Partner die Vorteile des XML-Schemas über das entsprechende Tool für Diagrammerstellung und Datenvisualisierung nutzen. Das Visio-Schema ermöglicht eine umfassende und der W3C-Norm entsprechende Beschreibung des Visio XML-Dateiformats (XML = Extensible Markup Language). Somit haben Organisationen die Möglichkeit, auf in ihren Visio-Diagrammen gespeicherte Informationen zuzugreifen und diese im Rahmen ihrer Unternehmensprozesse mit anderen XML-fähigen Programmen zu verwenden, zum Beispiel in CRM-Systemen (Customer Relationship Management) und ERP-Systemen (Enterprise Resource Planning). Weitere Informationen und Downloadmöglichkeiten finden Sie auf folgender Website von Microsoft:
http://www.microsoft.com/downloads/details.aspx?FamilyID=fe118952-3547-420a-a412-00a2662442d9

HTML

HTML-Dateien sind Textdateien, die sowohl für den Benutzer sichtbare Informationen als auch Tags zur Formatierung enthalten, die definieren, wie diese Informationen angezeigt werden. Mithilfe von HTML können Sie Office-Dokumente und -Daten in einem Format speichern, verteilen und präsentieren, das von den meisten Webbrowsern angezeigt werden kann, wobei Inhalt und Funktionalität der Office-Dokumente erhalten bleiben.

Hinweis: In Microsoft Excel 2007 speichert das HTML-Dateiformat keine Excel-spezifischen Features. Außerdem unterstützt oder rendert das HTML-Format nicht alle Features in Excel 2007, wenn Sie eine Arbeitsmappe im HTML-Format speichern.

Weitere Informationen zum Bearbeiten von HTML finden Sie auf folgender Website von Microsoft:
http://msdn2.microsoft.com/en-us/library/aa730778(vs.71).aspx
Weitere Informationen zum Arbeiten mit Code, HTML und Ressourcendateien finden Sie auf folgender Website von Microsoft:
http://msdn2.microsoft.com/en-us/library/efc4xwkb(vs.71).aspx

Programme für lizenzgebührenfreie Dateiformate

Microsoft Office-Binärdateiformate

Microsoft stellt seine Spezifikationen für die Binärdateiformate ".doc", ".xls", ".xlsb" und ".ppt" unter Verzicht auf die Geltendmachung von Patentansprüchen ("Covenant Not To Sue") lizenzgebührenfrei allen zur Verfügung, die diese Spezifikationen ganz oder teilweise in ihren Produkten implementieren möchten. Zu einer solchen Implementierung gehört auch die Möglichkeit, die Spezifikationsdokumentation für Analyse- und Referenzzwecke zu verwenden.

Das Microsoft Office-Zeichnungsdateiformat für 2007 und das VBA-Dateiformat (VBA = Visual Basic für Applikationen) für 2007 sind ebenfalls im Rahmen dieses Programms verfügbar. Die Dokumentation zu den Binärdateiformat-Spezifikationen ist kumulativ und deckt sowohl die aktuellen als auch frühere Versionen der Binärdateiformate ab.

Die Spezifikationen für Office-Binärdateiformate sind auch im Rahmen der Microsoft-Initiative "Open Specification Promise" verfügbar. Entsprechende Dokumentationsmaterialien stehen Ihnen auf folgender Microsoft-Website zur Verfügung:
http://www.microsoft.com/interop/docs/officebinaryformats.mspx

Eigenschaften

Artikel-ID: 840817 - Geändert am: Freitag, 30. Mai 2008 - Version: 8.1
Die Informationen in diesem Artikel beziehen sich auf:
  • Microsoft Office Excel 2007
  • Microsoft Office Excel 2003
  • Microsoft Excel 2002 Standard Edition
  • Microsoft Excel 2000 Standard Edition
  • Microsoft Excel 97 Standard Edition
  • Microsoft Office PowerPoint 2007
  • Microsoft Office PowerPoint 2003
  • Microsoft PowerPoint 2002 Standard Edition
  • Microsoft PowerPoint 2000 Standard Edition
  • Microsoft PowerPoint 97 Standard Edition
  • Microsoft Office Word 2007
  • Microsoft Office Word 2003
  • Microsoft Word 2002 Standard Edition
  • Microsoft Word 2000 Standard Edition
  • Microsoft Word 97 Standard Edition
Keywords: 
kbhowto kbexpertiseinter kbinfo KB840817
Microsoft stellt Ihnen die in der Knowledge Base angebotenen Artikel und Informationen als Service-Leistung zur Verfügung. Microsoft übernimmt keinerlei Gewährleistung dafür, dass die angebotenen Artikel und Informationen auch in Ihrer Einsatzumgebung die erwünschten Ergebnisse erzielen. Die Entscheidung darüber, ob und in welcher Form Sie die angebotenen Artikel und Informationen nutzen, liegt daher allein bei Ihnen. Mit Ausnahme der gesetzlichen Haftung für Vorsatz ist jede Haftung von Microsoft im Zusammenhang mit Ihrer Nutzung dieser Artikel oder Informationen ausgeschlossen.

Ihr Feedback an uns

 

Contact us for more help

Contact us for more help
Connect with Answer Desk for expert help.
Get more support from smallbusiness.support.microsoft.com