Cómo extraer información de archivos de Office mediante el uso de esquemas y formatos de archivo de Office

Resumen

Si tiene que extraer información de libros de Microsoft Excel, presentaciones de Microsoft PowerPoint o documentos de Microsoft Word, puede utilizar varios métodos. Estos métodos incluyen la API de programación llamadas, Office Open XML, XML, RTF o HTML. Si estos métodos no refieren a sus necesidades, puede ser elegible para participar de un programa de formato de archivo libre de regalías y recibir documentación técnica para determinados formatos de archivo binario de Microsoft Office.

INTRODUCCIÓN

Este artículo describe varias técnicas que están disponibles para extraer información de libros de Excel, presentaciones de PowerPoint y documentos de Word.

Más información

XML abierto de Office

Los formatos XML abiertos de Office están diseñados para que pueden crear y tener acceso a documentos XML abiertos de Office varias aplicaciones en múltiples plataformas. Utilizando el formato XML abierto de Office, puede manipular directamente el formato de archivo. No es necesario utilizar aplicaciones de Microsoft Office para crear o tener acceso a los archivos.

Ventajas de XML abierto de Office

  • Está abierto. XML abierto de Office abiertamente se licencia y documentado. Se refina en el proceso abierto de Ecma para que funcione a través de una amplia variedad de plataformas, aplicaciones y usos.
  • Es XML. XML abierto de Office es una tecnología estándar que muchas herramientas y aplicaciones de forma fácil y transparente sirve.
  • Con versiones anteriores es compatible e interoperable. Esto permite conservar los documentos en su forma original mientras se convierten a un formato abierto y moderno. Además, diferentes aplicaciones pueden utilizar el formato XML abierto de Office con resultados predecibles.
  • Funciona con lo que tiene a través de soporte para esquemas XML personalizado, actualizaciones gratuitas para las versiones existentes de Office y el soporte de funciones de accesibilidad importante para los trabajadores discapacitados.
  • Está preparado para el futuro. Con XML abierto de Office, puede utilizar todas las características de los programas de Microsoft Office 2007 para crear documentos. XML abierto de Office proporciona formas de subconjunto o ampliar estas características mientras mantiene la conformidad.
  • Puede ayudar a mejorar la seguridad. Aplicaciones y procedimientos de seguridad de TI más fácilmente pueden descubrir y corregir posibles problemas, mientras que los documentos son menos probable que se dañe.
Para obtener más información sobre el formato XML abierto de Office, lea el borrador de v1.0 de XML abierto de Office en el siguiente sitio Web de Ecma International:Además, visite el siguiente sitio OpenXMLDeveloper.org Web:Los formatos XML abiertos de Office utiliza las convenciones de empaquetado abierto para almacenar la información de archivo XML abiertos de Office en el disco. Para obtener más información acerca de las convenciones de empaquetado abierto utilizado por XML abierto de Office, consulte el borrador de v1.0 de XML abierto de Office, parte 2, "Open Packaging Conventions".

Interfaces de programación de aplicaciones (API) de Office

Formatos de archivo binario de Office están diseñados para tener acceso a través de las Interfaces de programación de aplicaciones de Office (API), en lugar de manipular directamente el formato de archivo. Debido a la complejidad de los formatos, manipulación directa puede causar daños y no se recomienda.

Para obtener más información acerca de las API de Office, visite el siguiente sitio Web de Microsoft:Los formatos de archivo binario de Office 97-2003 utilizan las API de almacenamiento estructurado de Windows. La información específica de Office se almacena como secuencias en este formato más generalizada. Elementos comunes, como las propiedades del documento, pueden tener acceso mediante las API de almacenamiento estructurado y no requieren acceso a la documentación de formato de archivo binario de Office.

Para obtener más información acerca de las API de almacenamiento estructurado de Windows, visite el siguiente sitio Web de Microsoft:El formato binario de Microsoft Excel 2007 (*.xlsb) almacena los registros binarios. Este formato usa la misma pieza y tecnologías de embalaje que se encuentran en SpreadsheetML. SpreadsheetML forma parte del formato XML abierto de Office.

Importante: Leer o manipular directamente la estructura puede causar daños y no se recomienda.

XML

XML es un metalenguaje de texto sin formato, basado en Unicode (un lenguaje para definir lenguajes de marcado). XML no está ligado a cualquier lenguaje de programación, sistema operativo o proveedor de software. XML proporciona acceso a un número inimaginable de tecnologías para manipular, estructurar, transformar y consultar datos. Dado que ha aumentado el uso de XML, es ahora generalmente aceptado que XML no sólo es útil para describir nuevos formatos de documentos para el Web, pero también es adecuado para describir datos estructurados. Ejemplos de datos estructurados incluyen información que normalmente se encuentra en las hojas de cálculo, archivos de configuración del programa y los protocolos de red.

Microsoft Office incluye compatibilidad para esquemas XML. Microsoft mantiene un programa de licencia para determinados esquemas XML de Office.

Para obtener más información acerca de los esquemas XML de Office, visite el siguiente sitio Web de Microsoft para ver la Microsoft Office System y XML: Traer XML al escritorio artículo:

Formato de texto enriquecido (RTF)

La especificación de formato de texto enriquecido (RTF) es un método de codificación de texto con formato y gráficos para transferir fácilmente entre programas. La especificación de RTF proporciona un formato para intercambio de texto y gráficos que puede utilizarse con distintos dispositivos de salida, entornos operativos y sistemas operativos. RTF utiliza el American National Standards Institute (ANSI), IBM PC, Macintosh o PC-8 caracteres se establece para controlar la representación y el formato de un documento, en la pantalla y en la impresión. Con la especificación de RTF, documentos que se crean en diferentes sistemas operativos y que se crean mediante programas de software diferentes pueden transferirse entre los sistemas operativos y los programas.

Para obtener más información acerca de cómo escribir o cómo implementar un lector RTF de ejemplo, visite el siguiente sitio Web de Microsoft y escriba en el cuadro de Búsqueda de MSDN para Lector de RTF :

Esquema XML de Visio

A través de la documentación de Microsoft y una licencia libre de regalías, clientes y asociados de negocios pueden aprovechar el esquema XML en su herramienta de visualización de datos y diagramas. La disponibilidad del esquema Visio proporciona una completa y compatible con W3C descripción del formato de archivo de lenguaje de marcado Extensible (XML) de Visio, permitiendo a las organizaciones acceder a la información capturada en sus diagramas de Visio y lo utiliza con otros programas habilitados para XML, como administración de relaciones de cliente (CRM) y enterprise resource planning sistemas (ERP), como parte de sus procesos de negocio. Para más información y descargar capacidades, visite el siguiente sitio Web de Microsoft:

HTML

Los archivos HTML son archivos de texto que incluyen la información que verán los usuarios, y etiquetas que especifican el formato de información acerca de cómo se presentará la información para mostrar los efectos. Puede utilizar HTML para almacenar, distribuir y presentar los datos y documentos de Office en un formato que puede verse mediante la mayoría de los exploradores Web conservando el rico contenido y la funcionalidad de los documentos de Office.

Nota: En Microsoft Excel 2007, el formato de archivo HTML no guardar las características específicas de Excel. Además, el código HTML formal no admite o representar todas las características de Excel 2007 al guardar un libro como HTML.

Para obtener más información acerca de cómo modificar el código HTML, visite el siguiente sitio Web de Microsoft:Para obtener más información acerca de cómo trabajar con código, HTML y archivos de recursos, visite el siguiente sitio Web de Microsoft:

Programas de formato de archivo libre de regalías

Formatos de archivo binario de Microsoft Office

Microsoft hace su .doc, .xls, .xlsb y las especificaciones de formato de archivo binario de .ppt disponibles bajo un pacto libre de regalías, no a demandar a toda persona que desee implementar todo o parte de estas especificaciones en sus productos. Implementación incluye la capacidad para utilizar la documentación de la especificación para el análisis y con fines forenses de referencia.

Formato de archivo de dibujo de Microsoft Office 2007 y Visual Basic para Aplicaciones (VBA) formato de archivo de 2007 están también disponibles en este programa. La documentación que cubre las especificaciones de formato de archivo binario es acumulativa y cubre el formulario más reciente de los formatos de archivos binarios, así como versiones anteriores.

Las especificaciones de formato de archivo binario de Office están disponibles en la promesa de especificaciones abiertas. Para obtener documentación, visite el siguiente sitio Web de Microsoft:
Propiedades

Id. de artículo: 840817 - Última revisión: 17 ene. 2017 - Revisión: 1

Comentarios