Cómo extraer información de los archivos de Office mediante formatos de archivo de Office y esquemas

Seleccione idioma Seleccione idioma
Id. de artículo: 840817 - Ver los productos a los que se aplica este artículo
Expandir todo | Contraer todo

En esta página

Resumen

Si tiene que extraer información de libros, presentaciones de Microsoft PowerPoint o documentos de Microsoft Word, puede utilizar varios métodos. Estos métodos incluyen API programación de llamadas, XML abiertos de Office, XML, RTF o HTML. Si estos métodos no solucionan sus necesidades, es posible que puede elegir para participar en un programa de formato de archivo libres de regalía y para recibir documentación técnica para determinados formatos de archivo binario de Microsoft Office.

INTRODUCCIÓN

En este artículo describe varias técnicas que están disponibles para extraer información de libros de Excel, presentaciones de PowerPoint y documentos de Word.

Más información

XML abierto de Office

Los formatos XML abiertos de Office están diseñados de forma que varias aplicaciones en múltiples plataformas pueden crear y tener acceso a documentos XML abiertos de Office. Utilizando el formato XML abierto de Office, puede manipular directamente el formato de archivo. No es necesario utilizar aplicaciones de Microsoft Office para crear o tener acceso a los archivos.

Ventajas de XML abierto de Office

  • Está abierto. XML abierto de Office se licencia sincero y está documentada. Es refinado en el proceso abierto de ECMA para que funcione a través de una amplia variedad de plataformas, aplicaciones y usos.
  • Es XML. XML abierto de Office es una tecnología estándar que muchas herramientas y las aplicaciones pueden fácilmente y utilizan de forma transparente.
  • Es de retroceso interoperable y compatible. Esto permite conservar documentos en su forma original mientras se convierten en un formato abierto, moderno. Además, las diferentes aplicaciones pueden utilizar el formato XML abierto de Office con resultados predecibles.
  • Funciona con lo que tenga a través de soporte técnico de esquema XML personalizado, mediante actualizaciones libres para las versiones existentes de Office y a través de compatibilidad de funciones de accesibilidad importante para los trabajadores deshabilitados.
  • Está listo para el futuro. Con XML abierto de Office, puede utilizar todas las características en los programas de Microsoft Office 2007 para crear documentos. XML abierto de Office proporciona formas de subconjunto o ampliar estas características mientras mantiene la conformidad.
  • Puede ayudar a mejorar la seguridad. Procedimientos de seguridad de TI y aplicaciones más fácilmente detectar y corregir posibles problemas, mientras haya documentos menos probable que esté dañado.
Para obtener más información sobre el formato XML abierto de Office, consulte el borrador de v1.0 de XML abierto de Office en el siguiente sitio Web de ECMA International:
http://www.ecma-international.org/news/TC45_current_work/TC45-2006-50_final_draft.htm
Además, puede visitar el siguiente sitio Web de OpenXMLDeveloper.org:
http://openxmldeveloper.org
Los formatos XML abiertos de Office, se utilizan las convenciones de empaquetado abierto para almacenar la información del archivo XML abiertos de Office en el disco. Para obtener más información acerca de las convenciones de empaquetado abierto como se utiliza por XML abiertos de Office, consulte el borrador de v1.0 de XML abierto de Office, parte 2, "Convenciones de empaquetado abierto".

Interfaces de programación de aplicaciones (API) de Office

Formatos de archivo binario de Office están diseñados para tener acceso a través de las interfaces de programación de Office aplicaciones (API), en lugar de manipulación directa del formato de archivo. Debido a la complejidad de los formatos, manipulación directa puede dañar y está totalmente desaconsejado.

Para obtener más información sobre las API de Office, visite el siguiente sitio Web de Microsoft:
http://msdn2.microsoft.com/en-us/library/aa165081(office.10).aspx
Los formatos de archivo binario de Office 97-2003 utilizan el almacenamiento estructurado Windows API. La información específica de Office se almacena como secuencias en este formato más generalizada. Elementos comunes, como por ejemplo las propiedades del documento, se pueden obtener acceso a mediante las API de almacenamiento estructurado y no requieren acceso a la documentación de formato de archivo binario de Office.

Para obtener más información sobre las API de almacenamiento estructurado de Windows, visite el siguiente sitio Web de Microsoft:
http://msdn2.microsoft.com/en-us/library/aa380369.aspx
El formato binario de Microsoft Excel 2007 (*.xlsb) almacena los registros binarios. Este formato utiliza la misma parte y tecnologías de embalaje que se encuentran en SpreadsheetML. SpreadsheetML forma parte del formato XML abierto de Office.

importante Leer o manipular directamente la estructura puede causar daños y está totalmente desaconsejado.

XML

XML es un metalenguaje de texto sin formato, basado en Unicode (un lenguaje para definir lenguajes de marcado). XML no está vinculado a cualquier lenguaje de programación, sistema operativo o proveedor de software. XML proporciona acceso a un número inimaginable de tecnologías para manipular, estructurar, transformar y consultar datos. Como el uso de XML ha crecido, ahora se acepta normalmente que XML no sólo es útil para describir nuevos formatos de documento para el Web, pero también es adecuado para describir datos estructurados. Algunos ejemplos de datos estructurados son información que normalmente se encuentra en las hojas de cálculo, archivos de configuración de programa y los protocolos de red.

Microsoft Office incluye compatibilidad para esquemas XML. Microsoft mantiene un programa de licencias para determinados XML de Office esquemas.

Para obtener información acerca de esquemas XML de Office, visite el siguiente sitio Web para ver el Microsoft Office System y XML: incorporación de XML para el escritorio artículo:
http://msdn2.microsoft.com/en-us/library/aa159914(office.11).aspx

Formato de texto enriquecido (RTF)

La especificación de formato de texto enriquecido (RTF) es un método de codificación de texto con formato y gráficos para transferir fácilmente entre programas. El código RTF especificación proporciona un formato para intercambio de texto y gráficos que puede utilizarse con distintos dispositivos de salida, entornos operativos y sistemas operativos. RTF utiliza el American National Standards Institute (ANSI), juego de caracteres PC-8, Macintosh o PC de IBM para controlar la representación y el formato de un documento, en la pantalla y en la impresión. Con el código RTF especificación, documentos que se crean en diferentes sistemas operativos y se crean mediante programas pueden transferirse entre los sistemas operativos y los programas de software diferente.

Para obtener más información acerca de cómo escribir o cómo implementar un lector RTF de ejemplo, visite el siguiente sitio Web y, a continuación, escriba Lector de RTF en el cuadro Buscar MSDN para :
http://msdn.microsoft.com

Esquema XML de Visio

A través de la documentación de Microsoft y una licencia libre de regalías, clientes y socios pueden sacar partido del esquema XML en su herramienta de visualización de datos y diagramas. La disponibilidad del esquema Visio proporciona una completa y su descripción compatible con el W3C del formato de archivo de lenguaje de marcado extensible (XML) de Visio, permite que organizaciones acceso información capturada en su Visio diagramas y utiliza con otros programas habilitados para XML, como administración de relación de cliente (CRM) y sistemas de planeamiento (ERP) de recursos de empresa, como parte de sus procesos empresariales. Para obtener más información y descargar capacidades, visite el siguiente sitio Web:
http://www.microsoft.com/downloads/details.aspx?FamilyID=fe118952-3547-420a-a412-00a2662442d9

HTML

Archivos HTML son archivos de texto que incluyen la información que verán los usuarios y etiquetas que especifique información de formato acerca de cómo se presentará la información para mostrar fines. Puede utilizar HTML para almacenar, distribuir y presentar documentos de Office y datos en un formato que se puede ver utilizando la mayoría de los exploradores de Web conservando el contenido enriquecido y la funcionalidad de documentos de Office.

Nota En Microsoft Excel 2007, el formato de archivo HTML no guarda las características específicas de Excel. Además, el código HTML formal no admite o representar todas las características de Excel 2007, cuando guarda un libro como HTML.

Para obtener más información acerca de cómo modificar el código HTML, visite el siguiente sitio Web de Microsoft:
http://msdn2.microsoft.com/en-us/library/aa730778(vs.71).aspx
Para obtener más información acerca de cómo trabajar con código, HTML y archivos de recursos, visite el siguiente sitio Web de Microsoft:
http://msdn2.microsoft.com/en-us/library/efc4xwkb(vs.71).aspx

Programas de formato de archivo libre de regalías

Formatos de archivo binario de Microsoft Office

Microsoft pone a disposición en un covenant libre de regalías para no de Susana a cualquier persona que desea implementar todo o parte de estas especificaciones en sus productos su .doc, .xls, .xlsb y especificaciones de formato de archivo binario de .ppt. Implementación incluye la posibilidad de utilizar la documentación de especificación para el análisis y con fines forenses de referencia.

Formato de archivo de dibujo de Microsoft Office para 2007 y Visual Basic para aplicaciones (VBA) formato de archivo para 2007 también están disponibles en este programa. La documentación que cubre las especificaciones de formato de archivo binario es acumulativa y cubre el formulario más reciente de formatos de archivo binario, así como las versiones anteriores.

Especificaciones de formato de archivo binario de Office están disponibles en la promesa de especificaciones abiertas. Para obtener documentación, visite el siguiente sitio Web de Microsoft:
http://www.microsoft.com/interop/docs/officebinaryformats.mspx

Propiedades

Id. de artículo: 840817 - Última revisión: martes, 26 de febrero de 2008 - Versión: 8.1
La información de este artículo se refiere a:
  • Microsoft Office Excel 2007
  • Microsoft Office Excel 2003
  • Microsoft Excel 2002 Standard Edition
  • Microsoft Excel 2000 Standard Edition
  • Microsoft Excel 97 Standard Edition
  • Microsoft Office PowerPoint 2007
  • Microsoft Office PowerPoint 2003
  • Microsoft PowerPoint 2002 Standard Edition
  • Microsoft PowerPoint 2000 Standard Edition
  • Microsoft PowerPoint 97 Standard Edition
  • Microsoft Office Word 2007
  • Microsoft Office Word 2003
  • Microsoft Word 2002 Standard Edition
  • Microsoft Word 2000 Standard Edition
  • Microsoft Word 97 Standard Edition
Palabras clave: 
kbmt kbhowto kbexpertiseinter kbinfo KB840817 KbMtes
Traducción automática
IMPORTANTE: Este artículo ha sido traducido por un software de traducción automática de Microsoft (http://support.microsoft.com/gp/mtdetails) en lugar de un traductor humano. Microsoft le ofrece artículos traducidos por un traductor humano y artículos traducidos automáticamente para que tenga acceso en su propio idioma a todos los artículos de nuestra base de conocimientos (Knowledge Base). Sin embargo, los artículos traducidos automáticamente pueden contener errores en el vocabulario, la sintaxis o la gramática, como los que un extranjero podría cometer al hablar el idioma. Microsoft no se hace responsable de cualquier imprecisión, error o daño ocasionado por una mala traducción del contenido o como consecuencia de su utilización por nuestros clientes. Microsoft suele actualizar el software de traducción frecuentemente.
Haga clic aquí para ver el artículo original (en inglés): 840817

Enviar comentarios

 

Contact us for more help

Contact us for more help
Connect with Answer Desk for expert help.
Get more support from smallbusiness.support.microsoft.com