Információnyerés Office-fájlokból Office-fájlformátumok és -sémák használatával

A cikk fordítása A cikk fordítása
Cikk azonosítója: 840817 - A cikkben érintett termékek listájának megtekintése.
Az összes kibontása | Az összes összecsukása

A lap tartalma

Összefoglaló

A Microsoft Excel-munkafüzetekben, a Microsoft PowerPoint-előadásokban és a Microsoft Word-dokumentumokban található információk kinyerésére számos módszer alkalmazható, köztük az API-programhívások, az Office nyílt XML, az XML, az RTF és a HTML. Ha ezek a módszerek nem megfelelőek, egy jogdíjmentes fájlformátum-programban is részt vehet, amelynek keretében adott bináris Microsoft Office-fájlformátumokkal kapcsolatos műszaki dokumentációkhoz juthat hozzá.

BEVEZETÉS

A cikk az Excel-munkafüzetekben, a Microsoft PowerPoint-előadásokban és a Microsoft Word-dokumentumokban található információk kinyerésére szolgáló különböző módszereket ismerteti.

További információ

Office nyílt XML

Az Office nyílt XML formátumok lényege, hogy a különböző platformokon található eltérő alkalmazások is képesek létrehozni és elérni az ilyen típusú dokumentumokat. Ezzel a formátummal közvetlenül kezelheti a fájlformátumot, nincs szükség Microsoft Office-alkalmazásokra a fájlok létrehozásához és eléréséhez.

Az Office Open XML előnyei

  • Nyílt. Az Office Open XML egy nyílt licenccel és dokumentációval rendelkező formátum. Fejlesztése a nyílt Ecma-eljárás keretén belül történik, így számos platformon, programban és felhasználásban alkalmazható.
  • XML nyelvű. Az Office nyílt XML egy szabványos technológia, amelyet számos eszköz és alkalmazás képes egyszerűen és könnyen használni.
  • Visszamenőlegesen kompatibilis és együttműködésre képes. Ez lehetővé teszi a dokumentumok eredeti formájának megőrzését, miközben egy nyílt, korszerű formátumra alakítja át őket. Az Office nyílt XML formátumot emellett a különböző alkalmazások előre meghatározható eredménnyel használhatják.
  • Együttműködik az egyéni XML-sémák támogatása, az Office meglévő verzióinak ingyenes frissítései és a sérült embereket támogató fontos kisegítő lehetőségek támogatása révén beszerzett összetevőkkel.
  • Jövőbeli használatra kész. Az Office nyílt XML formátummal a 2007-es Microsoft Office-programok összes szolgáltatása használható. A formátum a konformitás megőrzése mellett különböző módokat kínál ezen szolgáltatások szűkítésére és bővítésére.
  • Hozzájárulhat a biztonság fokozásához. A számítógépes biztonsági eljárások és alkalmazások sokkal könnyebben felismerik és javítják az esetleges problémákat, miközben kisebb a dokumentumok sérülésének a veszélye.
Erről a formátumról bővebben az Office nyílt XML formátummal foglalkozó javaslat 1.0-s változatában tájékozódhat az Ecma International következő webhelyén:
http://www.ecma-international.org/news/TC45_current_work/TC45-2006-50_final_draft.htm
További információkat olvashat az OpenXMLDeveloper.org következő webhelyén:
http://openxmldeveloper.org
Az Office nyílt XML formátumok a kapcsolódó fájlinformációk lemezen történő tárolásához az Open Packaging Conventions szabványt használják. Erről a szabványról bővebben az Office nyílt XML formátummal foglalkozó javaslat 1.0-s változatának 2. részében olvashat.

Office alkalmazásprogramozási felületek (API-k)

Az Office bináris fájlformátumainak lényege, hogy a fájlformátum közvetlen kezelése nélkül elérhetőek legyenek az Office alkalmazásprogramozási felületein keresztül. A formátumok bonyolultsága miatt a közvetlen kezelés sérülést okozhat, ezért egyáltalán nem javasolt.

Az Office API felületekről a Microsoft következő webhelyén tájékozódhat:
http://msdn2.microsoft.com/hu-hu/library/aa165081(en-us,office.10).aspx
Az Office 97-2003 bináris fájlformátumai Windows strukturált tároló API felületeket használnak. Ebben az általánosabb formátumban az Office-specifikus információk adatfolyamként vannak tárolva. A szokásos elemek – például a dokumentumtulajdonságok – a strukturált tároló API felületeken keresztül érhetők el, és nincs szükség az Office bináris fájlformátum dokumentációjához való hozzáférésre.

A Windows strukturált tároló API felületeiről a Microsoft következő webhelyén tájékozódhat:
http://msdn2.microsoft.com/hu-hu/library/aa380369(en-us).aspx
A Microsoft Excel 2007 bináris formátuma (*.xlsb) bináris rekordokat tárol. Ez a formátum a SpreadsheetXML formátumban található rész- és csomagolási technológiákat alkalmazza. A SpreadsheetXML az Office nyílt XML formátum része.

Fontos: A struktúra közvetlen olvasása vagy kezelése sérülést okozhat, ezért egyáltalán nem javasolt.

XML

Az XML egy egyszerű szöveges, Unicode-alapú metanyelv (a jelölőnyelvek definiálására használatos nyelv). Egyetlen programozási nyelvhez, operációs rendszerhez, illetve szoftverforgalmazóhoz sem köthető. Ez a formátum számos adatkezelési, -strukturálási, -átalakítási és -lekérdezési technológiához biztosít hozzáférést. Az XML használatának egyre szélesebb körben való elterjedésével általánosan elfogadottá vált, hogy ez a formátum nemcsak az új webes dokumentumformátumok, hanem a strukturált adatok leírásához is hasznos. A strukturált adatok közé tartoznak például a munkafüzetekben, programkonfigurációs fájlokban és hálózati protokollokban tárolt információk.

A Microsoft Office támogatja az XML-sémákat. A Microsoft bizonyos XML-sémákhoz licencelési programot dolgozott ki.

Az Office XML-sémáiról a Microsoft következő webhelyén, az XML formátumnak a Microsoft Office rendszer asztalán történő használatával foglalkozó cikkben olvashat:
http://msdn2.microsoft.com/hu-hu/library/aa159914(en-us,office.11).aspx

Rich Text formátum (RTF)

A Rich Text formátum (RTF) a formázott szövegek és képek programok közötti egyszerű továbbítására szolgáló kódolási módszer. Az RTF szabvány a szövegek és képek cseréjéhez biztosít formátumot, amely különböző kimeneti eszközökön, működési környezetekben és operációs rendszereken alkalmazható. A szabvány a dokumentumok megjelenítési és nyomtatási formátumának ellenőrzéséhez ANSI, PC-8, Macintosh vagy IBM PC karakterkészletet használ. A szabvány révén a különböző operációs rendszereken és eltérő programokkal készített dokumentumok az adott rendszerek és programok között is továbbíthatók.

Azzal kapcsolatban, hogy hogyan írhat meg és implementálhat egy minta RTF-olvasót, látogasson el a Microsoft következő webhelyére, majd írja be az RTF Reader (RTF-olvasó) szöveget a Search MSDN For (Keresés az MSDN webhelyen) mezőbe:
http://msdn.microsoft.com

Visio XML-séma

A Microsoft-dokumentáció és a jogdíjmentes licenc révén az ügyfelek és a partnerek diagramkészítő és adatmegjelenítő eszközeikben kihasználhatják az XML-séma előnyeit. A Visio-séma a Visio Extensible Markup Language (XML) fájlformátum teljes, W3C szabványnak megfelelő leírását tartalmazza, lehetővé téve a szervezetek számára üzleti folyamataik részeként a Visio-diagramokban szereplő információk elérését, valamint azok más XML-kompatibilis programokkal – például az ügyfélkapcsolat-kezelési (CRM) és a vállalati erőforrás-tervezési (ERP) rendszerekkel – való használatát. A formátumról és a letöltési lehetőségekről a Microsoft következő webhelyén tájékozódhat:
http://www.microsoft.com/downloads/details.aspx?FamilyID=fe118952-3547-420a-a412-00a2662442d9

HTML

A HTML-fájlok olyan szövegfájlok, amelyek a felhasználó számára megjelenített információkat, valamint a megjelenítéssel kapcsolatos formázási adatokat definiáló címkéket tartalmaznak. A HTML formátum az Office-dokumentumok és -adatok olyan formátumban történő tárolására, terjesztésére és bemutatására használható, amely a legtöbb webböngészőben megjeleníthető, miközben megőrizhető az Office-dokumentumok gazdag tartalma és funkcionalitása.

Megjegyzés: A Microsoft Excel 2007 alkalmazásban a HTML fájlformátum nem menti az Excelre jellemző szolgáltatásokat, és nem támogatja, illetve értelmezi az Excel 2007 összes szolgáltatását a munkafüzetek HTML formátumban történő mentésekor.

A HTML szerkesztéséről a Microsoft következő webhelyén tájékozódhat:
http://msdn2.microsoft.com/hu-hu/library/aa730778(en-us,vs.71).aspx
A kódok, a HTML-dokumentumok és a forásfájlok használatáról a Microsoft következő webhelyén olvashat:
http://msdn2.microsoft.com/hu-hu/library/efc4xwkb(en-us,vs.71).aspx

Jogdíjmentes fájlformátum-programok

Bináris Microsoft Office-fájlformátumok

A Microsoft saját bináris .doc, .xls, .xlsb és .ppt fájlformátumainak specifikációit egy jogdíjmentes megállapodás keretében elérhetővé teszi, jogi következmények nélkül rendelkezésére bocsátva bárkinek, aki ezen specifikációkat termékeiben részben vagy teljes egészében implementálni szeretné. Az implementálás a specifikáció elemzésre, illetve bírósági referenciaként történő felhasználását jelenti.

A program részeként a Microsoft Office Drawing File Format for 2007 és a Visual Basic for Applications (VBA) File Format for 2007 formátum is elérhető. A bináris fájlformátumok specifikációit tartalmazó dokumentáció összegző jellegű, és a bináris formátumok legújabb, valamint korábbi verzióit is tárgyalja.

Az Office bináris fájlformátumainak specifikációi az Open Specification Promise megállapodás keretén belül érhetők el. A dokumentáció a Microsoft következő webhelyén tekinthető meg:
http://www.microsoft.com/interop/docs/officebinaryformats.mspx

Tulajdonságok

Cikk azonosítója: 840817 - Utolsó ellenőrzés: 2008. március 27. - Verziószám: 8.0
A cikkben található információ a következő(k)re vonatkozik:
  • Microsoft Office Excel 2007
  • Microsoft Office Excel 2003
  • Microsoft Excel 2002 Standard Edition
  • Microsoft Excel 2000 Standard Edition
  • Microsoft Excel 97 Standard Edition
  • Microsoft Office PowerPoint 2007
  • Microsoft Office PowerPoint 2003
  • Microsoft PowerPoint 2002 Standard Edition
  • Microsoft PowerPoint 2000 Standard Edition
  • Microsoft PowerPoint 97 Standard Edition
  • Microsoft Office Word 2007
  • Microsoft Office Word 2003
  • Microsoft Word 2002 Standard Edition
  • Microsoft Word 2000 Standard Edition
  • Microsoft Word 97 Standard Edition
Kulcsszavak: 
kbhowto kbinfo kbexpertiseinter KB840817
A Microsoft tudásbázisban szolgáltatott információkat "az adott állapotban", bárminemű szavatosság vagy garancia nélkül biztosítjuk. A Microsoft kizár mindennemű, akár kifejezett, akár vélelmezett szavatosságot vagy garanciát, ideértve a forgalomképességre és az adott célra való alkalmasságra vonatkozó szavatosságot is. A Microsoft Corporation és annak beszállítói semmilyen körülmények között nem felelősek semminemű kárért, így a közvetlen, a közvetett, az üzleti haszon elmaradásából származó vagy speciális károkért, illetve a kár következményeként felmerülő költségek megtérítéséért, még abban az esetben sem, ha a Microsoft Corporationt vagy beszállítóit az ilyen károk bekövetkeztének lehetőségére figyelmeztették. Egyes államok joga nem teszi lehetővé bizonyos károkért a felelősség kizárását vagy korlátozását, ezért a fenti korlátozások az ön esetében esetleg nem alkalmazhatók.

Visszajelzés küldése

 

Contact us for more help

Contact us for more help
Connect with Answer Desk for expert help.
Get more support from smallbusiness.support.microsoft.com