Grundlegendes zu Office-Binärdateiformaten (maschinell übersetzt)

Wichtig

Dieser Artikel wurde maschinell übersetzt. Bitte beachten Sie den Haftungsausschluss. Die englische Version des Artikels ist als Referenz hier verfügbar: here.

Zusammenfassung: Sie erfahren mehr über die in aktuellen und vorherigen Produktversionen von Microsoft Office verwendeten Binärdateiformaten, einschließlich der Verwendung, ihrer grundlegenden Struktur und der zentralen Konzepte für die programmgesteuerte Interaktion mit diesen Formaten.

Letzte Änderung: Montag, 9. März 2015

Gilt für: Excel 2010 | Office 2007 | Office 2010 | Office client | Open XML | PowerPoint 2010 | SharePoint Server 2010 | VBA | Word 2010

Inhalt dieses Artikels
Was die Binärdatei sind formatiert?
Welche Versionen von Microsoft Office verwenden binäre Datei-Format-Dateien?
Anzeigen von Inhalten in Microsoft Office-Datei Format–Based Binärdateien
Schlussbemerkung
Weitere Ressourcen

Veröffentlicht:   Februar 2011

Zur Verfügung gestellt von:  Microsoft Corporation

Inhalt

  • Was die Binärdatei sind formatiert?

  • Welche Versionen von Microsoft Office verwenden binäre Datei-Format-Dateien?

  • Anzeigen von Inhalten in Microsoft Office-Datei Format–Based Binärdateien

  • Erstellen benutzerdefinierte Binary File Format-Viewer

  • Office-Datei Format–Based Binärdateien bearbeiten

  • Schlussbemerkung

  • Weitere Ressourcen

Dieser Artikel ist der erste in einer Reihe von Artikeln, die die binären Dateiformaten wird von Microsoft Office Produkten vorstellen. In diesem ersten Artikel bietet einen Überblick über die im Allgemeinen für die Arbeit mit Microsoft Office binären Dateiformaten und erläutert einige der freigegebenen strukturelle Merkmale und Schlüsselkonzepte, die die verschiedenen Formate gemeinsam haben. Die anderen Artikel in der Serie bieten mehr Details über die einzelnen Dateiformate. Diese Artikel sollen verwendet werden, zusammen mit den Office File Format Documents auf MSDN verfügbar.

Dieser Artikel-Reihe befasst sich mit nur die vier Microsoft Office Produkte core: Microsoft Word, Microsoft PowerPoint, Microsoft Excel, und Microsoft Outlook.

Was die Binärdatei sind formatiert?

Ein binäres Dateiformat handelt es sich um jedes Dateiformat, das in erster Linie die Binärdaten enthält. Dazu gehören kompilierte Programme, Bilder, Medien, und die meisten komprimierte Dateien und Dateien, die Textinformationen enthalten können, aber als Binärdaten gespeichert werden. Die binären Dateiformaten von Microsoft Office Produkten verwendeten passt in dieser letzten Kategorie. Non-Binary-Formaten gehören Text (txt), HTML, XML und ihrer Derivate und interpretiert, Skripts und Quellcodedateien.

Alle Dateidaten in binären Dateiformaten Microsoft Office vorhanden ist, in einem oder mehreren Datenströmen. Jeder Stream enthält Datenstrukturen zum Speichern von Metadaten, wie z. B. Benutzer- und System-Informationen und Dateieigenschaften, Formatierungsinformationen, Textinhalt und Medien-Content. Diese Datenstrukturen werden als Gruppen von hexadezimalen Zahlen ausgedrückt, die das Programm Host interpretiert und über die Benutzeroberfläche präsentiert.

In der Zwischenzeit variiert die Organisation von Datenstrukturen in einen Stream. Die am häufigsten verwendete Dateneinheit ist ein Datensatz. Ein Datensatz enthält in der Regel einige Metadaten über die Datei in Form von Feldern und Flags. Dazu gehören die Versatzwerte um die Speicherorte der anderen einschlägigen Unterlagen oder andere Daten anzugeben. Text wird als numerische Werte gespeichert, die ANSI- oder Unicode-Zeichen darstellen. Bilder können als Verweise auf externe Dateien oder als eingebettete Bilder in ihren eigenen binären Dateiformaten, wie z. B. gif, JPEG oder PNG innerhalb der Datei gespeichert werden. Mehr aktiver Inhalte, z. B. PowerPoint Folienübergänge, sind markiert mit den Informationen, der für die Auslegung, wie z. B. die Übergangseigenschaften benötigt und dann vom Programm Host gerendert.

Die Datei Microsoft Word, Microsoft PowerPoint, Microsoft Excel und Microsoft Outlook verwendete Formaten alle, umfassend, in der MSDN-Bibliothek im folgenden Verzeichnis dokumentiert sind: Open Specifications/Data Portability/Microsoft Office File Formats/Microsoft Office File Format Documents. Von dort können Sie die vollständige Spezifikation für das Dateiformat, das direkt auf der MSDN-Website oder als PDF-Datei öffnen.

Welche Versionen von Microsoft Office verwenden binäre Datei-Format-Dateien?

In diesem Artikel beschriebenen Microsoft Office-Binärdateiformate werden in erster Linie von Microsoft Outlook, Microsoft Excel und früheren Versionen von Microsoft Word und Microsoft PowerPoint verwendet. Microsoft Office Word 2007 und Office PowerPoint 2007-XML-basierte Dateiformate als Standarddateiformat verwenden und Microsoft Excel 2010 verwendet eine neuere Binärformat. Die folgende Tabelle zeigt die Binärdatei Formatdateien, die für bestimmte Versionen von Word, Excel, PowerPoint und Outlook gelten.

Dateiformat

Anwendungsversion

MS-DOC

  • Microsoft Word 97

  • Microsoft Word 2000

  • Microsoft Word 2002

  • Microsoft Office Word 2003

MS-PPT

  • Microsoft PowerPoint 97

  • Microsoft PowerPoint 2000

  • Microsoft PowerPoint 2002

  • Microsoft Office PowerPoint 2003

MS-PST-DATEI

  • Microsoft Outlook 2000

  • Microsoft Outlook 2002

  • Microsoft Office Outlook 2003

  • Microsoft Office Outlook 2007

  • Microsoft Outlook 2010

MS-XLS

  • Microsoft Excel 97

  • Microsoft Excel 2000

  • Microsoft Excel 2002

  • Microsoft Office Excel 2003

MS-XLSB

  • Microsoft Office Excel 2007

Microsoft Office-Binärdatei-Format–based-Dateien werden auch von Unternehmen verwendet, die mit Microsoft Office-Dateien, arbeiten ohne die Verwendung der ursprünglichen Anwendung als Host. Einige der häufigeren Verwendungsmöglichkeiten außerhalb Microsoft gehören benutzerdefinierte Cross-Document-Such-Tools, die Wiederherstellung von Daten aus beschädigten Dateien oder zum Lesen und Schreiben für die Kompatibilität mit anderen Anwendungen.

Anzeigen von Inhalten in Microsoft Office-Datei Format–Based Binärdateien

Ist bei weitem die einfachste Möglichkeit zum Anzeigen einer Microsoft Office-Binärdatei, mit dem Host-Programm, das Sie erstellt. Z. B. durch Verwendung von Word, eine DOC-Datei oder die PowerPoint zum Anzeigen einer PPT-Datei anzuzeigen. Dieser Ansatz zeigt die Benutzeransicht des Inhalts, wie z. B. Text, Formatierung und allgemeinen Zustand der Benutzeroberfläche.

Erhalten Sie eine mehr strukturelle Bild einer binären Datei mit dem Office-Schnellansicht-Tool offvis.exe. Der folgende Link können Sie direkt mit diesem Tool aus dem Download Center herunterladen: https://download.microsoft.com/download/1/2/7/127BA59A-4FE1-englischer-BA47-513CEEF85A85/OffVis.zipbeim Laden von allen Microsoft Office-Binärdatei in der Schnellansicht, werden mit zwei Fensterbereichen angezeigt. Der Navigationsbereich zeigt den Inhalt der raw-Datei mit jeder Zeile mit aktuellen Offset, eine Kette von hexadezimalen Zahlen und deren Textdarstellung, sofern vorhanden. Im Ergebnisbereich werden die Analyseergebnisse, die den Namen des die aktuelle Datenstruktur, seinen Wert, Offset-Position, Größe und Typ umfassen. Der folgende Screenshot zeigt einen Teil einer DOC-Datei mit den Text "Hello, World" in der Schnellansicht. Der Buchstaben "w" ausgewählt ist. Dies bewirkt, dass die Schnellansicht, markieren Sie die entsprechende hexadezimale Zahl und die Datenstruktur.

Abbildung 1. HelloWorld.doc in offvis.exe dargestellt

Office Visualizer

Erstellen benutzerdefinierte Binary File Format-Viewer

Sie können eine benutzerdefinierte Anzeige erstellen, die Sie verwenden können, bestimmte Inhalte zielgerichtet oder als eine Möglichkeit, mit dem Dateiformat vertraut. Der Viewer hat, lesen die Daten zu streamen, interpretieren die Strukturen in it und navigieren die Offsets zu suchen, dass der Text und beliebige andere-, die Sie Content anzeigen möchten. Diese Datenstrukturen sind für jeden Dateityp unterschiedlich, aber in jedem Fall wird der Prozess ähnelt.

Auffinden von Content in binary File Format-basierten Dateien

  1. Lesen Sie den Dateistream.

  2. Identifizieren Sie die Struktur oder Strukturen, die den Inhalt enthalten können, den Sie suchen.

  3. Finden Sie in der ersten Struktur den Offset-Wert, der die Position des nächsten Abschnitts angibt, die Sie suchen.

  4. Gehen Sie zu diesem Abschnitt im Stream.

  5. Wiederholen Sie die vorherigen beiden Schritte, bis Sie den Inhalt suchen, den Sie möchten.

  6. Lesen Sie und alysieren Sie des Inhalts an.

Je nach Ihren Anforderungen kann dies weniger als hundert Zeilen Code für eine einfache Textextrahierung auf Millionen von Zeilen dauern, bis das ursprüngliche Host-Programm zu emulieren.

Office-Datei Format–Based Binärdateien bearbeiten

Im Allgemeinen sollten Sie niemals versuchen, eine binäre Microsoft Office-Datei direkt bearbeiten. Verwenden Sie stattdessen eine Speichern -Operation, entspricht dem, wie Sie ein Dokument an einen Drucker senden. Wenn Sie z. B. ein Word Dokument drucken, senden Sie nicht die ganze DOC-Datei an den Drucker zu rendern. Stattdessen erstellt Word einen Snapshot Ihres Dokuments, den Drucker-Spezifikationen formatiert. Der Drucker möglicherweise Logik zum Interpretieren von Schriftarten, aber die Layout-Informationen wird durch die sendende Anwendung verarbeitet.

Wenn Sie eine Datei in einem binären Format speichern, ebenso die Host-Anwendung übersetzt die Daten im Speicher in den angegebenen binären Format anzeigen und erstellt die Datei zu. Wenn bereits eine Datei mit demselben Namen vorhanden ist, wird Sie von die neue Datei überschrieben.

Dieser Ansatz hat mehrere Vorteile.

  • Ihre Anwendung kann speichern und bearbeiten den Inhalt der Datei in einem beliebigen Format, das Sie sich entscheiden, das ist viel einfacher als das Arbeiten mit binären Daten direkt.

  • Durch die ursprüngliche Binärdatei einmal in den Speicher zu lesen, und sofort Konvertieren der Daten in eine interne Darstellung, vermeiden Sie mehrere Verweise auf andere versetzte Positionen neu zu berechnen, die sich mit jedem bearbeiten ändern können.

  • Nachdem die Anwendung eine interne Darstellung der Datei im Arbeitsspeicher verfügt, kann diese Datei zu Speichern der Anwendung unterstützt formatiert werden.

  • Ihre Anwendung kann mithilfe einer freigegebenen internen Darstellung Logik, um mehrere Dateiformate zu lesen und dann auf die gleiche Weise mit ihnen arbeiten enthalten.

Also hat der Prozess der Bearbeitung einer binären Format-Datei wirklich drei Schritte.

So bearbeiten Sie eine binäre Datei Format-basierte Datei

  1. Lesen Sie die Datei in eine interne Darstellung.

  2. Bearbeiten Sie die interne Darstellung in Ihrer Anwendung.

  3. Speichern Sie die Darstellung in das Binärformat, mit dem gleichen Namen und Speicherort wie die Quelldatei.

Schlussbemerkung

Verständnis und Arbeiten mit binären Dateiformaten können eine Herausforderung sein. Durch das Kennenlernen der grundlegenden Strukturen und experimentieren mit einigen Verfahren in dieser Artikelserie, werden Sie hoffentlich mit vordringen in komplexere Implementierungen mit nichts anderes als das open Specification-Dokumentation und einige herunterladbare Tools bereit sein.

Weitere Ressourcen

Weitere Informationen finden Sie in den folgenden Ressourcen:

Hinweis

Haftungsausschluss für maschinelle Übersetzungen: Dieser Artikel wurde mithilfe eines Computersystems und ohne jegliche Bearbeitung durch Personen übersetzt. Microsoft bietet solche maschinellen Übersetzungen als Hilfestellung für Benutzer ohne Englischkenntnisse an, damit Sie von den Informationen zu Produkten, Diensten und Technologien von Microsoft profitieren können. Da es sich bei diesem Artikel um eine maschinelle Übersetzung handelt, enthält er möglicherweise Fehler in Bezug auf (Fach-)Terminologie, Syntax und/oder Grammatik.