Planen des Crawlens von Inhalt (Office SharePoint Server for Search)

Inhalt dieses Artikels:

  • Informationen zum Crawlen und Indizieren von Inhalt

  • Identifizieren von Inhaltsquellen zum Crawlen

  • Planen von Inhaltsquellen

  • Planen der Authentifizierung

  • Planen von Protokollhandlern

  • Planen des Umgangs mit den Auswirkungen von Crawls

  • Planen von Crawlregeln

  • Planen der auf Farmebene verwalteten Sucheinstellungen

  • Indizieren von Inhalt in verschiedenen Sprachen

  • Arbeitsblatt

Dieser Artikel soll SSP-Administratoren (Shared Services Provider, Anbieter für gemeinsame Dienste) dabei helfen, das Crawlen und Indizieren von Inhalt in Microsoft Office SharePoint Server 2007 for Search zu verstehen und das Crawlen von Inhalt zu planen.

Bevor die Endbenutzer die Funktion für die Suche in Unternehmen von Office SharePoint Server 2007 für Search zum Suchen nach Inhalt verwenden können, müssen Sie den Inhalt zuerst crawlen, der den Benutzern für Abfragen zur Verfügung stehen soll.

Für diesen Artikel ist Inhalt ein Element, das gecrawlt werden kann, beispielsweise eine Webseite, ein Microsoft Office Word-Dokument oder eine E-Mail-Nachrichtendatei.

Bei der Planung des zu crawlenden Inhalts sollten Sie die folgenden Fragen bedenken:

  • Wo befindet sich der Inhalt physisch, der gecrawlt werden soll?

  • Sind Teile des Inhalts, den Sie crawlen möchten, in unterschiedlichen Inhaltsquellen gespeichert, wie Dateifreigaben, SharePoint-Websites, Websites oder an anderen Orten?

  • Möchten Sie den gesamten Inhalt in bestimmten Quellen oder nur einen Teil davon crawlen?

  • Welche Dateitypen bilden den Inhalt, den Sie crawlen möchten?

  • Wann und wie häufig soll der Inhalt gecrawlt werden?

  • Wie wird dieser Inhalt gesichert?

Verwenden Sie die Informationen in diesem Artikel, um diese Fragen zu beantworten, und treffen Sie die erforderlichen Planungsentscheidungen zum Inhalt, den Sie crawlen möchten, und wie und wann Sie den Inhalt crawlen möchten.

An wichtigen Punkten in diesem Artikel werden Sie aufgefordert, einen Abschnitt eines Arbeitsblatts auszufüllen, das sich auf die gelesenen Informationen bezieht. Sie können Ihre Entscheidungen in dem Arbeitsblatt aufzeichnen, während Sie diesen Artikel durcharbeiten, oder am Ende dieses Artikels alle Entscheidungen gleichzeitig erfassen. Ein ausgefülltes Arbeitsblatt ist immer eine wertvolle Ressource für die Bereitstellung der Suchlösung.

Informationen zum Crawlen und Indizieren von Inhalt

Beim Crawlen und Indizieren von Inhalt greift das System auf den Inhalt und dessen Eigenschaften, die Metadaten, zu und analysiert sie, um einen Inhaltsindex für Suchabfragen zu erstellen.

Das Ergebnis des erfolgreichen Crawlens von Inhalten ist, dass vom Crawler auf die einzelnen Dateien oder Bestandteile des Inhalts, die Sie für Suchabfragen zur Verfügung stellen möchten, zugegriffen und der Inhalt gelesen wird. Die Stichwörter und Metadaten für diese Dateien werden im Inhaltsindex, oder Index, gespeichert. Der Index besteht aus den Stichwörtern, die im Dateisystem des Indexservers und in den Metadaten in der Suchdatenbank gespeichert sind. Das System behält die Zuordnung bei, die zwischen den Sichtwörtern, den einzelnen Teilen des Inhalts, aus dem die Stichwörter gecrawlt wurden, zugeordneten Metadaten und der URL der Quelle, deren Inhalt gecrawlt wurde, bestehen.

Hinweis

Die Crawler ändert die Dateien auf den Hostservern nicht. Auf die Dateien auf den Hostservern wird einfach zugegriffen, sie werden gelesen, und der Text sowie die Metadaten für diese Dateien werden zum Indizieren an den Indexserver gesendet. Da der Crawler jedoch den Inhalt auf dem Hostserver liest, kann auf einigen Servern, die bestimmte Inhaltsquellen hosten, das Datum des letzten Zugriffs der Dateien geändert werden, die gecrawlt wurden.

Identifizieren von Inhaltsquellen zum Crawlen

In vielen Fällen ist es aufgrund der Anforderungen der Organisation möglicherweise nur erforderlich, dass Sie alle Inhalte in den SharePoint-Websites in der Serverfarm der Organisation crawlen. In diesem Fall müssen Sie möglicherweise die Inhaltsquellen nicht identifizieren, die gecrawlt werden müssen, da alle Websitesammlungen in einer Serverfarm mit der Standardinhaltsquelle gecrawlt werden können. Weitere Informationen zur standardmäßigen Inhaltsquelle finden Sie unter "Planen von Inhaltsquellen" weiter unten in diesem Artikel.

In vielen Organisationen muss auch Inhalt gecrawlt werden, der sich nicht in der Serverfarm befindet, sondern z. B. in Dateifreigaben oder auf Websites im Internet. Mit Office SharePoint Server 2007 für Search kann Inhalt gecrawlt und indiziert werden, der auf anderen Windows SharePoint Services-Farmen, auf Websites, in Dateifreigaben, in öffentlichen Microsoft Exchange-Ordnern und auf IBM Lotus Notes-Servern gehostet wird. Dadurch wird der Umfang des Inhalts, der für Suchabfragen verfügbar gemacht werden kann, erheblich vergrößert werden.

In vielen Fällen empfiehlt es sich jedoch nicht, jede Websitesammlung in der Serverfarm zu crawlen, da in einigen Websitesammlungen gespeicherte Inhalte möglicherweise in den Suchergebnissen nicht relevant sind. In diesem Fall müssen Sie eine oder beide der folgenden Aktionen ausführen:

  • Notieren der Websitesammlungen, die Sie nicht crawlen möchten. Wenn Sie die Standardinhaltsquelle verwenden möchten, müssen Sie sicherstellen, dass die Startadressen der Websitesammlungen, die Sie nicht Crawlen möchten, nicht in der Standardinhaltsquelle aufgeführt sind.

  • Notieren der einzelnen Startadressen für die Websitesammlungen, die Sie nicht crawlen möchten. Wenn Sie zusätzliche Inhaltsquellen erstellen, um sie zum Crawlen dieses Inhalts zu verwenden, müssen Sie diese Startadressen kennen. Informationen dazu, wann Sie eine oder mehrere Inhaltsquellen verwenden sollten, finden Sie im Abschnitt Planen von Inhaltsquellen dieses Artikels.

Planen von Inhaltsquellen

Bevor Sie Inhalte crawlen können, müssen Sie zunächst ermitteln, wo sich der Inhalt befindet und auf welchen Typen von Servern der Inhalt gehostet wird. Nachdem Sie diese Informationen gesammelt haben, kann ein Administrator für gemeinsame Dienste eine oder mehrere Inhaltsquellen erstellen, die zum Crawlen des Inhalts verwendet werden. Diese Inhaltsquellen stellen dem Crawler bei einem Crawl die folgenden Informationen bereit:

  • Inhaltstyp, der gecrawlt werden soll, beispielsweise eine SharePoint-Website oder eine Dateifreigabe.

  • Startadresse, bei der der Crawl beginnen soll.

  • Verhalten beim Crawlen, beispielsweise wie tief gecrawlt werden soll (ausgehend von der Startadresse) oder wie viele Serverwechsel zulässig sein sollen.

  • Crawlzeitplan

Hinweis

Crawlen von Inhalt mit einer bestimmten Inhaltsquelle wird auch als "Crawlen der Inhaltsquelle" bezeichnet.

Dieser Abschnitt hilft Ihnen bei der Planung der Inhaltsquellen, die von Ihrer Organisation benötigt werden.

Die Standardinhaltsquelle heißt Lokale Office SharePoint Server-Websites. Administratoren für gemeinsame Dienste können diese Inhaltsquelle verwenden, um den gesamten Inhalt der Serverfarm zu crawlen und zu indizieren. Standardmäßig wird in Office SharePoint Server 2007 für Search die Startadresse (in diesem Fall eine URL) der Website auf höchster Ebene jeder Websitesammlung in der Farm zur Standardinhaltsquelle hinzugefügt.

In einigen Organisationen erfüllt die Verwendung der Standardinhaltsquelle zum Crawlen aller Websites in den Websitesammlungen die Suchanforderungen. Viele Organisationen benötigen jedoch zusätzliche Inhaltsquellen.

Zusätzliche Inhaltsquellen werden u. a. erstellt, weil folgende Anforderungen vorliegen:

  • Crawlen unterschiedlicher Arten von Inhalten.

  • Crawlen von Inhalten nach unterschiedlichen Zeitplänen.

  • Beschränken oder Erweitern der Menge gecrawlter Inhalte.

Administratoren für gemeinsame Dienste können bis zu 500 Inhaltsquellen erstellen, und jede Inhaltsquelle kann bis zu 500 Startadressen enthalten. Um die Verwaltung möglichst einfach zu gestalten, sollten Sie nur so viele Inhaltsquellen erstellen, wie Sie benötigen.

Crawlen unterschiedlicher Typen von Inhalten

Sie können nur einen Typ von Inhalt je Inhaltsquelle crawlen. Das heißt, Sie können eine Inhaltsquelle mit URLs für SharePoint-Websites und eine andere mit URLs für Dateifreigaben erstellen, Sie können jedoch nicht eine Inhaltsquelle mit URLs für SharePoint-Websites und Dateifreigaben erstellen. In der folgenden Tabelle sind die Typen von Inhaltsquellen aufgeführt, die konfiguriert werden können.

Inhaltsquellentyp Inhaltstyp

SharePoint-Websites

  • SharePoint-Websites aus der gleichen Farm oder anderen Microsoft Office SharePoint Server 2007-, Windows SharePoint Services 3.0- oder Office SharePoint Server 2007 für Search-Farmen

  • SharePoint-Websites in Microsoft Office SharePoint Portal Server 2003 oder Windows SharePoint Services 2.0

    NoteHinweis:
    Im Gegensatz zum Crawlen von SharePoint-Websites in Microsoft Office SharePoint Server 2007, Windows SharePoint Services 3.0 oder Office SharePoint Server 2007 für Search können vom Crawler nicht automatisch alle Unterwebsites in einer Websitesammlung aus früheren Versionen der SharePoint-Produkte und -Technologien gecrawlt werden. Daher müssen Sie beim Crawlen von SharePoint-Websites aus früheren Versionen, die URL jeder Website auf höchster Ebene und jeder Unterwebsite angeben, die gecrawlt werden sollen. Websites, die im Websiteverzeichnis von Microsoft Office SharePoint Portal Server 2003-Farmen aufgeführt sind, werden beim Crawlen des Portals gecrawlt. Weitere Informationen zum Websiteverzeichnis finden Sie unter http://go.microsoft.com/fwlink/?LinkId=88227&clcid=0x409 (in englischer Sprache).

Websites

  • Andere Webinhalte in Ihrer Organisation, die in SharePoint-Websites nicht gefunden werden

  • Inhalt auf Websites im Internet

Dateifreigaben

Inhalt in Dateifreigaben innerhalb Ihrer Organisation

Lotus Notes

E-Mail-Nachrichten, die in Lotus Notes-Datenbanken gespeichert sind

NoteHinweis:
Anders als alle anderen Typen von Inhaltsquellen wird die Inhaltsquellenoption Lotus Notes erst auf der Benutzeroberfläche angezeigt, wenn Sie die entsprechende erforderliche Software installiert und konfiguriert haben. Weitere Informationen finden Sie unter Configure Office SharePoint Server Search to crawl Lotus Notes (Office SharePoint Server 2007 for Search).

Öffentliche Exchange-Ordner

Exchange Server-Inhalt

Crawlen von Inhalt nach unterschiedlichen Zeitplänen

Administratoren für gemeinsame Dienste müssen häufig entscheiden, ob bestimmte Inhalte häufiger gecrawlt werden als andere. Je größer der Umfang des Inhalts, den Sie crawlen, desto wahrscheinlicher ist es, dass Sie Inhalt aus unterschiedlichen Quellen crawlen. Diese unterschiedlichen Quellen können unterschiedliche Typen aufweisen und auf Servern mit unterschiedlichen Geschwindigkeiten gehostet werden.

Diese Faktoren machen es wahrscheinlicher, dass Sie zusätzliche Inhaltsquellen benötigen, um diese unterschiedlichen Inhaltsquellen zu unterschiedlichen Zeiten zu crawlen.

Wichtige Gründe zum Crawlen von Inhalt nach unterschiedlichen Zeitplänen:

  • Berücksichtigung von Ausfallzeiten und Spitzenlastzeiten.

  • Häufigeres Crawlen von Inhalt, der häufiger aktualisiert wird.

  • Crawlen von Inhalt auf langsameren Hostservern unabhängig vom Crawlen von Inhalt auf schnelleren Hostservern.

In vielen Fällen sind nicht alle Informationen bekannt, bevor Office SharePoint Server 2007 für Search bereitgestellt und bereits eine Weile ausgeführt wurde. Stattdessen werden einige dieser Entscheidungen während der Betriebsphase getroffen. Sie sollten diese Faktoren jedoch während der Planung berücksichtigen, damit Sie Crawlzeitpläne basierend auf vorliegenden Informationen planen können.

In den folgenden zwei Abschnitten finden Sie weitere Informationen zum Crawlen von Inhalt nach unterschiedlichen Zeitplänen.

Ausfallzeiten und Spitzenlastzeiten

Berücksichtigen Sie die Ausfallzeiten und Spitzenlastzeiten der Server, die den zu crawlenden Inhalt hosten. Wenn Sie beispielsweise Inhalt crawlen, der auf vielen verschiedenen Servern außerhalb der Serverfarm gehostet wird, ist es wahrscheinlich, dass diese Server nach unterschiedlichen Zeitplänen gesichert werden und unterschiedliche Spitzenlastzeiten aufweisen. Die Verwaltung von Servern außerhalb der Serverfarm liegt normalerweise außerhalb Ihrer Kontrolle. Daher empfiehlt es sich, dass Sie die Crawlvorgänge mit den Administratoren der Server koordinieren, die als Host der Inhalte dienen, die Sie crawlen möchten. So können Sie sicherstellen, dass Sie nicht während der Ausfallzeiten oder Spitzenlastzeiten dieser Server versuchen, den Inhalt zu crawlen.

Ein häufiges Szenario umfasst Inhalt außerhalb der Kontrolle Ihrer Organisation, der sich auf Inhalt auf Ihrer SharePoint-Websites bezieht. Sie können die Startadressen für diesen Inhalt einer vorhandenen Inhaltsquelle hinzufügen oder eine neue Inhaltsquelle für externen Inhalt erstellen. Da die Verfügbarkeit von externen Websites stark variiert, ist es hilfreich, separate Inhaltsquellen für anderen externen Inhalt hinzuzufügen. Auf diese Weise können die Inhaltsquellen für externen Inhalt zu anderen Zeitpunkten als Ihre anderen Inhaltsquellen gecrawlt werden. Sie können dann externen Inhalt nach einem Crawlzeitplan aktualisieren, der die Verfügbarkeit jeder Website berücksichtigt.

Häufig aktualisierter Inhalt

Berücksichtigen Sie bei der Planung von Crawlzeitplänen, dass einige Inhaltsquellen normalerweise häufiger als andere aktualisiert werden. Wenn Sie z. B. wissen, dass Inhalt in einigen Websitesammlungen oder externen Quellen nur freitags aktualisiert wird, wäre es eine Verschwendung von Ressourcen, den Inhalt häufiger als einmal wöchentlich zu crawlen. Ihre Serverfarm kann jedoch andere Websitesammlungen enthalten, die von montags bis freitags ständig aktualisiert werden, aber normalerweise nicht samstags und sonntags. In diesem Fall könnten Sie an den Wochentagen mehrere Male crawlen, aber nur ein- bis zweimal am Wochenende.

Die Art der Speicherung der Inhalte in den Websitesammlungen Ihrer Umgebung kann Ihnen dabei helfen, für jede Websitesammlung in allen Webanwendungen zusätzliche Inhaltsquellen zu erstellen. Wenn z. B. in einer Websitesammlung nur archivierte Informationen gespeichert werden, müssen Sie diesen Inhalt möglicherweise nicht so häufig crawlen, wie Sie eine Websitesammlung crawlen, in der häufig aktualisierter Inhalt gespeichert wird. In diesem Fall empfiehlt es sich möglicherweise diese zwei Websitesammlungen mit unterschiedlichen Inhaltsquellen zu crawlen, sodass sie nach unterschiedlichen Zeitplänen gecrawlt werden können, ohne die Archivwebsites so häufig wie den anderen Inhalt zu crawlen.

Vollständige und inkrementelle Crawlzeitpläne

Administratoren für gemeinsame Dienste können die Crawlzeitpläne für jede Inhaltsquelle unabhängig konfigurieren. Sie können für jede Inhaltsquelle einen Zeitpunkt für vollständige Crawls und einen anderen Zeitpunkt für inkrementelle Crawls angeben. Beachten Sie, dass Sie einen vollständigen Crawl für eine bestimmte Inhaltsquelle ausführen müssen, bevor Sie einen inkrementellen Crawl ausführen können. Wenn Sie einen inkrementellen Crawl für Inhalt auswählen, der noch nicht gecrawlt wurde, wird vom System ein vollständiger Crawl ausgeführt.

Es wird empfohlen, Crawlzeitpläne auf Grundlage von Überlegungen zur Verfügbarkeit, Leistung und Bandbreite von Servern zu planen, auf denen der Suchdienst ausgeführt und gecrawlter Inhalt gehostet wird.

Berücksichtigen Sie bei der Planung von Crawlzeitplänen die folgenden bewährten Methoden:

  • Gruppieren Sie Startadressen in Inhaltsquellen basierend auf ähnlicher Verfügbarkeit und mit akzeptabler Gesamtressourcenverwendung für die Server, die den Inhalt hosten.

  • Planen Sie inkrementelle Crawls für die Inhaltsquelle in Zeiten, wenn die Server, die den Inhalt hosten, verfügbar sind und keine hohen Anforderungen an die Ressourcen des Servers bestehen.

  • Staffeln Sie Crawlzeitpläne, sodass die Belastung der Server in Ihrer Farm über einen Zeitraum verteilt wird.

  • Planen Sie vollständige Crawls nur, wenn Sie aus den im nächsten Abschnitt angegebenen Gründen erforderlich sind. Es wird empfohlen, dass Sie vollständige Crawls seltener als inkrementelle Crawls ausführen.

  • Planen Sie Verwaltungsänderungen, die einen vollständigen Crawl erfordern, so ein, dass sie kurz vor dem geplanten vollständigen Crawl vorgenommen werden. Beispielsweise empfiehlt es sich, dass Sie versuchen, die Erstellung der Crawlregel vor dem nächsten geplanten vollständigen Crawl einzuplanen, sodass ein zusätzlicher vollständiger Crawl nicht erforderlich ist.

  • Machen Sie gleichzeitige Crawls von der Kapazität des Indexservers abhängig, von dem sie ausgeführt werden. Es wird empfohlen, dass Sie die Crawlzeitpläne staffeln, sodass vom Indexserver keine Crawls gleichzeitig mit mehreren Inhaltsquellen ausgeführt werden. Für eine optimale Leistung empfehlen wir, dass Sie die Crawlzeitpläne der Inhaltsquellen staffeln. Die Leistung des Indexservers und der Server, die den Inhalt hosten, bestimmen den Umfang der möglichen Überlappung von Crawls. Eine Strategie für Crawlzeitpläne kann mit der Zeit entwickelt werden, wenn Sie besser mit der typischen Dauer von Crawls der einzelnen Inhaltsquellen vertraut sind.

Gründe für einen vollständigen Crawl

Gründe für einen SSP-Administrator, einen vollständigen Crawl auszuführen:

  • Ein oder mehrere QFEs oder Service Packs wurde auf Servern in der Farm installiert. In den Anweisungen für das Hotfix oder Service Pack finden Sie weitere Informationen.

  • Ein SSP-Administrator hat eine neue verwaltete Eigenschaft hinzugefügt.

  • Die ASPX-Seiten auf Windows SharePoint Services 3.0- oder Microsoft Office SharePoint Server 2007-Websites sollen erneut indiziert werden.

    Hinweis

    Vom Crawler kann nicht festgestellt werden, ob ASPX-Seiten auf Windows SharePoint Services 3.0- oder Microsoft Office SharePoint Server 2007-Websites geändert wurden. Deshalb werden bei inkrementellen Crawls Ansichten oder Homepages nicht erneut indiziert, wenn einzelne Listenelemente gelöscht werden. Es wird empfohlen, dass Sie regelmäßig vollständige Crawls von Websites ausführen, die ASPX-Dateien enthalten, um sicherzustellen, dass diese Seiten erneut indiziert werden.

  • Zum Lösen aufeinander folgender inkrementeller Crawlfehler. Wenn ein inkrementeller Crawl einhundert Mal nacheinander auf einer beliebigen Ebene im Repository fehlschlägt, kann der Indexserver in seltenen Fällen den betreffenden Inhalt aus dem Index entfernen.

  • Eine oder mehrere Crawlregeln wurden hinzugefügt oder geändert.

  • Zum Reparieren eines beschädigten Indexes.

Das System führt unter folgenden Umständen einen vollständigen Crawl selbst dann aus, wenn ein inkrementeller Crawl angefordert wird:

  • Ein SSP-Administrator hat einen vorherigen Crawl beendet.

  • Eine Inhaltsdatenbank wurde wiederhergestellt.

  • Bislang wurde noch kein vollständiger Crawl der Website ausgeführt.

  • Zum Reparieren eines beschädigten Indexes. Abhängig von der Schwere der Beschädigung kann vom System versucht werden, einen vollständigen Crawl auszuführen, wenn im Index eine Beschädigung festgestellt wird.

Sie können Terminpläne nach der Erstbereitstellung auf Grundlage der Leistung und der Kapazität von Servern in der Farm und Servern, die Inhalt hosten, anpassen.

Arbeitsblattaktion

Erfassen Sie Ihre Entscheidungen zu Inhaltsquellen für die Erstbereitstellung im Abschnitt "Content sources" von Plan to crawl content worksheet in englischer Sprache (http://go.microsoft.com/fwlink/?LinkId=76207&clcid=0x409) (Arbeitsblatt "Planen des Crawlens von Inhalt").

Beschränken oder Erweitern der Menge gecrawlter Inhalte

Für jede Inhaltsquelle können Sie angeben, wie umfassend die Startadressen in dieser Inhaltsquelle gecrawlt werden sollen. Sie geben außerdem das Verhalten des Crawls an, dies wird auch als Crawleinstellungen bezeichnet. Die Optionen, die Sie für eine bestimmte Inhaltsquelle auswählen können, sind je nach ausgewähltem Inhaltsquellentyp leicht unterschiedlich. Jedoch wird mit den meisten Optionen festgelegt, wie viele Ebenen in der Hierarchie ausgehend von der in der Inhaltsquelle aufgeführten Startadresse gecrawlt werden sollen. Beachten Sie, dass dieses Verhalten auf alle Startadressen in einer bestimmten Inhaltsquelle angewendet wird. Wenn Sie einige Websites auf tieferen Ebenen crawlen möchten, können Sie zusätzliche Inhaltsquellen erstellen, die diese Websites umfassen.

Die in den Eigenschaften für jede Inhaltsquelle verfügbaren Optionen variieren abhängig vom ausgewählten Inhaltsquellentyp. In der folgenden Tabelle werden die Optionen für Crawleinstellungen für jeden Inhaltsquellentyp beschrieben.

Inhaltsquellentyp Optionen für Crawleinstellungen

SharePoint-Websites

  • Alles unter dem Hostnamen für jede Startadresse

  • Nur die SharePoint-Website jeder Startadresse

Websites

  • Nur auf dem Server jeder Startadresse

  • Nur die erste Seite jeder Startadresse

  • Benutzerdefiniert - Geben Sie die Seitentiefe und die Serverwechsel an

    NoteHinweis:
    Die Standardeinstellungen für diese Option sind eine unbegrenzte Seitentiefe und unbegrenzte Serverwechsel.

Dateifreigaben

  • Der Ordner und sämtliche Unterordner jeder Startadresse

  • Nur der Ordner jeder Startadresse

Öffentliche Exchange-Ordner

  • Der Ordner und sämtliche Unterordner jeder Startadresse

  • Nur der Ordner jeder Startadresse

Wie in der obigen Tabelle gezeigt, können Administratoren für gemeinsame Dienste mit den Optionen für die Crawleinstellungen die Menge der Inhalte, die gecrawlt werden, einschränken oder vergrößern.

In der folgenden Tabelle werden bewährte Methoden beim Konfigurieren von Optionen für Crawleinstellungen beschrieben.

Inhaltsquellentyp Voraussetzung Zu verwendende Option für Crawleinstellungen

SharePoint-Websites

Sie möchten den Inhalt der Website einschließen.

- oder -

Sie möchten nicht den Inhalt auf Unterwebsites einschließen, oder Sie möchten diesen Inhalt nach einem anderen Zeitplan crawlen.

Nur die SharePoint-Website für jede Startadresse crawlen

SharePoint-Websites

Sie möchten den Inhalt der Website einschließen.

- oder -

Sie möchten den gesamten Inhalt unter der Startadresse nach einem Zeitplan crawlen.

Alle Websites unter dem Hostnamen für jede Startadresse crawlen

Websites

Der Inhalt der Website ist relevant.

- oder -

Der Inhalt auf verknüpften Websites ist wahrscheinlich nicht relevant.

Nur innerhalb des Servers jeder Startadresse crawlen

Websites

Relevanter Inhalt ist nur auf der ersten Seite.

Nur die erste Seite jeder Startadresse crawlen

Websites

Sie möchten beschränken, wie tief die Hyperlinks auf den Startadressen gecrawlt werden sollen.

Benutzerdefiniert - Geben Sie die Seitentiefe und die Serverwechsel an

NoteHinweis:
Es empfiehlt sich, mit einer geringen Anzahl eng verbundener Websites zu beginnen, da durch Angeben einer Tiefe von mehr als drei Seiten und mehr als drei Serverwechseln das gesamte Internet gecrawlt werden kann.

Dateifreigaben

Öffentliche Exchange-Ordner

Der Inhalt in den Unterordnern ist wahrscheinlich nicht relevant.

Nur der Ordner jeder Startadresse

Dateifreigaben

Öffentliche Exchange-Ordner

Der Inhalt in den Unterordnern ist wahrscheinlich relevant.

Der Ordner und alle Unterordner jeder Startadresse

Planen der einzuschließenden Dateitypen und der IFilter

Inhalt wird nur gecrawlt, wenn die relevante Dateinamenerweiterung in der Aufnahmeliste für Dateitypen enthalten ist und wenn ein IFilter auf dem Indexserver installiert wurde, der diese Dateitypen unterstützt. Mehrere Dateitypen sind automatisch bei der Erstinstallation enthalten. Bestimmen Sie bei der Planung von Inhaltsquellen in der Erstbereitstellung, ob für Inhalt, den Sie crawlen möchten, Dateitypen verwendet werden, die nicht enthalten sind. Wenn Dateitypen nicht enthalten sind, müssen Sie diese Dateitypen auf der Seite Dateitypen verwalten während der Bereitstellung hinzufügen.

Wenn Sie jedoch bestimmte Dateitypen vom Crawlen ausschließen möchten, können Sie die Dateinamenerweiterung für diesen Dateityp aus der Aufnahmeliste für Dateitypen löschen. Dadurch werden Dateinamen mit dieser Erweiterung nicht gecrawlt.

Wenn Sie Dateitypen hinzufügen, müssen Sie auch sicherstellen, dass Sie über einen IFilter verfügen, der zum Analysieren des Dateityps beim Crawlen verwendet werden kann. In Office SharePoint Server 2007 für Search werden verschiedene IFilter zur Verfügung gestellt, und weitere sind von Microsoft und Drittanbietern erhältlich. Bei Bedarf können Softwareentwickler IFilter für neue Dateitypen erstellen.

In der folgenden Tabelle sind die Dateitypen aufgeführt, die von den standardmäßig installierten IFiltern unterstützt werden und die standardmäßig auf der Seite Dateitypen verwalten aktiviert sind.

Dateinamenerweiterung Standardmäßige IFilter-Unterstützung Standardmäßig eingeschlossener Dateityp

ASCX

Ja

Ja

ASM

Ja

Nein

ASP

Ja

Ja

ASPX

Ja

Ja

BAT

Ja

Nein

C

Ja

Nein

CMD

Ja

Nein

CPP

Ja

Nein

CSS

Ja

Nein

CXX

Ja

Nein

DEF

Ja

Nein

DIC

Ja

Nein

DOC

Ja

Ja

DOCM

Ja

Ja

DOCX

Ja

Ja

DOT

Ja

Ja

EML

Ja

Ja

EXCH

Nein

Ja

H

Ja

Nein

HHC

Ja

Nein

HHT

Ja

Nein

HPP

Ja

Nein

HTA

Ja

Nein

HTM

Ja

Ja

HTML

Ja

Ja

HTW

Ja

Nein

HTX

Ja

Nein

JHTML

Nein

Ja

JSP

Nein

Ja

INK

Ja

Nein

MHT

Ja

Ja

MHTML

Ja

Ja

MPX

Ja

Nein

MSG

Ja

Ja

MSPX

Nein

Ja

NSF

Nein

Ja

ODC

Ja

Ja

ONE

Nein

Nein

PHP

Nein

Ja

POT

Ja

Nein

PPS

Ja

Nein

PPT

Ja

Ja

PPTM

Ja

Ja

PPTX

Ja

Ja

PUB

Ja

Ja

STM

Ja

Nein

TIF

Ja

Ja

TIFF

Nein

Ja

TRF

Ja

Nein

TXT

Ja

Ja

URL

Nein

Ja

VDX

Nein

Ja

VSD

Nein

Ja

VSS

Nein

Ja

VST

Nein

Ja

VSX

Nein

Ja

VTX

Nein

Ja

XLB

Ja

Nein

XLC

Ja

Nein

XLS

Ja

Ja

XLSM

Ja

Ja

XLSX

Ja

Ja

XLT

Ja

Nein

XML

Ja

Ja

IFilter und Microsoft Office OneNote

Für die Dateinamenerweiterung ONE, die von Microsoft Office OneNote 2007 verwendet wird, wird kein IFilter bereitgestellt. Wenn die Benutzer in der Lage sein sollen, Inhalt in Office OneNote-Dateien zu durchsuchen, müssen Sie den IFilter für OneNote installieren. Dazu müssen Sie die Microsoft Office OneNote-Clientanwendung auf dem Indexserver installieren.

Hinweis

Der Office OneNote 2007-IFilter kann Office OneNote 2003- und Office OneNote 2007-Dateien crawlen. Der Office OneNote 2003-IFilter kann nur Office OneNote 2003-Dateien crawlen.

Weitere Informationen zum Aktivieren und Konfigurieren des Indexservers für Office OneNote-Dateien finden Sie unter Install and register the OneNote IFilter (Office SharePoint Server 2007 for Search).

Arbeitsblattaktion

Erfassen Sie Ihre Entscheidungen zu den einzuschließenden Dateitypen und den IFiltern für die Erstbereitstellung im Abschnitt "File-type inclusions and IFilters" von Plan to crawl content worksheet in englischer Sprache (http://go.microsoft.com/fwlink/?LinkId=76207&clcid=0x409) (Arbeitsblatt "Planen des Crawlens von Inhalt").

Begrenzen oder Ausschließen von Inhalt mit Crawlregeln

Wenn Sie einer Inhaltsquelle eine Startadresse hinzufügen und das Standardverhalten akzeptieren, werden alle Unterwebsites und Ordner unter der Startadresse gecrawlt, sofern sie nicht mit Crawlregeln ausgeschlossen werden.

Weitere Informationen zu Crawlregeln finden Sie unter Planen von Crawlregeln weiter unten in diesem Artikel.

Andere Überlegungen beim Planen von Inhaltsquellen

Sie können die gleichen Adressen nicht mit mehreren Inhaltsquellen crawlen. Wenn Sie beispielsweise eine bestimmte Inhaltsquelle zum Crawlen einer Websitesammlung und aller Unterwebsites verwenden, können Sie nicht mit einer anderen Inhaltsquelle eine dieser Unterwebsite separat nach einem anderen Zeitplan crawlen. Zum Ausgleich dieser Einschränkung müssen Sie möglicherweise einige dieser Websites separat crawlen. Betrachten Sie folgendes Szenario:

Der SSP-Administrator bei Contoso möchte http://contoso crawlen, darin enthalten sind die Unterwebsite http://contoso/websites/website1 und http://contoso/websites/website2. Er möchte http://contoso/websites/website2 nach einem anderen Zeitplan als die anderen Websites crawlen. Dazu fügt er die Adressen http://contoso und http://contoso/websites/website1 einer Inhaltsquelle hinzu und wählt die Einstellung Nur die SharePoint-Website für jede Startadresse crawlen aus. Dann fügt er http://contoso/websites/website2 einer anderen Inhaltsquelle hinzu und gibt für die Inhaltsquelle einen anderen Zeitplan an.

Neben den Crawlzeitplänen müssen andere Punkte bei der Planung von Inhaltsquellen bedacht werden. Ob Sie Startadressen in einer einzigen Inhaltsquelle gruppieren oder zusätzliche Inhaltsquellen zum Crawlen dieser Startadressen erstellen, hängt beispielsweise weitgehend von Verwaltungsüberlegungen ab. Administratoren nehmen häufig Änderungen vor, die eine vollständige Aktualisierung einer bestimmten Inhaltsquelle erfordern. Änderungen an einer Inhaltsquelle erfordern einen vollständigen Crawl dieser Inhaltsquelle. Organisieren Sie zum Vereinfachen der Verwaltung Inhaltsquellen in einer Weise, die das Aktualisieren von Inhaltsquellen, Crawlregeln und das Crawlen von Inhalt für Administratoren unproblematisch macht.

Inhaltsquellen – Zusammenfassung

Bedenken Sie bei der Planung der Inhaltsquellen Folgendes:

  • Eine bestimmte Inhaltsquelle kann nur zum Crawlen eines der folgenden Inhaltstypen verwendet werden: SharePoint-Websites, Websites, die keine SharePoint-Websites sind, Dateifreigaben, öffentliche Exchange-Ordner und Lotus Notes-Datenbanken.

  • Administratoren für gemeinsame Dienste können bis zu 500 Inhaltsquellen erstellen, und jede Inhaltsquelle kann bis zu 500 Startadressen enthalten. Um die Verwaltung möglichst einfach zu gestalten, sollten Sie nur so viele Inhaltsquellen erstellen, wie Sie unbedingt benötigen.

  • Jede URL in einer bestimmten Inhaltsquelle muss den gleichen Inhaltsquellentyp aufweisen.

  • Für eine bestimmte Inhaltsquelle können Sie auswählen, wie tief ausgehend von den Startadressen gecrawlt werden soll. Diese Konfigurationseinstellungen gelten für alle Startadressen in der Inhaltsquelle. Die verfügbaren Auswahlmöglichkeiten zur Tiefe der Crawls für Startadressen hängen vom ausgewählten Inhaltsquellentyp ab.

  • Sie können planen, wann ein vollständiger oder ein inkrementeller Crawl für die gesamte Inhaltsquelle ausgeführt werden soll. Weitere Informationen zum Planen von Crawls finden Sie unter "Planen von Crawlzeitplänen" weiter unten in diesem Thema.

  • Administratoren für gemeinsame Dienste können die Standardinhaltsquelle ändern, weitere Inhaltsquellen zum Crawlen von Inhalt erstellen oder beides. Sie können z. B. die Standardinhaltsquelle so konfigurieren, dass sie auch Inhalt in einer anderen Serverfarm crawlt, oder sie können eine neue Inhaltsquelle zum Crawlen des anderen Inhalts erstellen.

  • Um effektiv alle in Ihrer Organisation benötigten Inhalte zu crawlen, verwenden Sie so viele Inhaltsquellen, wie für die Arten von Quellen, die Sie crawlen möchten, und die Häufigkeit, mit der Sie sie crawlen möchten, sinnvoll sind.

Planen der Authentifizierung

Wenn vom Crawler auf die Startadressen zugegriffen wird, die in den Inhaltsquellen aufgelistet sind, muss der Crawler vom Server authentifiziert werden, und ihm muss Zugriff auf die Server gewährt werden, die Inhalt hosten. Dies bedeutet, dass das vom Crawler verwendete Domänenkonto mindestens über Leseberechtigung für den Inhalt verfügen muss.

Das standardmäßige Inhaltszugriffskonto ist das Konto, das beim Crawlen von Inhaltsquellen standardmäßig verwendet wird. Dieses Konto wird vom Administrator für gemeinsame Dienste angegeben. Sie können alternativ Crawlregeln verwenden, um beim Crawlen bestimmter Inhalte ein anderes Inhaltszugriffskonto zu verwenden. Unabhängig davon, ob Sie das standardmäßige Inhaltszugriffskonto verwenden oder von einer Crawlregel ein anderes Inhaltszugriffskonto angegeben wird, muss das Inhaltszugriffskonto, das Sie verwenden, über Lesezugriff auf alle Inhalte verfügen, die gecrawlt werden. Andernfalls wird der Inhalt nicht gecrawlt und ist für Abfragen nicht verfügbar.

Es empfiehlt sich, dass Sie ein standardmäßiges Inhaltszugriffskonto mit umfangreichen Zugriffsrechten auf einen Großteil der gecrawlten Inhalte verwenden und andere Inhaltszugriffskonten nur verwenden, wenn aufgrund von Sicherheitsüberlegungen separate Inhaltszugriffskonten erforderlich sind. Weitere Informationen zum Erstellen eines separaten Inhaltszugriffskontos zum Crawlen von Inhalt, der nicht mit dem standardmäßigen Inhaltszugriffskonto gelesen werden kann, finden Sie unter Planen von Crawlregeln in diesem Artikel.

Identifizieren Sie für jede geplante Inhaltsquelle die Startadresse, auf die mit dem standardmäßigen Inhaltszugriffskonto nicht zugegriffen werden kann, und planen Sie das Hinzufügen von Crawlregeln für URL-Muster, die diese Startadressen umfassen.

Hinweis

Stellen Sie sicher, dass das Domänenkonto für das standardmäßige Inhaltszugriffskonto oder alle anderen Inhaltszugriffskonten nicht das Domänenkonto ist, das von einem Anwendungspool verwendet wird, das einer Anwendung zugeordnet ist, die Sie crawlen. Andernfalls könnten unveröffentlichte Inhalte in SharePoint-Websites und Nebenversionen von Dateien (Verlauf) in SharePoint-Websites gecrawlt und indiziert werden.

Weitere Informationen zu Planungsüberlegungen für Inhaltszugriffskonten finden Sie unter Planen von Crawlregeln weiter unten in diesem Artikel.

Arbeitsblattaktion

Erfassen Sie das standardmäßige Inhaltszugriffskonto, das der Crawler beim Crawlen von Inhalt verwendet, im Abschnitt "Default content access account" von Plan to crawl content worksheet in englischer Sprache (http://go.microsoft.com/fwlink/?LinkId=76207&clcid=0x409) (Arbeitsblatt "Planen des Crawlens von Inhalt").

Eine weitere wichtige Überlegung ist, dass der Crawler die gleiche Authentifizierungsmethode wie der Hostserver verwenden muss. Standardmäßig wird vom Crawler versucht, eine Authentifizierung mit der NTLM-Authentifizierung durchzuführen. Sie können den Crawler bei Bedarf so konfigurieren, dass eine andere Authentifizierungsmethode verwendet wird. Weitere Informationen finden Sie im Abschnitt zur Planung der Authentifizierungsanforderungen zum Crawlen von Inhalt in Plan authentication methods (Office SharePoint Server).

Planen von Protokollhandlern

Für alle Inhalte, die gecrawlt werden, ist die Verwendung eines Protokollhandlers erforderlich, um Zugriff auf die Inhalte zu erhalten. Office SharePoint Server 2007 für Search stellt Protokollhandler für alle allgemeinen Internetprotokolle bereit. Wenn Sie jedoch Inhalte crawlen möchten, für die ein Protokollhandler erforderlich ist, der nicht mit Office SharePoint Server 2007 für Search installiert wird, müssen Sie vor dem Crawlen der Inhalte Protokollhandler von Drittanbietern oder benutzerdefinierte Protokollhandler installieren.

Die folgenden Protokolle werden von den standardmäßigen Protokollhandlern unterstützt: file, http, https, rb, rbs, sps, sps3, sps3s, spsimport, spss, sts, sts2, sts2s, sts3 und sts3s.

Arbeitsblattaktion

Erfassen Sie Ihre Entscheidungen zu Protokollhandlern für Ihre Erstbereitstellung im Abschnitt "Protocol handlers" von Plan to crawl content worksheet in englischer Sprache (http://go.microsoft.com/fwlink/?LinkId=76207&clcid=0x409) (Arbeitsblatt "Planen des Crawlens von Inhalt).

Planen des Umgangs mit den Auswirkungen von Crawls

Das Crawlen von Inhalt kann die Leistung der Server, die den Inhalt hosten, erheblich reduzieren. Die Auswirkungen, die dies auf einen bestimmten Server hat, hängen von der Last des Hostservers und davon ab, ob der Server über ausreichende Ressourcen (besonders CPU und RAM) verfügt, um Vereinbarungen zum Servicelevel bei normaler und hoher Auslastung einzuhalten.

Mit Regeln für Crawlerauswirkungen können Farmadministratoren die Auswirkungen steuern, die die Crawler auf die gecrawlten Server hat. Für jede Regel für Crawlerauswirkungen können Sie eine URL angeben oder im URL-Pfad Platzhalterzeichen verwenden, um einen Block von URLs aufzunehmen, für den die Regel gilt. Sie können dann angeben, wie viele gleichzeitige Anforderungen für Seiten an die angegebene URL vorgenommen werden. Alternativ können Sie auswählen, dass nur ein Dokument zurzeit angefordert wird und dass zwischen Anforderungen eine ausgewählte Anzahl von Sekunden gewartet wird.

Mit Regeln für Crawlerauswirkungen wird die Rate, mit der vom Crawler Inhalt von einer bestimmten Startadresse oder einem Bereich von Startadressen (auch Websitename genannt) angefordert wird, reduziert oder erhöht. Die Inhaltsquelle, die zum Crawlen dieser Adressen verwendet wird, ist dabei ohne Bedeutung. In der folgenden Tabelle werden die Platzhalterzeichen gezeigt, die Sie beim Hinzufügen einer Regel im Websitenamen verwenden können.

Platzhalterzeichen Ergebnis

* als Websitename

Wendet die Regel auf alle Websites an.

*.* als Websitename

Wendet die Regel auf Websites mit Punkten im Namen an.

*.Websitename.com als Websitename

Wendet die Regel auf alle Websites in der Domäne Websitename.com an (z. B. *.adventure-works.com).

*.Domänenname_der_obersten_Ebene als Websitename

Wendet die Regel auf alle Websites an, die mit einem bestimmten Domänennamen der obersten Ebene enden, z. B. *.com oder *.net.

?

Ersetzt ein Zeichen in einer Regel. Beispielsweise gilt *.adventure-works?.com für alle Websites in den Domänen adventure-works1.com, adventure-works2.com usw.

Sie können eine Regel für Crawlerauswirkungen erstellen, die für alle Websites innerhalb einer bestimmten Domäne der obersten Ebene gilt. Beispielsweise gilt *.com für alle Internetsites mit Adressen, die auf .com enden. Beispielsweise könnte der Administrator einer Portalwebsite eine Inhaltsquelle für beispiele.microsoft.com hinzufügen. Die Regel für *.com gilt für diese Website, sofern Sie nicht eine Regel für Crawlerauswirkungen speziell für beispiele.microsoft.com hinzufügen.

Für Inhalt innerhalb der Organisation, den andere Administratoren crawlen, können Sie mit diesen Administratoren absprechen, die Regeln für Crawlerauswirkungen basierend auf der Leistung und der Kapazität der Server festzulegen. Für die meisten externen Websites ist diese Koordination nicht möglich. Das Anfordern von zu viel Inhalt auf externen Servern oder zu häufige Anforderungen könnten dazu führen, dass die Administratoren dieser Websites Ihren Zugriff in der Zukunft beschränken, wenn Ihre Crawls zu viele Ressourcen oder zu viel Bandbreite verwenden. Daher ist es eine bewährte Methode, langsamer zu crawlen. Auf diese Weise können Sie das Risiko verringern, dass Sie den Zugriff zum Crawlen des relevanten Inhalts verlieren.

Legen Sie während der Erstbereitstellung die Regeln für Crawlerauswirkungen so fest, dass die Auswirkungen auf andere Server so gering wie möglich sind, Sie aber dennoch ausreichend Inhalt mit ausreichender Häufigkeit crawlen können, um die Aktualität des gecrawlten Inhalts sicherzustellen.

Während der Betriebsphase können Sie die Regeln für Crawlerauswirkungen basierend auf Ihren Erfahrungen und Daten aus den Crawlprotokollen anpassen.

Arbeitsblattaktion

Erfassen Sie die Entscheidungen zu den Regeln für Crawlerauswirkungen für Ihre Erstbereitstellung im Abschnitt "Crawler impact rules" von Plan to crawl content worksheet in englischer Sprache (http://go.microsoft.com/fwlink/?LinkId=76207&clcid=0x409) (Arbeitsblatt "Planen des Crawlens von Inhalt").

Planen von Crawlregeln

Crawlregeln gelten für eine bestimmte URL oder eine Gruppe von URLs, die durch Platzhalter dargestellt werden (auch als von der Regel betroffener Pfad bezeichnet). Sie verwenden Crawlregeln für Folgendes:

  • Vermeiden des Crawlens von irrelevantem Inhalt durch Ausschließen von mindestens einer URL. Dies hilft auch dabei, die Verwendung von Serverressourcen und den Netzwerkverkehr zu reduzieren und die Relevanz von Suchergebnissen zu erhöhen.

  • Crawlen von Hyperlinks in der URL, ohne die URL selbst zu crawlen. Diese Option ist nützlich für Websites mit Hyperlinks zu relevanten Inhalten, wenn die Seite mit den Hyperlinks keine relevanten Informationen enthält.

  • Aktivieren des Crawlens komplexer URLs. Mit dieser Option werden URLs gecrawlt, die einen Abfrageparameter mit einem Fragezeichen enthalten. Abhängig von der Website können diese URLs relevanten Inhalt enthalten. Da mit komplexen URLs häufig eine Weiterleitung zu irrelevanten Websites erfolgt, empfiehlt es sich, diese Option nur auf Websites zu aktivieren, für die die Inhalte von komplexen URLs als relevant bekannt sind.

  • Ermöglichen des Crawlens von Inhalt auf SharePoint-Websites wie HTTP-Seiten. Mit dieser Option kann der Indexserver SharePoint-Websites crawlen, die sich hinter einer Firewall befinden. Diese Option kann auch in Szenarien verwendet werden, bei denen von der gecrawlten Website der Zugriff auf den Webdienst beschränkt wird, der vom Crawler verwendet wird.

  • Geben Sie an, ob Sie das standardmäßige Inhaltszugriffskonto, ein anderes Inhaltszugriffskonto oder ein Clientzertifikat zum Crawlen der angegebenen URL verwenden möchten.

Hinweis

Crawlregeln werden gleichzeitig auf alle Inhaltsquellen angewendet.

Häufig ist der größte Teil des Inhalts für eine bestimmte Websiteadresse relevant, nicht aber eine bestimmte Unterwebsite oder einer Reihe von Websites unterhalb der Websiteadresse. Durch Auswählen einer speziellen Kombination von URLs, für die Crawlregeln erstellt werden, um nicht benötigte Elemente auszuschließen, können Administratoren für gemeinsame Dienste die Relevanz des Inhalts im Index maximieren und gleichzeitig die Auswirkungen auf die Crawlleistung und die Größe der Suchdatenbanken minimieren. Das Erstellen von Crawlregeln zum Ausschließen von URLs ist besonders bei der Planung von Startadressen für externe Inhalte nützlich, da die Auswirkungen auf die Ressourcenverwendung nicht von Personen in Ihrer Organisation gesteuert werden können.

Beim Erstellen einer Crawlregel können Sie standardmäßige Platzhalterzeichen im Pfad verwenden. Beispiel:

  • http://Server1/Ordner* enthält alle Webressourcen mit einer URL, die mit http://Server1/Ordner beginnt.

  • *://*.txt umfasst jedes Dokument mit der Dateinamenerweiterung TXT.

Da das Crawlen von Inhalt Ressourcen und Bandbreite verbraucht, sollten Sie vorzugsweise eine kleinere Menge von Inhalt einschließen, von dem Sie wissen, dass er relevant ist, statt eine größere Menge von Inhalt, der möglicherweise irrelevant ist. Nach der Erstbereitstellung können Sie die Abfrage- und Crawlprotokolle überprüfen und die Inhaltsquellen und Crawlregeln anpassen, um die Relevanz zu erhöhen und mehr Inhalt einzuschließen.

Angeben eines anderen Inhaltszugriffskontos

Für Crawlregeln, mit denen Inhalt eingeschlossen wird, können Administratoren das Inhaltszugriffskonto für die Regel ändern. Das standardmäßige Inhaltszugriffskonto wird verwendet, sofern kein anderes Konto in einer Crawlregel angegeben ist. Der Hauptgrund für die Verwendung eines anderen Inhaltszugriffskontos für eine Crawlregel ist, dass das standardmäßige Inhaltszugriffskonto nicht über Zugriff auf alle Startadressen verfügt. Für diese Startadressen können Sie eine Crawlregel erstellen und ein Konto angeben, das über Zugriff verfügt.

Hinweis

Stellen Sie sicher, dass das Domänenkonto für das standardmäßige Inhaltszugriffskonto oder alle anderen Inhaltszugriffskonten nicht das Domänenkonto ist, das von einem Anwendungspool verwendet wird, das einer Anwendung zugeordnet ist, die Sie crawlen. Andernfalls könnten unveröffentlichte Inhalte in SharePoint-Websites und Nebenversionen von Dateien (Verlauf) in SharePoint-Websites gecrawlt und indiziert werden.

Arbeitsblattaktion

Erfassen Sie Ihre Entscheidungen zu Crawlregeln für die Erstbereitstellung im Abschnitt "Crawl rules" von Plan to crawl content worksheet in englischer Sprache (http://go.microsoft.com/fwlink/?LinkId=76207&clcid=0x409) (Arbeitsblatt "Planen des Crawlens von Inhalt").

Planen der auf Farmebene verwalteten Sucheinstellungen

Neben den auf SSP-Ebene konfigurierten Einstellungen haben auch verschiedene Einstellungen, die auf Farmebene verwaltet werden, Auswirkungen auf das Crawlen des Inhalts. Beachten Sie bei der Planung des Crawlens die folgenden Sucheinstellungen auf Farmebene:

  • E-Mail-Adresse des Kontakts: Das Crawlen von Inhalt hat Auswirkungen auf die Ressourcen der Server, die gecrawlt werden. Bevor Sie Inhalt crawlen können, müssen Sie in den Konfigurationseinstellungen die E-Mail-Adresse der Person in Ihrer Organisation angeben, die Administratoren kontaktieren können, wenn das Crawlen deren Server nachteilig beeinflusst. Diese E-Mail-Adresse wird für die Administratoren der Server, die gecrawlt werden, in den Protokollen angezeigt. Diese Administratoren können so jemanden erreichen, wenn die Auswirkungen des Crawlens auf die Leistung und die Bandbreite zu groß sind oder wenn andere Probleme auftreten.

    Die E-Mail-Adresse des Kontakts sollte einer Person gehören, die über die erforderlichen Kenntnisse und die Verfügbarkeit verfügt, um auf Anforderungen schnell zu antworten. Alternativ können Sie einen genau überwachten Verteilerlistenalias als E-Mail-Adresse des Kontakts verwenden. Unabhängig davon, ob der gecrawlte Inhalt intern in der Organisation gespeichert wird oder nicht, ist eine schnelle Antwortzeit wichtig.

  • Proxyservereinstellungen: Sie können auswählen, ob beim Crawlen von Inhalt ein Proxyserver verwendet werden soll. Der zu verwendende Proxyserver hängt von der Topologie der Office SharePoint Server 2007 für Search-Bereitstellung und der Architektur anderer Server in Ihrer Organisation ab.

  • Timeouteinstellungen: Mit den Timeouteinstellungen wird die Zeit beschränkt, die der Suchserver beim Herstellen einer Verbindung mit anderen Diensten wartet.

  • SSL-Einstellung: Mit der SSL-Einstellung (Secure Sockets Layer) wird bestimmt, ob das SSL-Zertifikat genau dem Crawlinhalt entsprechen muss.

Arbeitsblattaktion

Erfassen Sie Ihre Entscheidungen zu den Sucheinstellungen auf Farmebene für Ihre Erstbereitstellung im Abschnitt "Farm-level search settings" von Plan to crawl content worksheet in englischer Sprache (http://go.microsoft.com/fwlink/?LinkId=76207&clcid=0x409) (Arbeitsblatt "Planen des Crawlens von Inhalt").

Indizieren von Inhalt in verschiedenen Sprachen

Beim Crawlen von Inhalt müssen vom Crawler die einzelnen Wörter bestimmt werden, aus denen einzelne Teile des Inhalts zusammengesetzt sind. Bei einigen Sprachen werden die meisten Wörter durch Leerzeichen getrennt, sodass dies eine relativ einfache Aufgabe ist. Bei anderen Sprachen ist die Suche nach Wortgrenzen komplizierter.

Worttrennmodule finden Wortgrenzen in indizierten Volltextdaten. Dies wird manchmal als Trennen von Wörtern bezeichnet. Bei der Wortstammerkennung werden Verben konjugiert. Dank der Worttrennmodule für jede Sprache sind die resultierenden Begriffe für die jeweilige Sprache genauer. Wenn kein Worttrennmodul für eine bestimmte Sprache verfügbar ist, wird ein neutrales Worttrennmodul verwendet.

Standardmäßig ist das neutrale Worttrennmodul und ein Worttrennmodul für die Sprache von Office SharePoint Server 2007 für Search installiert.

Stellen Sie als bewährte Methode sicher, dass Sie entsprechenden Worttrennmodule und die Wortstammerkennung für jede Sprache installieren, die unterstützt werden muss. Worttrennmodule und die Wortstammerkennung müssen auf allen Servern installiert werden, auf denen der Office SharePoint Server-Suchdienst ausgeführt wird. Weitere Informationen zu Worttrennmodulen und zur Wortstammerkennung finden Sie unter Plan for multilingual sites.

Arbeitsblattaktion

Erfassen Sie die Entscheidungen zu Worttrennmodulen und zur Wortstammerkennung für Ihre Erstbereitstellung im Abschnitt "Word breakers and stemmers" von Plan to crawl content worksheet in englischer Sprache (http://go.microsoft.com/fwlink/?LinkId=76207&clcid=0x409) (Arbeitsblatt "Planen des Crawlens von Inhalt").

Arbeitsblatt

Falls noch nicht geschehen, erfassen Sie Ihre Planungsentscheidungen zu Inhaltsquellen sowie Ihre sonstigen Entscheidungen zum Crawlen von Inhalt im folgenden Arbeitsblatt:

Wenn Sie während der Erstbereitstellung und der Anfangskonfiguration nur einige der geplanten Inhaltsquellen und Crawlregeln erstellen möchten, können Sie dieses Arbeitsblatt als Bestandteil des fortlaufenden Betriebs verwenden.