Connettore Microsoft Graph per siti Web aziendali

Il connettore Microsoft Graph per siti Web aziendali consente all'organizzazione di indicizzare articoli e contenuti dai siti Web di proprietà dell'azienda. Dopo aver configurato il connettore e aver sincronizzato il contenuto dal sito Web, gli utenti finali possono cercare il contenuto da qualsiasi client di Microsoft Search.

Nota

Leggere l'articolo Configurare i connettori di Microsoft Graph nell'articolo interfaccia di amministrazione di Microsoft 365 per comprendere le istruzioni generali di configurazione dei connettori.

Questo articolo è destinato a tutti gli utenti che configurano, eseguono e monitorano un connettore di siti Web aziendali. Integra il processo di configurazione generale e mostra le istruzioni valide solo per il connettore Enterprise Websites. Questo articolo include anche informazioni sulla risoluzione dei problemi.

Passaggio 1: Aggiungere un connettore nel interfaccia di amministrazione di Microsoft 365

Aggiungere il connettore per siti Web aziendali

Per altre informazioni, vedere le istruzioni generali per l'installazione .

Passaggio 2: Assegnare un nome alla connessione

Specificare questi attributi:

  • Nome (obbligatorio)
  • ID connessione (obbligatorio)
  • Descrizione (facoltativo)
  • Selezionare la casella di controllo (obbligatorio)

L'ID connessione crea proprietà implicite per il connettore. Deve essere univoco e può contenere solo un massimo di 32 caratteri alfanumerici. Per modificare l'ID, passare a Impostazioni avanzate.

Passaggio 3: Configurare le impostazioni di connessione

Per connettersi all'origine dati, compilare l'URL radice del sito Web e selezionare un verticale personalizzato per i risultati. Dopo aver completato queste informazioni, selezionare Test connessione per verificare le impostazioni.

URL del sito Web

Specificare la radice del sito Web per cui si vuole eseguire la ricerca per indicizzazione. Il connettore siti Web aziendali userà questo URL come punto di partenza e seguirà tutti i collegamenti di questo URL per la ricerca per indicizzazione.

Nota

È possibile indicizzare fino a 50 URL di sito diversi in una singola connessione. Nel campo URL immettere gli URL del sito separati da virgole (,). Ad esempio, https://www.contoso.com,https://www.contosoelectronics.com.

Usare sitemap per la ricerca per indicizzazione

Se selezionata, il connettore eseguirà solo la ricerca per indicizzazione degli URL elencati nella mappa del sito. In questo modo è anche possibile configurare la ricerca per indicizzazione incrementale durante un passaggio successivo. Se non è selezionata o non viene trovata alcuna mappa del sito, il connettore eseguirà una ricerca per indicizzazione approfondita di tutti i collegamenti trovati nell'URL radice del sito.

Configurazione dinamica del sito

Se il sito Web contiene contenuto dinamico, ad esempio pagine Web che risiedono in sistemi di gestione dei contenuti come Confluence o Unily, è possibile abilitare un crawler dinamico. Per attivarlo, selezionare Abilita ricerca per indicizzazione per i siti dinamici. Il crawler attenderà il rendering del contenuto dinamico prima di iniziare la ricerca per indicizzazione.

Screenshot del riquadro Impostazioni di connessione per Enterprise Web Connector.

Oltre alla casella di controllo, sono disponibili tre campi facoltativi:

  1. DOM Ready: immettere l'elemento DOM che il crawler deve usare come segnale che il contenuto viene sottoposto a rendering completo e che la ricerca per indicizzazione deve iniziare.
  2. Intestazioni da aggiungere: specificare le intestazioni HTTP che il crawler deve includere durante l'invio di tale URL Web specifico. È possibile impostare più intestazioni per siti Web diversi. È consigliabile includere i valori del token di autenticazione.
  3. Intestazioni da ignorare: specificare eventuali intestazioni non necessarie che devono essere escluse dalle richieste di ricerca per indicizzazione dinamica.

Le intestazioni devono essere aggiunte nella sintassi seguente: {"Root-URL":["TKey=TValue"]}

Esempio: {"https://www.contoso.com":["Token=Value","Type=Value2"]}

Nota

La ricerca per indicizzazione dinamica è supportata solo per la modalità di ricerca per indicizzazione dell'agente.

Modalità di ricerca per indicizzazione: cloud o locale

La modalità di ricerca per indicizzazione determina il tipo di siti Web da indicizzare, cloud o locale. Per i siti Web cloud selezionare Cloud come modalità di ricerca per indicizzazione.

Inoltre, il connettore supporta ora la ricerca per indicizzazione di siti Web locali. Per accedere ai dati locali, è innanzitutto necessario installare e configurare l'agente del connettore. Per altre informazioni, vedere Microsoft Graph Connector Agent.To learn more, see Microsoft Graph connector agent.

Per i siti Web locali selezionare Agente come modalità di ricerca per indicizzazione e nel campo Agente locale scegliere l'agente connettore Graph installato e configurato in precedenza.

Autenticazione

Nessuno non richiede alcuna autenticazione

Basic richiede un nome utente e una password.

OAuth 2.0 con Microsoft Entra ID richiede un ID risorsa, un ID client e un segreto client.

L'ID risorsa, l'ID client e i valori del segreto client dipenderanno da come è stata configurata l'autenticazione basata su Microsoft Entra ID per il sito Web:

  1. Se si usa un'applicazione sia come provider di identità che come app client per accedere al sito Web, l'ID client e l'ID risorsa saranno l'ID applicazione dell'app e il segreto client sarà il segreto generato nell'app.

    Dopo aver configurato l'app client, assicurarsi di creare un nuovo segreto client passando alla sezione Certificati & segreti dell'app. Copiare il valore del segreto client visualizzato nella pagina perché non verrà visualizzato di nuovo.

    Negli screenshot seguenti è possibile visualizzare i passaggi per ottenere l'ID client, il segreto client e configurare l'app se si sta creando l'app autonomamente.

    • Visualizzazione delle impostazioni nella sezione personalizzazione:

      Immagine che mostra la sezione delle impostazioni nella pagina di personalizzazione.

    • Visualizzazione delle impostazioni nella sezione autenticazione:

      Immagine che mostra la sezione delle impostazioni nella pagina di autenticazione.

      Nota

      Non è necessario avere la route specificata sopra per l'URI di reindirizzamento nel sito Web. Solo se si usa il token utente inviato da Azure nel sito Web per l'autenticazione, sarà necessario disporre della route.

    • Visualizzazione dell'ID client nella sezione Informazioni di base :

      Immagine che mostra l'ID client nella sezione informazioni di base.

    • Visualizzazione del segreto client nella sezione Certificati & segreti :

      Immagine che mostra il segreto client.

  2. Se si usa un'applicazione come provider di identità per il sito Web come risorsa e un'applicazione diversa per accedere al sito Web, l'ID client sarà l'ID applicazione della seconda app e il segreto client sarà il segreto configurato nella seconda app. Tuttavia, l'ID risorsa sarà l'ID della prima app.

    Non è necessario configurare un segreto client in questa applicazione, ma è necessario aggiungere un ruolo dell'app nella sezione Ruoli app, che verrà successivamente assegnata all'applicazione client. Per informazioni su come aggiungere un ruolo dell'app, vedere le immagini.

    • Creazione di un nuovo ruolo dell'app:

      Immagine che mostra l'opzione per creare un ruolo dell'app.

    • Modifica del nuovo ruolo dell'app:

      Immagine che mostra la sezione per modificare un ruolo dell'app.

      Dopo aver configurato l'app per le risorse, creare l'app client e assegnarle le autorizzazioni per accedere all'app per le risorse aggiungendo il ruolo dell'app configurato sopra nelle autorizzazioni api dell'app client.

      Nota

      Per informazioni su come concedere le autorizzazioni all'app client, vedere Avvio rapido: Configurare un'applicazione client per accedere a un'API Web.

    Gli screenshot seguenti mostrano la sezione per concedere le autorizzazioni all'app client.

    • Aggiunta di un'autorizzazione:

      Immagine che mostra l'opzione per aggiungere un'autorizzazione.

    • Selezione delle autorizzazioni:

      Immagine che mostra la sezione per selezionare un'API.

    • Aggiunta delle autorizzazioni:

      Immagine che mostra le autorizzazioni selezionate.

    Dopo aver assegnato le autorizzazioni, è necessario creare un nuovo segreto client per questa applicazione passando alla sezione Certificati & segreti. Copiare il valore del segreto client visualizzato nella pagina perché non verrà visualizzato di nuovo. Usare l'ID applicazione di questa app come ID client, il segreto dell'app come segreto client e l'ID applicazione della prima app come ID risorsa.

SiteMinder richiede un URL formattato correttamente, https://custom_siteminder_hostname/smapi/rest/createsmsessionun nome utente e una password.

L'autenticazione di Windows è disponibile solo in modalità agente. Richiede nome utente, dominio e password. È necessario specificare il nome utente e il dominio nel campo Nome utente , in uno dei formati seguenti: dominio\nomeutente o username@domain. Una password deve essere immessa nel campo Password . Per autenticazione di Windows, il nome utente specificato deve essere anche un amministratore nel server in cui è installato l'agente.

Passaggio 4: Impostazioni meta tag

Il connettore recupera tutti i meta tag che gli URL radice possono avere e li mostra. È possibile selezionare i tag da includere per la ricerca per indicizzazione.

Impostazioni meta tag con l'autore, le impostazioni locali e altri tag selezionati.

I meta tag selezionati possono essere usati per creare proprietà personalizzate. Inoltre, nella pagina Schema è possibile gestirli ulteriormente (Queryable, Searchable, Retrievable, Refinable).

Passaggio 5: Impostazioni delle proprietà personalizzate

È possibile arricchire i dati indicizzati creando proprietà personalizzate per i meta tag selezionati o le proprietà predefinite del connettore.

Proprietà personalizzata configurata con una regola per i metadati del team.

Per aggiungere una proprietà personalizzata:

  1. Immettere un nome di proprietà. Questo nome verrà visualizzato nei risultati della ricerca da questo connettore.
  2. Per il valore selezionare Static o String/Regex Mapping.For the value, select Static or String/Regex Mapping. Un valore statico verrà incluso in tutti i risultati della ricerca da questo connettore. Un valore string/regex varia in base alle regole aggiunte.
  3. Selezionare Modifica valore.
  4. Se è stato selezionato un valore statico, immettere la stringa da visualizzare.
  5. Se è stato selezionato un valore string/regex:
    • Nell'elenco Proprietà della sezione Aggiungi espressioni selezionare una proprietà predefinita o un meta tag dall'elenco.
    • Per Valore di esempio immettere una stringa per rappresentare il tipo di valori che potrebbero essere visualizzati. Questo esempio viene usato quando si visualizza in anteprima la regola.
    • Per Espressione immettere un'espressione regex per definire la parte del valore della proprietà che deve essere visualizzata nei risultati della ricerca. È possibile aggiungere fino a tre espressioni. Per altre informazioni sulle espressioni regex, vedere Espressioni regolari .NET o cercare nel Web una guida di riferimento alle espressioni regex.
    • Nella sezione Crea formula immettere una formula per combinare i valori estratti dalle espressioni.

Passaggio 6: Aggiungere URL da escludere (restrizioni di ricerca per indicizzazione facoltative)

Esistono due modi per impedire la ricerca per indicizzazione delle pagine: non consentire le pagine nel file robots.txt o aggiungerle all'elenco esclusioni.

Supporto per robots.txt

Il connettore controlla se è presente un file robots.txt per il sito radice. Se ne esiste uno, seguirà e rispetterà le direzioni trovate all'interno di tale file. Se non si vuole che il connettore esevi determinate pagine o directory nel sito, includere le pagine o le directory nelle dichiarazioni "Non consentire" nel file di robots.txt.

Aggiungere URL da escludere

Facoltativamente, è possibile creare un elenco di esclusione per escludere alcuni URL dalla ricerca per indicizzazione se il contenuto è sensibile o non vale la pena eseguire la ricerca per indicizzazione. Per creare un elenco di esclusione, esplorare l'URL radice. È possibile aggiungere gli URL esclusi all'elenco durante il processo di configurazione.

Passaggio 7: Assegnare etichette di proprietà

È possibile assegnare una proprietà di origine a ogni etichetta scegliendo da un menu di opzioni. Anche se questo passaggio non è obbligatorio, l'avere alcune etichette di proprietà migliorerà la rilevanza della ricerca e garantirà risultati di ricerca più accurati per gli utenti finali.

Passaggio 8: Gestire lo schema

Nella schermata Gestisci schema è possibile modificare gli attributi dello schema (le opzioni query,ricerca, recupero e affinamento) associati alle proprietà predefinite o personalizzate, aggiungere alias facoltativi e scegliere la proprietà Contenuto .

Passaggio 9: Gestire le autorizzazioni di ricerca

Il connettore Siti Web aziendali supporta solo le autorizzazioni di ricerca visibili a Tutti. I dati indicizzati vengono visualizzati nei risultati della ricerca ed è visibile a tutti gli utenti dell'organizzazione.

Passaggio 10: Impostare la pianificazione dell'aggiornamento

Il connettore Enterprise Websites supporta la ricerca per indicizzazione completa e incrementale. La ricerca per indicizzazione incrementale è supportata solo per le connessioni configurate con la ricerca per indicizzazione della mappa del sito abilitata. La mappa del sito per la ricerca per indicizzazione può essere selezionata nel passaggio 3.

Durante un intervallo di aggiornamento incrementale, vengono sottoposti a ricerca per indicizzazione solo gli URL modificati dopo l'ultimo aggiornamento incrementale. In un intervallo di aggiornamento completo, il connettore eseguirà nuovamente la ricerca per indicizzazione di tutto il contenuto del sito Web. Per un aggiornamento completo, è consigliabile impostare un intervallo di pianificazione dell'aggiornamento elevato, compreso tra una e due settimane, per garantire che il connettore disponga di tempo sufficiente per completare la ricerca per indicizzazione. È consigliabile un aggiornamento pianificato.

Passaggio 11: Esaminare la connessione

Seguire le istruzioni di configurazione generali.

Risoluzione dei problemi

Durante la lettura del contenuto del sito Web, la ricerca per indicizzazione potrebbe riscontrare alcuni errori di origine, rappresentati dai codici di errore dettagliati riportati di seguito. Per ottenere altre informazioni sui tipi di errori, passare alla pagina dei dettagli dell'errore dopo aver selezionato la connessione. Selezionare il codice di errore per visualizzare errori più dettagliati. Per altre informazioni, vedere anche Monitorare le connessioni .

Codice di errore dettagliato Messaggio di errore
6001 Il sito che si sta tentando di indicizzare non è raggiungibile
6005 La pagina di origine che si sta tentando di indicizzare è stata bloccata in base alla configurazione robots.txt.
6008 Impossibile risolvere il DNS
6009 Per tutti gli errori sul lato client (ad eccezione di HTTP 404, 408), vedere codici di errore HTTP 4xx per informazioni dettagliate.
6013 Impossibile trovare la pagina di origine che si sta tentando di indicizzare. (Errore HTTP 404)
6018 La pagina di origine non risponde e si è verificato il timeout della richiesta. (Errore HTTP 408)
6021 La pagina di origine che si sta tentando di indicizzare non contiene contenuto testuale nella pagina.
6023 La pagina di origine che si sta tentando di indicizzare non è supportata (non una pagina HTML)
6024 Il contenuto della pagina di origine che si sta tentando di indicizzare non è supportato.
  • Gli errori 6001-6013 si verificano quando l'origine dati non è raggiungibile a causa di un problema di rete o quando l'origine dati stessa viene eliminata, spostata o rinominata. Verificare se i dettagli dell'origine dati forniti sono ancora validi.
  • Gli errori 6021-6024 si verificano quando l'origine dati contiene contenuto non testuale nella pagina o quando la pagina non è html. Controllare l'origine dati e aggiungere questa pagina nell'elenco di esclusione o ignorare l'errore.