Share via


Introduzione alla valutazione delle risposte in un'app di chat in JavaScript

Questo articolo illustra come valutare le risposte di un'app di chat rispetto a un set di risposte corrette o ideali (note come verità di base). Ogni volta che si modifica l'applicazione di chat in modo che influisca sulle risposte, eseguire una valutazione per confrontare le modifiche. Questa applicazione demo offre strumenti che è possibile usare oggi per semplificare l'esecuzione delle valutazioni.

Seguendo le istruzioni riportate in questo articolo, potrai:

  • Usare richieste di esempio fornite personalizzate per il dominio soggetto. Questi sono già presenti nel repository.
  • Generare domande utente di esempio e risposte sulla verità dai propri documenti.
  • Eseguire valutazioni usando una richiesta di esempio con le domande dell'utente generate.
  • Esaminare l'analisi delle risposte.

Nota

Questo articolo usa uno o più modelli di app di intelligenza artificiale come base per gli esempi e le linee guida nell'articolo. I modelli di app di intelligenza artificiale offrono implementazioni di riferimento ben gestite e facili da distribuire per garantire un punto di partenza di alta qualità per le app di intelligenza artificiale.

Panoramica dell'architettura

I componenti chiave dell'architettura includono:

  • App chat ospitata in Azure: l'app di chat viene eseguita nel servizio app Azure. L'app chat è conforme al protocollo di chat, che consente l'esecuzione dell'app di valutazione su qualsiasi app di chat conforme al protocollo.
  • Ricerca di intelligenza artificiale di Azure: l'app di chat usa Ricerca intelligenza artificiale di Azure per archiviare i dati dai propri documenti.
  • Generatore di domande di esempio: può generare una serie di domande per ogni documento insieme alla risposta alla verità di base. Più domande, più lunga è la valutazione.
  • L'analizzatore esegue domande e richieste di esempio sull'app di chat e restituisce i risultati.
  • Lo strumento di revisione consente di esaminare i risultati delle valutazioni.
  • Lo strumento Diff consente di confrontare le risposte tra valutazioni.

Quando si distribuisce questa valutazione in Azure, viene creato l'endpoint OpenAI di Azure per il modello GPT-4 con la propria capacità. Quando si valutano le applicazioni di chat, è importante che l'analizzatore abbia una propria risorsa OpenAI usando GPT-4 con la propria capacità.

Prerequisiti

  • Abbonamento di Azure. Crearne uno gratuito

  • Accesso concesso ad Azure OpenAI nella sottoscrizione di Azure desiderata.

    Attualmente, l'accesso a questo servizio viene concesso solo dall'applicazione. È possibile richiedere l'accesso a OpenAI di Azure completando il modulo all'indirizzo https://aka.ms/oai/access.

  • Distribuire un'app di chat

  • Queste app di chat caricano i dati nella risorsa ricerca di intelligenza artificiale di Azure. Questa risorsa è necessaria per il funzionamento dell'app di valutazione. Non completare la sezione Pulire le risorse della procedura precedente.

    Per questa distribuzione sono necessarie le informazioni seguenti sulle risorse di Azure, denominate app di chat in questo articolo:

    • URI DELL'API Chat: l'endpoint back-end del servizio visualizzato alla fine del azd up processo.
    • Azure AI Search. Sono necessari i valori seguenti:
      • Nome risorsa: nome della risorsa di Ricerca di intelligenza artificiale di Azure, indicato come Search service durante il azd up processo.
      • Nome indice: nome dell'indice di Ricerca di intelligenza artificiale di Azure in cui sono archiviati i documenti. Questo è disponibile nella portale di Azure per il servizio di ricerca.

    L'URL dell'API Chat consente alle valutazioni di effettuare richieste tramite l'applicazione back-end. Le informazioni di Ricerca intelligenza artificiale di Azure consentono agli script di valutazione di usare la stessa distribuzione del back-end, caricata con i documenti.

    Dopo aver raccolto queste informazioni, non è necessario usare di nuovo l'ambiente di sviluppo di app di chat. Più avanti in questo articolo viene fatto riferimento più volte per indicare come l'app di chat viene usata dall'appValutazioni. Non eliminare le risorse dell'app chat fino a quando non si completa l'intera procedura in questo articolo.

  • Per completare questo articolo è disponibile un ambiente contenitore di sviluppo con tutte le dipendenze necessarie. Puoi eseguire il contenitore di sviluppo in GitHub Codespaces (in un browser) o in locale usando Visual Studio Code.

Ambiente di sviluppo aperto

Inizia ora con un ambiente di sviluppo che ha tutte le dipendenze installate per completare questo articolo. È consigliabile disporre l'area di lavoro di monitoraggio in modo da poter visualizzare sia questa documentazione che l'ambiente di sviluppo contemporaneamente.

Questo articolo è stato testato con l'area per la switzerlandnorth distribuzione di valutazione.

GitHub Codespaces esegue un contenitore di sviluppo gestito da GitHub con Visual Studio Code per il Web come interfaccia utente. Per l'ambiente di sviluppo più semplice, usa GitHub Codespaces per avere gli strumenti di sviluppo e le dipendenze corretti preinstallati per completare questo articolo.

Importante

Tutti gli account GitHub possono usare Codespaces per un massimo di 60 ore gratuite ogni mese con 2 istanze di core. Per altre informazioni, vedere Spazio di archiviazione e ore core mensili inclusi in GitHub Codespaces.

  1. Avviare il processo per creare un nuovo codespace GitHub nel ramo main del repository GitHub Azure-Samples/ai-rag-chat-evaluator.

  2. Fare clic con il pulsante destro del mouse sul pulsante seguente e scegliere Apri collegamento in una nuova finestra per avere sia l'ambiente di sviluppo che la documentazione disponibile contemporaneamente.

    Aprire in GitHub Codespaces

  3. Nella pagina Crea codespace esaminare le impostazioni di configurazione del codespace e quindi selezionare Crea nuovo codespace

    Screenshot della schermata di conferma prima di creare un nuovo codespace.

  4. Attendere l'avvio del codespace. Questo processo di avvio può richiedere alcuni minuti.

  5. Nel terminale nella parte inferiore della schermata, accedi ad Azure con Azure Developer CLI.

    azd auth login --use-device-code
    
  6. Copia il codice dal terminale e incollalo in un browser. Segui le istruzioni per eseguire l'autenticazione con l'account Azure.

  7. Effettuare il provisioning della risorsa di Azure necessaria, Azure OpenAI, per l'app di valutazione.

    azd up
    

    Questa operazione non distribuisce l'app di valutazione, ma crea la risorsa OpenAI di Azure con una distribuzione GPT-4 necessaria per eseguire le valutazioni in locale nell'ambiente di sviluppo.

  8. Le attività rimanenti in questo articolo vengono eseguite nel contesto di questo contenitore di sviluppo.

  9. Il nome del repository GitHub viene visualizzato nella barra di ricerca. Questo indicatore visivo consente di distinguere questa app di valutazione dall'app di chat. Questo ai-rag-chat-evaluator repository viene definito app Valutazioni in questo articolo.

Preparare i valori e le informazioni di configurazione dell'ambiente

Aggiornare i valori dell'ambiente e le informazioni di configurazione con le informazioni raccolte durante i prerequisiti per l'app di valutazione.

  1. Usare il comando seguente per ottenere le informazioni sulle risorse dell'app Valutazioni in un .env file:

    azd env get-values > .env
    
  2. Aggiungere i valori seguenti dall'app di chat per l'istanzadi Ricerca di intelligenza artificiale di Azure all'oggetto .env, raccolto nella sezione prerequisiti:

    AZURE_SEARCH_SERVICE="<service-name>"
    AZURE_SEARCH_INDEX="<index-name>"
    

    Il AZURE_SEARCH_KEY valore è la chiave di query per l'istanza di Ricerca di intelligenza artificiale di Azure.

  3. Creare un nuovo file denominato my_config.json e copiarne il contenuto seguente:

    {
        "testdata_path": "my_input/qa.jsonl",
        "results_dir": "my_results/experiment<TIMESTAMP>",
        "target_url": "http://localhost:50505/chat",
        "target_parameters": {
            "overrides": {
                "semantic_ranker": false,
                "prompt_template": "<READFILE>my_input/prompt_refined.txt"
            }
        }
    }
    

    Lo script di valutazione crea la my_results cartella .

  4. Passare al target_url valore URI dell'app di chat, raccolto nella sezione prerequisiti. L'app di chat deve essere conforme al protocollo di chat. L'URI ha il formato https://CHAT-APP-URL/chatseguente. Assicurarsi che il protocollo e la chat route facciano parte dell'URI.

Generare dati di esempio

Per valutare nuove risposte, devono essere confrontate con una risposta "verità di terra", che è la risposta ideale per una domanda specifica. Generare domande e risposte dai documenti archiviati in Ricerca di intelligenza artificiale di Azure per l'app di chat.

  1. Copiare la example_input cartella in una nuova cartella denominatamy_input.

  2. In un terminale eseguire il comando seguente per generare i dati di esempio:

    python3 -m scripts generate --output=my_input/qa.jsonl --numquestions=14 --persource=2
    

Le coppie di domande/risposte vengono generate e archiviate in my_input/qa.jsonl (in formato JSONL) come input per l'analizzatore usato nel passaggio successivo. Per una valutazione di produzione, si genererebbero più coppie di controllo di qualità, più di 200 per questo set di dati.

Nota

Il numero limitato di domande e risposte per ogni origine consente di completare rapidamente questa procedura. Non è concepito per essere una valutazione di produzione che dovrebbe avere più domande e risposte per ogni origine.

Eseguire la prima valutazione con un prompt perfezionato

  1. Modificare le proprietà del my_config.json file di configurazione:

    Proprietà Nuovo valore
    results_dir my_results/experiment_refined
    prompt_template <READFILE>my_input/prompt_refined.txt

    Il prompt perfezionato è specifico sul dominio soggetto.

    If there isn't enough information below, say you don't know. Do not generate answers that don't use the sources below. If asking a clarifying question to the user would help, ask the question.
    
    Use clear and concise language and write in a confident yet friendly tone. In your answers ensure the employee understands how your response connects to the information in the sources and include all citations necessary to help the employee validate the answer provided.
    
    For tabular information return it as an html table. Do not return markdown format. If the question is not in English, answer in the language used in the question.
    
    Each source has a name followed by colon and the actual information, always include the source name for each fact you use in the response. Use square brackets to reference the source, e.g. [info1.txt]. Don't combine sources, list each source separately, e.g. [info1.txt][info2.pdf].
    
  2. In un terminale eseguire il comando seguente per eseguire la valutazione:

    python3 -m scripts evaluate --config=my_config.json --numquestions=14
    

    Questo script ha creato una nuova cartella dell'esperimento in my_results/ con la valutazione. La cartella contiene i risultati della valutazione, tra cui:

    Nome del file Descrizione
    eval_results.jsonl Ogni domanda e risposta, insieme alle metriche GPT per ogni coppia di controllo di qualità.
    summary.json Risultati complessivi, ad esempio le metriche GPT medie.

Eseguire la seconda valutazione con un prompt debole

  1. Modificare le proprietà del my_config.json file di configurazione:

    Proprietà Nuovo valore
    results_dir my_results/experiment_weak
    prompt_template <READFILE>my_input/prompt_weak.txt

    Tale prompt debole non ha alcun contesto sul dominio soggetto:

    You are a helpful assistant.
    
  2. In un terminale eseguire il comando seguente per eseguire la valutazione:

    python3 -m scripts evaluate --config=my_config.json --numquestions=14
    

Eseguire la terza valutazione con una temperatura specifica

Usa una richiesta che consenta una maggiore creatività.

  1. Modificare le proprietà del my_config.json file di configurazione:

    Esistente Proprietà Nuovo valore
    Esistente results_dir my_results/experiment_ignoresources_temp09
    Esistente prompt_template <READFILE>my_input/prompt_ignoresources.txt
    Nuovo temperatura 0.9

    La temperatura predefinita è 0,7. Maggiore è la temperatura, più creative sono le risposte.

    Il prompt ignore è breve:

    Your job is to answer questions to the best of your ability. You will be given sources but you should IGNORE them. Be creative!
    
  2. L'oggetto config deve essere simile al seguente, ad eccezione dell'uso del proprio results_dir:

    {
        "testdata_path": "my_input/qa.jsonl",
        "results_dir": "my_results/prompt_ignoresources_temp09",
        "target_url": "https://YOUR-CHAT-APP/chat",
        "target_parameters": {
            "overrides": {
                "temperature": 0.9,
                "semantic_ranker": false,
                "prompt_template": "<READFILE>my_input/prompt_ignoresources.txt"
            }
        }
    }
    
  3. In un terminale eseguire il comando seguente per eseguire la valutazione:

    python3 -m scripts evaluate --config=my_config.json --numquestions=14
    

Esaminare i risultati della valutazione

Sono state eseguite tre valutazioni in base a richieste e impostazioni dell'app diverse. I risultati vengono archiviati nella my_results cartella . Esaminare le differenze dei risultati in base alle impostazioni.

  1. Usare lo strumento di revisione per visualizzare i risultati delle valutazioni:

    python3 -m review_tools summary my_results
    
  2. I risultati hanno un aspetto simile al seguente:

    Screenshot dello strumento di revisione delle valutazioni che mostra le tre valutazioni.

    Ogni valore viene restituito come numero e percentuale.

  3. Usare la tabella seguente per comprendere il significato dei valori.

    Valore Descrizione
    Allineamento Questo si riferisce a quanto bene le risposte del modello si basano su informazioni effettive e verificabili. Una risposta viene considerata a terra se è effettivamente accurata e riflette la realtà.
    Pertinenza In questo modo viene misurata la modalità di allineamento delle risposte del modello al contesto o al prompt. Una risposta pertinente risolve direttamente la query o l'istruzione dell'utente.
    Coerenza Questo si riferisce alla coerenza logica delle risposte del modello. Una risposta coerente mantiene un flusso logico e non si contraddice.
    Citazione Indica se la risposta è stata restituita nel formato richiesto nel prompt.
    Durata In questo modo viene misurata la lunghezza della risposta.
  4. I risultati dovrebbero indicare che tutte le 3 valutazioni hanno avuto una rilevanza elevata, mentre la experiment_ignoresources_temp09 rilevanza più bassa è stata elevata.

  5. Selezionare la cartella per visualizzare la configurazione per la valutazione.

  6. Premere CTRL + C per uscire dall'app e tornare al terminale.

Confrontare le risposte

Confrontare le risposte restituite dalle valutazioni.

  1. Selezionare due delle valutazioni da confrontare, quindi usare lo stesso strumento di revisione per confrontare le risposte:

    python3 -m review_tools diff my_results/experiment_refined my_results/experiment_ignoresources_temp09
    
  2. Esamina i risultati. I risultati ottenuti dall'utente possono variare.

    Screenshot del confronto delle risposte di valutazione tra valutazioni.

  3. Premere CTRL + C per uscire dall'app e tornare al terminale.

Suggerimenti per ulteriori valutazioni

  • Modificare le richieste in my_input per personalizzare le risposte, ad esempio dominio soggetto, lunghezza e altri fattori.
  • Modificare il my_config.json file per modificare i parametri, ad temperatureesempio , ed semantic_ranker eseguire di nuovo gli esperimenti.
  • Confrontare risposte diverse per comprendere in che modo la richiesta e la domanda influisce sulla qualità della risposta.
  • Generare un set separato di domande e risposte reali per ogni documento nell'indice di Ricerca di intelligenza artificiale di Azure. Eseguire quindi di nuovo le valutazioni per vedere in che modo le risposte differiscono.
  • Modificare le richieste per indicare risposte più brevi o più lunghe aggiungendo il requisito alla fine del prompt. Ad esempio, Please answer in about 3 sentences.

Pulire le risorse

Pulire le risorse di Azure

Le risorse di Azure create in questo articolo vengono fatturate alla sottoscrizione di Azure. Se prevedi che queste risorse non ti servano in futuro, eliminale per evitare di incorrere in costi aggiuntivi.

Esegui il seguente comando Azure Developer CLI per eliminare le risorse di Azure e rimuovere il codice sorgente:

azd down --purge

Pulire GitHub Codespaces

L'eliminazione dell'ambiente GitHub Codespaces offre la possibilità di aumentare le ore gratuite per core a cui si ha diritto per l'account.

Importante

Per altre informazioni sui diritti dell'account GitHub, vedere Ore di archiviazione e di core mensili incluse in GitHub Codespaces.

  1. Accedere al dashboard di GitHub Codespaces (https://github.com/codespaces).

  2. Individuare i codespace attualmente in esecuzione provenienti dal repository GitHub Azure-Samples/ai-rag-chat-evaluator.

    Screenshot di tutti i codespace in esecuzione, inclusi lo stato e i modelli.

  3. Aprire il menu di scelta rapida per il codespace e selezionare Elimina.

    Screenshot del menu di scelta rapida per un singolo codespace con l'opzione di eliminazione evidenziata.

Tornare all'articolo sull'app di chat per pulire tali risorse.

Passaggi successivi