Funktionen ai_similarity

Gäller för:check marked yes Databricks SQL

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

I förhandsversionen

  • Den underliggande språkmodellen kan hantera flera språk, men dessa funktioner är anpassade för engelska.
  • Det finns hastighetsbegränsning för de underliggande Foundation Model-API:erna, se Foundation Model API:er för att uppdatera dessa gränser.

Funktionen ai_similarity() anropar en toppmodern generativ AI-modell från Databricks Foundation Model API:er för att jämföra två strängar och beräknar semantisk likhetspoäng med SQL.

Behov

Viktigt!

De underliggande modeller som kan användas just nu är licensierade under MIT-licensen eller Llama 2 Community-licensen. Databricks rekommenderar att du granskar dessa licenser för att säkerställa efterlevnad av tillämpliga villkor. Om modeller dyker upp i framtiden som presterar bättre enligt Databricks interna riktmärken kan Databricks ändra modellen (och listan över tillämpliga licenser som tillhandahålls på den här sidan).

För närvarande är bge-large-en-v1.5 den underliggande modellen som driver den här AI-funktionen.

  • Den här funktionen är endast tillgänglig på arbetsytor i FOUNDATION Model API:er som betalar per token som stöds.
  • Den här funktionen är inte tillgänglig i Azure Databricks SQL Classic.
  • Kontrollera prissättningssidan för Databricks SQL.

Syntax

ai_similarity(expr1, expr2)

Argument

  • expr1: Ett STRING uttryck.
  • expr2: Ett STRING uttryck.

Returer

Ett FLOAT värde som representerar den semantiska likheten mellan de två indatasträngarna. Utdatapoängen är relativ och bör endast användas för rangordning. Poängen 1 innebär att de två texterna är lika med.

Exempel

> SELECT ai_similarity('Apache Spark', 'Apache Spark');
  1.0

> SELECT
   company_name
  FROM
   customers
  ORDER BY ai_similarity(company_name, 'Databricks') DESC
  LIMIT 1

  Databricks Inc.