Abfragebeschleunigung – SQL-Sprachreferenz

Artikel
06/01/2023

Die Abfragebeschleunigung unterstützt eine ANSI SQL-ähnliche Sprache, um Abfragen für Blobinhalte zu schreiben. Der SQL-Dialekt für die Abfragebeschleunigung stellt eine Teilmenge von ANSI SQL mit einer begrenzten Anzahl unterstützter Datentypen, Operatoren usw. dar, bietet aber gleichzeitig auch eine Erweiterung von ANSI SQL, um Abfragen für hierarchische teilstrukturierte Datenformate wie JSON zu unterstützen.

SELECT-Syntax

Die einzige von der Abfragebeschleunigung unterstützte SQL-Anweisung ist die SELECT-Anweisung. In diesem Beispiel wird jede Zeile zurückgegeben, für die der Ausdruck „true“ zurückgibt.

SELECT * FROM table [WHERE expression] [LIMIT limit]

Bei CSV-formatierten Daten muss table lauten. Dies bedeutet, dass die Abfrage für jedes Blob ausgeführt wird, das im REST-Aufruf angegeben wurde. Für JSON formatierte Daten, Tabelle ist ein "Tabellendeskriptor". Siehe Abschnitt Tabellendeskriptoren in diesem Artikel.

Im folgenden Beispiel gibt die Anweisung für jede Zeile, für die der WHERE-Ausdruck (expression) „true“ zurückgibt, eine neue Zeile zurück, die aus der Auswertung der einzelnen Projektionsausdrücke resultiert.

SELECT expression [, expression ...] FROM table [WHERE expression] [LIMIT limit]

Sie können eine oder mehrere bestimmte Spalten als Teil des SELECT-Ausdrucks angeben (z. B. SELECT Title, Author, ISBN).

Hinweis

Maximal können Sie im SELECT-Ausdruck 49 bestimmte Spalten verwenden. Wenn Ihre SELECT-Anweisung mehr als 49 Spalten zurückgeben muss, verwenden Sie für den SELECT-Ausdruck ein Platzhalterzeichen (*) (Beispiel: SELECT *).

Im folgenden Beispiel wird eine aggregierte Berechnung (z. B. der Durchschnittswert einer bestimmten Spalte) für jede Zeile zurückgegeben, für die expression „true“ zurückgibt.

SELECT aggregate_expression FROM table [WHERE expression] [LIMIT limit]

Im folgenden Beispiel werden geeignete Offsets zum Aufteilen eines CSV-formatierten Blobs zurückgegeben. Weitere Informationen finden Sie im Abschnitt Sys.Split dieses Artikels.

SELECT sys.split(split_size)FROM BlobStorage

Datentypen

Datentyp	BESCHREIBUNG
INT	Ganze 64-Bit-Zahl mit Vorzeichen:
GLEITKOMMAZAHL	64-Bit-Gleitkommazahl (mit doppelter Genauigkeit).
STRING	Unicode-Zeichenfolge variabler Länge.
timestamp	Ein Zeitpunkt.
BOOLEAN	„true“ oder „false“.

Beim Lesen von Werten aus CSV-formatierten Daten werden alle Werte als Zeichenfolgen gelesen. Zeichenfolgenwerte können mithilfe von CAST-Ausdrücken in andere Typen konvertiert werden. Werte können abhängig vom Kontext implizit in andere Typen umgewandelt werden. Weitere Informationen finden Sie unter Rangfolge der Datentypen (Transact-SQL).

Ausdrücke

Verweisen auf Felder

Bei JSON-formatierten oder CSV-formatierten Daten mit einer Kopfzeile kann anhand des Namens auf Felder verwiesen werden. Feldnamen können mit oder ohne Anführungszeichen angegeben werden. Feldnamen in Anführungszeichen werden in doppelte Anführungszeichen (") eingeschlossen und dürfen Leerzeichen enthalten. Außerdem wird die Groß-/Kleinschreibung beachtet. Bei Feldnamen ohne Anführungszeichen wird die Groß-/Kleinschreibung nicht beachtet, und Sie dürfen keine Sonderzeichen enthalten.

In CSV-formatierten Daten kann auch durch eine Ordnungszahl, der ein Unterstrich (_) vorangestellt ist, auf Felder verwiesen werden. Beispielsweise kann auf das erste Feld mit _1 oder auf das elfte Feld mit _11 verwiesen werden. Anhand der Ordnungszahl auf Felder zu verweisen, ist bei CSV-formatierten Daten hilfreich, die keine Kopfzeile enthalten. In diesem Fall bietet die Ordnungszahl die einzige Möglichkeit, auf ein bestimmtes Feld zu verweisen.

Operatoren

Folgende SQL-Standardoperatoren werden unterstützt:

Operator	Beschreibung
`=`	Vergleicht die Gleichwertigkeit von zwei Ausdrücken (ein Vergleichsoperator).
`!=`	Testet, ob zwei Ausdrücke ungleich sind (ein Vergleichsoperator).
`<>`	Vergleicht zwei Ausdrücke nach dem Kriterium „ungleich“ (ein Vergleichsoperator).
`<`	Vergleicht zwei Ausdrücke nach dem Kriterium „kleiner als“ (ein Vergleichsoperator).
`<=`	Vergleicht zwei Ausdrücke nach dem Kriterium „kleiner als oder gleich“ (ein Vergleichsoperator).
`>`	Vergleicht zwei Ausdrücke nach dem Kriterium „größer als“ (ein Vergleichsoperator).
`>=`	Vergleicht zwei Ausdrücke nach dem Kriterium größer als oder gleich (ein Vergleichsoperator).
`+`	Addition zweier Zahlen. Mit diesem arithmetischen Operator für die Addition kann auch eine Anzahl von Tagen zu einem Datum addiert werden.
`-`	Subtrahiert zwei Zahlen (ein arithmetischer Subtraktionsoperator).
`/`	Division einer Zahl durch eine andere (arithmetischer Operator für die Division).
`*`	Multiplikation zweier Ausdrücke (arithmetischer Operator für die Multiplikation).
`%`	Gibt den Rest der Division einer Zahl durch eine andere zurück.
`AND`	Führt eine bitweise logische AND-Operation zwischen zwei ganzzahligen Werten aus.
`OR`	Führt eine bitweise logische OR-Operation zwischen zwei gegebenen ganzzahligen Werten durch, die innerhalb von Transact-SQL-Anweisungen in binäre Ausdrücke umgewandelt wurden.
`NOT`	Negiert eine boolesche Eingabe.
`CAST`	Konvertiert einen Ausdruck von einem Datentyp in einen anderen.
`BETWEEN`	Gibt einen zu testenden Bereich an.
`IN`	Ermittelt, ob ein angegebener Wert mit einem Wert aus einer Unterabfrage oder Liste übereinstimmt.
`NULLIF`	Gibt einen NULL-Wert zurück, wenn die beiden angegebenen Ausdrücke gleich sind.
`COALESCE`	Wertet die Argumente in der vorliegenden Reihenfolge aus und gibt den aktuellen Wert des ersten Ausdrucks zurück, der zuerst nicht als NULL ausgewertet wird.

Wenn sich die Datentypen auf der linken und rechten Seite eines Operators unterscheiden, wird eine automatische Konvertierung gemäß den hier angegebenen Regeln durchgeführt: Rangfolge der Datentypen (Transact-SQL).

Die SQL-Sprache für die Abfragebeschleunigung unterstützt nur eine sehr kleine Teilmenge der Datentypen, die in diesem Artikel erläutert werden. Weitere Informationen finden Sie im Abschnitt Datentypen dieses Artikels.

Umwandlungen

Die SQL-Sprache für die Abfragebeschleunigung unterstützt den CAST-Operator gemäß den folgenden Regeln: Datentypkonvertierung (Datenbank-Engine).

Die SQL-Sprache für die Abfragebeschleunigung unterstützt nur eine kleine Teilmenge der Datentypen, die in diesem Artikel erläutert werden. Weitere Informationen finden Sie im Abschnitt Datentypen dieses Artikels.

Zeichenfolgenfunktionen

Die SQL-Sprache für die Abfragebeschleunigung unterstützt die folgenden standardmäßigen SQL-Zeichenfolgenfunktionen:

Funktion	Beschreibung
CHAR_LENGTH	Gibt die Länge des Zeichenfolgenausdrucks in Zeichen zurück, wenn der Zeichenfolgenausdruck den Zeichenfolgendatentyp aufweist. Anderenfalls wird die Länge des Zeichenfolgenausdrucks in Byte zurückgegeben (die kleinste ganze Zahl, die nicht weniger als die Anzahl von Bits ist, dividiert durch 8). (Diese Funktion entspricht der CHARACTER_LENGTH-Funktion.)
CHARACTER_LENGTH	Gibt die Länge des Zeichenfolgenausdrucks in Zeichen zurück, wenn der Zeichenfolgenausdruck den Zeichenfolgendatentyp aufweist. Anderenfalls wird die Länge des Zeichenfolgenausdrucks in Byte zurückgegeben (die kleinste ganze Zahl, die nicht weniger als die Anzahl von Bits ist, dividiert durch 8). (Diese Funktion entspricht der CHAR_LENGTH-Funktion.)
LOWER	Gibt einen Zeichenausdruck zurück, dessen Zeichen von Großbuchstaben in Kleinbuchstaben umgewandelt wurden.
UPPER	Gibt einen Zeichenausdruck zurück, wobei Kleinbuchstaben in Großbuchstaben umgewandelt werden.
SUBSTRING	Gibt einen Teil eines Zeichen-, Binär-, Text- oder Bildausdrucks in SQL Server zurück.
TRIM	Entfernt das Leerzeichen – char(32) – oder andere am Beginn und Ende einer Zeichenfolge angegebene Zeichen.
LEADING	Entfernt das Leerzeichen – char(32) – oder andere am Beginn einer Zeichenfolge angegebene Zeichen.
TRAILING	Entfernt das Leerzeichen char(32) oder andere angegebene Zeichen vom Ende einer Zeichenkette.

Hier einige Beispiele:

Funktion	Beispiel	Ergebnis
CHARACTER_LENGTH	`SELECT CHARACTER_LENGTH('abcdefg') from BlobStorage`	`7`
CHAR_LENGTH	`SELECT CHAR_LENGTH(_1) from BlobStorage`	`1`
LOWER	`SELECT LOWER('AbCdEfG') from BlobStorage`	`abcdefg`
UPPER	`SELECT UPPER('AbCdEfG') from BlobStorage`	`ABCDEFG`
SUBSTRING	`SUBSTRING('123456789', 1, 5)`	`23456`
TRIM	`TRIM(BOTH '123' FROM '1112211Microsoft22211122')`	`Microsoft`

Datumsfunktionen

Die folgenden standardmäßigen SQL-Datumsfunktionen werden unterstützt:

DATE_ADD
DATE_DIFF
EXTRACT
TO_STRING
TO_TIMESTAMP

Derzeit werden alle Datumsformate der Norm IS08601 konvertiert.

DATE_ADD-Funktion

In der SQL-Sprache für die Abfragebeschleunigung können für die DATE_ADD-Funktion „year“, „month“, „day“, „hour“, „minute“ und „second“ angegeben werden.

Beispiele:

DATE_ADD(datepart, quantity, timestamp)
DATE_ADD('minute', 1, CAST('2017-01-02T03:04:05.006Z' AS TIMESTAMP)

DATE_DIFF-Funktion

In der SQL-Sprache für die Abfragebeschleunigung können für die DATE_DIFF-Funktion „year“, „month“, „day“, „hour“, „minute“ und „second“ angegeben werden.

DATE_DIFF(datepart, timestamp, timestamp)
DATE_DIFF('hour','2018-11-09T00:00+05:30','2018-11-09T01:00:23-08:00')

EXTRACT-Funktion

Bei EXTRACT unterstützt die SQL-Sprache für die Abfragebeschleunigung im Gegensatz zum Datumsteil für die DATE_ADD-Funktion „timezone_hour“ und „timezone_minute“ als Datumsteil.

Beispiele:

EXTRACT(datepart FROM timestampstring)
EXTRACT(YEAR FROM '2010-01-01T')

TO_STRING-Funktion

Beispiele:

TO_STRING(TimeStamp , format)
TO_STRING(CAST('1969-07-20T20:18Z' AS TIMESTAMP),  'MMMM d, y')

In dieser Tabelle werden Zeichenfolgen beschrieben, mit denen Sie das Ausgabeformat der TO_STRING-Funktion angeben können.

Formatzeichenfolge	Output
yy	Jahr im zweistelligen Format: 1999 als „99“
y	Jahr im vierstelligen Format
yyyy	Jahr im vierstelligen Format
M	Monat des Jahres: 1
MM	Monat mit Nullen aufgefüllt: 01
MMM	Abkürzung für den Monat des Jahres: JAN
MMMM	Vollständiger Monatsname: April
d	Tag des Monats (1–31)
dd	Tag des Monats mit Nullen aufgefüllt (01–31)
a	AM oder PM
h.	Stunde des Tages (1–12)
hh	Stunden des Tages mit Nullen aufgefüllt (01–12)
H	Stunde des Tages (0–23)
HH	Stunde des Tages mit Nullen aufgefüllt (00–23)
m	Minute der Stunde (0–59)
MM	Minute mit Nullen aufgefüllt (00–59)
s	Sekunde der Minuten (0–59)
ss	Sekunden mit Nullen aufgefüllt (00–59)
E	Sekundenbruchteil (0,1–0,9)
SS	Sekundenbruchteil (0,01–0,99)
SSS	Sekundenbruchteil (0,001–0,999)
X	Abweichung in Stunden
XX oder XXXX	Abweichung in Stunden und Minuten (+0430)
XXX oder XXXXX	Abweichung in Stunden und Minuten (-07:00)
x	Abweichung in Stunden (7)
xx oder xxxx	Abweichung in Stunden und Minuten (+0530)
Xxx oder xxxxx	Abweichung in Stunden und Minuten (+05:30)

TO_TIMESTAMP-Funktion

Es werden nur IS0-8601-Formate unterstützt.

Beispiele:

TO_TIMESTAMP(string)
TO_TIMESTAMP('2007T')

Hinweis

Sie können auch die UTCNOW-Funktion verwenden, um die Systemzeit abzurufen.

Aggregatausdrücke

Eine SELECT-Anweisung kann entweder einen oder mehrere Projektionsausdrücke oder einen einzelnen Aggregatausdruck enthalten. Die folgenden Aggregatausdrücke werden unterstützt:

Ausdruck	Beschreibung
COUNT(*)	Gibt die Anzahl der Datensätze zurück, die mit dem Prädikatausdruck übereinstimmen.
COUNT(Ausdruck)	Gibt die Anzahl der Datensätze zurück, für die der Ausdruck ungleich NULL ist.
AVG(expression)	Gibt den Durchschnitt der Werte des Ausdrucks zurück, die ungleich NULL sind.
MIN(Ausdruck)	Gibt den kleinsten Wert des Ausdrucks zurück, der ungleich NULL ist.
MAX(Ausdruck	Gibt den größten Wert des Ausdrucks zurück, der ungleich NULL ist.
SUM(Ausdruck)	Gibt die Summe aller Werte des Ausdrucks zurück, die ungleich NULL sind.

MISSING

IS MISSING ist der einzige nicht standardmäßige Operator, der von der SQL-Sprache für die Abfragebeschleunigung unterstützt wird. Wenn bei JSON-Daten in einem bestimmten Eingabedatensatz ein Feld fehlt, ergibt das Ausdrucksfeld IS MISSING den booleschen Wert „true“.

Tabellendeskriptoren

Bei CSV-Daten lautet der Tabellenname immer BlobStorage. Beispiel:

SELECT * FROM BlobStorage

Für JSON-Daten stehen zusätzliche Optionen zur Verfügung:

SELECT * FROM BlobStorage[*].path

Dadurch können Abfragen für Teilmengen von JSON-Daten ausgeführt werden.

Bei JSON-Abfragen können Sie den Pfad in einem Teil der FROM-Klausel angeben. Diese Pfade helfen, die Teilmenge von JSON-Daten zu analysieren. Die Pfade können auf JSON-Array- und -Objektwerte verweisen.

Wir erläutern dies ausführlicher anhand eines Beispiels.

Hier unsere Beispieldaten:

{
  "id": 1,
  "name": "mouse",
  "price": 12.5,
  "tags": [
    "wireless",
    "accessory"
  ],
  "dimensions": {
    "length": 3,
    "width": 2,
    "height": 2
  },
  "weight": 0.2,
  "warehouses": [
    {
      "latitude": 41.8,
      "longitude": -87.6
    }
  ]
}

Möglicherweise interessieren Sie sich nur für das JSON-Objekt warehouses in den oben aufgeführten Daten. Das Objekt warehouses ist ein JSON-Arraytyp. Sie können es in der FROM-Klausel angeben. Die Beispielabfrage sieht in etwa wie folgt aus.

SELECT latitude FROM BlobStorage[*].warehouses[*]

Mit der Abfrage werden alle Felder abgerufen, jedoch nur „latitude“ ausgewählt.

Wenn Sie nur auf den JSON-Objektwert dimensions zugreifen möchten, können Sie in der Abfrage auf dieses Objekt verweisen. Beispiel:

SELECT length FROM BlobStorage[*].dimensions

Dadurch wird auch der Zugriff auf Elemente des Objekts dimensions eingeschränkt. Wenn Sie auf andere Elemente von JSON-Feldern und auf innere Werte von JSON-Objekten zugreifen möchten, können Sie eine Abfrage wie im folgenden Beispiel verwenden:

SELECT weight,warehouses[0].longitude,id,tags[1] FROM BlobStorage[*]

Hinweis

BlobStorage und BlobStorage[*] verweisen beide auf das gesamte Objekt. Wenn Sie jedoch einen Pfad in der FROM-Klausel angegeben haben, müssen Sie BlobStorage[*].path verwenden

Sys.Split

Dies ist eine besondere Form der SELECT-Anweisung, die nur für CSV-formatierte Daten verfügbar ist.

SELECT sys.split(split_size) FROM BlobStorage

Verwenden Sie diese Anweisung, wenn Sie CSV-Datensätze in Batches herunterladen und verarbeiten möchten. Auf diese Weise können Datensätze parallel verarbeitet werden, anstatt alle Datensätze einzeln herunterladen zu müssen. Diese Anweisung gibt keine Datensätze aus der CSV-Datei zurück. Stattdessen wird eine Auflistung von Batchgrößen zurückgegeben. Anschließend können Sie jede Batchgröße verwenden, um einen Batch von Datensätzen abzurufen.

Verwenden Sie den split_size-Parameter, um die Anzahl von Bytes anzugeben, die jeder Batch enthalten soll. Wenn Sie z. B. jeweils nur 10 MB an Daten verarbeiten möchten, sieht die Anweisung wie folgt aus: SELECT sys.split(10485760)FROM BlobStorage. Dabei entsprechen 10 MB 10.485.760 Bytes. Jeder Batch enthält so viele Datensätze, wie in diese 10 MB passen.

In den meisten Fällen ist die Größe jedes Batches etwas höher als der von Ihnen angegebene Wert. Dies liegt daran, dass ein Batch keinen Teildatensatz enthalten darf. Wenn der letzte Datensatz in einem Batch vor dem Ende Ihres Schwellenwerts beginnt, wird der Batch vergrößert, so dass er den vollständigen Datensatz aufnehmen kann. Die Größe des letzten Batches wird wahrscheinlich etwas unter der von Ihnen angegebenen Größe liegen.

Hinweis

Die Größe für „split_size“ muss mindestens 10 MB (10485760) betragen.

Share via

Abfragebeschleunigung – SQL-Sprachreferenz

SELECT-Syntax

Datentypen

Ausdrücke

Verweisen auf Felder

Operatoren

Umwandlungen

Zeichenfolgenfunktionen

Datumsfunktionen

DATE_ADD-Funktion

DATE_DIFF-Funktion

EXTRACT-Funktion

TO_STRING-Funktion

TO_TIMESTAMP-Funktion

Aggregatausdrücke

MISSING

Tabellendeskriptoren

Sys.Split

Weitere Informationen

Zusätzliche Ressourcen