Tábla létrehozása vagy módosítása fájlfeltöltéssel

A tábla fájlfeltöltési oldallal történő létrehozása vagy módosítása lehetővé teszi CSV-, TSV- vagy JSON-, Avro-, Parquet- vagy szövegfájlok feltöltését felügyelt Delta Lake-tábla létrehozásához vagy felülírásához.

Felügyelt Delta-táblákat a Unity Katalógusban vagy a Hive metaadattárban hozhat létre.

Megjegyzés:

A felhőbeli tárolóból is betölthet fájlokat az Adat hozzáadása felhasználói felületen vagy a COPY INTO használatával.

Fontos

A felhasználói felületen deltatáblát hozhat létre, ha kis CSV-, TSV-, JSON-, Avro-, Parquet- vagy szövegfájlokat importál a helyi gépről.

  • A tábla létrehozása vagy módosítása fájlfeltöltési oldal használatával egyszerre legfeljebb 10 fájl feltöltését támogatja.
  • A feltöltött fájlok teljes méretének 2 gigabájt alatt kell lennie.
  • A fájlnak CSV, TSV, JSON, Avro, Parquet vagy szöveges fájlnak kell lennie, és ".csv", ".tsv" (vagy ".tab"), ".json", ".avro", ".parquet" vagy ".txt" kiterjesztéssel kell rendelkeznie.
  • A tömörített fájlok, például zip a fájlok nem tar támogatottak.

A fájl feltöltése

  1. Kattintson az New IconÚj > adat hozzáadása elemre.
  2. Kattintson a Tábla létrehozása vagy módosítása elemre.
  3. Kattintson a fájlböngésző gombra, vagy húzza a fájlokat közvetlenül a legördülő zónába.

Megjegyzés:

Az importált fájlokat a rendszer egy biztonságos belső helyre tölti fel a fiókjában, amely naponta összegyűjtött szemét.

Tábla előnézete, konfigurálása és létrehozása

A számítási erőforrásokhoz való csatlakozás nélkül is feltölthet adatokat az előkészítési területre, de a tábla megtekintéséhez és konfigurálásához ki kell választania egy aktív számítási erőforrást.

Ha konfigurálja a feltöltött tábla beállításait, 50 sornyi adatot tekinthet meg. Kattintson a fájlnév alatti rács- vagy listagombra az adatok megjelenítésének váltásához.

Az Azure Databricks a felügyelt táblák adatfájljait a sémához konfigurált helyeken tárolja. Megfelelő engedélyekre van szüksége ahhoz, hogy táblát hozzon létre egy sémában.

Válassza ki azt a sémát, amelyben táblát szeretne létrehozni az alábbi módon:

  1. (Csak Unity Catalog-kompatibilis munkaterületek esetén) Kiválaszthatja a katalógust vagy a régit hive_metastore.
  2. Jelöljön ki egy sémát.
  3. (Nem kötelező) Szerkessze a tábla nevét.

Megjegyzés:

A legördülő menüben kiválaszthatja a Meglévő tábla felülírása vagy az Új tábla létrehozása lehetőséget. A névütközéssel új táblákat létrehozó műveletek hibaüzenetet jelenítenek meg.

A táblázat létrehozása előtt konfigurálhat beállításokat vagy oszlopokat .

A táblázat létrehozásához kattintson a Lap alján található Létrehozás gombra.

Formázási beállítások

A formátumbeállítások a feltöltött fájlformátumtól függenek. A gyakori formátumbeállítások megjelennek a fejlécsávon, míg a kevésbé gyakran használt beállítások a Speciális attribútumok párbeszédpanelen érhetők el.

  • CSV esetén a következő lehetőségek érhetők el:
    • Az első sor tartalmazza a fejlécet (alapértelmezés szerint engedélyezve): Ez a beállítás azt határozza meg, hogy a CSV/TSV fájl tartalmaz-e fejlécet.
    • Oszlopelválasztó: Az elválasztó karakter az oszlopok között. Csak egy karakter engedélyezett, és a fordított perjel nem támogatott. Ez alapértelmezés szerint vesszőt ad a CSV-fájlokhoz.
    • Oszloptípusok automatikus észlelése (alapértelmezés szerint engedélyezve): Automatikusan észleli az oszloptípusokat a fájltartalomból. Az előnézeti táblázatban szerkesztheti a típusokat. Ha ez hamis értékre van állítva, a rendszer az összes oszloptípust a következőképpen állapítja meg STRING: .
    • A sorok több sorra is kiterjednek (alapértelmezés szerint le van tiltva): Azt jelzi, hogy egy oszlop értéke több sorra is kiterjedhet-e a fájlban.
    • A séma egyesítése több fájl között: Azt határozza meg, hogy a sémát több fájlra kívánja-e következtetni, és egyesíteni szeretné-e az egyes fájlok sémáját. Ha le van tiltva, a rendszer egy fájl sémáját használja.
  • JSON esetén a következő lehetőségek érhetők el:
    • Oszloptípusok automatikus észlelése (alapértelmezés szerint engedélyezve): Automatikusan észleli az oszloptípusokat a fájltartalomból. Az előnézeti táblázatban szerkesztheti a típusokat. Ha ez hamis értékre van állítva, a rendszer az összes oszloptípust a következőképpen állapítja meg STRING: .
    • A sorok több sorra is kiterjednek (alapértelmezés szerint engedélyezve): Azt jelzi, hogy egy oszlop értéke több sorra is kiterjedhet-e a fájlban.
    • Megjegyzések engedélyezése (alapértelmezés szerint engedélyezve): A megjegyzések engedélyezettek-e a fájlban.
    • Egyszeri idézőjelek engedélyezése (alapértelmezés szerint engedélyezve): Az egyszeri idézőjelek engedélyezése a fájlban.
    • Következtetési időbélyeg (alapértelmezés szerint engedélyezve): Azt jelzi, hogy az időbélyeg-sztringeket a következőképpen próbálja-e kikövetkezni TimestampType.
  • JSON esetén a következő lehetőségek érhetők el:
    • Oszloptípusok automatikus észlelése (alapértelmezés szerint engedélyezve): Automatikusan észleli az oszloptípusokat a fájltartalomból. Az előnézeti táblázatban szerkesztheti a típusokat. Ha ez hamis értékre van állítva, a rendszer az összes oszloptípust a következőképpen állapítja meg STRING: .
    • A sorok több sorra is kiterjednek (alapértelmezés szerint le van tiltva): Azt jelzi, hogy egy oszlop értéke több sorra is kiterjedhet-e a fájlban.
    • Megjegyzések engedélyezése, hogy a megjegyzések engedélyezve legyenek-e a fájlban.
    • Önálló idézőjelek engedélyezése: Az egyes idézőjelek engedélyezése a fájlban.
    • Következtetési időbélyeg: Az időbélyeg-sztringeket a következőképpen próbálja-e meg kikövetkezni TimestampType.

Az adatok előnézete automatikusan frissül a formátumbeállítások szerkesztésekor.

Megjegyzés:

Ha több fájlt tölt fel, a következő szabályok érvényesek:

  • Az élőfej beállításai az összes fájlra érvényesek. Az adatvesztés elkerülése érdekében győződjön meg arról, hogy a fejlécek folyamatosan hiányoznak vagy jelen vannak az összes feltöltött fájlban.
  • A feltöltött fájlok összefűzésével az összes adat sorként van hozzáfűzve a céltáblában. A rekordok fájlfeltöltés során történő összekapcsolása vagy egyesítése nem támogatott.

Oszlopnevek és -típusok

Szerkesztheti az oszlopneveket és -típusokat.

  • A típusok szerkesztéséhez kattintson a típust tartalmazó ikonra.

    Megjegyzés:

    A beágyazott típusokat STRUCTARRAYnem szerkesztheti.

  • Az oszlop nevének szerkesztéséhez kattintson az oszlop tetején található beviteli mezőre.

    Az oszlopnevek nem támogatják a vesszőket, a fordított perjeleket és a Unicode-karaktereket (például emojikat).

Az oszlop adattípusai alapértelmezés szerint a CSV- és JSON-fájlokra következtetnek. Az összes oszlopot típusként STRING értelmezheti, ha letiltja a Speciális attribútumok automatikus észlelése oszloptípusokat>.

Megjegyzés:

  • A sémakövetkeztetés a lehető legjobban képes észlelni az oszloptípusokat. Az oszloptípusok módosítása bizonyos értékek leadásához NULL vezethet, ha az érték nem hajtható végre megfelelően a céladattípusra. Az oszlopokra vagy TIMESTAMP oszlopokra történő DATE kiosztás BIGINT nem támogatott. A Databricks azt javasolja, hogy először hozzon létre egy táblát, majd később az SQL-függvények használatával alakítsa át ezeket az oszlopokat.
  • Ha speciális karakterekkel szeretné támogatni a táblázat oszlopneveit, a tábla létrehozása vagy módosítása fájlfeltöltési oldal használatával az Oszlopleképezést használja.
  • Ha megjegyzéseket szeretne fűzni az oszlopokhoz, hozza létre a táblát, és lépjen a Katalóguskezelőbe, ahol megjegyzéseket adhat hozzá.

Támogatott adattípusok

A tábla létrehozása vagy módosítása fájlfeltöltési oldal használatával az alábbi adattípusokat támogatja. Az egyes adattípusokról további információt az SQL-adattípusokban talál.

Adattípus Leírás
BIGINT 8 bájtos aláírt egész szám.
BOOLEAN Logikai (true, false) értékek.
DATE Az év, hónap és nap mezők értékeit tartalmazó értékek, időzóna nélkül.
DOUBLE 8 bájtos dupla pontosságú lebegőpontos számok.
STRING Karaktersztringértékek.
TIMESTAMP Az év, hónap, nap, óra, perc és másodperc mezők értékeit tartalmazó értékek a munkamenet helyi időzónájával.
STRUCT Értékek a mezők sorozata által leírt struktúrával.
ARRAY A típussal rendelkező elemek sorozatából álló értékek
elementType.
DECIMAL(P,S) Maximális pontosságú P és rögzített skálázású Sszámok.

Ismert problémák

A nem önthető típusok( például DATE"yyyyy" formátumú dátumok) formázása BIGINT hibákat okozhat.