Co to są przytulanie transformatorów twarzy?

Ten artykuł zawiera wprowadzenie do funkcji hugging Face Transformers w usłudze Azure Databricks. Zawiera wskazówki dotyczące tego, dlaczego należy używać funkcji Przekształcanie twarzy hugging i jak zainstalować ją w klastrze.

Tło do przytulania transformatorów twarzy

Przytulanie transformatorów twarzy to platforma typu open source do uczenia głębokiego stworzona przez hugging Face. Udostępnia ona interfejsy API i narzędzia do pobierania wstępnie wytrenowanych modeli i dostrajania ich w celu zmaksymalizowania wydajności. Te modele obsługują typowe zadania w różnych modalnościach, takich jak przetwarzanie języka naturalnego, przetwarzanie obrazów, dźwięk i aplikacje wielomodalne.

Środowisko Databricks Runtime for Machine Edukacja obejmuje hugging Face transformers w środowisku Databricks Runtime 10.4 LTS ML i nowszym oraz obejmuje zestawy danych funkcji Hugging Face, przyspieszają i oceniają w środowisku Databricks Runtime 13.0 ML i nowszych wersjach.

Aby sprawdzić, która wersja funkcji Hugging Face jest uwzględniona w skonfigurowanej wersji usługi Databricks Runtime ML, zobacz sekcję Biblioteki języka Python w odpowiednich informacjach o wersji.

Dlaczego warto używać przytulania transformatorów twarzy?

W przypadku wielu aplikacji, takich jak analiza tonacji i podsumowanie tekstu, wstępnie wytrenowane modele działają dobrze bez dodatkowego trenowania modelu.

Przytulanie potoków funkcji Przekształcanie twarzy koduje najlepsze rozwiązania i mają domyślne modele wybrane dla różnych zadań, co ułatwia rozpoczęcie pracy. Potoki ułatwiają korzystanie z procesorów GPU, gdy są dostępne, i umożliwiają przetwarzanie wsadowe elementów wysyłanych do procesora GPU w celu uzyskania lepszej wydajności przepływności.

Przytulanie twarzy zapewnia:

  • Centrum modelu zawierające wiele wstępnie wytrenowanych modeli.
  • 🤗 Biblioteka Transformers, która obsługuje pobieranie i używanie tych modeli dla aplikacji NLP i dostrajania. Często wymagane jest zarówno tokenizator, jak i model dla zadań przetwarzania języka naturalnego.
  • 🤗 Potoki przekształcania, które mają prosty interfejs dla większości zadań przetwarzania języka naturalnego.

Zainstalować transformers

Jeśli wersja środowiska Databricks Runtime w klastrze nie zawiera funkcji Hugging Facetransformers, możesz zainstalować najnowszą bibliotekę hugging Face transformers jako bibliotekę PyPI usługi Databricks.

  %pip install transformers

Instalowanie zależności modelu

Różne modele mogą mieć różne zależności. Usługa Databricks zaleca użycie poleceń magic %pip do zainstalowania tych zależności zgodnie z potrzebami.

Poniżej przedstawiono typowe zależności:

  • librosa: obsługuje dekodowanie plików audio.
  • soundfile: wymagane podczas generowania niektórych zestawów danych audio.
  • bitsandbytes: wymagane w przypadku używania polecenia load_in_8bit=True.
  • SentencePiece: używany jako tokenizator dla modeli NLP.
  • timm: wymagane przez detrForSegmentation.

Trenowanie pojedynczego węzła

Aby przetestować i zmigrować przepływy pracy z jednym komputerem, użyj klastra z jednym węzłem.

Dodatkowe zasoby

Poniższe artykuły zawierają przykładowe notesy i wskazówki dotyczące używania funkcji Hugging Face transformers na potrzeby dostrajania dużego modelu językowego (LLM) i wnioskowania modelu w usłudze Azure Databricks.