DataFrame Класс
Определение
Важно!
Некоторые сведения относятся к предварительной версии продукта, в которую до выпуска могут быть внесены существенные изменения. Майкрософт не предоставляет никаких гарантий, явных или подразумеваемых, относительно приведенных здесь сведений.
Распределенная коллекция данных, упорядоченная по именованным столбцам.
public sealed class DataFrame
type DataFrame = class
Public NotInheritable Class DataFrame
- Наследование
-
DataFrame
Свойства
Item[String] |
Выбирает столбец на основе имени столбца. |
Методы
Agg(Column, Column[]) |
Агрегаты в целом |
Alias(String) |
Возвращает новый |
As(String) |
Возвращает новый |
Cache() |
Сохраните это DataFrame с MEMORY_AND_DISK уровня хранилища по умолчанию. |
Checkpoint(Boolean) |
Возвращает версию данного |
Coalesce(Int32) |
Возвращает новый |
Col(String) |
Выбирает столбец на основе имени столбца. |
Collect() |
Возвращает массив, содержащий все строки в этом |
ColRegex(String) |
Выбирает столбец на основе имени столбца, указанного в виде регулярного выражения. |
Columns() |
Возвращает все имена столбцов. |
Count() |
Возвращает количество строк в |
CreateGlobalTempView(String) |
Создает глобальное временное представление с использованием заданного имени. Время существования этого временного представления привязано к этому приложению Spark. |
CreateOrReplaceGlobalTempView(String) |
Создает или заменяет глобальное временное представление, используя заданное имя. Время существования этого временного представления привязано к этому приложению Spark. |
CreateOrReplaceTempView(String) |
Создает или заменяет локальное временное представление, используя заданное имя. Время существования этого временного представления привязано к SparkSession, создавшего это |
CreateTempView(String) |
Создает локальное временное представление, используя заданное имя. Время существования этого временного представления привязано к SparkSession, создавшего это |
CrossJoin(DataFrame) |
Явное декартово соединение с другим |
Cube(Column[]) |
Создайте многомерный куб для текущего |
Cube(String, String[]) |
Создайте многомерный куб для текущего |
Describe(String[]) |
Вычисляет базовую статистику для числовых и строковых столбцов, включая count, среднее, stddev, min и max. Если столбцы не заданы, эта функция вычисляет статистику для всех числовых или строковых столбцов. |
Distinct() |
Возвращает новый набор данных, содержащий только уникальные строки из этого |
Drop(Column) |
Возвращает новый |
Drop(String[]) |
Возвращает новый |
DropDuplicates() |
Возвращает новый |
DropDuplicates(String, String[]) |
Возвращает новый |
DTypes() |
Возвращает все имена столбцов и их типы данных в виде кортежей IEnumerable. |
Except(DataFrame) |
Возвращает новый |
ExceptAll(DataFrame) |
Возвращает новый |
Explain(Boolean) |
Выводит планы (логические и физические) в консоль для отладки. |
Explain(String) |
Выводит планы (логические и физические) в формате, указанном в заданном режиме объяснения. |
Filter(Column) |
Фильтрует строки с использованием заданного условия. |
Filter(String) |
Фильтрует строки с помощью заданного выражения SQL. |
First() |
Возвращает первую строку. Alis for Head(). |
GroupBy(Column[]) |
Группирование кадра данных с использованием указанных столбцов, чтобы можно было выполнить агрегирование по ним. |
GroupBy(String, String[]) |
Группит кадр данных, используя указанные столбцы. |
Head() |
Возвращает первую строку. |
Head(Int32) |
Возвращает первые |
Hint(String, Object[]) |
Указывает некоторое указание на текущий |
Intersect(DataFrame) |
Возвращает новый |
IntersectAll(DataFrame) |
Возвращает новый |
IsEmpty() |
Возвращает значение true, если этот кадр данных пуст. |
IsLocal() |
Возвращает значение true, если методы Collect() и Take() могут выполняться локально без каких-либо исполнителей Spark. |
IsStreaming() |
Возвращает значение true, если содержит |
Join(DataFrame) |
Соединение с другим элементом |
Join(DataFrame, Column, String) |
Соединение с другим |
Join(DataFrame, IEnumerable<String>, String) |
Равное соединение с другим |
Join(DataFrame, String) |
Внутреннее равное соединение с другим |
Limit(Int32) |
Возвращает новый |
LocalCheckpoint(Boolean) |
Возвращает локальную версию этого |
Na() |
Возвращает для |
Observe(String, Column, Column[]) |
Определите (именованные) метрики для наблюдения в наборе данных. Этот метод возвращает "наблюдаемый" кадр данных, который возвращает тот же результат, что и входные данные, со следующими гарантиями:
Обратите внимание, что непрерывное выполнение в настоящее время не поддерживается. |
OrderBy(Column[]) |
Возвращает новый набор данных, отсортированный по заданным выражениям. |
OrderBy(String, String[]) |
Возвращает новый набор данных, отсортированный по заданным выражениям. |
Persist() |
Сохраните это DataFrame с MEMORY_AND_DISK уровня хранилища по умолчанию. |
Persist(StorageLevel) |
Сохраните его DataFrame с заданным уровнем хранилища. |
PrintSchema() |
Выводит схему на консоль в удобном формате дерева. |
PrintSchema(Int32) |
Выводит схему до заданного уровня в консоли в удобном формате дерева. |
RandomSplit(Double[], Nullable<Int64>) |
Случайным образом разделяет его |
Repartition(Column[]) |
Возвращает новое |
Repartition(Int32) |
Возвращает новый |
Repartition(Int32, Column[]) |
Возвращает новое |
RepartitionByRange(Column[]) |
Возвращает новое |
RepartitionByRange(Int32, Column[]) |
Возвращает новое |
Rollup(Column[]) |
Создайте многомерный свертки для текущего |
Rollup(String, String[]) |
Создайте многомерный свертки для текущего |
Sample(Double, Boolean, Nullable<Int64>) |
Возвращает новый |
Schema() |
Возвращает схему, связанную с данным объектом |
Select(Column[]) |
Выбирает набор выражений на основе столбцов. |
Select(String, String[]) |
Выбирает набор столбцов. Это вариант Select(), который может выбирать только существующие столбцы с помощью имен столбцов (т. е. не может создавать выражения). |
SelectExpr(String[]) |
Выбирает набор выражений SQL. Это вариант Select(), который принимает выражения SQL. |
Show(Int32, Int32, Boolean) |
Отображает строки в |
Sort(Column[]) |
Возвращает новый |
Sort(String, String[]) |
Возвращает новый |
SortWithinPartitions(Column[]) |
Возвращает новый |
SortWithinPartitions(String, String[]) |
Возвращает новый |
Stat() |
|
StorageLevel() |
Получение текущего DataFrameStorageLevel()объекта . |
Summary(String[]) |
Вычисляет указанную статистику для числовых и строковых столбцов. |
Tail(Int32) |
Возвращает последние |
Take(Int32) |
Возвращает первые |
ToDF() |
Преобразует эту строго типизированную коллекцию данных в универсальную |
ToDF(String[]) |
Преобразует эту строго типизированную коллекцию данных в универсальную |
ToJSON() |
Возвращает содержимое кадра данных в виде кадра данных строк JSON. |
ToLocalIterator() |
Возвращает итератор, содержащий все строки в этом |
ToLocalIterator(Boolean) |
Возвращает итератор, содержащий все строки в этом |
Transform(Func<DataFrame,DataFrame>) |
Краткий синтаксис для создания цепочек пользовательских преобразований. |
Union(DataFrame) |
Возвращает новое |
UnionByName(DataFrame) |
Возвращает новое |
Unpersist(Boolean) |
Пометьте набор данных как непостоянный и удалите все его блоки из памяти и диска. |
Where(Column) |
Фильтрует строки с использованием заданного условия. Это псевдоним для Filter(). |
Where(String) |
Фильтрует строки с помощью заданного выражения SQL. Это псевдоним для Filter(). |
WithColumn(String, Column) |
Возвращает новый |
WithColumnRenamed(String, String) |
Возвращает новый набор данных с переименованным столбцом.
Это действие не выполняется, если схема не содержит |
WithWatermark(String, String) |
Определяет подложку времени события для этого кадра данных. Подложка отслеживает момент времени, до которого предполагается, что более поздние данные не будут поступать. |
Write() |
Интерфейс для сохранения содержимого непотокового набора данных во внешнее хранилище. |
WriteStream() |
Интерфейс для сохранения содержимого набора данных потоковой передачи во внешнее хранилище. |
WriteTo(String) |
Создайте построитель конфигураций записи для источников версии 2. |
Применяется к
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по