DataFrame Класс

Определение

Распределенная коллекция данных, упорядоченная по именованным столбцам.

public sealed class DataFrame
type DataFrame = class
Public NotInheritable Class DataFrame
Наследование
DataFrame

Свойства

Item[String]

Выбирает столбец на основе имени столбца.

Методы

Agg(Column, Column[])

Агрегаты в целом DataFrame без групп.

Alias(String)

Возвращает новый DataFrame объект с набором псевдонимов. То же, что и As().

As(String)

Возвращает новый DataFrame объект с набором псевдонимов.

Cache()

Сохраните это DataFrame с MEMORY_AND_DISK уровня хранилища по умолчанию.

Checkpoint(Boolean)

Возвращает версию данного DataFrameобъекта с контрольной точкой.

Coalesce(Int32)

Возвращает новый DataFrame объект с точной numPartitions секцией при запросе меньшего количества секций. Если запрашивается большее количество секций, оно останется на текущем количестве секций.

Col(String)

Выбирает столбец на основе имени столбца.

Collect()

Возвращает массив, содержащий все строки в этом DataFrameобъекте .

ColRegex(String)

Выбирает столбец на основе имени столбца, указанного в виде регулярного выражения.

Columns()

Возвращает все имена столбцов.

Count()

Возвращает количество строк в DataFrame.

CreateGlobalTempView(String)

Создает глобальное временное представление с использованием заданного имени. Время существования этого временного представления привязано к этому приложению Spark.

CreateOrReplaceGlobalTempView(String)

Создает или заменяет глобальное временное представление, используя заданное имя. Время существования этого временного представления привязано к этому приложению Spark.

CreateOrReplaceTempView(String)

Создает или заменяет локальное временное представление, используя заданное имя. Время существования этого временного представления привязано к SparkSession, создавшего это DataFrame.

CreateTempView(String)

Создает локальное временное представление, используя заданное имя. Время существования этого временного представления привязано к SparkSession, создавшего это DataFrame.

CrossJoin(DataFrame)

Явное декартово соединение с другим DataFrame.

Cube(Column[])

Создайте многомерный куб для текущего DataFrame , используя указанные столбцы.

Cube(String, String[])

Создайте многомерный куб для текущего DataFrame , используя указанные столбцы.

Describe(String[])

Вычисляет базовую статистику для числовых и строковых столбцов, включая count, среднее, stddev, min и max. Если столбцы не заданы, эта функция вычисляет статистику для всех числовых или строковых столбцов.

Distinct()

Возвращает новый набор данных, содержащий только уникальные строки из этого DataFrame. Это псевдоним для DropDuplicates().

Drop(Column)

Возвращает новый DataFrame объект со столбцом, удаленным. Это неоперационная операция, если DataFrame в ней нет столбца с эквивалентным выражением.

Drop(String[])

Возвращает новый DataFrame объект со удаленными столбцами. Это действие не выполняется, если схема не содержит имен столбцов.

DropDuplicates()

Возвращает новый DataFrame объект , содержащий только уникальные строки из данного DataFrameобъекта . Это псевдоним для Distinct().

DropDuplicates(String, String[])

Возвращает новый DataFrame объект с удаленными повторяющимися строками, учитывая только подмножество столбцов.

DTypes()

Возвращает все имена столбцов и их типы данных в виде кортежей IEnumerable.

Except(DataFrame)

Возвращает новый DataFrame , содержащий строки в этом объекте, DataFrame но не в другом DataFrame.

ExceptAll(DataFrame)

Возвращает новый DataFrame , содержащий строки в этом объекте DataFrame , но не в другой DataFrame , при сохранении дубликатов.

Explain(Boolean)

Выводит планы (логические и физические) в консоль для отладки.

Explain(String)

Выводит планы (логические и физические) в формате, указанном в заданном режиме объяснения.

Filter(Column)

Фильтрует строки с использованием заданного условия.

Filter(String)

Фильтрует строки с помощью заданного выражения SQL.

First()

Возвращает первую строку. Alis for Head().

GroupBy(Column[])

Группирование кадра данных с использованием указанных столбцов, чтобы можно было выполнить агрегирование по ним.

GroupBy(String, String[])

Группит кадр данных, используя указанные столбцы.

Head()

Возвращает первую строку.

Head(Int32)

Возвращает первые n строки.

Hint(String, Object[])

Указывает некоторое указание на текущий DataFrameобъект .

Intersect(DataFrame)

Возвращает новый DataFrame , содержащий строки только в этом DataFrame и другом DataFrame.

IntersectAll(DataFrame)

Возвращает новый DataFrame объект, содержащий строки только в этом DataFrame и другом DataFrame экземплярах, сохраняя дубликаты.

IsEmpty()

Возвращает значение true, если этот кадр данных пуст.

IsLocal()

Возвращает значение true, если методы Collect() и Take() могут выполняться локально без каких-либо исполнителей Spark.

IsStreaming()

Возвращает значение true, если содержит DataFrame один или несколько источников, которые непрерывно возвращают данные по мере их поступления.

Join(DataFrame)

Соединение с другим элементом DataFrame.

Join(DataFrame, Column, String)

Соединение с другим DataFrame, используя заданное выражение соединения.

Join(DataFrame, IEnumerable<String>, String)

Равное соединение с другим DataFrame с использованием заданных столбцов. Перекрестное соединение с предикатом указывается как внутреннее соединение. Если вы явно хотите выполнить перекрестное соединение, используйте crossJoin метод .

Join(DataFrame, String)

Внутреннее равное соединение с другим DataFrame с использованием заданного столбца.

Limit(Int32)

Возвращает новый DataFrame , принимая первые number строки.

LocalCheckpoint(Boolean)

Возвращает локальную версию этого DataFrameобъекта с контрольными точками.

Na()

Возвращает для DataFrameNaFunctions работы с отсутствующими данными.

Observe(String, Column, Column[])

Определите (именованные) метрики для наблюдения в наборе данных. Этот метод возвращает "наблюдаемый" кадр данных, который возвращает тот же результат, что и входные данные, со следующими гарантиями:

  1. Он вычислит определенные статистические выражения (метрики) для всех данных, проходящих через набор данных в этот момент.
  2. Он сообщит о значении определенных статистических столбцов, как только мы достигаем точки завершения. Точка завершения — это конец запроса (пакетный режим) или конец эпохи потоковой передачи. Значение статистических выражений отражает только данные, обработанные с предыдущей точки завершения.

Обратите внимание, что непрерывное выполнение в настоящее время не поддерживается.

OrderBy(Column[])

Возвращает новый набор данных, отсортированный по заданным выражениям.

OrderBy(String, String[])

Возвращает новый набор данных, отсортированный по заданным выражениям.

Persist()

Сохраните это DataFrame с MEMORY_AND_DISK уровня хранилища по умолчанию.

Persist(StorageLevel)

Сохраните его DataFrame с заданным уровнем хранилища.

PrintSchema()

Выводит схему на консоль в удобном формате дерева.

PrintSchema(Int32)

Выводит схему до заданного уровня в консоли в удобном формате дерева.

RandomSplit(Double[], Nullable<Int64>)

Случайным образом разделяет его DataFrame с указанными весами.

Repartition(Column[])

Возвращает новое DataFrame секционирование по заданным выражениям секционирования, используя spark.sql.shuffle.partitions в качестве числа секций.

Repartition(Int32)

Возвращает новый DataFrame объект, имеющий точно numPartitions секции.

Repartition(Int32, Column[])

Возвращает новое DataFrame секционирование по заданным выражениям секционирования в numPartitions. Результирующий DataFrame хэш секционируется.

RepartitionByRange(Column[])

Возвращает новое DataFrame секционирование по заданным выражениям секционирования, используя spark.sql.shuffle.partitions в качестве числа секций. Результирующий набор данных секционируется в диапазоне.

RepartitionByRange(Int32, Column[])

Возвращает новое DataFrame секционирование по заданным выражениям секционирования в numPartitions. Результирующий DataFrame диапазон секционируется.

Rollup(Column[])

Создайте многомерный свертки для текущего DataFrame , используя указанные столбцы.

Rollup(String, String[])

Создайте многомерный свертки для текущего DataFrame , используя указанные столбцы.

Sample(Double, Boolean, Nullable<Int64>)

Возвращает новый DataFrame объект путем выборки доли строк (без замены) с использованием предоставленного пользователем начального значения.

Schema()

Возвращает схему, связанную с данным объектом DataFrame.

Select(Column[])

Выбирает набор выражений на основе столбцов.

Select(String, String[])

Выбирает набор столбцов. Это вариант Select(), который может выбирать только существующие столбцы с помощью имен столбцов (т. е. не может создавать выражения).

SelectExpr(String[])

Выбирает набор выражений SQL. Это вариант Select(), который принимает выражения SQL.

Show(Int32, Int32, Boolean)

Отображает строки в DataFrame табличной форме.

Sort(Column[])

Возвращает новый DataFrame объект, отсортированный по заданным выражениям.

Sort(String, String[])

Возвращает новый DataFrame объект, отсортированный по указанному столбцу в порядке возрастания.

SortWithinPartitions(Column[])

Возвращает новый DataFrame объект с каждой секцией, отсортированной по заданным выражениям.

SortWithinPartitions(String, String[])

Возвращает новый DataFrame объект с каждой секцией, отсортированной по заданным выражениям.

Stat()

DataFrameStatFunctions Возвращает для поддержки рабочих статистических функций.

StorageLevel()

Получение текущего DataFrameStorageLevel()объекта .

Summary(String[])

Вычисляет указанную статистику для числовых и строковых столбцов.

Tail(Int32)

Возвращает последние n строки в DataFrame.

Take(Int32)

Возвращает первые n строки в DataFrame.

ToDF()

Преобразует эту строго типизированную коллекцию данных в универсальную DataFrame.

ToDF(String[])

Преобразует эту строго типизированную коллекцию данных в универсальную DataFrame с переименованными столбцами.

ToJSON()

Возвращает содержимое кадра данных в виде кадра данных строк JSON.

ToLocalIterator()

Возвращает итератор, содержащий все строки в этом DataFrameобъекте . Итератор будет потреблять столько памяти, сколько самый большой раздел в этом DataFrame.

ToLocalIterator(Boolean)

Возвращает итератор, содержащий все строки в этом DataFrameобъекте . Итератор будет потреблять столько памяти, сколько самый большой раздел в этом DataFrame. При предварительной выборке он может использовать до памяти двух крупнейших секций.

Transform(Func<DataFrame,DataFrame>)

Краткий синтаксис для создания цепочек пользовательских преобразований.

Union(DataFrame)

Возвращает новое DataFrame , содержащее объединение строк в этом DataFrame и другом DataFrame.

UnionByName(DataFrame)

Возвращает новое DataFrame , содержащее объединение строк в этом DataFrame и другом DataFrameобъекте , разрешающее столбцы по имени.

Unpersist(Boolean)

Пометьте набор данных как непостоянный и удалите все его блоки из памяти и диска.

Where(Column)

Фильтрует строки с использованием заданного условия. Это псевдоним для Filter().

Where(String)

Фильтрует строки с помощью заданного выражения SQL. Это псевдоним для Filter().

WithColumn(String, Column)

Возвращает новый DataFrame , добавляя столбец или заменяя существующий столбец с тем же именем.

WithColumnRenamed(String, String)

Возвращает новый набор данных с переименованным столбцом. Это действие не выполняется, если схема не содержит existingName.

WithWatermark(String, String)

Определяет подложку времени события для этого кадра данных. Подложка отслеживает момент времени, до которого предполагается, что более поздние данные не будут поступать.

Write()

Интерфейс для сохранения содержимого непотокового набора данных во внешнее хранилище.

WriteStream()

Интерфейс для сохранения содержимого набора данных потоковой передачи во внешнее хранилище.

WriteTo(String)

Создайте построитель конфигураций записи для источников версии 2.

Применяется к