DataFrame Класс

Ссылка

Определение

Пространство имен:: Microsoft.Spark.Sql

Сборка:: Microsoft.Spark.dll

Пакет:: Microsoft.Spark v1.0.0

Важно!

Некоторые сведения относятся к предварительной версии продукта, в которую до выпуска могут быть внесены существенные изменения. Майкрософт не предоставляет никаких гарантий, явных или подразумеваемых, относительно приведенных здесь сведений.

Распределенная коллекция данных, упорядоченная по именованным столбцам.

public sealed class DataFrame

type DataFrame = class

Public NotInheritable Class DataFrame

Наследование: Object
DataFrame

Свойства

Item[String]

Выбирает столбец на основе имени столбца.

Методы

Agg(Column, Column[])	Агрегаты в целом `DataFrame` без групп.
Alias(String)	Возвращает новый `DataFrame` объект с набором псевдонимов. То же, что и As().
As(String)	Возвращает новый `DataFrame` объект с набором псевдонимов.
Cache()	Сохраните это DataFrame с MEMORY_AND_DISK уровня хранилища по умолчанию.
Checkpoint(Boolean)	Возвращает версию данного `DataFrame`объекта с контрольной точкой.
Coalesce(Int32)	Возвращает новый `DataFrame` объект с точной `numPartitions` секцией при запросе меньшего количества секций. Если запрашивается большее количество секций, оно останется на текущем количестве секций.
Col(String)	Выбирает столбец на основе имени столбца.
Collect()	Возвращает массив, содержащий все строки в этом `DataFrame`объекте .
ColRegex(String)	Выбирает столбец на основе имени столбца, указанного в виде регулярного выражения.
Columns()	Возвращает все имена столбцов.
Count()	Возвращает количество строк в `DataFrame`.
CreateGlobalTempView(String)	Создает глобальное временное представление с использованием заданного имени. Время существования этого временного представления привязано к этому приложению Spark.
CreateOrReplaceGlobalTempView(String)	Создает или заменяет глобальное временное представление, используя заданное имя. Время существования этого временного представления привязано к этому приложению Spark.
CreateOrReplaceTempView(String)	Создает или заменяет локальное временное представление, используя заданное имя. Время существования этого временного представления привязано к SparkSession, создавшего это `DataFrame`.
CreateTempView(String)	Создает локальное временное представление, используя заданное имя. Время существования этого временного представления привязано к SparkSession, создавшего это `DataFrame`.
CrossJoin(DataFrame)	Явное декартово соединение с другим `DataFrame`.
Cube(Column[])	Создайте многомерный куб для текущего `DataFrame` , используя указанные столбцы.
Cube(String, String[])	Создайте многомерный куб для текущего `DataFrame` , используя указанные столбцы.
Describe(String[])	Вычисляет базовую статистику для числовых и строковых столбцов, включая count, среднее, stddev, min и max. Если столбцы не заданы, эта функция вычисляет статистику для всех числовых или строковых столбцов.
Distinct()	Возвращает новый набор данных, содержащий только уникальные строки из этого `DataFrame`. Это псевдоним для DropDuplicates().
Drop(Column)	Возвращает новый `DataFrame` объект со столбцом, удаленным. Это неоперационная операция, если `DataFrame` в ней нет столбца с эквивалентным выражением.
Drop(String[])	Возвращает новый `DataFrame` объект со удаленными столбцами. Это действие не выполняется, если схема не содержит имен столбцов.
DropDuplicates()	Возвращает новый `DataFrame` объект , содержащий только уникальные строки из данного `DataFrame`объекта . Это псевдоним для Distinct().
DropDuplicates(String, String[])	Возвращает новый `DataFrame` объект с удаленными повторяющимися строками, учитывая только подмножество столбцов.
DTypes()	Возвращает все имена столбцов и их типы данных в виде кортежей IEnumerable.
Except(DataFrame)	Возвращает новый `DataFrame` , содержащий строки в этом объекте, `DataFrame` но не в другом `DataFrame`.
ExceptAll(DataFrame)	Возвращает новый `DataFrame` , содержащий строки в этом объекте `DataFrame` , но не в другой `DataFrame` , при сохранении дубликатов.
Explain(Boolean)	Выводит планы (логические и физические) в консоль для отладки.
Explain(String)	Выводит планы (логические и физические) в формате, указанном в заданном режиме объяснения.
Filter(Column)	Фильтрует строки с использованием заданного условия.
Filter(String)	Фильтрует строки с помощью заданного выражения SQL.
First()	Возвращает первую строку. Alis for Head().
GroupBy(Column[])	Группирование кадра данных с использованием указанных столбцов, чтобы можно было выполнить агрегирование по ним.
GroupBy(String, String[])	Группит кадр данных, используя указанные столбцы.
Head()	Возвращает первую строку.
Head(Int32)	Возвращает первые `n` строки.
Hint(String, Object[])	Указывает некоторое указание на текущий `DataFrame`объект .
Intersect(DataFrame)	Возвращает новый `DataFrame` , содержащий строки только в этом `DataFrame` и другом `DataFrame`.
IntersectAll(DataFrame)	Возвращает новый `DataFrame` объект, содержащий строки только в этом `DataFrame` и другом `DataFrame` экземплярах, сохраняя дубликаты.
IsEmpty()	Возвращает значение true, если этот кадр данных пуст.
IsLocal()	Возвращает значение true, если методы Collect() и Take() могут выполняться локально без каких-либо исполнителей Spark.
IsStreaming()	Возвращает значение true, если содержит `DataFrame` один или несколько источников, которые непрерывно возвращают данные по мере их поступления.
Join(DataFrame)	Соединение с другим элементом `DataFrame`.
Join(DataFrame, Column, String)	Соединение с другим `DataFrame`, используя заданное выражение соединения.
Join(DataFrame, IEnumerable<String>, String)	Равное соединение с другим `DataFrame` с использованием заданных столбцов. Перекрестное соединение с предикатом указывается как внутреннее соединение. Если вы явно хотите выполнить перекрестное соединение, используйте `crossJoin` метод .
Join(DataFrame, String)	Внутреннее равное соединение с другим `DataFrame` с использованием заданного столбца.
Limit(Int32)	Возвращает новый `DataFrame` , принимая первые `number` строки.
LocalCheckpoint(Boolean)	Возвращает локальную версию этого `DataFrame`объекта с контрольными точками.
Na()	Возвращает для `DataFrameNaFunctions` работы с отсутствующими данными.
Observe(String, Column, Column[])	Определите (именованные) метрики для наблюдения в наборе данных. Этот метод возвращает "наблюдаемый" кадр данных, который возвращает тот же результат, что и входные данные, со следующими гарантиями: Он вычислит определенные статистические выражения (метрики) для всех данных, проходящих через набор данных в этот момент. Он сообщит о значении определенных статистических столбцов, как только мы достигаем точки завершения. Точка завершения — это конец запроса (пакетный режим) или конец эпохи потоковой передачи. Значение статистических выражений отражает только данные, обработанные с предыдущей точки завершения. Обратите внимание, что непрерывное выполнение в настоящее время не поддерживается.
OrderBy(Column[])	Возвращает новый набор данных, отсортированный по заданным выражениям.
OrderBy(String, String[])	Возвращает новый набор данных, отсортированный по заданным выражениям.
Persist()	Сохраните это DataFrame с MEMORY_AND_DISK уровня хранилища по умолчанию.
Persist(StorageLevel)	Сохраните его DataFrame с заданным уровнем хранилища.
PrintSchema()	Выводит схему на консоль в удобном формате дерева.
PrintSchema(Int32)	Выводит схему до заданного уровня в консоли в удобном формате дерева.
RandomSplit(Double[], Nullable<Int64>)	Случайным образом разделяет его `DataFrame` с указанными весами.
Repartition(Column[])	Возвращает новое `DataFrame` секционирование по заданным выражениям секционирования, используя `spark.sql.shuffle.partitions` в качестве числа секций.
Repartition(Int32)	Возвращает новый `DataFrame` объект, имеющий точно `numPartitions` секции.
Repartition(Int32, Column[])	Возвращает новое `DataFrame` секционирование по заданным выражениям секционирования в `numPartitions`. Результирующий `DataFrame` хэш секционируется.
RepartitionByRange(Column[])	Возвращает новое `DataFrame` секционирование по заданным выражениям секционирования, используя `spark.sql.shuffle.partitions` в качестве числа секций. Результирующий набор данных секционируется в диапазоне.
RepartitionByRange(Int32, Column[])	Возвращает новое `DataFrame` секционирование по заданным выражениям секционирования в `numPartitions`. Результирующий `DataFrame` диапазон секционируется.
Rollup(Column[])	Создайте многомерный свертки для текущего `DataFrame` , используя указанные столбцы.
Rollup(String, String[])	Создайте многомерный свертки для текущего `DataFrame` , используя указанные столбцы.
Sample(Double, Boolean, Nullable<Int64>)	Возвращает новый `DataFrame` объект путем выборки доли строк (без замены) с использованием предоставленного пользователем начального значения.
Schema()	Возвращает схему, связанную с данным объектом `DataFrame`.
Select(Column[])	Выбирает набор выражений на основе столбцов.
Select(String, String[])	Выбирает набор столбцов. Это вариант Select(), который может выбирать только существующие столбцы с помощью имен столбцов (т. е. не может создавать выражения).
SelectExpr(String[])	Выбирает набор выражений SQL. Это вариант Select(), который принимает выражения SQL.
Show(Int32, Int32, Boolean)	Отображает строки в `DataFrame` табличной форме.
Sort(Column[])	Возвращает новый `DataFrame` объект, отсортированный по заданным выражениям.
Sort(String, String[])	Возвращает новый `DataFrame` объект, отсортированный по указанному столбцу в порядке возрастания.
SortWithinPartitions(Column[])	Возвращает новый `DataFrame` объект с каждой секцией, отсортированной по заданным выражениям.
SortWithinPartitions(String, String[])	Возвращает новый `DataFrame` объект с каждой секцией, отсортированной по заданным выражениям.
Stat()	`DataFrameStatFunctions` Возвращает для поддержки рабочих статистических функций.
StorageLevel()	Получение текущего DataFrame StorageLevel()объекта .
Summary(String[])	Вычисляет указанную статистику для числовых и строковых столбцов.
Tail(Int32)	Возвращает последние `n` строки в `DataFrame`.
Take(Int32)	Возвращает первые `n` строки в `DataFrame`.
ToDF()	Преобразует эту строго типизированную коллекцию данных в универсальную `DataFrame`.
ToDF(String[])	Преобразует эту строго типизированную коллекцию данных в универсальную `DataFrame` с переименованными столбцами.
ToJSON()	Возвращает содержимое кадра данных в виде кадра данных строк JSON.
ToLocalIterator()	Возвращает итератор, содержащий все строки в этом `DataFrame`объекте . Итератор будет потреблять столько памяти, сколько самый большой раздел в этом `DataFrame`.
ToLocalIterator(Boolean)	Возвращает итератор, содержащий все строки в этом `DataFrame`объекте . Итератор будет потреблять столько памяти, сколько самый большой раздел в этом `DataFrame`. При предварительной выборке он может использовать до памяти двух крупнейших секций.
Transform(Func<DataFrame,DataFrame>)	Краткий синтаксис для создания цепочек пользовательских преобразований.
Union(DataFrame)	Возвращает новое `DataFrame` , содержащее объединение строк в этом `DataFrame` и другом `DataFrame`.
UnionByName(DataFrame)	Возвращает новое `DataFrame` , содержащее объединение строк в этом `DataFrame` и другом `DataFrame`объекте , разрешающее столбцы по имени.
Unpersist(Boolean)	Пометьте набор данных как непостоянный и удалите все его блоки из памяти и диска.
Where(Column)	Фильтрует строки с использованием заданного условия. Это псевдоним для Filter().
Where(String)	Фильтрует строки с помощью заданного выражения SQL. Это псевдоним для Filter().
WithColumn(String, Column)	Возвращает новый `DataFrame` , добавляя столбец или заменяя существующий столбец с тем же именем.
WithColumnRenamed(String, String)	Возвращает новый набор данных с переименованным столбцом. Это действие не выполняется, если схема не содержит `existingName`.
WithWatermark(String, String)	Определяет подложку времени события для этого кадра данных. Подложка отслеживает момент времени, до которого предполагается, что более поздние данные не будут поступать.
Write()	Интерфейс для сохранения содержимого непотокового набора данных во внешнее хранилище.
WriteStream()	Интерфейс для сохранения содержимого набора данных потоковой передачи во внешнее хранилище.
WriteTo(String)	Создайте построитель конфигураций записи для источников версии 2.

Применяется к

DataFrame Класс

Определение

Свойства

Методы

Применяется к

Обратная связь

Дополнительные ресурсы