SparkSession Clase

Definición

Punto de entrada para programar Spark con la API Dataset y DataFrame.

public sealed class SparkSession : IDisposable
type SparkSession = class
    interface IDisposable
Public NotInheritable Class SparkSession
Implements IDisposable
Herencia
SparkSession
Implementaciones

Propiedades

Catalog

Interfaz a través de la cual el usuario puede crear, quitar, modificar o consultar bases de datos subyacentes, tablas, funciones, etc.

SparkContext

Devuelve el objeto SparkContext asociado a esta SparkSession.

Métodos

Active()

Devuelve el SparkSession activo actualmente; de lo contrario, el predeterminado. Si no hay ningún SparkSession predeterminado, produce una excepción.

Builder()

Crea un objeto Builder para SparkSession.

ClearActiveSession()

Borra la SparkSession activa para el subproceso actual. Las llamadas posteriores a GetOrCreate() devolverán el primer contexto creado en lugar de una invalidación local del subproceso.

ClearDefaultSession()

Borra la sparkSession predeterminada devuelta por el generador.

Conf()

Interfaz de configuración en tiempo de ejecución para Spark. Esta es la interfaz a través de la cual el usuario puede obtener y establecer todas las configuraciones de Spark y Hadoop que son relevantes para Spark SQL. Al obtener el valor de una configuración, este valor predeterminado es el valor establecido en sparkContext subyacente, si existe.

CreateDataFrame(IEnumerable<Boolean>)

Crea un dataframe dado a partir IEnumerable del tipo Boolean

CreateDataFrame(IEnumerable<Date>)

Crea un dataframe dado a partir IEnumerable del tipo Date

CreateDataFrame(IEnumerable<Double>)

Crea un dataframe dado a partir IEnumerable del tipo Double

CreateDataFrame(IEnumerable<GenericRow>, StructType)

Crea un DataFrame objeto a partir de un IEnumerable objeto que contiene GenericRowmediante el esquema especificado. Es importante asegurarse de que la estructura de cada GenericRow una de las proporcionadas IEnumerable coincide con el esquema proporcionado. De lo contrario, habrá una excepción en tiempo de ejecución.

CreateDataFrame(IEnumerable<Int32>)

Crea un dataframe dado a partir IEnumerable del tipo Int32

CreateDataFrame(IEnumerable<Nullable<Boolean>>)

Crea un dataframe dado a partir IEnumerable del tipo Nullable<T>

CreateDataFrame(IEnumerable<Nullable<Double>>)

Crea un dataframe dado a partir IEnumerable del tipo Nullable<T>

CreateDataFrame(IEnumerable<Nullable<Int32>>)

Crea un dataframe dado a partir IEnumerable del tipo Nullable<T>

CreateDataFrame(IEnumerable<String>)

Crea un dataframe dado a partir IEnumerable del tipo String

CreateDataFrame(IEnumerable<Timestamp>)

Crea un dataframe dado a partir IEnumerable del tipo Timestamp

Dispose()

Sinónimo de Stop().

ExecuteCommand(String, String, Dictionary<String,String>)

Ejecute un comando de cadena arbitraria dentro de un motor de ejecución externo en lugar de Spark. Esto podría ser útil cuando el usuario quiere ejecutar algunos comandos fuera de Spark. Por ejemplo, la ejecución del comando DDL/DML personalizado para JDBC, la creación de índices para ElasticSearch, la creación de núcleos para Solr, etc. El comando se ejecutará diligentemente después de llamar a este método y el DataFrame devuelto contendrá la salida del comando (si existe).

GetActiveSession()

Devuelve el SparkSession activo para el subproceso actual, devuelto por el generador.

GetDefaultSession()

Devuelve la sparkSession predeterminada devuelta por el generador.

NewSession()

Inicie una nueva sesión con configuraciones de SQL aisladas, tablas temporales, funciones registradas aisladas, pero comparta los datos subyacentes de SparkContext y almacenados en caché.

Range(Int64)

Crea un DataFrame con una sola columna denominada id. que contiene elementos de un intervalo de 0 a 0 (exclusivo) con el valor del paso 1.

Range(Int64, Int64)

Crea un DataFrame con una sola columna denominada id, que contiene elementos de un intervalo de principio a fin (exclusivo) con el valor del paso 1.

Range(Int64, Int64, Int64)

Crea un DataFrame con una sola columna denominada id. que contiene elementos de un intervalo de principio a fin (exclusivo) con un valor de paso.

Range(Int64, Int64, Int64, Int32)

Crea un DataFrame con una sola columna denominada id. que contiene elementos de un intervalo de principio a fin (exclusivo) con un valor de paso, con el número de partición especificado.

Read()

Devuelve un Objeto DataFrameReader que se puede usar para leer datos que no son de streaming en como dataframe.

ReadStream()

Devuelve un objeto DataStreamReader que se puede usar para leer datos de streaming en como dataframe.

SetActiveSession(SparkSession)

Cambia sparkSession que se devolverá en este subproceso cuando GetOrCreate() se llame a . Esto se puede usar para asegurarse de que un subproceso determinado recibe sparkSession con una sesión aislada, en lugar del contexto global (creado por primera vez).

SetDefaultSession(SparkSession)

Establece la sparkSession predeterminada devuelta por el generador.

Sql(String)

Ejecuta una consulta SQL mediante Spark y devuelve el resultado como dataframe.

Stop()

Detiene el SparkContext subyacente.

Streams()

Devuelve un StreamingQueryManager objeto que permite administrar todas las StreamingQuery instancias activas en el this contexto.

Table(String)

Devuelve la tabla o vista especificada como dataframe.

Udf()

Devuelve el objeto UDFRegistraion con el que se pueden registrar funciones definidas por el usuario (UDF).

Métodos de extensión

GetAssemblyInfo(SparkSession, Int32)

Obtenga para Microsoft.Spark.Utils.AssemblyInfoProvider.AssemblyInfo el ensamblado "Microsoft.Spark" que se ejecuta en el controlador de Spark y realice un intento de "mejor esfuerzo" para determinar el Microsoft.Spark.Utils.AssemblyInfoProvider.AssemblyInfo ensamblado "Microsoft.Spark.Worker" en los ejecutores de Spark.

No hay ninguna garantía de que un ejecutor de Spark se ejecute en todos los nodos de un clúster. Para aumentar la probabilidad, la conf spark.executor.instances de Spark y la numPartitions configuración se deben ajustar a un número razonable en relación con el número de nodos del clúster de Spark.

Se aplica a