two_sample_t_test_fl()

Articolo
01/18/2024

La funzione two_sample_t_test_fl() è una funzione definita dall'utente che esegue il T-Test a due esempi.

Nota

Se si presuppone che i due set di dati da confrontare abbiano varianza diverse, è consigliabile usare il welch_test()nativo.

Prerequisiti

Il plug-in Python deve essere abilitato nel cluster. Questa operazione è necessaria per Python inline usato nella funzione .

Il plug-in Python deve essere abilitato nel database. Questa operazione è necessaria per Python inline usato nella funzione .

Sintassi

T | invoke two_sample_t_test_fl(data1,data2,, test_statistic, p_valueequal_var)

Altre informazioni sulle convenzioni di sintassi.

Parametri

Nome	Tipo	Obbligatoria	Descrizione
data1	`string`	✔️	Nome della colonna contenente il primo set di dati da utilizzare per il test.
data2	`string`	✔️	Nome della colonna contenente il secondo set di dati da utilizzare per il test.
test_statistic	`string`	✔️	Nome della colonna in cui archiviare il valore della statistica di test per i risultati.
p_value	`string`	✔️	Nome della colonna in cui archiviare il valore p per i risultati.
equal_var	`bool`		Se `true` (impostazione predefinita), esegue un test di esempio indipendente standard 2 che presuppone variazioni di popolazione uguali. Se `false`, esegue il test t di Welch, che non presuppone la varianza di popolazione uguale. Come accennato in precedenza, prendere in considerazione l'uso del welch_test()nativo.

Definizione di funzione

È possibile definire la funzione incorporando il codice come funzione definita da query o creandola come funzione archiviata nel database, come indicato di seguito:

Query-defined
Archiviata

Definire la funzione usando l'istruzione let seguente. Non sono necessarie autorizzazioni.

Importante

Un'istruzione let non può essere eseguita autonomamente. Deve essere seguita da un'istruzione di espressione tabulare. Per eseguire un esempio funzionante di two_sample_t_test_fl(), vedere Esempio.

let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas

        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]

        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
};
// Write your query to use the function here.

Definire la funzione archiviata una volta usando il comando seguente .create function. Sono necessarie le autorizzazioni utente del database .

Importante

È necessario eseguire questo codice per creare la funzione prima di poter usare la funzione come illustrato nell'esempio.

.create-or-alter function with (folder = "Packages\\Stats", docstring = "Two-Sample t-Test")
two_sample_t_test_fl(tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas

        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]

        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
}

Esempio

Nell'esempio seguente viene utilizzato l'operatore invoke per eseguire la funzione .

Query-defined
Archiviata

Per usare una funzione definita da query, richiamarla dopo la definizione della funzione incorporata.

let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas

        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]

        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
};
datatable(id:string, sample1:dynamic, sample2:dynamic) [
'Test #1', dynamic([23.64, 20.57, 20.42]), dynamic([27.1, 22.12, 33.56]),
'Test #2', dynamic([20.85, 21.89, 23.41]), dynamic([35.09, 30.02, 26.52]),
'Test #3', dynamic([20.13, 20.5, 21.7, 22.02]), dynamic([32.2, 32.79, 33.9, 34.22])
]
| extend test_stat= 0.0, p_val = 0.0
| invoke two_sample_t_test_fl('sample1', 'sample2', 'test_stat', 'p_val')

Importante

Per eseguire correttamente questo esempio, è necessario prima eseguire il codice di definizione della funzione per archiviare la funzione.

datatable(id:string, sample1:dynamic, sample2:dynamic) [
'Test #1', dynamic([23.64, 20.57, 20.42]), dynamic([27.1, 22.12, 33.56]),
'Test #2', dynamic([20.85, 21.89, 23.41]), dynamic([35.09, 30.02, 26.52]),
'Test #3', dynamic([20.13, 20.5, 21.7, 22.02]), dynamic([32.2, 32.79, 33.9, 34.22])
]
| extend test_stat= 0.0, p_val = 0.0
| invoke two_sample_t_test_fl('sample1', 'sample2', 'test_stat', 'p_val')

Output

ID	sample1	sample2	test_stat	p_val
Test n. 1	[23.64, 20.57, 20.42]	[27.1, 22.12, 33.56]	-1.7415675457565645	0.15655096653487446
Test n. 2	[20.85, 21.89, 23.41]	[35.09, 30.02, 26.52], -3.2711673491022579	0.030755331219276136
Test n. 3	[20.13, 20.5, 21.7, 22.02]	[32.2, 32.79, 33.9, 34.22]	-18.5515946201742	1.5823717131966134E-06

Questa funzionalità non è supportata.

Share via

two_sample_t_test_fl()

Prerequisiti

Sintassi

Parametri

Definizione di funzione

Esempio

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive