修改列数据类型 - 数据处理 - 数据特征 - 预置算子说明 - 启动/停止/删除实例_AI开发平台ModelArts_开发工具_管理Notebook实例

7.5 预置算子说明

7.5.1 数据特征

7.5.1.2 数据处理

7.5.1.2.13 修改列数据类型

概述

修改数据集相应列的数据类型。

输入

参数子参数参数说明

inputs dataframe inputs为字典类型，dataframe为pyspark中的 DataFrame类型对象

timestamp_format - 取值yyyy-MM-dd HH:mm:ss date_format - 取值yyyy-MM-dd

样例

inputs = {

"dataframe": None # @input {"label":"dataframe","type":"DataFrame"}

}params = { "inputs": inputs,

"column_type_map_str": "", # @param

{"label":"column_type_map_str","type":"string","required":"true","helpTip":""}

"timestamp_format": "yyyy-MM-dd HH:mm:ss", # @param

{"label":"timestamp_format","type":"string","required":"false","helpTip":""}

"date_format": "yyyy-MM-dd" # @param

{"label":"date_format","type":"string","required":"false","helpTip":""}

}

7.5.1.2.14 数据集选择列

概述

根据输入数据集，选择一些列生成新的数据集。

输入

参数子参数参数说明

inputs dataframe inputs为字典类型，dataframe为pyspark中的DataFrame类型对象

输出

数据集

参数说明

参数子参数参数说明

select_columns_str - 将选择的列名按照逗号分隔形成的字符串，

例如："column_a" 或者

"column_a,column_b,column_c"

样例

inputs = {

"dataframe": None # @input {"label":"dataframe","type":"DataFrame"}

}params = { "inputs": inputs,

"select_columns_str": "" # @param

{"label":"select_columns_str","type":"string","required":"true","helpTip":""}

}select_columns____id___ = MLSSelectColumns(**params)

select_columns____id___.run()

# @output {"label":"dataframe","name":"select_columns____id___.get_outputs() ['output_port_1']","type":"DataFrame"}

7.5.1.2.15 设置元数据

输入

参数子参数参数说明

inputs datafra

me inputs为字典类型，dataframe为pyspark中的 DataFrame类型对象

e_map_str - 指定相应列的数据类型的规范化字符串，例如：

"column_a:string,column_b:integer"，列类型可以是：

string,integer,long,float,double,bool,date,timestamp

样例

inputs = {

"dataframe": None # @input {"label":"dataframe","type":"DataFrame"}

}params = { "inputs": inputs,

"column_type_map_str": "" # @param

{"label":"column_type_map_str","type":"string","required":"true","helpTip":""}

}set_metadata____id___ = MLSSetMetadata(**params)

set_metadata____id___.run()

# @output {"label":"dataframe","name":"set_metadata____id___.get_outputs() ['output_port_1']","type":"DataFrame"}

7.5.1.2.16 数据集按列排序

概述

对输入数据集，按照选择的一些列，进行排序，生成新的数据集。

输入

参数子参数参数说明

inputs dataframe inputs为字典类型，dataframe为pyspark中的

参数说明

参数子参数参数说明

columns_str - 选择的一些列，列名按照逗号分隔，例如：

"column_a"或者"column_a,column_b"

ascend_tags_s

tr - 对选择的列是升序还是降序，升序标记为1，降序

标记为0，按照逗号分隔，例如: "1"或者"1,0"

样例

inputs = {

"dataframe": None # @input {"label":"dataframe","type":"DataFrame"}

}params = { "inputs": inputs,

"columns_str": "", # @param {"label":"columns_str","type":"string","required":"true","helpTip":""}

"ascend_tags_str": "" # @param {"label":"ascend_tags_str","type":"string","required":"true","helpTip":""}

}sort_with_columns____id___ = MLSSortWithColumns(**params)

sort_with_columns____id___.run()

# @output {"label":"dataframe","name":"sort_with_columns____id___.get_outputs() ['output_port_1']","type":"DataFrame"}

inputs dataframe inputs为字典类型，dataframe为pyspark中的 DataFrame类型对象

参数说明

参数子参数参数说明

input_col - 输入列名 output_col - 对应的输出列名

threshold - 阈值，列中大于该值的设置为1，小于该值的设置为 0

样例

inputs = {

"dataframe": None # @input {"label":"dataframe","type":"DataFrame"}

}params = { "inputs": inputs, "b_output_action": True, "outer_pipeline_stages": None,

"input_col": "", # @param {"label":"input_col","type":"string","required":"true","helpTip":""}

"output_col": "binarizered_feature", # @param

{"label":"output_col","type":"string","required":"true","helpTip":""}

"threshold": 0.0 # @param

{"label":"threshold","type":"number","required":"true","range":"(none,none)","helpTip":""}

}binarizer____id___ = MLSBinarizer(**params) binarizer____id___.run()

# @output {"label":"dataframe","name":"binarizer____id___.get_outputs() ['output_port_1']","type":"DataFrame"}

7.5.1.3.2 卡方选择

概述

采用卡方检验来进行特征选择。

卡方检验（Chi-Squared Test或χ² Test）的基本思想是通过特征变量与目标变量之间的偏差大小来选择相关性较大的特征变量。首先假设两个变量是独立的，然后观察实际值与理论值的偏差程度，该偏差程度代表两个变量之间的相关性。若某个特征变量与目标变量之间偏差程度越大，则它们的相关性越高，最后根据相关性对特征变量进行排序，并选择与目标变量相关性较大的特征变量。卡方检验中假设理论值为E，第i个样本的实际值为x_i，则偏差程度的计算公式如下：

输出

label_col - 目标列，基于该列进行卡方检验 chi_label_inde

x_col - 目标列通过标签编码得到的新列名，默认为label_index chi_features_c

ol - 调用spark卡方选择需要的输入特征向量列名，默认为

input_features

chi_output_col - 调用spark卡方选择需要的输入特征向量列名，默认为 output_features

selector_type - 卡方选择的选择方法，支持

numTopFeatures,percentile,fpr,fdr,fwe num_top_feat

ures - 选择的特征个数，默认为50

percentile - 选择的特征个数占原始特征数量的比例，默认为0.1 fpr - 最高的p-value，默认为0.05

fdr - 期望的错误观察率的最大值，默认为0.05

fwe - 默认为0.05

max_categorie

s - 特征的最大类别数，默认为1000

样例

"chi_features_col": "input_features", # @param

{"label":"chi_features_col","type":"string","required":"true","helpTip":""}

"chi_output_col": "output_features", # @param

{"label":"chi_output_col","type":"string","required":"true","helpTip":""}

"selector_type": "numTopFeatures", # @param

{"label":"selector_type","type":"enum","required":"true","options":"numTopFeatures,percentile,fpr,fdr,fwe","h

"fpr": 0.05, # @param {"label":"fpr","type":"number","required":"true","range":"[0,1]","helpTip":""}

"fdr": 0.05, # @param {"label":"fdr","type":"number","required":"true","range":"[0,1]","helpTip":""}

"fwe": 0.05, # @param {"label":"fwe","type":"number","required":"true","range":"[0,1]","helpTip":""}

"max_categories": 1000 # @param

{"label":"max_categories","type":"number","required":"true","range":"(0,2147483647]","helpTip":""}

}chi_square_selector____id___ = MLSChiSquareSelector(**params)

chi_square_selector____id___.run()

# @output {"label":"dataframe","name":"chi_square_selector____id___.get_outputs() ['output_port_1']","type":"DataFrame"}

inputs datafra

me inputs为字典类型，dataframe为pyspark中的 DataFrame类型对象

"2*column_a as new_column_a"

"abs(column_a) as new_column_a;case when

在文檔中启动/停止/删除实例_AI开发平台ModelArts_开发工具_管理Notebook实例_华为云 (頁 140-146)