机器学习2.数据集分割与处理-创新互联-成都快上网建站

机器学习2.数据集分割与处理-创新互联

1.首先进行x和y分割

numpy里的split作用是分割列表

创新互联成都企业网站建设服务,提供网站设计制作、成都网站建设网站开发,网站定制,建网站,网站搭建,网站设计,响应式网站开发,网页设计师打造企业风格网站,提供周到的售前咨询和贴心的售后服务。欢迎咨询做网站需要多少钱:18982081108
x , y = np.split(data, (4,), axis=1)

#data是要分割的数组,一定是array类型的,如果是list要用numpy的方法转成array

#第二项如果为整数,就是平均分割成几份,如果为(4,)就是分割位置为第四列及以前为一组,以后为另一组

#根据行或者列分割数组(axis=0是行,=1是列)
2.筛选x的某些列

因为我们并不一定是所有列都要,所以可能这里会舍弃一些列,通过以下方式选择需要的行或列

#连续的

x = x[:,1:2]
#选择所有行与1-2列 (左开右闭,所以只有第二列)
#选择某一些间断的

x = x[:,[1,2]]
#选择第二和第三列(因为这里下标是从0开始)
3.分割测试集和训练集 1.调入sklearn.model_selection中的方法train_test_split
from sklearn.model_selection import train_test_split
2.使用这个方法分割
X_train,X_test, y_train, y_test =train_test_split(x,y,test_size, random_state)

#test_size在0-1之间,为测试集在全部样品中的比例,如果为整数,则为测试集的数目
#random_state为随机数种子

注:random_state作用是让每次的随机方式一样,这样的话每次做实验都能得到一样的结果,从而方便我们调超参数,不然每次训练的效果都不一样,没法调参的时候看调参的效果

你是否还在寻找稳定的海外服务器提供商?创新互联www.cdcxhl.cn海外机房具备T级流量清洗系统配攻击溯源,准确流量调度确保服务器高可用性,企业级服务器适合批量采购,新人活动首月15元起,快前往官网查看详情吧


标题名称:机器学习2.数据集分割与处理-创新互联
文章起源:http://kswjz.com/article/djoojd.html
扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流