http://tech.010lm.com

one-hot encoding非万能,这些编码方法值得拥有

『北京联盟摘要_one-hot encoding非万能,这些编码方法值得拥有』因此,medium的一位博主表示,在编码分类变量方面,我们或许还有更好的选择。one-hot编码(one-hotencoding)类似于虚拟变量(dummyvariables),是一种将分类变量转换为几个二进制列的方法。其中1代表某个输入属于该类别。从机器学习的角度来看,one-hot编码并不是一种...



选自towardsdatascience
机器之心编译
作者:Andre Ye
编辑:小舟、张倩
one-hot encoding 是一种被广泛使用的编码方法 , 但也会造成维度过高等问题 。 因此 , medium 的一位博主表示 , 在编码分类变量方面 , 我们或许还有更好的选择 。
one-hot 编码(one-hot encoding)类似于虚拟变量(dummy variables) , 是一种将分类变量转换为几个二进制列的方法 。 其中 1 代表某个输入属于该类别 。

本文插图

从机器学习的角度来看 , one-hot 编码并不是一种良好的分类变量编码方法 。
众所周知 , 维数越少越好 , 但 one-hot 编码却增加了大量的维度 。 例如 , 如果用一个序列来表示美国的各个州 , 那么 one-hot 编码会带来 50 多个维度 。
【one-hot encoding非万能,这些编码方法值得拥有】one-hot 编码不仅会为数据集增加大量维度 , 而且实际上并没有太多信息 , 很多时候 1 散落在众多零之中 , 即有用的信息零散地分布在大量数据中 。 这会导致结果异常稀疏 , 使其难以进行优化 , 对于神经网络来说尤其如此 。
更糟糕的是 , 每个信息稀疏列之间都具有线性关系 。 这意味着一个变量可以很容易地使用其他变量进行预测 , 导致高维度中出现并行性和多重共线性的问题 。

本文插图

最优数据集由信息具有独立价值的特征组成 , 但 one-hot 编码创建了一个完全不同的环境 。
当然 , 如果只有三、四个类 , 那么 one-hot 编码可能不是一个糟糕的选择 。 但是随着类别的增加 , 可能还有其他更合适的方案值得探索 。 本文作者列举了几个方案供读者参考 。
目标编码
目标编码(Target encoding)是表示分类列的一种非常有效的方法 , 并且仅占用一个特征空间 , 也称为均值编码 。 该列中的每个值都被该类别的平均目标值替代 。 这可以更直接地表示分类变量和目标变量之间的关系 , 并且也是一种很受欢迎的技术方法(尤其是在 Kaggle 比赛中) 。

本文插图

但这种编码方法也有一些缺点 。 首先 , 它使模型更难学习均值编码变量和另一个变量之间的关系 , 仅基于列与目标的关系就在列中绘制相似性 。
而最主要的是 , 这种编码方法对 y 变量非常敏感 , 这会影响模型提取编码信息的能力 。
由于该类别的每个值都被相同的数值替换 , 因此模型可能会过拟合其见过的编码值(例如将 0.8 与完全不同的值相关联 , 而不是 0.79) , 这是把连续尺度上的值视为严重重复的类的结果 。
因此 , 需要仔细监控 y 变量 , 以防出现异常值 。 要实现这个目的 , 就要使用 category_encoders 库 。 由于目标编码器是一种有监督方法 , 所以它同时需要 X 和 y 训练集 。
from category_encoders import TargetEncoder enc = TargetEncoder(cols=['Name_of_col','Another_name']) training_set = enc.fit_transform(X_train, y_train)
留一法编码
留一法(Leave-one-out)编码试图通过计算平均值(不包括当前行值)来弥补对 y 变量的依赖以及值的多样性 。 这使异常值的影响趋于平稳 , 并创建更多样化的编码值 。

本文插图

由于模型不仅要面对每个编码类的相同值 , 还要面对一个范围值 , 因此它可以更好地泛化 。
在实现方面 , 可以使用 category_encoders 库中的 LeaveOneOutEncoder 。
from category_encoders import LeaveOneOutEncoderenc = LeaveOneOutEncoder(cols=['Name_of_col','Another_name'])training_set = enc.fit_transform(X_train, y_train)
实现类似效果的另一种策略是将正态分布的噪声添加到编码分数中 , 其中标准差是可以调整的参数 。
贝叶斯目标编码
贝叶斯目标编码(Bayesian Target Encoding)是一种使用目标作为编码方法的数学方法 。 仅使用均值可能是一种欺骗性度量标准 , 因此贝叶斯目标编码试图结合目标变量分布的其他统计度量 。 例如其方差或偏度(称为高阶矩「higher moments」) 。
然后通过贝叶斯模型合并这些分布的属性 , 从而产生一种编码 , 该编码更清楚类别目标分布的各个方面 , 但是结果的可解释性比较差 。
证据权重
证据权重(Weight of Evidence , 简称 WoE)是另一种关于分类自变量和因变量之间关系的方案 。 WoE 源自信用评分领域 , 曾用于区分用户是违约拖欠还是已经偿还贷款 。 证据权重的数学定义是优势比的自然对数 , 即:
ln (% of non events / % of events)
WoE 越高 , 事件发生的可能性就越大 。 「Non-events」是不属于某个类的百分比 。 使用证据权重与因变量建立单调关系 , 并在逻辑尺度上确保类别 , 这对于逻辑回归来说很自然 。 WoE 是另一个衡量指标「Information Value」的关键组成部分 。 该指标用来衡量特征如何为预测提供信息 。

推荐

爱立信已获得109份5G商用合同 61张5G商用网络已投入运营
科技

爱立信已获得109份5G商用合同 61张5G商用网络已投入运营

5G商用范围不断扩大,也就意味着电信设备供应商的5G商用合同越来越多。电信设备供应商爱立信官网的信息显示,他们在全球获得的5G商用合同,目前已经增加到了109份。而在二季度的财报中,爱立信披露他们获得的5G商用合同是99份,目前达到109份,也就意味着他们的5G商用合...

“智慧”盛京再加速,共创数字辽宁新速度来源:中国经济导报辽宁记者站王国忠
科技

“智慧”盛京再加速,共创数字辽宁新速度来源:中国经济导报辽宁记者站王国忠

新基建、新动能,共创辽宁数字经济新速度近几年,辽宁省数字经济快速发展,取得了长足的进步。“新基建”为辽宁省各行各业发展带来全新机遇,政府和企业全面进入数字化和智能化发展阶段,联接、云、AI、计算和行业应用,这五大机会史无前例地汇聚到一起。新一代信息技术...

腾讯位置服务提供多项地图服务能力 覆盖“吃住行游购娱”全场景
科技

腾讯位置服务提供多项地图服务能力 覆盖“吃住行游购娱”全场景

开发者通过直接调用地图接口,就能快速接入地图能力,大大提高了开发效率,帮助企业实现降本增效的目标。逆地址解析是各类移动应用提供服务的前提保障,提供了从用户当前经纬度坐标到结构化地址的转换能力,转换结果包含对坐标位置的文字描述、省区市等行政区划信息、门牌号...

2020年二季度全球手机趋势:均价继续上涨,都是国内用户惯的
科技

2020年二季度全球手机趋势:均价继续上涨,都是国内用户惯的

除了拉美地区,北美、欧洲、中国、中东和非洲等主要市场手机价在二季度均有所上扬。其中国内手机涨幅最高,达到了13%后的310美元。虽然目前全球手机销量下滑23%,但其中高端机仅下滑了8%,甚至iPhone的势头依然强劲,达到34%市场份额后继续霸榜第一。华为、三星、vivo和...

萤火数据|对比竞店爆款投放技巧,你也能成为直播赢家!
科技

萤火数据|对比竞店爆款投放技巧,你也能成为直播赢家!

”最近很多商家店铺提出了这样的问题,为了方便商家店铺对比同类型主播的直播数据,萤火数据上线了“主播对比”功能。【萤火数据】-对比工具“对比工具”通过开播、流量、互动、涨粉、成交5个维度的综合得分来判断主播直播带货的表现,每个能力项的分数均由若干个相关指...

龙涟国际荣获“年度数字营销先锋”大奖
科技

龙涟国际荣获“年度数字营销先锋”大奖

9月17日,由酷家乐主办的“数智中国,创赢未来”2020酷家乐山东客户答谢会暨全屋定制高管特训营在山东省临沂市隆重召开,本次大会汇集众多行业领袖、业界大咖参会。图|大会颁奖现场会上特别嘉奖了在家居行业信息化升级取得优秀发展成果的数字化标杆企业。龙涟国际荣获...

完美日记估值超40亿美元 国内版“欧莱雅”要崛起?
科技

完美日记估值超40亿美元 国内版“欧莱雅”要崛起?

在天猫2019年6月发布的调查中,完美日记成为最受00后欢迎的国货品牌第二名,仅次于华为。根据完美日记官方的介绍,截止今年8月,完美日记在全国已经开设线下门店160家,有120家是今年以来新增的,今年年底开店目标为200家,而到了2022年,完美日记的线下门店计划超过600...

SpaceX的互联网星座为华盛顿州应急服务机构提供互联网服务
科技

SpaceX的互联网星座为华盛顿州应急服务机构提供互联网服务

这是SpaceX的Starlink互联网星座首次用于公共民用服务。华盛顿州的马尔登是一个大约有200名居民的东部小镇,在9月的第一周爆发了一场野火,它在几个小时内几乎摧毁了小镇所有的建筑。目前还没有死亡案例报告。考虑到华盛顿州今年夏天遭受的巨大火灾损失,马尔登在火灾过...

手机淘宝大动作,你的中差评“消失”了!
科技

手机淘宝大动作,你的中差评“消失”了!

据IT之家向客服查证,淘宝方面表示此次改版后好评、中差评标签不再单独展示,且以后中/差评类目将全部集中在【感觉不佳】中,但是淘宝并没有取消中/差评,用户依然可以给出中差评的评价。...

三星 Galaxy Z Fold2 5G不止于「可折叠」,你想要的它几乎都有了
科技

三星 Galaxy Z Fold2 5G不止于「可折叠」,你想要的它几乎都有了

进入到2020年之后,做折叠屏手机的品牌并没有像很多人所预料的那样有所增加,依旧是三星、华为、摩托罗拉、柔宇等少数厂商之间的游戏。在以上这几家品牌中,三星无疑是走得最为激进的一个,除了在售的机型数量明显更多,其也是目前行业唯一一家同时拥有横向和纵向两种形...

IPV6详细讲解
业界

IPV6详细讲解

-----关注IT小技术 , 分享更多IT小技术! ----IPV6详细讲解//---- 北京联盟科技频道...

直言不讳 | 合并后的新时代?
科技

直言不讳 | 合并后的新时代?

据传,三者的合并最早会于三季度完成,晚的话可能明年年初也会完成。三者是合而为一,还是继续保持独立运行目前仍不确定。但确定的是,从2014年开始的,内容和平台一对多的关系终于要走到了尽头——起码在游戏直播的领域,内容和平台终于走到了一对一的境地。甚至因为腾...

快手投资百亿建立首个超大规模数据中心
科技

快手投资百亿建立首个超大规模数据中心

据介绍,该项目宣布落地内蒙古乌兰察布市,投资达百亿元,预计明年投入使用。据介绍,乌兰察布大数据中心是快手第一个自建超大规模互联网数据中心,也是国内最大的专门为“大数据、人工智能”建设的数据中心。据悉,该数据中心体量在业内仅次于腾讯、阿里巴巴,将由快手...

Vlog 大片一键剪辑,ColorOS 7.2 Soloop 让生活更精彩
科技

Vlog 大片一键剪辑,ColorOS 7.2 Soloop 让生活更精彩

素材管理方面,Soloop贴心地支持分类,用户可根据自身需求快速将拍摄的照片、视频等导入APP。选择「快速成片」的用户在选择素材后就能看到系统自动挑选素材中的精彩画面生成的视频,并且视频还会根据音乐节奏配上酷炫转场,大也能挑选自己喜欢的模板与音乐,让视频更具...

one-hot encoding非万能,这些编码方法值得拥有
科技

one-hot encoding非万能,这些编码方法值得拥有

因此,medium的一位博主表示,在编码分类变量方面,我们或许还有更好的选择。one-hot编码(one-hotencoding)类似于虚拟变量(dummyvariables),是一种将分类变量转换为几个二进制列的方法。其中1代表某个输入属于该类别。从机器学习的角度来看,one-hot编码并不是一种...

经济日报记者采访外卖餐厅:浪费情况严重吗?
科技

经济日报记者采访外卖餐厅:浪费情况严重吗?

今天,记者又将目光投向了我们身边另一个容易产生餐饮浪费的领域——外卖。随着网络消费的快速发展,“叫个外卖”已成为不少人解决吃饭问题的常用方式。不过,外卖餐饮浪费现象也日益突出。外卖餐饮浪费情况怎么样?商家推出的小份菜、半份菜管用吗?除了外卖餐厅和消费...

我的装备清单 篇三:火枫一体式稳压炉头测评
科技

我的装备清单 篇三:火枫一体式稳压炉头测评

后来看上了国产的品牌“火枫”,于是果断入手了一款分体式炉头,再往后身边的朋友也跟着我入了户外的坑,我推荐装备时也会经常跟他提起火枫家的东西,最重要的一点就是性价比高。今年火枫出了新款,一体式,搭载精密稳压器,备受期待。迫不及待上手体验。??外观拆开快递...

“扫地机器人”上路了!两款智能驾驶扫路机将在集美大学大显身手
科技

“扫地机器人”上路了!两款智能驾驶扫路机将在集美大学大显身手

台海网9月16日讯据厦门日报报道马路保洁也用上了“扫地机器人”。昨日上午9时许,在集美大学光前体育馆前,龙马环卫无人驾驶园区运营项目发布会召开,会上介绍并展示了SD10与SD18两种型号的智能驾驶扫路机,它们将成为集美大学的“路面环卫工”。“无人驾驶,请避让,无...

借力“新基建”,三彩家积极探索生活行业智慧化转型
科技

借力“新基建”,三彩家积极探索生活行业智慧化转型

数字经济的高速发展也对我国企业的发展提出了新的要求。而中小微企业作为我国企业的主要组成部分,已经成为促进经济社会又好又快发展的一支重要力量。据统计,2018年末,我国共有中小微企业法人单位1807万家。在这个数字中,至少还有80%的中小微企业没有完成数字化转型。而...

最新,美国押宝疫苗曝出问题后仍继续试验!中国5种疫苗领先全球
科技

最新,美国押宝疫苗曝出问题后仍继续试验!中国5种疫苗领先全球

如今,美国疫苗也曝出问题。据*****9月16日最新报道,美国知名生物科技公司辉瑞周二透露,该公司与德国疫苗巨头BioNtech联合研发的新冠疫苗在三期临床双盲试验中,部分志愿者出现了轻度到中度的副作用,包括头痛、发冷和肌肉疼痛,甚至是高烧等症状。报道指出,截至当前...