你参加过的比赛中,有广告、交通、金融、教育、医疗等各式各样的问题,在解决这些问题的方法上,
是否总结过有哪些共性?
就我个人对这些比赛的分类,主要分为挖掘、图像、语音、NLP 四类。
你可以这么理解数据挖掘类问题,除了语音、图像和 NLP,剩下的所有问题,都可以归结为此类问题。例如根据实际
业务,做各种各样预测的问题(预测销量、点击率、推荐排序等),都可以定义为数据挖掘问题。或许我的定义并不
准确,不过我没有想到一个更好的表达词。
这四类问题需要用到的一些技术或者技巧,彼此之间可以相对独立,每类问题都有各自的套路。
对于数据挖掘类问题来说的话,具体是广告、交通、金融还是教育,其实影响不大。主要的共性就是理解数据,理解
问题,从数据中找到有用的信息用来预测,这类问题胜负更多的是在特征上。
对于图像问题,可能就较少涉及到特征了。图像问题现在主要用到深度学习的相关技术,基于深度学习做了很多改进
或者演绎,已经完全不需要在特征层面上去做什么了。
像图像、语音类比赛,其实我目前接触的还比较少,这种比赛这两年才开始兴起。
你提到在数据挖掘比赛上面,胜负更多在特征上,为什么这么说呢?在特征上有什么套路?
基本上大家都会用同样的一些工具去训练同样的模型,在模型方面差别很小。所以,模型没那么重要。
融合是基于单模型来的,要是单模型不好,那么很大概率上融合也好不了。此外,融合的套路应该也基本上都固定了,
但凡常玩的人也都知道。所以,融合基本上达不到创新,很难出现别人不知道的招。
因此,机会还是在特征上,现在只有特征还没有一个通用的标准,大家自己做自己的,有可能做出点不一样的东西。
其实特征工程主要分两点。第一点:你可能需要了解业务,从业务本身出发,找到一些对预测有帮助的信息和线索。
这是基于你对业务的熟悉,对业务的理解出发的。
第二点就是需要想办法把这种信息转化成适用于模型的特征。
评论0
最新资源