20万、50万、100万年薪的算法工程师到底有什么区别

所需积分/C币:20 2018-12-17 17:05:27 1.89MB PDF

20万、50万、100万年薪的算法工程师到底有什么区别。20万、50万、100万年薪的算法工程师到底有什么区别。
专栏(中阔计我遏 函数及其导数的各种情形下,你需要熟知如何选择可望不可及。不过,在这个例子里展现出来的关键 优化方法,各种方法旳时间空间复杂度、收敛性如能力:根据问题特点调整模型,并解决优化上的障 何,还要知道怎样构造目标函数,才便于用凸优化碍,是一名合格的算法工程师应该追求的能力。年 或其他框架来求解。这些方面的训练,要比对机器薪50万能找到这样的人,是物有所值的。 学习模型的掌握更扎实才行。 第三层次“ Objective”: 擅长定义问题 A A 对这个层次的工程师的要求比较高。给他一个 新的实际问题,他要能给出量化的目标函数。 当年,福特公司请斯坦门茨检修电机,他在电 图1循环神经网络模型 机外壳画了一条线,让工作人员在此处打开电机并 迅速排除了故障。结账时,斯坦门茨开价1万美元 拿“以不变应万变”的深度学习举个例子。用还列了个清单:画一条线,1美元;知道在哪儿画线, 神经网络处理语音识别、自然语言处理时间序列数9999美元。 据的建模,循环神经网络( Recurrent Neural network, 同样的道理,在算法领域,最难的也是知道在 RNN)是个自然的选择(见图1)。不过在实践中,哪里画线,这就是对一个新问题构建目标函数的过 大家发现由于存在“梯度消失”现象,RNN很难程。有明确的量化目标函数,正是科学方法区 对长程的上下文依赖建模。而在自然语言中,要决别于玄学方法、神学方法的重要标志。 定be动词是用“is”还是“are”,有可能要往前翻 目标函数,有时能用一个解析形式( analytical 好多词才能找到起决定作用的主语。怎么办呢?天form)写出来,有时则不能。比如网页搜索问题。 才的施米德胡贝(J. Schmidhuber)设计了带有门结构它有两种目标函数:一种是归一化折损累积增益 的长短期记忆( Long short-Term Memory,LSTM)模( Normalized discounted cumulative gain,NDCG), 型(见图2),让数据自行决定哪些信息要保留,哪这是一个在标注好的数据集上可以明确计算出来的 些要忘掉。如此以来,自然语言的建模效果就大大指标;另种则是人工看坏案例( badcase)的比例, 提高了。初看RNN与LSTM的结构对比,面对凭显然它无法用公式计算,但是其结果也是定量的, 空多出来的几个门结构可能一头雾水,唯有洞彻其也可以作为日标函数。 屮的方法论,并且有扎实的机器学习和最优化基础, 定义目标函数,乍听起来没有那么困难,不就 才能逐渐理解和学习这种思路。 是制定一个关键性能指标(KPI)吗?其实不然,要 做好这件事,在意识和技术上都有很高的门槛。 1.要建立“万般皆下品、唯有目标高”的 意识。无论是一个团队还是一个项目,只要确立了 A A 正确的、可衡量的目标,达到这个目标就只是时间 和成本问题。 所谓“本立而道生”:一个项目开始时,总是 应该先做两件事:一是定义清楚量化的目标函 图2长短期记忆模型 数;二是搭建一个能够对目标函数做线上A/B 当然,LSTM这个模型是神来之笔,我等对此测试2的实验框架。而收集什么数据、采用什么 56 模型,都在其次。 2.能够构造准确(信)、可解(达 D输出1 D输出0 优雅(雅)的目标函数。目标函数要尽可 能反映实际业务目标,同时又有可行的优化 方法。一般来说,优化目标与评测目标是有 可微函数D 可微函数D 所不同的。比如在语音识别中,评测日标是 “词错误率”,但这个不可导,所以不能直接 优化。因此,我们还要找一个“代理目标” 曰 x采样自数据 X采样自模型 比如似然值或者后验概率,用于求解模型参 数。评测目标的定义往往比较直观,但是要 可微函数G 把它转化成一个高度相关,乂便于求解的优 化月标,是需要相当的经验与功力的。在语 音建模里,即便是计算似然值,也需要涉及 输入噪声z Baum- Welch3等比较复杂的算法,但要定义 清楚是不简单的。 图3生成对抗网络模型 优雅,是个更高层次的要求,在遇到重 大问题时,优雅往往是不二法门。因为往往只有漂地打分,什么时候G的作品在D那里得分高了,G 亮的框架才更接近问题的本质。关于这一点,必须就算是学会画画了。同时,D在此过程中也因为大 要提一下近年来最让人醍醐灌顶的大作——生成对量接触仿品而提升了鉴赏能力,可以把G训练得更 抗网络( Generative Adversarial Network,GAN)。 好。有了这样定性的思考还不够,这样一个巧妙设 GAN要解决的,就是让机器根据数据学会画画、计的二人零和博弈4过程,还可以表示成卜面的数 写文章等创作性问题。机器画画的目标函数怎么定学问题 义?听起来让人一头雾水。我们早年做类似的语音 min max v(D, G)=Ex-p (log D()]+ 合成问题时,也没有什么好办法,只能通过人一句 句听来打分。令人拍案叫绝的是,伊恩·古德费 Ez -p (2[log(1-D(G() 洛( lan goodfellow)在定义这个问题时,采取了一个 这个目标,优雅得像个哲学问题,却又实实在 巧妙的框架(见图3)。 在可以追寻。当我看到上述公式时,顿时觉得教会 既然靠人打分费时费力,又不客观,那就干脆机器画画是个不太远的时间问题。如果你也能对这 让机器打分吧!好在让机器辨认一幅特定语文的图样的问题描述感到心旷神怡,就能体会为什么这才 画(比如说人脸),在深度学习中已经基本解决了。是最难的一步。 假设我们已经有一个能打分的机器D,现在要训练 个团队的定海神针,就是能把问题转化 个能画画的机器G,那就让G不断地画,D不断成目标函数的那个人—哪怕他连开源工具都 2用于评估新功能对用户行为的影响的一种对照实验。为了同一个目标制定两个方案,让一部分用户使用A方案 另一部分用户使用B方案,记录下用户的使用情况,看哪个方案更符合设计目标 种对隐马尔可夫模型(HMM做参数估计的方法。 4零和博弈(zcro- sum gamc),又称零和游戏,是博弈论的个概念,属非合作博弈。指参与博弈的各方,在严格竞 争下,一方的收益必然意味着另一方的损失,博弈各方的收益和损失相加总和永远为“零”,双方不存在合作的 可能 57 专栏(中阔计我遏 不会用。花100万找到这样的人,可真是捡了个大不可及的目标。 便宜 刘鹏 360集团架构师。互联网大数据与商业化 在机器学习领域,算法工程师脚下的进阶之路 专家,所著《计算广告》为业界第一本 专著,被BAT、小米、搜狗等公司高层 是清晰的:当你掌握了工具、会改造模型,进而可 联名推荐,成为各大互联网公司数据与 以驾驭新问题的建模时,就能成长为最优秀的人才。 商业化部门广泛采用的教程。曾担任多 家公司大数据与商业化战略顾问。 沿着这条路踏踏实实走下去,100万年薪并不是遥 58

...展开详情
img
oojpoo

关注 私信 TA的资源

上传资源赚积分,得勋章
相关内容推荐