今日,极客公园创新大会在开幕。今日头条创始人张一鸣作了主旨。他分享了今日头条在机器学习上的实践。他认为,过去是依靠人总结知识,现在可以通过系统、学习用户的行为特征来存储智慧。今日,极客公园创新大会在开幕。今日头条创始人张一鸣作了主旨。他分享了今日头条在机器学习上的实践。他认为,过去是依靠人总结知识,现在可以通过系统、学习用户的行为特征来存储智慧。
张一鸣表示,这种系统本身具有成长的三大特征,、理解与判断。首先系统到用户的搜索行为,获取其数据,然后解读数据背后用户的意图,、理解了这个知识之后可以对用户新的行为产生判断。比如今日头条可以判断这条最新资讯这位用户是否会喜欢。
今日头条从最早的版本是用人的知识编成一些策略进行个性化的推荐,之后进行了改进,用了海量的高级特征和精细化的特征,来实现精准推荐。张一鸣说,未来还会有更丰富的特征,不仅是用一种模型,可能更多的是模型的组合来进行行为的理解判断。
张一鸣表示,机器智商未必高于见多识广的人,主要是人的记忆力有限,处理的数据量有限,而机器不知疲倦,每时每刻都可以输入海量数据。机器可以连接众多的设备,观察众多的设备产生的行为,通过理解判断形成机器的智慧之后,可以大规模抹平信息的鸿沟,减轻人的负担。
机器还知道什么?比如今日头条的系统在过去一年中它从这么多用户行为中还了解了什么呢?它知道哪些人所不知道的知识点呢?比如过去一年中哪个事件被人最快遗忘了?哪个城市的人最喜欢某个明星?
很高兴与大家分享我们今日头条在机器学习上的实践。创业之初,我们要招机器学习的工程师,很多猎头问,“你们不是做的吗?为什么要招机器学习的工程师?你们不是做一个APP吗?为什么需要这么多人?”我当时想告诉他们,机器学习能给资讯阅读和信息获取带来很大的价值,今天我就跟大家分享这块内容。
首先我们回顾一下前面几位者讲到的机器学习的使用场景和技术背景。11年底,12年初时,我强烈地感受到移动互联网的出现会使物理世界在网络世界有更多的数字投影。比如微博的出现,让很多公共机构和名人有了网络ID,很多照片、文字、用户生成的内容在网络世界有了投影,换句话说,人类的活动痕迹越来越多地出现在网络上。
同时,云端开始能处理海量的数据。特别是2012年之后,越来越多的云存储、云技术技术应用诞生了。在移动端出现了强烈的业务需求,因为技术条件还不够,必须有强烈的业务需求才可以带来技术在产品上的应用。
手机上的传感器越来越多,智能硬件其实是手机的外设,而手机是人的外设,可能不只是手机,也包括志飞说的手表,越来越多的传感器、智能硬件成为外设之后,手机本身又具备本地运算处理能力、联网能力,所以它成为物理世界的信息投影到网络世界的一个通道。当然也有其他设备,如GoPro相机,谷歌(微博)眼镜等,能实时分析面交通情况并投影至数字世界。
过去是依靠人总结知识,不同历史阶段都会有艺术、文学等经典著作,是将各领域知识汇聚到一起产生的。现在我发现通过书籍汇聚知识不是最有效的方式,通过系统,学习用户的行为来存储智慧才是最有效的。
比如我们希望查询过去几年的春运变化情况,可以在百度指数上查到,百度指数囊括了历年春运的交通情况。通过系统,通过用户行为生成的知识可能会是未来知识存储的一种主要方式。
第一是。系统会通过用户的搜索行为,自动获取其数据,用户搜索什么,点击什么,都表明用户想知道什么,这其实有助于不断地培训这个系统。今日头条也是一样,我们通过用户点击喜欢与否、分享的评论知道用户想要参与什么类型的话题。
第二是理解。用户的查询、点击、收藏等行为一定程度上反映了用户的某些意图,比如有人查询红酒木瓜汤,他是对美食感兴趣还是对减肥感兴趣,这个通过分析可以知道,这就是系统的理解能力。不仅要海量的数据,还要解读数据背后的意图。
第三是判断。、理解了这个知识之后可以对用户新的行为产生判断。比如今日头条可以判断这条最新资讯这位用户是否会喜欢。刚刚格灵深瞳的何总说机器学习可以判断在这么多摄像的情况下哪些是的情况。具备一个、理解、判断的系统,它会有一个成长的特质。
现在我以今日头条为例解释一下成长。第一个问题,推荐系统这块,用户用得越久会越好用,为什么?因为他的行为越来越多地记录到这个系统中,这个系统他的行为越多,就对他越理解。
第二个问题是越多人用会越好用,为什么?不同的人之间有共性的东西,理解一名用户之后,就会更容易地理解其他用户;理解一类用户之后,就容易理解这类用户新的个体。
我想举个例子,两个新出生的婴儿,因为生活阅历的不同,他们的智商发育情况会有很大差别,哪怕先天的基因物质条件很接近,每天见到的东西不同,收集的数据不一样,他的大脑神经发育就不一样,最终积累的智慧也不一样。
不是从个人的视角看待这些数据,因为系统能够通过几千万或者上亿的日活跃用户来吸取海量的数据,这是用全局的视角,看待每位用户的行为。
过去我们看,主编或者总编室是没有办法积累用户行为数据的,他可能只能通过用户的反弹用非在线的方式搜集数据。这种信息的水平跟移动APP差别很大。
我们再看一下移动APP,可以想象一下一个人在地铁中使用今日头条时,其实他在使用今日头条过程中,今日头条后面的数据也在观察他每一步的滑动,他是否很快地滑过某些标题,或是有所停留,是点击一篇内容认真阅读还是粗略阅读。是参与评论还是在朋友圈讨论,这些行为都能在秒级延迟范围内被系统到,系统就会做到实时的调整。
其次是特征。用户是在Wi-Fi还是3G下,他的GPS在还是上海,是在常住地还是处于旅行状态,是白天还是夜晚,是否为节假日,是首次使用还是第二次使用,这些都可以作为特征。
第三是社交特征。我们一直是鼓励用户用社交媒介登录今日头条。比如一名用户用微博登录,我们会得到他的微博信息,包括微博的关注关系,历史上发的微博,昨天发了一条看电影的微博等等。
这些数据都成为各种特征被系统所学习到,更重要的是系统不仅使用单一的特征,还会将这些特征进行组合,从而判断用户有什么样的兴趣爱好。
我们最早一个版本不是基于学习而是基于策略的。我们用人的知识编成一些策略进行个性化的推荐。这些知识是人工、理解、判断得到的,并不是系统得到的。后来我们使用了一些高级特征,及少量的组合。
这些高级特征包括他是不是一个当地居民,是不是一个IT用户,他使用的手机价格多少,可能会根据上百种的高级特征进行组合来推荐消息。
今年下半年,我们又进行了改进,用了海量的高级特征和精细化的特征。精细化特征这块,我们会观察他过去点击某篇文章的行为,对他现在的阅读有什么影响。特征的颗粒度越细,推荐的精准性就会越高。
通过推荐引擎的技术,我们在过去两年超越了几个互联网的巨头,达到每天有2000万的用户使用今日头条,并且每天每个用户使用6到7次,每次6-7分钟,所有用户加起来有7亿分钟的时长。如果一个人看的话,相当于从唐朝阅读到清朝的跨度。
这么多用户每用会产生多少数据呢?我们每天现在的日志函数在100亿的规模,每天产生的特征组合会在750亿,这些数据经过组合之后最后线多亿。
这幅图是我们内部的一个指标用来衡量学习的效果,可以看到在过去一年中我们大概通过增加这个特征,增加特征的组合,优化模型可以提高80%、90%。如果简化来说,我们可以认为机器的智商水平有了80%、90%的提高。
所以我理解类似今日头条这种推荐引擎的系统,它不仅是个人助理的角色,我们很多时候想学习的时候都会想到人工智能,想到人工智能会想到机器人,想到机器人会想到替代一个人,他不是替代一个人。
你从获取数据的角度来说,他更像整个世界共享一个大脑,视角并不是观察你个人,今日头条的后台系统每天观察2000万用户使用行为,每天观察100亿条日志,最新资讯在不同人群中受欢迎的程度。其实在做这个产品过程中,我感觉系统有时候有一个的视角,可以观察用户。
机器学习短期内是看不到有机会跟人类智商相比较的系统,有机会在各个垂直领域出现可能比平均的人类能力更好的一种判断,比方说在阅读,在,在天气预报不用说了,人无法对天气的各种特征做反映。
我觉得跟生活相关的各个领域比如说,机器对交通信号,对历史的人流情况做出判断,比人做出判断更靠谱,这个已经实现,阅读也是。比如今日头条比你的助理更能理解你喜欢什么,这也是很可能达到的。
因为机器智商未必高,抵不过年长和见多识广的人。人的记忆力有限,处理的数据量有限,机器不仅能够观察一个人的数据,它可以观察几千万、三亿用户的数据。
什么叫不知疲倦呢?机器不需要休息,每时每刻都可以输入数据。在夜深人静时,机器可以进行不断地迭代。通过机器连接众多的设备,观察众多的设备产生的行为,通过理解判断形成机器的智慧之后,可以大规模抹平信息的鸿沟,减轻人的负担。拿阅读来说,以前信息整理搜集能力强的人他有更好的信息获取能力,他在信息社会就有更多的优势。
比方说对交通的人,交通经验多的人可以判断出更好的线,现在有了机器学习的系统之后,机器能够人,能够更有效地获取信息,更有效地交通出行,所以减轻人脑的负荷。
机器还知道什么呢?比方说今日头条的系统在过去一年中它从这么多用户行为中还了解了什么呢?他知道哪些人所不知道的知识点呢?比方说过去一年中哪个事件被人最快遗忘了?哪个城市的人最喜欢某个明星?这些都能知道。想知道这些答案的线号下午我们会发布一个题为“算数”的年度发布会,我们会把机器学到的东西,以算数的主题发布出来,欢迎大家届时参与,谢谢!
推荐:
网友评论 ()条 查看