headerphoto

字节跳动春招开放6000个岗位在技术大牛身边工作是怎样的体验?

2020-02-25 19:11

  近期,字节跳动宣布,今年春季招聘为大学生开放超过6000个全职及实习生就业岗位。这一招聘数字,超过字节跳动以往每年春季招聘的规模,也让字节跳动成为今年互联网行业少见的“不缩招”企业。

  字节跳动招聘负责人表示,2020年,字节跳动会继续加大对人才的培养,倾注更多平台资源,帮助社会创造更多的就业岗位。字节跳动将为应届毕业生提供广阔稳定的发展机会、完善的新人培养体系、平等开放的工作氛围,以及有竞争力的回报和福利。

  此前,2019 ACL(国际计算语言学会)Fellow名单出炉,字节跳动人工智能实验室科学家李航入选。ACL Fellow是对NLP领域从业者的最高认可。据ACL官网信息,李航因在「信息检索方面做出基础性贡献,特别在学习排序、深度学习和对话生成方面做出卓越贡献,同时促进了中国NLP的发展与商业化」而入选。

  李航获东京大学计算机科学博士学位,曾任微软亚洲研究院主任研究员和华为诺亚方舟实验室首席科学家。2019年5月,李航编写的机器学习入门“蓝宝书”《统计学习方法》再版,字节范儿邀请李航就新书内容、加入字节跳动的体验、年轻技术人的成长、机器学习的未来和人工智能趋势等话题进行了分享。

  字节跳动有的员工说,当然是很开心,都知道他是行业里的技术大牛,在微软亚洲研究院、华为诺亚方舟实验室等知名机构有着丰富的从业经历。还有很多员工说,其实也没有那么神秘,他总是穿着衬衫西裤而不是码农的T恤,开会带着纸质本子记东西,习惯用手表看时间,温和儒雅,一副大学教授的样子。

  他的另一个身份是《统计学习方法》的作者,这本书被很多人亲切地称作“蓝宝书”,是不少技术人入门机器学习的启蒙读物。他出版过三部学术专著,并在顶级国际学术会议和期刊上发表过上百篇论文,拥有40项授权美国专利。

  在以下访谈中,李航就新书的内容、加入字节跳动的体验、年轻技术人的成长、机器学习的未来和人工智能的发展趋势等话题与大家进行了分享。

  A:统计学习即机器学习,第一版主要是介绍了监督学习的算法与模型。第二版主要是在过去六年的时间里,补充了无监督学习的八个方法,并对第一版的监督学习方法做了一些修改。虽然目前90%以上的机器学习都是监督学习,但无监督学习其实是机器学习的重点和难点,即让机器自己发现数据里的规律,它是未来实现强大人工智能的重要推动力。未来我还准备花3-4年时间把深度学习和强化学习加进去。因为我都是业余时间写作,所以花的时间比较久。

  Q:很多人把《统计学习方法》叫做蓝宝书,是入门机器学习的启蒙读物,但一些学生看这本书会觉得吃力,能不能推荐一些入门的方法?

  A:这本书的内容本身是最基础的,也就是机器学习领域大家都应该掌握的东西,从这种意义上来说确实是一本入门书籍。但是我并没有从入门的角度写这本书,而是更多地把一些最基本的概念,提纲挈领地整理出来,也是我自己再学习和思考的过程。你也可以认为是从教材的角度来写这些内容,因此这本书适合多次阅读,需要经常查看,而不是看一遍就了事。

  这本书比较适合有一定基础的读者,主要是数学基础。它不太适合特别入门的初学者,也不太适合概率论、统计学都不太了解的入门者,这些基础知识可以通过其它课程或教材快速补全。当然,读者也可以一边阅读《统计学习方法》,一边补全基础知识,这样学习可能效率更高。

  当然,我希望《统计学习方法》不仅仅是教材,它还能为业界的工程师提供一些有用的帮助。

  A:我觉得有几件事情比较重要。一是建立远大的理想和目标,选择自己喜欢做的,擅长做的,能给自己带来利益的事情的交集去做。制定有挑战的目标,想想希望自己5-10年后成为什么样子。二是一旦有了目标之后,在日常的工作中扎扎实实地去做。其实没有捷径。

  另外,我们谈到技术人员的工作的时候,科学家和工程师的思维方式应该是不一样的。工程师的思维方式应该是面向问题解决问题,而科学家的思维应该是建立普世价值的理论和方法。在AI Lab的同事们更是这样,需要明确自己当前做的工作是哪种性质的。理想是不断培养自己两方面的能力,但也有侧重。

  Q:问答社区上有一个问题“如何评价李航加入今日头条母公司字节跳动?”,所以你为什么加入字节跳动?目前为止,感觉如何?

  A:字节跳动有很好的产品和大量的用户,有人工智能研究需要的大数据,公司也有很多优秀的人才,总之这里拥有做技术开发最好的环境,有很多有意思的问题可以和大家一起去做。事实证明,这是一个正确的决定,公司的机制和文化很好,大家做起事来心情愉快,效率也很高。

  A:这取决于你自己想做什么事情,学校适合做研究,工业界更偏产品和应用。人工智能时代需要利用大数据,学校很难有这样的环境,促使很多老师选择到工业界。计算机科学领域,现在跟以前有很大的不同,以前的研究很多是大学先工业界后,现在是共同推进,甚至是反过来了。

  我先后在NEC和微软的研究部门工作过,它们更像是传统工业界的研究部门,不直接负责产品的开发。字节跳动是我待过的第4家公司,这里的研究部门是这当中最接近产品的部门,很多东西需要在实际的场景中应用,这很接近美国的一些互联网公司的做法,既有偏产品的工作又有基础研究。

  A:我个人意见:理想的情况是70%的精力做应用,30%放在相关的基础研究上,当然中间没有一个清晰的界限。我们需要为未来做一个很好的布局。这是这个时代技术发展的必然趋势。很多东西需要有现实数据以及实际场景去验证,机器学习本来也是这样一种技术。所以我很享受这种balance,而不认为是角力。

  A:做好内容平台。目前主要是开发自然语言处理和机器学习的技术,希望能够开发出更好的智能信息处理技术,帮助大家更好地获得信息和知识。比如跟搜索团队合作的精准问答,是为了帮助用户更加精确地获取高质量的信息。还有在头条的新闻推荐,用算法帮助提高内容质量,打压低质内容,提高优质内容。

  综合来说就是要让每个用户在信息获取过程中有更好的体验,真正得到自己想要的东西。最理想的状态就是我们每个人都有智能助手,想要什么信息助手就给你什么。

  A:算是机缘巧合吧。我最早接触人工智能,是大一的时候在京都大学的人工智能实验室,80年代末是人工智能很火的时候,那会儿看到机器翻译、图像识别就觉得很有意思。到90年代,我在日本NEC公司的研究部门工作,偶然的机会加入机器学习的小组,开始了研究之路。

  这期间经历了人工智能的起起落落,但也感受到了整个领域的巨大发展。那个时候只有专家在讨论AI,现在变成家喻户晓,大家都能去评论的话题,最典型的就是AlphaGo。我们也已经在使用很多人工智能技术的产品,这是一个质的飞跃。不好的地方是,感觉大家会有一些浮躁,我们的研究和技术开发还是应该更扎实一些。

  能坚持在研究路上的秘诀可能是保持年轻的心态吧,我感觉现在的心态跟20年前读博士的时候没有什么不同。做研究很痛苦,也很快乐。要去做出一个比已有的方法更好的方法很不容易,研究过程中的挫折和沮丧也挺多的。但当你把一个确实work的东西做出来的时候,你确实会有很大的成就感。可以比喻成长跑,跑的过程当中会觉得自己很累,但是当你到达了终点,会享受到完成一件事情的快乐,大概就是这种感觉吧。

  Q:所以你算是见证了人工智能在中国的发展,你看好它的发展趋势吗?人工智能的未来到底是什么样的?

  A:是的,2002年复旦大学组织过一个机器学习研讨会MLA,当时只有不到30人参会,但现在已经是近千人的规模了。不到20年的时间,人工智能在中国已经有了突飞猛进的发展,这是让人意想不到的。

  中国市场大、人才多、从业者努力,这是别的国家没有的优势。但是也要注意到,我们在创新方面的能力离美国还有一定距离,这可能需要几代人的努力。目前最基本最核心的概念和方法大多还是在美国开发出来的,我们的快速发展更多还是体现在产品落地上。我相信我们速度很快,但还是需要不断努力,不断提高自己的创新能力,真正的创新还是需要挺长时间的。

  我们可以把人工智能理解为人类很好的工具,不要把它特别的夸大,至少未来很长一段时间内是这样,就像你的秘书或者助手。

  Q:你最近的一篇论文重点讲了脑科学,有一个观点是说机器学习很重要的内容就是对人脑的研究,所以脑科学给人工智能带了来什么?

  A:科学发展到今天,我们对外部宇宙有了不少了解,但是对我们自己内部的“宇宙”——人脑,我们了解得还远远不够,这是当今最大的一个未知领域。脑科学就是研究这个问题的科学领域。从计算机器的角度看,人脑是一个非常了不起的计算机,它的能耗还不到30瓦,就能做那么多复杂的计算。

  人工智能希望开发智能性的工具,离不开对人脑信息处理机制的了解。脑科学的发展,对人工智能是有启发和指导作用的,特别是自然语言处理这一块。人工智能有三大应用领域——声图文,也就是语音、图像、文字,语言是最难的了。前两者是感知能力,而语言是认知能力。此外,看或听一个东西的时候,只是大脑的局部在工作,但使用语言的时候,是整个大脑在工作,所以说非常复杂。如果我们希望计算机能够像人一样去操作语言使用语言,那就需要对人的语言处理机制有进一步的了解,关注脑科学的研究成果,多去进行跨学科的研究。

  A:《统计学习方法》的第一版中,介绍了很多算法,都是非常基础与经典的机器学习方法,但是在深度学习时代,我们更多的是根据经验、实验和「启发式」方法理解模型,这些经典算法被大家关注得比较少,反观常见的深度学习方法与技巧,却不一定有传统方法那样的理论。

  其实传统机器学习与深度学习在技术上是一脉相承的,中间并不可以割裂。在我面试员工的时候,也会发现这样的问题,大家对深度学习了解得很多,但对传统机器学习了解得非常少。这种现象并不好,例如我们在 TensorFlow 上实现某个模型,然后就直接跑实验,这样对很多基本概念了解得都不够。理想情况下,我们应该更全面地理解机器学习的概念与理论,再做深度学习实践,也就是说对传统机器学习的理解有助于更好地掌握深度学习技术。

  此外,尽管深度学习在众多任务上都有极好的效果,但也不能说传统机器学习就没什么用了。例如在小数据集或简单问题上,SVM 或 GBDT 这些方法在实践中用得还是挺多的。

  Q:有人说机器学习无疑是最有希望实现突破的方向之一,你怎么看待这个判断?对机器学习的未来有什么期待?

  A:机器学习是人工智能的核心领域,几乎所有的人工智能技术其实都是机器学习技术,无疑机器学习技术的发展决定了人工智能的未来。希望机器学习能有更多的突破,促进整个领域的发展。我认为,长期来看,机器学习与推理和知识的结合,类脑学习或类脑计算是这个领域的未来发展大方向。

  Q:近年各种自然语言对话系统如雨后春笋般地涌现,所以计算机多大程度上可以自如地和人进行对话?自然语言对话的挑战在什么地方?未来可能会有哪些突破?

  A:从功能的角度,计算机也有可能能够像人一样,自如地进行自然语言对话,但是现在这个命题无法证真或证伪。原因是尚不清楚人脑的语言理解机制,用计算机完整模拟人的语言理解仍然非常困难。但在特定领域,特定场景下,和人一样进行自然语言对话的计算机的实现,我们已经看到。问题是如何进行扩展,能够以更低的开发成本覆盖更多的领域和场景。

  语言理解的核心是向内部表征的映射。多义性和多样性是计算机进行语言理解最大的挑战。要完成具体的任务,体现计算机的智能性,定义和使用内部表征看来是不可或缺的。基于分析的方法本质上是重要的,甚至是在聊天机器人的场景。基于检索方法更适合于单轮问答的场景。基于生成的方法只能用于特定的场景。多轮对话要体现完成任务的整个逻辑,有限状态机表示。开放式的对话意味着动态地改变任务,所以在现在的技术条件下,是非常困难的;在特定领域任务明确的条件下的对话,现实可行。

  近年,深度学习和强化学习的使用,使得对话有了长足的进步。主要体现在表征学习、端到端学习上。事实上需要符号表征和神经表征,深度学习和符号处理的结合,这应该是未来发展的重要方向。

  A:我看的电影不多,印象深刻的AI相关的是斯皮尔伯格导演的《AI》,让人去思考机器与人的智能的本质区别。

  今日,抖音在北京正式宣布升级私信功能,推出自己的独立视频社交产品多闪,这意味着抖音正式进军社交领域。

  2018年8月2日,国内最大的PUGC短视频平台西瓜视频正式宣布全面进军自制综艺领域,未来一年将投入40亿,打造移动原生综艺IP。

  近期,字节跳动宣布,今年春季招聘为大学生开放超过6000个全职及实习生就业岗位。这一招聘数字,超过字节跳动以往每年春季招聘的规模,也让字节跳动成为今年互联网行业少见的“不缩招”企业。