锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

专访邱锡鹏:人工智能开源社区的「先行者」

时间:2022-07-13 11:00:00 接触式影像传感器

点击上方“3D视觉车间,选择星标

第一时间送达干货

169ceb4e7931d780b6f4fa1fbe28f8ca.png

文 | 刘冰一、Echo

编辑 | 极市平台

复旦大学理学学士、博士邱锡鹏。复旦大学计算机科学技术学院教授、博士生导师。CCF A/B 类论文 70 余篇,获得 ACL (CCF A类)、CCL 2019 最佳论文奖。主持开发开源自然语言处理工具 FudanNLP 和 FastNLP,广泛应用于学术界和工业界。

f8e91ff0a35911a614fedbaf4755ad6b.png

前章

PREFACE

邱锡鹏在复旦大学读本科时不是计算机专业。他在上大学之前从未接触过计算机。由于复旦大学的通识教育,所有科学专业都必须学习编程语言。因此,他对计算机编程产生了浓厚的兴趣,所以他辅修计算机作为第二专业。后来,他在学校攻读计算机博士学位,并成功地留在学校任教。

邱锡鹏主要从事自然语言处理、深度学习等方向的研究。他的博士小组尊重他的个人兴趣。他的博士论文是计算机视觉方向,但他的研究兴趣更倾向于机器学习的底层算法研究。他的博士导演吴立德教授也在研究自然语言处理的方向,所以他对自然语言处理并不陌生。从机器学习研究的角度来看,自然语言处理中的预测通常是一个更具挑战性的结构化学习问题。邱锡鹏对此非常感兴趣,并想挑战一些更困难的问题。留在学校后,他对研究的兴趣开始慢慢关注自然语言处理。

吴立德教授对他产生了深远而积极的影响。吴教授是中国第一位发表模式识别与机器智能顶级论文的学者。吴教授学术严谨,教学易懂,这是他一直钦佩和学习的技能。

练习数千首歌,然后小声,他通常广泛参与,有两种知识输入方式,一种是在谷歌学术订阅相关论文和信息;其次,通过他领导的研究小组开发的工具,定期爬到小组成员阅读,遇到高质量的研究。他的研究小组每周举行两次论文分享会议,有时邀请客人在线分享。学习海钩,新知识吸附到现有的知识系统,让大脑随时充满联想知识。

优秀的教育工作者和学生是良性的。他鼓励学生掌握自己的节奏,基本上不干预学生的研究方法。「学生对研究有自己的兴趣;培养发现和解决问题的通用能力;深入思考专业领域,多看多听多交流。」

邱锡鹏认为,知识学习、知识应用和分享是相辅相成的。他长期保持知识输入习惯,勤于总结,愿意分享和交流。「要勤于表达交流,发现理解不透彻之处会倒逼自己学得更好。有时候能从一些漫不经心的交流中获得意想不到的启发。计算机领域在知识分享上做得非常好的,很多优秀的技术极客和研究大牛们都在热心地分享经验技能,这种共享文化可以帮助大家迭代更快,发展更好。」

继续科研初心

RESEARCH

2015 年,复旦大学开设了“神经网络与深度学习”的课程。当时没有相关教材,网上有一些关于深度学习电子版课件都讲得比较简单,资料也非常零散。这门课程开设的目的是为了让学生们系统、全面且深入地了解神经网络和深度学习知识,因此,邱锡鹏决定自己动手写讲义。筚路蓝缕,以开江河,一学期课程结束后,他写了大概五六十页。他觉得应该给这一个学期的授课做一个总结,于是他把讲义总结放在了网络上,收到了有很多有价值的反馈。有十多位忠实的网络读者让他印象深刻,「我写了一章,他们读了一章,会提出很多意见,有些是对讲的模糊部分,有些是指出推导的错误,有些是对整个系统顺序的建议。」他说,「我非常感谢读者的支持和关注。」

到目前为止,邱锡鹏仍在教授神经网络与深度学习课程。随着行业知识的更新和个人认知的深化,他每节课前后都会反复修改,并在每学期结束时进行总结和调整。就这样,自己和迭代优化持续了5年,课程讲义已经从最初的薄文档到厚厚的一打材料。

系统地将这些更新迅速、复杂的知识总结成一本完整、合乎逻辑的教科书并不容易。他面临着写作书面化、系统化等诸多障碍。这是一个理所当然的知识点,每个人都知道。然而,在书中,它必须被打破,详细和详细地写出来,内容需要充分的考证和确认。此外,章节写作总是不系统和连贯的。邱锡鹏知道第一个技巧和大端,并花了很多精力来形成一个写作系统。他非常喜欢模式识别和机器学习-PRML》在这本书中,作者将机器学习置于一个新的视角,系统地连接了不同的知识点。这种思维使他受益匪浅。经过广泛的阅读和积累,他赢得了许多优势。经过反复打磨,神经网络与深度学习的内容变得更加丰富和连贯。

2020年 4月,《神经网络与深度学习》傅梓是国内出版的第一部关于深度学习的专业电影。不到一周就在JD.COM和当当的计算机新书榜上排名第一,豆瓣评分 9.4 分,截至目前,它在 Github 累计标星达1.5万。

知识传播就像一棵树摇动一棵树,一朵云推动一朵云,邱锡鹏不知不觉地影响了自己和他人。起初,他只是想在课堂上做得很好,结果,他出版了一本书,这已经成为许多人深入学习的必读书。一些学校也把它当作教科书。这本书客观地给他带来了一些声誉,使他获得了许多意想不到的认可和赞扬。「自然语言处理的圈子不大,外人可以通过这本书认识我。在很多会议上,一些学生向我打招呼,你好,邱先生,我读过你的《神经网络与深度学习》......」,这让他充满了成就感。他开玩笑说,他在科学研究上投入了更多的精力,但他在写书方面获得了更多的收获,这也是教书育人的幸福。

虽然敬酒很好,但他认为蒲公英书还有很大的进步空间。写作是一个过程,需要根据行业发展不断补充新知识,如图形神经网络、自我监督学习、预培训模式等。未来,他希望在自然语言处理领域写一本书,并与您分享他多年的研究经验、知识理解和工作经验。

做人工智能领域的研究,理解和掌握机器学习的基本理论知识是介绍,算法模型开发是核心,高效实用是作为应用学科的衡量基准。为了提高他们的工作效率,帮助更多想要进入这个领域的研究人员,邱锡鹏从事自然语言处理研究开始开始开源工具 FudanNLP 开发。出于对机器学习的兴趣,他独立完成了 FudanNLP 所有底层机器学习算法。与当时的其他自然语言处理工具不同,FudanNLP 是集成的,各种自然语言处理任务由统一的机器学习算法驱动。FudanNLP 模型效率从底层优化,2009年开源后被很多算法公司应用。

基于传统统计机学习的 FudanNLP 于2014年停止更新。当时,基于深度学习的应用出现在自然语言处理研究的新趋势中。邱锡鹏认为,深度学习将成为未来自然语言处理的主流方法,因此他想开发一种基于深度学习的工具。但直到2018年 Transformer 等着各种模型的推出,深度学习在自然语言处理中的技术应用路线终于得到了标准化。他开始实现他14年的计划——实现一套基于深度学习的自然语言处理框架。他把这个工具命名为 FastNLP。

在这样做的时候,许多开源框架已经改进并添加了深度学习内容,但对于一些国内开发人员来说,这些工具存在语言障碍;与此同时,在与行业的沟通中,他了解到许多企业很难直接应用这些深度学习系统。因此,他希望首先面向国内开发商,FastNLP 所有的注释都是中文的,在数据预处理方面表现出色,帮助国内研究人员更快地开始科学研究,而工业界可以直接用它来处理数据,大大缩短了模型开发和调试的周期。

不论是 FudanNLP 还是 FastNLP,邱希鹏的目标是降低自然语言处理的门槛,加快模型开发和部署的速度,促进中国自然语言处理的普及。他一直想实现的另一个愿望是,我们未来人工智能算法开发的底层不能再依赖 Pytorch、TensorFlow 这些现有的框架是我们自己实现的。FastNLP 未来还将大力支持国内现有的开源框架,以促进国内框架的普及。

推进人工智能术语标准化

VISION

中国历史上有三个翻译高潮:从东汉到唐宋的佛经翻译、明末清初的科技翻译、从鸦片战争到五四的西方翻译。每一次翻译热潮都会导致大量知识的交叉和整合。外观可以打开中外知识的视野,前瞻性可以互补优势,关注盲点,寻求突破。目前,随着信息时代的到来,科研界呼吁有效的翻译,启发和影响研究人员,降低沟通成本。

2015年,邱锡鹏在写作过程中发现国内学术语混乱,经常遇到不同教科书中术语使用标准不一致、中英术语混合等问题。例如,很多人把 recurrent neural network 翻译成递归神经网络recursive neural network 也被翻译成递归神经网络,这是不可分割的。当时,他建议将其翻译成循环神经网络。经过这么多年,人们基本上认识到了循环神经网络的名称。

然而,要促进整个行业术语的标准化并不容易。首先,中英文词汇的差异,中文词汇具有延伸意义,词汇表达存在自然差距。此外,许多翻译实际上并不好,但它们已经被广泛发布和印刷,成为业内流行甚至行业的共识。这些被使用的词很难被修改,并成为推广术语标准化的顽固障碍。

邱锡鹏希望为术语标准化做出一些努力。2021年上半年,他与《统计学习方法》作者李航、《机器学习》作者周志华、《动手深度学习》作者李木和 Aston Zhang 博士等人召开了几次会议,讨论在系列中统一对齐术语,并将相关术语列入列表,希望逐步实现标准化和统一。

当然,他在日常交流中推荐术语规范,表达更方便清晰,减少混乱。有些东西很难翻译,比如 Transformer 无论如何翻译,除了机器翻译,都不能涵盖其意义和场景。此时,直接使用原文很方便。他还在知乎等技术社区推荐了一些更准确的翻译,如 Pooling 应译为“汇聚”,而非“池化”,因为“池化”没有正确表达出 CNN 执行这一操作的真正含义;Dropout 应译为“暂退”;Robustness 则推荐译为“稳健性”,原翻译“鲁棒性”缺乏中文的美感。

一个人可以走得很快,但一群人可以走得很远,邱锡鹏呼吁更多的人注重术语标准化使用,但他不强求每个人都使用目前所倡导推行的翻译。比如他不会要求自己的学生如何如何,只管以身作则。在他看来,推行术语标准化是有兼容性的,无论是争议还是随从都是一种积极的信号,这种关注本身就是一种向心力,能促使行业向前。

感恩智识上的先行者,感谢他们托举思考的宝石,缀满某些空白缺失处的漆黑夜幕。感谢邱老师谦逊地垂着他的绿荫,坚持为人工智能研究发展不断地奉献和努力。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

9d532d2b32e58421251e2b9333a71211.png

▲长按加微信群或投稿

dce5b8810dce41d68064cc0b1ee82f1a.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

d81eeb4fe6f1c193a29acb7eb0909e75.png

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

锐单商城拥有海量元器件数据手册IC替代型号,打造电子元器件IC百科大全!

相关文章