腾讯犀牛鸟精英人才培养计划课题介绍（三）——视觉及多媒体计算

微信邦 · 发表于 2018-4-27 17:32:08

腾讯犀牛鸟精英人才培养计划是一项面向学生的校企联合培养方案，项目覆盖机器学习、量子计算、计算机视觉、语音技术、自然语言处理等产学研热点方向，入选学生将到腾讯开展科研访问，基于真实产业问题，借助腾讯海量数据、专家指导等资源，验证学术理论，加速成果应用转化，全面提升自身科研能力和综合素质。

2018年度申请时间已经过半，小伙伴们要抓紧哦~

今年共有8个课题方向，54个子课题供大家选择，总有一款适合你！

了解了机器学习及其相关应用研究、量子计算、语音技术、自然语言处理四个方向之后，让我们一起来看看视觉及多媒体计算方向的课题吧~

视觉及多媒体计算

5.1

人脸检测/识别关键技术研究

人脸是最重要的视觉信息之一，自动人脸检测与识别研究向来是人工智能和计算机视觉领域的一个热点和难点问题，在工业界和学术界都受到广泛的重视。本课题面向人脸技术在金融、移动互联网、视频监控等相关领域的重大需求，结合计算机视觉技术前沿，以深度学习为主要技术手段，重点突破人脸识别，人脸活体检测, 3D 人脸重建与识别等核心技术问题。

导师简介：

IEEE 高级会员（IEEE Senior Member），现任腾讯专家工程师。硕士和博士毕业于香港中文大学。曾在香港中文大学和美国密西根州立大学任博士后研究员，曾在中国科学院先进技术研究院任职，先后担任副研究员、研究员（博士生导师）。目前研究兴趣包括人工智能、计算机视觉、人脸检测与识别等。在该领域的国际著名期刊和国际顶级会议（CVPR, ICCV, ECCV，ACM MM）上发表二十多篇高质量论文。

5.2

图像视频编辑技术研究

本项目涉及到图像的处理，编辑，生成等研究问题。研究图像/视频底层视觉的研究问题。探索GAN，Capsule 等模型在图像/视频上的新的研究任务。

5.3

深度的视频理解技术研究

视频理解不仅需要学习单帧图像的表示，更要建模时间域的视频帧之间的相关性。课题包括有视频分类（Video Classification），运动识别（Action Recognition）, action proposal, 运动定位（Action Localization），视频描述生成（Video Captioning）等。

5.2~5.3 导师简介：

目前任腾讯专家研究员，之前任职于香港华为诺亚方舟实验室。博士毕业于香港中文大学电子工程系，硕士和本科毕业于哈尔滨工业大学计算机学院。现在主要从事深度学习在图像/视频上面的应用，以及一些多模态深度学习方面的研究工作，在国际顶级会议和顶级期刊发表多篇论文。

5.4

增强现实中的计算机视觉

技术研究

增强现实涉及到的计算机视觉技术包括基于图像/视频的SLAM 技术及三维场景理解等领域。本课题可以重点在视觉SLAM、三维重建、场景解析等方向进行研究。

5.5

计算机视觉技术在机器人上的

研究

探索计算机视觉技术在机器人上的应用。视觉在机器人上的典型研究领域包括learning to grasp，机器人的导航，learning to run 等。

5.4~5.5 导师简介：

腾讯专家研究员。博士毕业于美国哥伦比亚大学计算机科学与电子工程专业，曾任IBM 沃森研究中心研究科学家。曾获Facebook博士研究生奖学金，哥伦比亚大学优秀博士论文奖，计算机视觉与模式识别国际会议 (CVPR) 青年研究者奖，国际信息检索大会 (SIGIR) 最优论文荣誉奖。长期从事计算机视觉、机器学习、数据挖掘、信息检索等领域的基础研究和产品开发，迄今发表和录用论文100+篇，总引用次数据Google Scholar 统计为3600+次，论文大都发表在国际权威的期刊与会议上，如Proceedings of the IEEE、IEEE TPAMI、NIPS、ICML、KDD、CVPR、ICCV、ECCV、IJCAI、AAAI、UAI、SIGIR、SIGCHI 等。多次担任国际权威期刊的客座编委与审稿人，自2007 年起一直担任国际顶级会议NIPS、CVPR、ICCV 等的程序委员会成员。

5.6

深度学习技术在广告图片中的

研究及应用

广告图片中的多模态信息（包括文本信息、物体信息、LOGO 信息等）对于加深广告创意、用户偏好的理解，以及提升广告推荐效果都有积极意义。本课题主要研究深度学习技术在广告图片多模态信息提取中的算法以及应用落地，包括文字检测与识别（OCR）、物体检测、LOGO 识别、图片基础属性分析（清晰度、相似度）、点击率预估等方面。

导师简介：

中山大学计算机系博士，主要研究方向为视频物体检测与跟踪、图像文字识别、深度学习和度量学习在计算机视觉领域的应用等。在IEEE Trans on TIP、JCST 等期刊和会议发表论文11 篇，曾获中国图像图形会议优秀论文奖，并连续两年获得全国研究生智慧城市大赛一等奖。目前主要从事广告图像识别算法研究与落地。

5.7

基于深度学习的图文多模态

相关性研究

主要从事基于深度学习的图像识别技术及联合NLP 基础的多模态研究，具体内容主要包括分析文章主题模型，根据插图生成关键词内容，并采用主题模型与图像内容进行分析，结合当前的最新深度学习的技术手段，重点突破文章标题及内容主题与插图的相关性研究。

导师简介：

博士毕业于中国科学院模式识别与人工智能专业。主要从事计算机视觉、机器学习、强化学习等理论和应用研究，在计算机视觉领域内重要期刊，包括Trans. Image Processing、Neurocomputing、Signal Processing Letters等期刊，以及重要国际会议发表论文共9 篇，出版计算机视觉方面译注一部，申请相关专利一项。工作期间曾从事场景分类、大规模的物体分类、游戏AI 研发（包括围棋、德州扑克）、智能客服问答系统等应用。目前主要从事基于图像/视频内容AI 的研究与应用工作。

5.8

基于深度学习的图片内容理解

和情绪化检索

一般的图片检索引擎旨在匹配图片内容和用户检索的物品或人物条目。然而，针对特定场景，图片不仅需要反映物品内容的匹配，还要匹配用户需求的特定情感。在本课题，我们需要理解图片的内容并进行图的情感分析，以满足特定场景比如音乐背景和电台海报素材的图片情绪化检索。

导师简介：

腾讯高级研究员。博士毕业于香港中文大学，主要从事搜索和推荐任务的算法以及应用研究，在国际顶级会议（如AAAI、SIGIR、WWW 等）和国际重要会议（如CIKM、SIGSPATIAL、ICONIP 等）发表多篇论文，并获ICONIP最佳论文提名。研究成果申请专利一项，并为专著《Encyclopedia of Social Network Analysis and Mining》贡献一个章节。多次担任国际权威期刊的审稿人，如IEEE Transactions on Knowledge and Data Engineering、IEEE Transactions Multimedia、Neural Networks 等。目前主要从事图片的内容理解，情绪化搜索和图片自动合成的研究工作。

5.9

物体检测与识别关键技术研究

物体检测与识别研究是人工智能和计算机视觉领域的热点、难点问题。在工业界和学术界都受到广泛的重视。本课题面向通用物体检测技术在金融、移动互联网、视频监控等相关领域的重大需求，结合计算机视觉技术前沿，以深度学习为主要技术手段，重点突破针对不同场景下的物体检测与识别这两大核心技术问题。

导师简介：

腾讯高级研究员。曾在香港中文大学从事研究助理工作并取得博士学位，曾在联想香港研究院和香港久凌科技研究院任高级研究员。研究方向包括人工智能、计算机视觉、物体检测与识别等。取得一项国际专利与三项国内专利。

5.10

结合GAN 网络的广告图片

生成方式的研究

从互联网诞生开始，出现了banner 广告、文本广告、图文广告、动态创意广告等多种不同的广告样式。探索新的广告生成方式有着巨大的现实意义，如微动广告能够吸引人更多的关注以及改善用户对于广告的体验，动态banner 广告生成能够节省大量人力并且能够帮助建立个性化的广告体系（千人千面）。本课题将在广告内容理解的基础上，结合GAN 网络，通过对素材、模版、文本、风格及字体等的理解及动态组合，动态生成更多的广告图片，再通过动态挑选（ranking问题），生成最适合展示的广告图片。

导师简介：

腾讯高级研究员，毕业于北京航空航天大学。曾任职于百度、阿里核心团队，在AI 方向的多个领域如计算机视觉、计算广告、LBS、SLAM、机器人等方向都有较为深入的研究。拥有10+项专利，目前主要从事计算机视觉在商品&广告推荐中的研究及产品化。

5.11

人脸视觉计算

人脸是计算机视觉、计算机图形学研究的重要对象之一，在诸多视觉任务中扮演了重要的角色。根据权威图像网站统计，人脸图片占了日常拍摄照片的六成以上。无论是to C 场景下的人脸检索、活体鉴别、美颜美妆，还是to B 场景下的安防监控、人机交互，人脸视觉计算都有重要的研究和实用价值。本课题依托于腾讯平台，以人脸图片作为重点研究对象，研究内容涵盖光照校准、人脸检测、三维重建、姿态估计、表观建模、属性编辑、图片美化等诸多计算机视觉、计算机图形学热点问题在人脸图片上的优化和改进。该课题不仅能接触到世界一流的研究问题，与行业最优秀的青年研究者共事，更有机会在人脸图片处理等领域做出突出贡献，研究成果被千万用户所使用。

导师简介：

腾讯高级研究员，浙江大学工学博士。曾任大疆创新算法预研工程师。在CVPR、ECCV、TIP 等国际顶级计算机视觉学术会议、期刊上发表过多篇第一作者论文，担任过CVPR、PG、TIP、TPAMI 等会议、期刊的审稿人，有丰富的科研实践经验，研究方向涵盖了三维重建、计算摄影学、表观建模、反向渲染等计算机视觉、计算机图形学的交叉领域。

5.12

视频场景中的人物角色跟踪

与识别

视频场景中人物角色的跟踪与识别是视频分析和视频理解领域中的一个重要的研究方向，旨在理解视频中的人物的位置、动作和人物关系等。本课题涉及到人脸检测、跟踪、角色识别、语义理解等多项计算机视觉领域的关键技术研究，吸引了大量来自业界和学术界的关注。然而由于视频内容通常比较复杂，前景背景难以区分, 场景快速切换等问题的影响, 视频特别是开放场景视频中的人物角色跟踪与识别仍然是一个具有挑战性的问题。近年来，深度学习技术的发展为解决该问题提供了可行方案。本课题依托腾讯在数据、技术以及基础设施等方面的优势，旨在研究一种基于弱监督的深度学习方法，采用端到端的深度网络结构，实现对视频场景中人物角色的自动跟踪与识别，并将方法应用于腾讯的各项相关业务中。

导师简介：

腾讯高级研究员。英国埃克塞特大学计算机科学博士。曾于英国牛津大学视觉几何组进行博士后研究。目前负责人脸相关的算法研究工作。主要研究方向包括深度学习、计算机视觉、人脸检测、跟踪与识别等。

5.13

医疗影像AI

人工智能与医学的跨界融合将给未来医疗领域带来颠覆性的巨大变化。腾讯在医疗影像AI 上具有很强的技术储备，投入也很大，已经与100 多家国内顶尖医院建立合作。公司在2017 年11 月入选科技部的首批“国家人工智能开放创新平台”名单，成为人工智能“国家队”。本课题将利用腾讯从合作医院获得的海量医学影像数据及标定，研究开发基于深度学习的疾病（包括癌症，心脑血管疾病，脑神经疾病）早筛算法，包括病灶定位、分割、良恶性分类等等。

导师简介：

腾讯专家研究员。本科和硕士毕业于清华大学，博士毕业于美国马里兰大学，之后加入西门子医疗美国研究院。共出版学术专著3 本，发表论文100多篇，被引用4500 多次。发明了将近70 个美国专利。目前担任IEEE 高级会员，IEEE 生物医学信息杂志副主编（影响力因子3.45），和美国医学和生物工程学会（AIMBE）的会士（Fellow）。研究工作曾获中国国家科技进步二等奖，美国爱迪生专利奖，和欧洲心胸外科医生协会技术创新奖。

5.14

多模态微信用户画像分析

通过对用户朋友圈发表的UGC 图像、视频以及文本内容分析，构建多维度、层次化用户画像，进而辅助面向不同垂直领域的推荐系统。

5.15

微信生态下海量图像数据库

及评测协议构建

构建符合微信场景的多标签、层次化海量图像数据库，标签要求同时体现具象、抽象视觉语义概念。

5.14~5.15 导师简介：

毕业于中国科学院计算技术研究所，博士研究方向为跨模态多粒度的大规模人脸检索。攻读博士期间曾在国际会议、期刊上发表计算机视觉领域学术论文15 篇，其中包括领域顶级会议CVPR (CCF A 类)、ICCV(CCF A 类)以及顶级期刊TIP (CCF A 类)。目前在腾讯从事用户画像的研发工作。

5.16

音视频质量评估

音频、视频、图像等质量评估，结合心理声学模型、人眼视觉系统等对音频、视频、图像进行客观质量分析的算法研究，包括全参考评估、部分参考评估以及无参考评估，旨在提供更易落地且更符合主观的客观评估标准。

5.17

目标识别与跟踪

该课题聚焦在基于深度学习的计算机视觉研究与应用领域，结合产品数据和用户行为打造个性化和智能化的产品体验。主要研究方向包括：手势识别，人体姿态识别；图像/视频编辑，生成和理解；目标检测，跟踪和识别等。

5.16~5.17 导师简介：

腾讯专家工程师，毕业于华南理工大学。在系统架构、网络技术、性能优化、音视频处理技术、机器学习应用等方面颇有研究，有几十篇相关专利。近年来主要专注新技术的探索和落地工作，在计算机视觉分析，高性能神经网络建模等方面有较丰富的经验。

5.18

视频编码与处理技术

视频、图片处理与编码技术结合，旨在提供更好的视觉体验。包括：视频分类、视频效果自动美化、精彩视频自动编辑与摘要、物体跟踪与识别、AI 视频压缩、视频超分辨率、AI 流控、视频通讯技术等。

导师简介：

美国加州大学圣地牙哥分校电机与电脑工程博士，曾任职苹果，负责研发 iTunes 及 FaceTime 相关视频技术。现主要致力于提升视频相关应用的用户体验。研究兴趣包括视频分析、处理、编解码、以及机器学习在视频领域的应用。

		自动登录	找回密码
密码			立即注册

腾讯犀牛鸟精英人才培养计划课题介绍（三）——视觉及多媒体计算

相关帖子