2019年CCF-腾讯犀牛鸟基金项目课题介绍（二）——计算机视觉及模式识别

微信邦 发表于 2019-5-30 22:39:59

CCF-腾讯犀牛鸟基金由腾讯与中国计算机学会联合发起，旨在为全球范围内最具创新力的青年学者搭建产学研合作及学术交流的平台，提供了解产业真实问题，接触业务实际需求的机会，并通过连接青年学者与企业研发团队的产学科研合作，推动双方学术影响力的提升及应用成果的落地，为科技自主研发的探索和创新储备能量。
本年度共设立9个重点技术方向，29项研究命题申报截止时间：2019年6月15日24:00上期我们介绍了智慧教育&机器学习本文将介绍计算机视觉及模式识别欢迎海内外青年学者关注并申报。
三、计算机视觉及模式识别计算机视觉及模式识别技术在腾讯各项业务中有着广泛的应用前景，近些年来也成为基金重要而稳定的命题领域之一。本年度该研究领域重点关注计算机视觉及模式识别与医疗、社交广告、虚拟人、安防、教育、绘图、交通等领域的交叉结合。推动研究者在图片和视频内容理解与应用等方面，做出更为创新和深入的研究。3.1 人工智能在病理诊断中的关键技术研究
病理是疾病诊断的金标准，但是人工诊断存在主观性高、重复度低、难以定量化等缺点。本项目旨在将人工智能与数字病理图像分析相结合，提高病理诊断的速度和精确度，实现基于精准量化分析的诊断方式。研究方向着重于计算机视觉技术（目标识别、物体检测、语义分割等）和深度学习技术（弱监督学习、迁移学习、对抗网络等）在病理图像分析上的算法开发和应用落地。具体的问题包括细胞或组织自动分割、病灶自动检测和分类、以及免疫组化定量分析等。
建议研究方向：1)癌症的组织学分类、分级、分型、TNM分期，以及免疫组化定量分析的AI算法；2)利用AI技术分析病理数据并结合其他临床数据，对疗效和治疗方案进行预后预测，实现精准医疗；3)将AI技术融入现有临床诊断流程以及工具中。
3.2 基于条件对抗网络的人像视频生成
基于条件对抗网络学习的视频生成是目前业界和学界的新兴研究热点。研究者希望能够通过文本、语音、参考视频等方式，基于诸如条件对抗生成网络等深度学习手段，精确控制人像视频生成过程中的表情、口型、头部姿态等。这是一项极具挑战性和应用价值的重要课题，其成果将有助于孵化虚拟主播、虚拟偶像、远程陪护、在线教育、交互式互动游戏等产品。
建议研究方向：1)单一人物通过大量数据训练建立好模型之后，如何通过few-shot learning快速迁移到新的目标人物上；2)上肢动作与表情，口型相结合的人像视频生成；3)保持长发、饰品等非刚体物体在视频生成过程中的时域连续性。

3.3 视频场景中的广告智能植入技术研究
当前视频流量不断增加，而传统的视频广告由于制作成本高、周期长、形式单一、且可调整性差，缺乏与用户之间的互动，这些都导致流量变现与用户体验之间很难保持平衡。本课题希望能够通过视频AI技术理解视频内容，并通过两种方式来植入广告：1)自动检测合适的广告位，并匹配合适的广告，进行广告的无缝植入（包括静态平面广告、动态平面广告、动态立体广告等）；2)自动识别视频中的商品、人物、场景、文字等信息，匹配合适的广告，以合适的方式（浮层、角标等）进行广告推荐，让广告与内容互动。
建议研究方向：1)广告无缝植入技术研究，包括广告位检测（平面检测&深度估计）、跟踪、融合等技术；2)综合应用人物识别、商品识别、场景识别等技术，实现视频大规模自动标签技术，涵盖商品、人物、场景、文字等信息提取。
3.4 基于深度学习的图片和视频分析与理解
对于图片和视频的内容理解，是计算机视觉研究领域的核心问题，也是机器学习研究中的最大应用场景。通过对图片和视频的内容理解，将很大程度上提升图片和视频分类、搜索、推荐等应用场景中的用户体验。本课题主要关注对图片与视频中的场景、物体和行为进行识别的研究。希望通过深度学习的方法对图片和视频中的内容进行理解，包括对通用及特定物体的识别，背景场景的识别，以及用户在视频中的行为识别。
建议研究方向：1)研究如何通过深度学习的方法提升多标签图片/视频分类的水平与效率；2)研究基于深度学习的物体识别技术。
3.5 非受控环境下的行为识别与场景分析
行为识别与场景分析在安防、教育等场景中有广泛的应用场景。在非受控场景中如何准确的识别出人的行为，并理解人与场景的关系是一项非常具有挑战性的工作。其成果对人类生活质量提升也有较大价值。
建议研究方向：1)研究非受控场景下人体跟踪与动作识别；2)研究非受控场景下人脸人体细粒度属性分析；3)研究非受控场景下场景理解、分析；4)研究非受控场景下超大规模人脸识别算法。
3.6 高效视频时域建模
相比传统算法，基于深度神经网络的视频处理与理解已经取得了跨越式的发展。但是，对于视频数据如何进行有效、低复杂度的计算是研究和工程落地的重点及难点。例如对于视频时域和运动信息建模，比较依赖于3DCNN及flow信息，导致计算量很大。运动模糊、画质降低等场景下会造成视频处理效果的下降。因此，本命题将探索如何更为高效的进行视频时域建模。
建议研究方向：1)利用2DCNN或低复杂度的(2+1)D CNN实现高效的时域建模模型, 寻找比flow更高效的运动信息利用手段，提高视频理解任务的高效准确性；2)研究对online视频、untrimmed视频的高效理解；3)利用self-supervision学习、高效的处理及时域信息，提高视频的超分、降噪、检测、分割等任务的时域稳定性与连续性。
3.7 图片及视频质量评估
反应人眼观感的图片及视频质量评估在各式多媒体应用上愈趋重要。图像的美学评分存在个体差异，传统的大众美学评价不能针对性反映出个体的美学偏好，所以需要建立个性化的图像美学评价模型。屏幕视频则是云计算环境下人机交互的主要形式，也是设备虚拟化、远程教育、视频会议、无线投屏等多个多媒体应用领域的基础，如何设计客观质量评价方法高效评价其主观质量成为一个重要课题。
建议研究方向：1)基于性格特征的图像美学质量评价方法；2)面向压缩屏幕视频的无参考质量评估。
3.8 基于神经网络的风格化图像绘制的研究
非真实感图像绘制，是利用计算机生成具有手绘风格的图形。其目标在于表现图形的艺术特质，用于模拟艺术作品或者作为真实感图形的有效补充。它是一个多学科交叉研究领域，在计算机动画、电影、工业设计、游戏等领域都对风格化图像有巨大的需求。近年来，随着推荐算法的发展，广告、游戏、电商等场景中引入“千人千面”的个性化推荐服务，对于风格化图像的需求进一步提升，这就对生产效率提出了更高的要求，现行的人工设计的方式，必将带来巨额的设计成本，从而限制业务进一步发展。风格化数字图像的生成和编辑是非真实感图形学的重要研究内容。从上世纪末开始，风格化图像的数字化模拟就开始得到学术界的关注，同时涌现出众多优秀的研究成果。近年来随着深度学习，计算机视觉技术的发展，出现了端到端图像生成的深度对抗神经网络。是否可以使用深度学习技术解决非真实感绘制问题，实现接近设计师的艺术效果，降低非真实感图像设计成本，是本课题想研究的问题。基于研究需要，本课题可以提供游戏设计的原画，宣传图，包括产生的效果行为数据；海量游戏内容素材资源（图片、文章、视频）；必要的计算环境等研究资源。
建议研究方向：1)基于深度对抗网络的图像风格迁移技术：根据输入的原始图像与参考风格图像，自动生成具有相应风格的原始图像，且输出的图像效果美观可控；2)基于深度网络的图像艺术风格智能生成与评价技术：在输入图像上进行艺术化处理，包括生成艺术效果与风格化效果，并自动对生成的效果进行美感评估，生成符合人类视觉美感、风格多样的图像；3)深度学习端到端的纹理光照效果实现：在输入图像上根据需求产生多种角度、多种强度的自然光照、阴影与纹理效果，生成的图像能够具备真实的光照或阴影感；4)具有语义的图像无参考自动生成技术：根据输入的图像内容语义图与风格描述，自动生成对应的具有语义的风格化图像，生成的图像看起来自然且符合审美的要求。
3.9 交通系统中的危险行为分析
目前，将人工智能技术与交通大数据相结合，探索安全出行的解决方案，是智慧交通重要的组成部分。本课题希望通过对驾驶员驾驶行为，道路状况视频的采集与分析，实现对重点违规驾驶行为即时提醒，实现对疲劳驾驶、抽烟、使用手机、车辆道路偏离及预碰撞报警、车辆盲区检测报警等功能，探索更为高效的安全出行解决方案。
建议研究方向：1)研究利用公交车前置摄像头对路况进行判断，进而对违规驾驶行为做出提醒；2)研究利用公交车内部摄像头对司机和乘客状况进行判断，对危险行为做出提醒；3)研究如何用低成本设备在复杂环境下实现实时监测。

页: [1]

微信邦's Archiver

2019年CCF-腾讯犀牛鸟基金项目课题介绍（二）——计算机视觉及模式识别