北京大学彭宇新教授团队建立了第一个包含 4 种媒体类型(图像、文本、视频和音频)的细粒度跨媒体检索(Cross-media Retrieval)公开数据集和评测基准 PKU FG-XMedia,并且提出了一种能够同时学习 4 种媒体统一表征的深度网络模型 FGCrossNet。该论文已经被 CCF A 类国际会议 ACM MM 2019 大会接收。
跨媒体检索是指用户给定任意一种媒体类型数据作为查询样例,系统检索得到与查询样例相关的各种媒体数据。在检索准确率(MAP)上,FGCrossNet 比当前 state-of-the-art 方法提升了 18%。但是其网络结构相对复杂,需要对每一种媒体都设计不同的分支网络。