作者:蒋朦
微软亚洲研究院实习生
创造多项纪录的KDD2014
ACM SIGKDD国际会议(简称KDD)是由ACM的知识发现及数据挖掘专委会(SIGKDD)主办的数据挖掘研究领域的顶级年会。KDD2014于8月24日至27日在美国纽约召开。正值大会的20岁生日,今年的KDD创造了多项的纪录,令参会者们印象深刻:
一.史无前例的“超级大会”:参会人员突破2200人。提前售完注册名额,取消现场注册环节。
KDD为来自学术界、企业界和政府部门的研究人员和数据挖掘从业者提供了学术交流和展示研究成果的理想场所。本届大会主题为“用数据科学造福社会”(DataScience for Social Good),为参会者们提供的学术活动包括特邀主题演讲(keynotepresentations)、论文口头报告(oral paperpresentations)、论文展板展示(postersessions)、研讨会(workshops)、短期课程(tutorials)、专题讨论会(panels)、展览(exhibits)、KDDCUP赛事以及其他多个奖项的颁布。因为KDD大会涉及的议题大多跨学科且应用广泛,所以吸引了来自统计、机器学习、数据库、万维网、生物信息学、多媒体、自然语言处理、人机交互、社会网络计算、高性能计算以及大数据挖掘等众多领域的专家和学者。
二.史无前例的“学术饕餮”:实际研究论文投稿量高达1036篇(除去无效摘要),而录取率相较于去年的17.8%骤降至14.6%。
本届KDD收到了超过1000篇的论文投稿,而最终仅151篇入选,这既显示出数据挖掘领域的炙手可热,也反映了KDD大会对质量的的严格要求,严防“水文”进入,杜绝“水会”污名。也因此,KDD能够在20年中,一直保持在数据挖掘领域的权威性和知名度。
本届KDD会议上,每一篇入选的高质量论文都获得了充分的展示机会,包括15分钟的口头报告时间、3分钟的问答环节以及会议首日晚长达4小时的展板展示。这与其他数据挖掘会议、乃至与往届KDD会议相比,都是颇为罕见的;研究者们对自己的成果所受到的尊重也展现出了极高的敬业精神,不仅口头报告个个重点突出、生动活泼,在展板展示环节的4小时里也都“一站到底”,哪管口干舌燥,依旧耐心而兴奋地介绍自己的工作
三.史无前例的“学生资助”:学生赞助奖学金名额激增至40余名,让年轻学者对KDD更感亲近。
不同于往年仅10至20个名额的学生差旅奖学金,本届KDD在美国国家科学基金会(NSF)和彭博公司(Bloomberg)的支持下,提供了超过40个学生奖学金名额,包括BPDM免注册费奖、NSF差旅奖(提供给美国学生)和NSF免注册费奖(提供给国际学生)。会议要求所有获奖学生必须担当大会志愿者,故而这也为大会服务提供了充足的保障。在茶歇时,2015年KDD的主席之一LongbingCao先生谈到下一届在悉尼举办的KDD大会是否也能提供充足的奖学金名额时,信心满满地说,KDD要更多地给国际学生以机会。悉尼KDD不仅要让美国学生能继续方便地参会,更要让太平洋地区以及亚非拉地区的国际学生得到更多的参会机会。KDD会寻求更多大会赞助商的支持,而凭借其巨大的影响力,相信这不是难事。
汇聚来自世界各地的专家学者以及爱好者们,来讨论数据挖掘等领域的研究趋势、交流创新性的想法以及突破性的研究进展,这是为期4天的KDD大会吸引到两千余人的魅力所在。非常荣幸我这次投稿两篇全部被录用并且均为第一作者,这既是对我所在团队之于数据挖掘领域研究的巨大肯定,也让我有机会能够前去大会现场一探究竟。
其他参会见闻和感受
除却上述三大“史无前例”,接下来,我再谈谈这次参会其他见闻和感受。
一.更加细致的展示环节(Madness spotlight)
KDD 2014的三天会期中,每天早上8点半至9点的30分钟是一个叫做KDDMadness的环节,由当日所有口头报告人对自己的成果做30秒的简短介绍。这样一来,报告人需要用一页引人注目的slide来精炼、有力地概括自己的工作;而对于其他参会者,也可以利用这一环节确定下自己一天的行程,到底去聆听哪几场报告。此外,报告人尽早地知道口头报告时前后是谁,能早一些交上朋友,也为sessionchair省去不少麻烦。
在这里我要感谢Madness的主席ArisGionis(来自阿尔托大学)和唐杰(来自清华大学)的辛勤工作!
二. 更加实际的审稿总结(Research TrackSummary)
在当地时间8月26日的午餐会上,担任大会研究型论文主席(Research Track GeneralChair)、来自斯坦福大学(Stanford University)的JureLeskovec教授介绍了本次会议的论文审稿模式,从中我们可以看到,KDD追求高质量所带来的竞争是极其残酷的。在所有评审结果中,只要存在“reject”或“weakreject”的结果,就无法入稿;而过了这一关的论文依旧需要所有审稿人通过在线讨论,以得出最终的录取结果。这一过程中讲求公平公正,严谨认真。
Leskovec教授还介绍了一些审稿过程中的数据统计结果,比如论文投稿量、论文作者资深程度(采集自GoogleScholar和DBLP)与论文入稿与否的关系、审稿意见长度与审稿结果统一与否的关系之后。由此向大会提出了很有启发意义的两个总结:
首先,想要让论文在KDD大会中入稿,可以从这三方面入手:
1.团队构成多元:不仅仅拥有学术界人士,也要让工业界、乃至政府的研究人员参与进来,这样的论文更有希望得到KDD的赏识;
2.至少拥有一名资深作者:如果有一名在数据挖掘领域的资深专家在创作过程中作指导,那么论文质量会更容易达到KDD的标准;
3.不要提交超过5篇论文:当提交论文数量小于5篇时,入稿率曲线较为平滑,但当提交论文数量超过5篇时,入稿率会急剧下滑。考虑到人的精力和时间是有限的,提交超过5篇论文会对论文的质量有一定影响,因此KDD并不建议这样做。
其次,提高KDD行业标准要做到如下三点。这更多是对审稿人所说的:
1.尽量别给weak reject或是weakaccept这种模棱两可的分数,因为中立的分数往往会给评审结果带来很大的偏差;
2.努力去写更长、更明确的审稿意见:从大量案例中发现,更长、更明确的审稿意见会与论文所得到的最终结果更吻合。此外,人们往往认为这样的审稿意见会来自年轻的审稿人,因为业界资深学者会更为忙碌,在审稿过程中更倾向于只提供积极或消极的态度。而事实上,恰恰是年长者、资深者更会给出长而清楚的意见,反倒是年轻人难于开口表达看法;
3.早些提交审稿意见:提交审稿结果截至时只收到了半数的审稿意见,而在期限后提交的审稿意见,无论在结果统一性和意见质量上,都无法与按时提交的意见相比。
这样的基于数据挖掘的审稿总结极具KDD的领域特色,能更好地提升学术质量,改善学术氛围,让KDD能够更健康更久远地发展下去。感谢JureLeskovec和WeiWang(来自UCLA)的辛勤工作!
三、来源更加广泛的特邀报告(Keynotes)
本届KDD重邀5位来自不同行业不同机构、拥有不同背景的知名学者,分别给所有参会者做1小时的报告。这些特邀报告完全不同于一般的口头报告,其范围之广、内容之新,让人有醍醐灌顶之感。听完特邀报告的参会者纷纷表示,他们绝没想到能如此生动活泼,如此开拓思维。这里我们只列出特邀者、所在机构和报告名称,想必大家就能有所感觉;特邀报告的视频资料可以等待KDD大会后期公布。
四、更加丰富的奖项设置(Awards)
本届KDD大会除了经典的最佳论文、最佳学生论文等奖项外,还设置了与会议主题有关的论文奖项,具体的获奖情况如下:
此外本届KDD颁发的个人奖项如下:
我对数据挖掘领域新兴问题的探究
纵观本届KDD,不难发现传统的数据挖掘领域依旧充满活力的同时,对于新兴问题的研究也层出不穷。
传统问题涵盖了图建模和图挖掘、动态图分析、可扩展图算法、数据流、文本挖掘、推荐系统、排序推荐、主动学习、监督学习、迁移学习、特征工程、聚类算法、异常检测、话题建模、社区挖掘、万维网挖掘、降维算法等领域。而新兴问题则包括了大数据统计、大数据可扩展算法、大规模问题优化和学习算法、社交媒体、社交网络和信息网络传播问题、商务应用、工业应用、政府工程、健康问题、安全问题、隐私问题、欺诈问题、环境问题、教育问题、医药学、地域服务、可解释性模型、监控与维护、广告与交通、群智与市场等。从以上对比中,我们可以发现KDD的新兴问题更偏重实际应用中所产生的大规模数据和非结构化数据,偏重解决实际问题。
本人在本届KDD中所发表的两篇论文即侧重解决实际问题。一篇是《大规模有向图中的同步行为检测》(CatchSync:Catching Synchronized Behavior in Large DirectedGraphs),针对微博中用户关注行为的异常现象(俗称僵尸粉现象),提出了刻画用户关注行为正常性的核心特征,并从理论上证明了正常关注行为在特征空间的分布特性,可在大规模(如4000余万用户节点)社交网络上进行快速准确的异常关注行为检测。
另一篇是《基于多侧面信息进化分析的动态行为模式发掘》(FEMA:Flexible Evolutionary Multi-faceted Analysis for Dynamic BehavioralPatternDiscovery),从用户行为的动态性和多面性角度入手,基于张量摄动理论提出社交网络用户行为多侧面协同演化模式的高效挖掘算法,大幅度提升了用户行为的可预测性和可解释性。
开会最后一天的下午怕是人迹寥寥,都准备赶飞机或是游玩了,可当我前往Research Track29听微软亚洲研究院的口头报告《GeoMF: Joint Geographical Modeling andMatrix Factorization for Point-of-InterestRecommendation》时,我完全被惊住了。偌大的会议室,竟被满满当当的听众挤得透不过气来,我在开始前5分钟到达,却不得不在墙根站着听,而同时站着的不下40人。我院谢幸老师的口头报告流畅生动,内容丰富,slides清晰明了。利用地理位置信息采用矩阵分解的方法来做地点推荐,想法新颖,解决方案直接明白,优异的推荐效果让人印象深刻;犹记得会后仍有很多学者围着谢幸老师询问论文细节,而谢老师一一耐心解答。
本届会议微软研究院所发表的16篇论文质量相当不错,取得了很好的影响和知名度,相信在来年的悉尼KDD,微软研究院还能继续大放异彩!让我们期待下一次数据挖掘盛宴的来到。
附注:微软研究院在KDD 2014所发表论文 16篇:
[1] Scalable Near Real-Time Failure Localization ofData CenterNetworksHerodotosHerodotou,Microsoft Research; Bolin Ding, Microsoft Research; ShobanaBalakrishnan, Microsoft Research; Geoff Outhred, Microsoft; PercyFitter, Microsoft;
[2] CorrelatingEvents with Time Series for IncidentDiagnosisChen LUO, Jilin University;Jian-Guang LOU, Microsoft Research; Qingwei LIN, MicrosoftResearch; Qiang FU, Microsoft Research; Rui DING, MicrosoftResearch; Dongmei ZHANG, Microsoft Research; Zhe WANG, JilinUniversity;
[3] Mining Text Snippets for Images on the WebAnitha Kannan, Microsoft; Simon Baker, Microsoft; Krishnan Ramnath,Microsoft; Juliet Fiss, University of Washington; Dahua Lin, TTIChicago; Lucy Vanderwende, Microsoft; Rizwan Ansary, Microsoft;Ashish Kapoor, Microsoft; Qifa Ke, Microsoft; Matt Uyttendaele,Microsoft; Xin-Jing Wang, Microsoft; Lei Zhang, Microsoft;
[4] Seven Rules of Thumb for Web SiteExperimentersRon Kohavi, Microsoft; AlexDeng, Microsoft; Roger Longbotham, SW Jiaotong University; Ya Xu,LinkedIn;
[5] Travel Time Estimation of a Path using SparseTrajectoriesYilun Wang, Microsoft Research;Yu Zheng, Microsoft Research; Yexiang Xue, Cornell University;
[6] FastXML: A Fast, Accurate and StableTree-classifier for eXtreme Multi-label Learning YashotejaPrabhu, Indian Institute of Technology - Delhi; Manik Varma,Microsoft Research;
[7] Balanced Graph EdgePartitionFlorian Bourse, ENS; Marc Lelarge,INRIA-ENS; Milan Vojnovic, Microsoft Research;
[8]COM: a Generative Model for GroupRecommendationQuan Yuan, NanyangTechnological University; Gao Cong, Nanyang TechnologicalUniversity; Chin-Yew Lin, Microsoft Research;
[9] Active Learning For Sparse Bayesian MultilabelClassificationDeepak Vasisht, MIT; AndreasDamianou, University of Sheffield, UK; Manik Varma, MicrosoftResearch; Ashish Kapoor, Microsoft Research;
[10] Distance Queries from Sampled Data: Accurate andEfficientEdith Cohen, Microsoft Research;
[11] Grouping Students in Educational Settings Rakesh Agrawal,Microsoft Research; Behzad Golshan, Boston University; EvimariaTerzi, Boston University;
[12] Inferring Gas Consumption and Pollution Emission ofVehicles throughout a City Jingbo Shang, Shanghai Jiao TongUniversity; Yu Zheng, Microsoft Research; Wenzhu Tong, MicrosoftResearch; Eric Chang, Microsoft Research; Yong Yu, Shanghai JiaoTong University;
[13] Exploiting Geographic Dependencies for Real EstateAppraisalYanjie Fu, Rutgers University; HuiXiong, Rutgers University; Yong Ge, University of North Carolina atCharlotte; Zijun Yao, Rutgers University; Yu Zheng, MicrosoftResearch Asia; Zhi-Hua Zhou, Nanjing University;
[14] Minimizing Seed Set Selection with ProbabilisticCoverage Guarantee in a Social NetworkPengZhang, Purdue University; Wei Chen, Microsoft; Xiaoming Sun,Institute of Computing Technology, CAS; Yajun Wang, Microsoft;Jialin Zhang, Institute of Computing Technology, CAS;
[15] LaSEWeb: Automating Search Strategies overSemi-structured Web Data Oleksandr Polozov, University ofWashington; Sumit Gulwani, Microsoft Research;
[16] GeoMF: Joint Geographical Modeling and MatrixFactorization for Point-of-Interest Recommendation Defu Lian,University of Science and Technology of China; Cong Zhao,University of Science and Technology of China; Xing Xie, MicrosoftResearch; Guangzhong Sun, University of Science and Technology ofChina; Enhong Chen, University of Science and Technology of China;Yong Rui, Microsoft Research;
作者简介:
蒋朦,微软亚洲研究院实习生,本科毕业于清华大学计算机系,目前在清华大学计算机系攻读博士。曾在卡内基梅隆大学访问学习,研究领域为数据挖掘,方向为用户行为分析和社交网络分析。在KDD、WWW、CIKM、PAKDD等知名国际会议上发表论文7篇(第一作者6篇,口头报告长文5篇),并在知名期刊TKDE上发表第一作者长文1篇。