2013大数据豆瓣网易淘宝腾讯CSDNSDCC摘要:2013中国软件开发者大会于8月30-31日在北京新云南皇冠假日酒店盛大开幕。作为年度最具实战的技术盛会,大会云集了来自国内外一线互联网和企业级软件公司的顶级专家,就大数据等话题和参会者进行了深入分享与探讨。
2013中国软件开发者大会(以下简称SDCC)于8月30-31日在北京新云南皇冠假日酒店举办。作为CSDN和《程序员》杂志倾力打造、千人规模以上的顶级技术盛会,今年SDCC 2013以“软件定义未来”为主题,来自于国内外一线的技术精英,就大数据分析与BI、架构实践、研发管理、IT基础设施与运维、产品与设计、开放平台等专题和参会者进行了深入的分享和探讨。此外,32小时编程马拉松、CTO论道论坛等量身定制的特色环节也受到了参会者的强烈关注。
在第二天开放平台“大数据分析与BI专题论坛”里,我们邀请到了豆瓣网首席科学家兼副总裁王守崑、淘宝广告算法负责人王勇睿、网易杭州研究院技术经理吴一男、腾讯数据中心数据挖掘研究员肖磊以及支付宝平台数据部数据仓库技术专家严奉化(丁奉)。
大数据时代兴趣图谱和社交图谱融合
豆瓣网首席科学家兼副总裁 王守崑
豆瓣网首席科学家兼副总裁王守崑表示,大数据具有以下的几个特性:(1)大数据应该是超线性增长的。(2)大数据需要有非常复杂的数据结构,或者说是相对复杂的内部结构。(3)低成本。
大数据时代豆瓣是怎么做兴趣图谱的?王守崑给出了这样的总结:
逐步把兴趣图谱的信息和社交图谱的信息融合在一起。
抓住时效性、系数性,通过各种各样的特性来衡量这种推荐效果。
使用各种各样的模型,通过Boosting去分析问题。
社交图谱在语义上也是有非常高的复杂性,整个自然元素的领域对于语义也非常好,因为语义的复杂性更增加了这样的困难程度。另外,数据太大是一个很大的问题,豆瓣把IO Bound转化成CPUBound,相对完美的解决了数据太大所带来的问题。
王守崑在演讲结尾时说,个性化推荐是前所未有的好机会,有成熟的技术准备,接触大数据的成本非常低,有非常好的数据源和基础服务。除此之外,移动互联网让用户有更大的兴趣分享私人数据,所以从技术和数据的准备上来说都是非常成熟的。