肖文峰:后数据时代构建核心数据生态

  在TalkingData主办的“T11 2016暨TalkingData智能数据峰会”上, 各界人士关注最多的,是发展多年的“大数据”即将进入“下半场”的话题。“下半场”的后大数据时代,即融合人类智能、人工智能以及海量非结构化数据的智能数据时代,这些人的动作、姿态、行为轨迹,再加上地理位置、天气、社会群体行为等等,按照以往处理数据的思路已经难以适应“数据”本身发展的速度。作为一家领先的数据化业态企业,TalkingData是如何展开“后数据时代”思考的?

  会后,在与TalkingData CTO肖文峰的专访交流中,他表示,目前TalkingData覆盖超过40亿的智能设备,服务12万款应用及10万开发者。除了线上应用产生的数据,团队还在做线下数据的采集,主要覆盖80个城市,3000多家商场,400万个POI指纹信息,线上线下的数据进行打通,对不同行业的大数据分析应用提供了精准的基础数据源。”

  TalkingData对这些原始数据的态度是开放的,尽可能把其数据共享出来以产生更大的价值。“比如TalkingData的数据观象台,会把一些比较普遍的数据比如应用排名公示出来,让对这些数据感兴趣的人可以直接去应用。 ”肖文峰介绍,目前TalkingData的OWL(猫头鹰)大数据监控系统也是开源的,另外,全新的Fregata超大规模算法引擎,也是在10亿样本、一千万维度的情况下展开的,它比Spark MLlib原生算法库的计算效率要高两个数量级,附加了数据计算引擎的优化来提高计算效率,达到一次数据扫描就能够收敛,该算法库也将逐渐进行开源。

  今年,一项由TalkingData主要发起的全球算法大赛成为近半年大数据领域排名第一的热度活动。近2000个团队和数据科学家参与了这个算法大赛。“这项大赛由中国公司发起,国外的数据分析师和科学家对中国以及中国的数据非常感兴趣。经过在TalkingData发布的脱敏数据上面进行各类算法,通过可视化的方式,可以探究人类的不同行为,并发现很多有意思的算法和场景。“这意味着我们在后数据时代,随着TalkingData的品牌知名度扩大,客户需求也开始大范围爆发,现在的技术团队正在沉淀技术平台,把技术平台做得更扎实,让更多合作伙伴通过开源等方式,利用到大数据分析的技术能力,让合作伙伴去对接客户这些大范围的需求交付压力。”

  在客户范围上,TalkingData已经覆盖了房地产、金融、保险、券商等行业的前十位典型企业客户。“移动.数据.价值”是TalkingData的商业宣传语,他们的技术发展之路也正是沿着这六个字得以发展,随着“后大数据化”的智能数据和人工智能时代到来,它的前行空间或许会更多。

热门新闻

最新新闻