头条号、百家号、企鹅号、UC号……互联网公司为什么纷纷押注“内容”?

网上有关“头条号、百家号、企鹅号、UC号……互联网公司为什么纷纷押注“内容”?”话题很是火热,小编也是针对头条号、百家号、企鹅号、UC号……互联网公司为什么纷纷押注“内容”?寻...

网上有关“头条号、百家号、企鹅号、UC号……互联网公司为什么纷纷押注“内容”?”话题很是火热,小编也是针对头条号、百家号、企鹅号、UC号……互联网公司为什么纷纷押注“内容”?寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。

一周前,问答平台知乎完成了一轮1亿美元的 融资,正式迈入独角兽行列。领投方今日资本的创始人兼总裁徐新没有接受媒体采访,而是选择在知乎上下写自己的答案。她说整个 投资“决策速度很快”,因为从行业趋势来看“内容的春天刚刚开始”;而从公司的角度,知乎做了6年,内容的“护城河很深”。

最重要的是,“现在的流量入口是内容”,徐新说。知乎的价值,或者说“想象力”也正是在此。

从另一个角度或许可以帮你理解徐新这番话。

一共有127个人回答了《如何看待知乎完成 D 轮融资?》,排在徐新“楼下”的有腾讯投资部的Jeffrey、赛富基金的资深合伙人羊东,以及创新工场创始合伙人汪华等人。这些答案经过记者和分析师的引述和编辑之后,又会变成不同的文字内容,出现在新闻客户端和 微信朋友圈中。这些内容就这样在 互联网世界里流动起来了。

2016年,所有打造内容平台的互联网公司都基于这样的逻辑:用户在哪里消费内容,流量就在哪里,而流量在哪里,钱就在哪里。最终的竞争演变成了对用户时间的争夺--在每天有限的那几个小时里,你是用来看知乎、逛淘宝,还是在视频网站上看一部**,对于所有互联网公司来说这很重要。

今日头条用四年时间只做成了一件事:让6600万人平均每天花费76分钟看新闻和视频。现在,它是一家估值600亿元,让腾讯和百度都“十分紧张”的公司。

即便是掌管这些互联网巨头的那些最聪明的头脑,也没有想到今日头条能以如何快的速度和如此颠覆性的方式,影响整个媒体甚至互联网公司对于内容的看法。用今日头条创始人张一鸣的话来说:“整个行业都被我们带到了算法智能分发的这条路上。”

过去一年,互联网巨头们纷纷做起了各种“号”,从百度号、UC号到企鹅号、京东号。它们模式大同小异:建立内容平台吸引内容生产者入驻,通过算法匹配用户兴趣与内容,然后通过精准广告实现商业变现。

一度强调用户“用完即走”的 工具类应用,在 移动互联网流量红利殆尽的大趋势下,也想要靠内容抓住用户。猎豹花费5700万美元收购了拥有诸多新闻内容版权的法国公司News Republic,并在美国上线了直播和 游戏应用;UC 浏览器改名“UC”,要借助阿里大文娱的内容体系,变成一家“新型媒体平台”;甚至,同在腾讯体系内的QQ浏览器也开始做内容的分发和推送。当搜索引擎不再成为移动时代的“大门”之后,百度也试图在搜索框之外利用内容吸引来更多流量。在短短几个月时间内,“百家号”业务就建立了上百人的团队。

互联网公司激进的内容策略之下,问题也随之暴露。从生产者到广告客户都对这套新的游戏规则充满困惑,它们需要被教育,更需要被更好地对待。跑马圈地之后,这个问题需要被解决。人人都想抓住内容这个“流动的数字黄金”,但别忘了,它可以很值钱,也可以很烫手。

傅盛的焦虑与改变

去年8月,傅盛在位于北京的猎豹移动总部进行了一场小型媒体沟通会。

由于三个月前发布上一季财报时遭遇过股价重挫,一度跌破发行价,记者们普遍认为这是二季度财报发布前的“预防针”。这样的会面往往会以不太愉快的方式结束,傅盛会再一次解释工具和流量的价值,而媒体报道中质疑猎豹赚不了钱的声音仍会是主流。

不过这次会面进行地颇为愉快,傅盛并没有像以往那样一味继续强调工具的价值。实际上在整个发言和媒体提问中,“工具”这个词一共只出现了18次,而“内容”这个词,一共出现了58次。

他首先承认猎豹遇到的问题:我们的整体流量没什么大问题,变现能力下降了。 由于猎豹在海外最为依赖的合作伙伴Facebook带来的 移动广告增长下滑,整体增长从100%降到了20%。

傅盛想要传达给媒体一个新的信息:靠工具属性进行广告流量变现这条路子,长期来看的确靠不住。但工具本身具有战略意义,通过工具触达用户,通过内容延长时长,让用户能够更快、更迅速、更精准地拿到他想要的内容,是猎豹下一步要做的事。

简而言之,猎豹要全面转型,从一家工具类公司变成一家“连接全球内容”的公司。或者用更为官方的说法:以工具为入口,内容为核心,大数据为高地。

改变背后是傅盛的焦虑。过去三年,猎豹在海外市场积累了6亿活跃用户,但卖流量广告的生意却越来越不好做。与此同时,“内容”的生意却红火起来。

这里所说的内容既包括传统意义上的图文,也包括视频、音乐、直播等富媒体形态。 映客和今日头条两家公司在过去一年的疯狂成长,让傅盛看到了其中的机会。

News Republic

他花费5700万美元收购了一家法国公司News Republic,它的核心资产是有全球数千家新闻机构的版权授权。在拿到这些“内容”后,猎豹通过机器算法来给不同用户推荐不同的文章,听上去就是一个海外版的“今日头条”。更早些时候,猎豹在美国推出了一款直播应用Live.me,签约Youtube上的明星主播入驻,做起了海外版的“映客”。

借助猎豹清理大师巨大的用户量和这几年的 海外推广经验,这些新应用在上线(改版)后第一步都走得较为顺利。

根据 App Annie去年10月数据,Live.me成为了当月 谷歌应用商店美国区 社交类畅销榜第一名,在 苹果应用商店美国区社交类畅销榜里排名前五位。News Republic也在去年10月美国地区新闻杂志类下载排行榜中名列第三。

“我们为什么这么注重内容类的产品?因为(内容产品)做品牌广告非常有效。你今天拿一个工具去做则会很难。”傅盛在媒体分享会上说。

与傅盛有相同想法的还有UC浏览器。在傅盛会见媒体两周后,刚过完12岁生日的UC浏览器正式宣布了它的新战略。“UC浏览器”改名为“UC”,从传统的浏览器工具产品向“大数据新型媒体平台”升级。

去掉用了12年的“浏览器”标签背后,同样是UC作为工具定位遭遇的尴尬。“你一款纯工具浏览器没有品牌调性,再强调快、省流量,现在都打动不了用户了。” 阿里巴巴文化集团UC业务市场总经理周默告诉腾讯科技。

一款名为“UC头条”的独立资讯应用也同时发布。“过去12年UC一直在做连接人和信息的事。以前我们是找信息,现在内容爆炸的时代,是你帮助用户在碎片化的时间找到有价值的信息。”周默认为,UC做内容并不是件矛盾的事,同时他也表示,相比站点流量广告, 信息流对品牌广告更有吸引力,也更能够实现精准 广告投放。

“实质上大的内容和产业正在发生一个很重要的变化,从人找内容,到内容找人。”去年四月,在全球移动互联网大会阿里巴巴信息服务新生态战略发布会的现场,阿里巴巴移动事业群总裁俞永福如此总结到。

阿里移动事业群UC总裁何小鹏则提到了市场的另一面:应用商店开始走下坡路,只能够给头部的应用带来新 激活量。而对于活跃用户已经超过4亿的UC来说,随着智能手机销量放缓,也逐渐触碰到了用户增量的“天花板”。

流量红利在逐渐消失,无论是傅盛还是俞永福似乎都在向我们宣告,工具类应用未来的日子可能不会变好。转型刻不容缓,内容平台成了新的押宝方向。

2000万个公众号和一个今日头条

互联网公司对做内容这件事的兴趣大增,要从四年前的夏天说起。

2012年8月,一款名叫“今日头条”的新闻应用上线。开发者张一鸣给公司起了一个充满未来感的名称——字节跳动。这位理科生希望用“跳动的字节”——机器算法,决定每一个人看什么新闻。

在同一个月, 微信推出了自己的内容 公众平台。企业、机构媒体甚至个人都可以开设一个公众号,生产和发布自己想要发布的内容——可以是一篇文章,一张或者是一个视频。通过微信用户订阅和分享,这些内容又得以在朋友圈的时间线里出现和流动。

接下来四年时间里,这两个产品分别从生产和分发两端颠覆了人们消费内容的方式。由它们的成功所带起的两个时髦概念——“ 自媒体”和“个性化推荐”,为随后互联网公司的“内容热潮”提供了方向和土壤。

在今日头条和 微信公众号出现之前, 新浪、腾讯为代表的门户网站已经把报纸杂志上的“方块”变成了一个个超链接,微博的兴起产生了无数的“官微”,人们消费新闻的方式从线下翻阅变成了在线浏览,又随着这些平台推出各自的应用而转移到了手机上。但内容生产和分发的决定权,仍然掌握在一小部分人手中。

杂志报纸的主编和记者决定采写什么内容,网站和官微编辑决定这些内容在什么时间,以何种位置和方式展示在读者面前,无论你面对的是一百个还是一百万个读者,所有人消费着相似的内容。

张一鸣认为,这里面存在着巨大的信息不对称。每个人的年龄和成长环境,所处的社会阶层,个人兴趣的差异,都会导致每个人感兴趣和想要看的新闻内容有所不同。理应为每个人推送不一样的新闻,他最关心的那件事,就是他的“头条”。

用机器给文章打标签,追踪用户的阅读行为和习惯,再用算法完成两者之间的匹配。谁也没有想到,发现和填补“看新闻”这个听上去无比简单的用户需求,会变成了一个几百亿的生意。

根据今日头条公布的最新数据,今日头条的激活用户已经超过了6亿,每天有6600万人花超过1小时(76分钟)在上面看各种新闻和视频,已经超过新浪、搜狐等新闻客户端。公司最新估值高达600亿,是新浪市值的近两倍,百度的七分之一。

如果说今日头条把“看什么”的决定权交给了读者,那么微信公众号所做的就是把笔杆子直接塞到了每一个普通人手中。它的出现,给原有的媒体内容生态带来的冲击要更大一些。

财经作家吴晓波说,在自己长达十几年的专栏写作过程中,最后几年变得很焦虑。因为他收到的读者来信越来越少,不知道读者是谁,在想什么。仿佛文章从邮箱里发出去那一刻开始,就与自己无关了。

因此他在三年前停掉了所有专栏,创建公众号“吴晓波频道”。他说自己的初衷很简单:找回自己的读者。

我们不知道在“吴晓波频道”220万的订阅用户中,是否包含了他所有曾经的读者。但可以肯定的是,当他站在2016年年末秀舞台上以一个成功 创业者身份谈论“ 网红经济”和“知识变现”时,他那些随着纸媒式微所失去的声量,又跟着微信公众号这条大船重新响亮了起来。

四天之后,“吴晓波频道”的 运营主体“巴九灵”公司宣布完成A轮1.6亿元融资,估值20亿元。这一估值甚至超过了“罗辑思维”,一个月前它完成B轮融资,估值为13.2亿元,而 罗振宇也是两年半前力劝吴晓波开通公众帐号的那个人。

从商业上来说,吴晓波和罗振宇无疑是这一股“自媒体”大潮中的成功者。他们的商业路线也极为相似:通过提供有着强烈个人标签的内容(包括文字、语音和视频)建立品牌,聚集粉丝。然后向这些粉丝售卖更多的东西——有可能是一套精装商业书籍,也可能是一瓶梅酒。

相比这些,公众平台向那些拥有写作能力的个人提供的东西则更为诱人:一个已经搭建好社交关系、分享和变现机制的平台。“再小的个体,也有自己的品牌”,越来越多的人开始理解这句口号的含义,以及它背后蕴藏的商业机会。

2015年底,微信公众号的数量就突破了1000万。大量媒体人、广告从业人员从原有机构中脱离出来经营自己的公众号,原本掌握在少数机构手中的媒体话语权被分解,内容生产的规则被打破。内容以前所未有的数量和速度被生产和消费,再通过社交网络的传播变成一个个的10万+。

自媒体带来的是内容生产的极大丰富和多样化,这正好给了今日头条展现与门户内容差异的机会。2013年,今日头条推出了“今日头条媒体平台”,也就是后来的“头条号”。

“头条号”所做的事与微信公众号相似,邀请媒体、机构、自媒体入驻,生产优质内容。不同的是,今日头条的机器算法能够“帮你找到对你感兴趣的人”,并进行精准推送。比如你是一位军事题材的专业写作者,那么你的文章更有可能被推送给那些在头条上看了大量军事新闻的人。

“微信公众号”催生出了比以往任何时候都要多的内容生产者,而“头条号”提供了一个现成的、被验证过的商业变现模式。

过去一年互联网公司们陆续推出的各种“号”:UC号、京东号、百家号、网易号,几乎就是复制了“头条号”的模式。邀请机构和自媒体开设帐号生产内容,然后通过算法个性化 地推荐给用户,最终通过精准广告进行商业化变现。

整个市场看上去很热闹。

晚来的百度和它的自信

百度宣布要拿出100亿激励内容创作者

傅盛把PC到移动的转变称为从“食指时代”过渡到“拇指时代”,而这一转变最大的变化,就是搜索变得越来越不重要。

在PC时代,搜索是用户获取内容的核心模式,谁占据了搜索就占据了最重要的流量入口。这也是为什么百度当年如此强势,而360、腾讯都想要做搜索的原因。到了移动时代,人们获取内容的方式更多从主动的关键词查找变成了被动接受精准推荐,这种改变促成了今日头条的崛起。

包括傅盛在内的不少人认为,今日头条代表的模式就是一种“新搜索”。因此,在今日头条逐步壮大的过程中,最有危机感的无疑是百度。

曾经,百度是离做出“今日头条”最近的那一个。

在2011年的百度世界大会上,李彦宏宣布对百度首页进行重大改版。这次改版的核心就是在原本单一的搜索框之外放上更多的东西。

比如“网址导航”会通过记录用户的网页浏览数据,把用户常去的网站直接显示在搜索框下方;“搜索风云榜实时热点”会跟据实时的搜索数据,把大家正在热搜的内容直接展示出来。当用户处于登录状态时,首页也将直接展示百度用户个人中心。

这些改变都指向同一个方向:把百度首页从“千人一面”变成“千人千面”,通过主动展示和智能推荐,让用户更方便高效地找到自己想要的信息。用李彦宏的话说,就是“一人一世界”。这些,正是如今“机器分发”和“个性化推荐”的概念雏形。

“实际上现在大家做的都是同一件事,就是怎么让内容分发更有效率。”百度百家号总经理徐继业告诉腾讯科技。他2005年加入百度,在今年6月接手百家号业务之前,一直在负责百度公关和市场业务。

加盟百度前,徐继业是南方报业集团旗下的一名记者,曾经在2003年作为战地记者被派往伊拉克。他说自己没想到,过了12年,绕了一个大圈又绕了回来,从新做起了内容这件事。

尽管不用担心会被炮弹击中,但这个刚刚成立的新业务一点都不比上战场来得轻松。今年4月,百度CEO李彦宏表示接下来自己会亲自关注百度内容生态的建设,从某种意义上来说,百度号成为了这场内容战役的“钢锯岭”,是一块一定要拿下的高地。

百度也的确为徐继业开了不少“绿灯”。比如在已经冻结社招三年的情况下,允许百家号在内外部自由招骋人才,在不到三个月时间里就组建了一个超过100人的团队。其中技术人员占了50%以上。

或许是上线时间太短,提到数据部分时,徐继业总是会选则无视或者用“快速增长”这样模糊的说法带过。他甚至认为过于关注这些数据是一种错误的思考方式,尽管他也承认有时候会向这种行业普遍的评价体系妥协。

“现在有一个误区,大家都在看流量、用户、变现能力,这些都是平台级的东西。其实最核心的,是技术上的模型,是你用户画像和内容标签是不是打得足够精准。”徐继业告诉腾讯科技。

徐继业认为,现在各家的竞争还处在很初级的阶段,百度虽然进入相对比较晚,但技术上的优势能够帮助百度挽回劣势,甚至赶上和超越所有竞争对手。

作为一家搜索引擎公司,把抓来的文章通过切词和分词技术进行再加工,打个标签,建立索引库,一直是百度最重要的工作。这也成为了百度做百家号最大的底气。

“同一个用户你对他的画像,从标签维度来看,门户可能是几十,微博可能是几百,而搜索引擎可能是几千个颗粒点。”徐继业说,“颗粒度越清晰,你对用户的了解越清楚,你能够更好地推荐内容。”

徐继业认为百家号对于百度的重要性,还体现在它弥补了百度在移动端的一个劣势。在PC时代,所有内容都通过“超链接”的方式存在,百度可以能过爬虫进行彻底抓取。而到了移动端,内容分散到了各个应用中,你无法通过传统搜索方式轻易获得。

目前百家号最重要的展示场所是手机百度搜索框下方的区域,徐继业称不方便透露具体的流量数据,只表示“量比我们想像的大得多”。

护城河和泡沫

公众号“严肃八卦”的创始人萝贝贝在过去两年陆续接到了众多内容平台的入驻邀请,不过最终他们只选择了其中两家:今日头条和天天快报。

尽管已经是一个拥有超过百万粉丝的“大号”,但她仍然不想把过多精力牵扯到内容以外的事情上。至今,她还不太清楚一篇文章究竟为什么(没有)被推荐,也不想弄明白那些复杂无比的平台广告分成方案。

“没有明确给出回报机制的我都没有入驻。很多平台根本没有准备给作者认真开稿费。”萝贝贝告诉腾讯科技。她拒绝向我们透露平台的广告分成具体数额。

搞不懂推荐机制,阅读量偏低是多位自媒体跟我们谈到这些内容平台时最多的困惑。以“严肃八卦”为例,一篇题为《黎姿把弟弟的公司做上市了,生活有再多磨难,她也在积极向阳》的文章在微信公众号中为10万+,而在拥有8.1万粉丝的头条号中,阅读量却只有641。

一位不愿意透露姓名的 汽车类自媒体告诉腾讯科技,他在多个平台都有连续多篇文章阅读数为零的情况,让他很无语。而即便是阅读数高达几万的文章,最后的广告分成也“很少”。另一位公众号粉丝超过20万的影视类自媒体则称,上个月刚刚停掉了两个“号”的运营,因为“阅读量实在少得可怜”。

“平台拉你的时候总是会说,你多一个平台就多一份收入。但他没有告诉你,这个收入也可能是每月几十,几百块。”上述影视行业自媒体负责人告诉腾讯科技。

即便是那些保持多平台更新的自媒体们,也几乎只是把一份内容复制到各个平台,从另一方面导致了平台内容的同质化。我们似乎又回到了那个“鸡和蛋”的问题。

低俗内容和标题党是另一个内容平台被广泛质疑的问题。尤其是在张一鸣接受《财经》记者采访时,表示技术应该是中立,平台不应该背负价值观。

徐继业认为,说技术不需要价值观是“不负责任”的,“比如说小孩来问你要吃的,如果没有价值观,他想要什么东西你就给他什么东西的话,他最想吃的东西一定是糖,然后一直给他糖。”

他认为百度号要给读者推送的主要是两类东西,一类是你感兴趣的最优质的内容。另一类是你永远触碰不到的一些生活圈的有趣新闻,比如一些亚文化的现象。而这背后则需要把编缉的价值观和思维加入算法中,让机器为编辑思维服务。不过在我们使用多个智能分发应用过程中,内容和推荐的差异性并没有体现得足够显著。

广告主们则从另一个角度表达了担忧。一位已经做了今日头条半年投放计划的品牌担心,这么长的周期无法一直为它带来足够多的新用户,“到后面总是同一些人在观看”。而这是所有这类平台都无法绕开的一个问题。

一家大型广告代理公司的高层人员告诉我们,在给客户做投放计划时,对于这些智能分发平台会保持谨慎,“有的报价非常高,还有一些平台的广告效果并不像他们说的那么好,甚至会差很多。”他说。

广告主们对于 信息流广告和视频广告表达出了更加大的兴趣,而包括今日头条在内的多个平台,正在对这两类广告加大投入力度。

视频,尤其是 短视频,被认为是“下一个风口”。过去一年,各类短视频相关的创业项目,总融资超过了50亿。

短视频也是这些分发平台接下来要比拼的新赛道。今日头条高级副总裁赵添在1月7日的2017 新榜大会上透露,2016 年今日头条上视频资讯的日均播放量超过12亿,比去年增长了 605%,远高于图文87%的增量。

今年,今日头条宣布拿出10亿来补贴短视频制作者。而徐继业也表示,今年开始,百家号很快就会在短视频上有大动作。

值得注意的是,短视频相对于图文来说,生产成本更高。如何能够卖出更多的广告,给创作者带来更实际的收入,而不是依靠补贴,或许是一个更为迫切需要解决的问题。

1. 大数据兴起预示“信息时代”进入新阶段

(1) 看待大数据要有历史性的眼光

信息时代是相对于农业和工业时代而言的一段相当长的时间。不同时代的生产要素和社会发展驱动力有明显差别。信息时代的标志性技术发明是数字计算机、集成电路、光纤通信和互联网(万维网)。尽管媒体上大量出现“大数据时代”的说法,但大数据、云计算等新技术目前还没有出现与上述划时代的技术发明可媲美的技术突破,难以构成一个超越信息时代的新时代。信息时代可以分成若干阶段,大数据等新技术的应用标志着信息社会将进入一个新阶段。

考察分析100年以上的历史长河可以发现,信息时代与工业时代的发展规律有许多相似之处。电气化时代与信息时代生产率的提高过程惊人地相似。都是经过20~30年扩散储备之后才有明显提高,分界线分别是1915年和1995年。笔者猜想,信息技术经过几十年的扩散储备后,21世纪的前30年可能是信息技术提高生产率的黄金时期。

(2) 从“信息时代新阶段”的高度认识“大数据”

中国已开始进入信息时代,但许多人的思想还停留在工业时代。经济和科技工作中出现的许多问题,其根源是对时代的认识不到位。18-19世纪中国落后挨打,根源是满清政府没有认识到时代变了,我们不能重犯历史性的错误。

中央提出中国进入经济“新常态”以后,媒体上有很多讨论,但多数是为经济增速降低做解释,很少有从时代改变的角度论述“新常态”的文章。笔者认为,经济新常态意味着中国进入了以信息化带动新型工业化、城镇化和农业现代化的新阶段,是经济和社会管理的跃迁,不是权宜之计,更不是倒退。

大数据、移动互联网、社交网络、云计算、物联网等新一代信息技术构成的IT架构“第三平台”是信息社会进入新阶段的标志,对整个经济的转型有引领和带动作用。媒体上经常出现的互联网、创客、“第二次机器革命”、“工业4.0”等都与大数据和云计算有关。大数据和云计算是新常态下提高生产率的新杠杆,所谓创新驱动发展就是主要依靠信息技术促进生产率的提高。

(3)大数据可能是中国信息产业从跟踪走向引领的突破口

中国的大数据企业已经有相当好的基础。全球十大互联网服务企业中国占有4席(阿里巴巴、腾讯、百度和京东),其他6个Top10 互联网服务企业全部是美国企业,欧洲和日本没有互联网企业进入Top10。这说明中国企业在基于大数据的互联网服务业务上已处于世界前列。在发展大数据技术上,我国有可能改变过去30年技术受制于人的局面,在大数据应用上中国有可能在全世界起到引领作用。

但是,企业的规模走在世界前列并不表示我国在大数据技术上领先。实际上,国际上目前流行的大数据主流技术没有一项是我国开创的。开源社区和众包是发展大数据技术和产业的重要途径,但我们对开源社区的贡献很小,在全球近万名社区核心志愿者中,我国可能不到200名。我们要吸取过去基础研究为企业提供核心技术不够的教训,加强大数据基础研究和前瞻技术研究,努力攻克大数据核心和关键技术。

2. 理解大数据需要上升到文化和认识论的高度

(1) 数据文化是一种先进文化

数据文化的本质是尊重客观世界的实事求是精神,数据就是事实。重视数据就是强调用事实说话、按理性思维的科学精神。中国人的传统习惯是定性思维而不是定量思维。目前许多城市在开展政府数据开放共享工作,但是发现多数老百姓对政府要开放的数据并不感兴趣。要让大数据走上健康的发展轨道,首先要大力弘扬数据文化。本文讲的数据文化不只是大数据用于文艺、出版等文化产业,而是指全民的数据意识。全社会应认识到:信息化的核心是数据,只有政府和大众都关注数据时,才能真正理解信息化的实质;数据是一种新的生产要素,大数据的利用可以改变资本和土地等传统要素在经济中的权重。

有人将“上帝与数据共舞”归纳为美国文化的特点之一,说的是美国人既有对神的诚意,又有通过数据求真的理性。美国从镀金时代到进步主义时期完成了数据文化的思维转变,南北战争之后人口普查的方法被应用到很多领域,形成了数据预测分析的思维方式。近百年来美国和西方各国的现代化与数据文化的传播渗透有密切关系,我国要实现现代化也必须强调数据文化。

提高数据意识的关键是要理解大数据的战略意义。数据是与物质、能源一样重要的战略资源,数据的采集和分析涉及每一个行业,是带有全局性和战略性的技术。从硬技术到软技术的转变是当今全球性的技术发展趋势,而从数据中发现价值的技术正是最有活力的软技术,数据技术与数据产业的落后将使我们像错过工业革命机会一样延误一个时代。

(2)理解大数据需要有正确的认识论

历史上科学研究是从逻辑演绎开始的,欧几里得几何的所有定理可从几条公理推导出来。从伽利略和牛顿开始,科学研究更加重视自然观察和实验观察,在观察基础上通过归纳方法提炼出科学理论,“科学始于观察”成为科学研究和认识论的主流。经验论和唯理论这两大流派都对科学的发展做出过重大贡献,但也暴露出明显的问题,甚至走入极端。理性主义走向极端就成为康德所批判的独断主义,经验主义走入极端就变成怀疑论和不可知论。

20世纪30年代,德国哲学家波普尔提出了被后人称为“证伪主义”的认识论观点,他认为科学理论不能用归纳法证实,只能被试验发现的反例“证伪”,因而他否定科学始于观察,提出“科学始于问题”的著名观点[3]。证伪主义有其局限性,如果严格遵守证伪法则,万有引力定律、原子论等重要理论都可能被早期的所谓反例扼杀。但“科学始于问题”的观点对当前大数据技术的发展有指导意义。

大数据的兴起引发了新的科学研究模式:“科学始于数据”。从认识论的角度看,大数据分析方法与“科学始于观察”的经验论较为接近,但我们要牢记历史的教训,避免滑入否定理论作用的经验主义泥坑。在强调“相关性”的时候不要怀疑“因果性”的存在;在宣称大数据的客观性、中立性的时候,不要忘了不管数据的规模如何,大数据总会受制于自身的局限性和人的偏见。不要相信这样的预言:“采用大数据挖掘,你不需要对数据提出任何问题,数据就会自动产生知识”。面对像大海一样的巨量数据,从事数据挖掘的科技人员最大的困惑是,我们想捞的“针”是什么?这海里究竟有没有“针”?也就是说,我们需要知道要解决的问题是什么。从这个意义上讲,“科学始于数据”与“科学始于问题”应有机地结合起来。

对“原因”的追求是科学发展的永恒动力。但是,原因是追求不完的,人类在有限的时间内不可能找到“终极真理”。在科学的探索途中,人们往往用“这是客观规律”解释世界,并不立即追问为什么有这样的客观规律。也就是说,传统科学并非只追寻因果性,也可以用客观规律作为结论。大数据研究的结果多半是一些新的知识或新的模型,这些知识和模型也可以用来预测未来,可以认为是一类局部性的客观规律。科学史上通过小数据模型发现一般性规律的例子不少,比如开普勒归纳的天体运动规律等;而大数据模型多半是发现一些特殊性的规律。物理学中的定律一般具有必然性,但大数据模型不一定具有必然性,也不一定具有可演绎性。大数据研究的对象往往是人的心理和社会,在知识阶梯上位于较高层,其自然边界是模糊的,但有更多的实践特征。大数据研究者更重视知行合一,相信实践论。大数据认识论有许多与传统认识论不同的特点,我们不能因其特点不同就否定大数据方法的科学性。大数据研究挑战了传统认识论对因果性的偏爱,用数据规律补充了单一的因果规律,实现了唯理论和经验论的数据化统一,一种全新的大数据认识论正在形成。

3. 正确认识大数据的价值和效益

(1)大数据的价值主要体现为它的驱动效应

人们总是期望从大数据中挖掘出意想不到的“大价值”。实际上大数据的价值主要体现在它的驱动效应,即带动有关的科研和产业发展,提高各行各业通过数据分析解决困难问题和增值的能力。大数据对经济的贡献并不完全反映在大数据公司的直接收入上,应考虑对其他行业效率和质量提高的贡献。大数据是典型的通用技术,理解通用技术要采用“蜜蜂模型”:蜜蜂的效益主要不是自己酿的蜂蜜,而是蜜蜂传粉对农业的贡献。

电子计算机的创始人之一冯·诺依曼曾指出:“在每一门科学中,当通过研究那些与终极目标相比颇为朴实的问题,发展出一些可以不断加以推广的方法时,这门学科就得到了巨大的进展。”我们不必天天期盼奇迹出现,多做一些“颇为朴实”的事情,实际的进步就在扎扎实实的努力之中。媒体喜欢宣传一些令人惊奇的大数据成功案例,对这些案例我们应保持清醒的头脑。据Intel中国研究院首席工程师吴甘沙在一次报告中透露,所谓“啤酒加尿布”的数据挖掘经典案例,其实是Teradata公司一位经理编出来的“故事”,历史上并没有发生过[4]。即使有这个案例,也不说明大数据分析本身有什么神奇,大数据中看起来毫不相关的两件事同时或相继出现的现象比比皆是,关键是人的分析推理找出为什么两件事物同时或相继出现,找对了理由才是新知识或新发现的规律,相关性本身并没有多大价值。

有一个家喻户晓的寓言可以从一个角度说明大数据的价值:一位老农民临终前告诉他的3个儿子,他在他家的地中埋藏了一罐金子,但没有讲埋在哪里。

他的儿子们把他家所有的地都深挖了一遍,没有挖到金子,但由于深挖了土地,从此庄稼收成特别好。数据收集、分析的能力提高了,即使没有发现什么普适的规律或令人完全想不到的新知识,大数据的价值也已逐步体现。

(2)大数据的力量来自“大成智慧”

每一种数据来源都有一定的局限性和片面性,只有融合、集成各方面的原始数据,才能反映事物的全貌。事物的本质和规律隐藏在各种原始数据的相互关联之中。不同的数据可能描述同一实体,但角度不同。对同一个问题,不同的数据能提供互补信息,可对问题有更深入的理解。因此在大数据分析中,汇集尽量多种来源的数据是关键。

数据科学是数学(统计、代数、拓扑等)、计算机科学、基础科学和各种应用科学融合的科学,类似钱学森先生提出的“大成智慧学”[5]。钱老指出:“必集大成,才能得智慧”。大数据能不能出智慧,关键在于对多种数据源的集成和融合。IEEE计算机学会最近发布了2014年的计算机技术发展趋势预测报告,重点强调“无缝智慧(seamless intelligence)”。发展大数据的目标就是要获得协同融合的“无缝智慧”。单靠一种数据源,即使数据规模很大,也可能出现“瞎子摸象”一样的片面性。数据的开放共享不是锦上添花的工作,而是决定大数据成败的必要前提。

大数据研究和应用要改变过去各部门和各学科相互分割、独立发展的传统思路,重点不是支持单项技术和单个方法的发展,而是强调不同部门、不同学科的协作。数据科学不是垂直的“烟囱”,而是像环境、能源科学一样的横向集成科学。

(3)大数据远景灿烂,但近期不能期望太高

交流电问世时主要用作照明,根本想象不到今天无处不在的应用。大数据技术也一样,将来一定会产生许多现在想不到的应用。我们不必担心大数据的未来,但近期要非常务实地工作。人们往往对近期的发展估计过高,而对长期的发展估计不足。Gartner公司预测,大数据技术要在5~10年后才会成为较普遍采用的主流技术,对发展大数据技术要有足够的耐心。

大数据与其他信息技术一样,在一段时间内遵循指数发展规律。指数发展的特点是,从一段历史时期衡量(至少30年),前期发展比较慢,经过相当长时间(可能需要20年以上)的积累,会出现一个拐点,过了拐点以后,就会出现爆炸式的增长。但任何技术都不会永远保持“指数性”增长,一般而言,高技术发展遵循Gartner公司描述的技术成熟度曲线(hype cycle),最后可能进入良性发展的稳定状态或者走向消亡。

需要采用大数据技术来解决的问题往往都是十分复杂的问题,比如社会计算、生命科学、脑科学等,这些问题绝不是几代人的努力就可以解决的。宇宙经过百亿年的演化,才出现生物和人类,其复杂和巧妙堪称绝伦,不要指望在我们这一代人手中就能彻底揭开其奥妙。展望数百万年甚至更长远的未来,大数据技术只是科学技术发展长河中的一朵浪花,对10~20年大数据研究可能取得的科学成就不能抱有不切实际的幻想。

?4 .从复杂性的角度看大数据研究和应用面临的挑战

大数据技术和人类探索复杂性的努力有密切关系。20世纪70年代,新三论(耗散结构论、协同论、突变论)的兴起对几百年来贯穿科学技术研究的还原论发起了挑战。1984年盖尔曼等3位诺贝尔奖得主成立以研究复杂性为主的圣菲研究所,提出超越还原论的口号,在科技界掀起了一场复杂性科学运动。虽然雷声很大,但30年来并未取得预期的效果,其原因之一可能是当时还没有出现解决复杂性的技术。

集成电路、计算机与通信技术的发展大大增强了人类研究和处理复杂问题的能力。大数据技术将复杂性科学的新思想发扬光大,可能使复杂性科学得以落地。复杂性科学是大数据技术的科学基础,大数据方法可以看作复杂性科学的技术实现。大数据方法为还原论与整体论的辩证统一提供了技术实现途径。大数据研究要从复杂性研究中吸取营养,从事数据科学研究的学者不但要了解20世纪的“新三论”,可能还要学习与超循环、混沌、分形和元胞自动机等理论有关的知识,扩大自己的视野,加深对大数据机理的理解。

大数据技术还不成熟,面对海量、异构、动态变化的数据,传统的数据处理和分析技术难以应对,现有的数据处理系统实现大数据应用的效率较低,成本和能耗较大,而且难以扩展。这些挑战大多来自数据本身的复杂性、计算的复杂性和信息系统的复杂性。

(1)数据复杂性引起的挑战

图文检索、主题发现、语义分析、情感分析等数据分析工作十分困难,其原因是大数据涉及复杂的类型、复杂的结构和复杂的模式,数据本身具有很高的复杂性。目前,人们对大数据背后的物理意义缺乏理解,对数据之间的关联规律认识不足,对大数据的复杂性和计算复杂性的内在联系也缺乏深刻理解,领域知识的缺乏制约了人们对大数据模型的发现和高效计算方法的设计。形式化或定量化地描述大数据复杂性的本质特征及度量指标,需要深入研究数据复杂性的内在机理。人脑的复杂性主要体现在千万亿级的树突和轴突的链接,大数据的复杂性主要也体现在数据之间的相互关联。理解数据之间关联的奥秘可能是揭示微观到宏观“涌现”规律的突破口。大数据复杂性规律的研究有助于理解大数据复杂模式的本质特征和生成机理,从而简化大数据的表征,获取更好的知识抽象。为此,需要建立多模态关联关系下的数据分布理论和模型,理清数据复杂度和计算复杂度之间的内在联系,奠定大数据计算的理论基础。

(2) 计算复杂性引起的挑战

大数据计算不能像处理小样本数据集那样做全局数据的统计分析和迭代计算,在分析大数据时,需要重新审视和研究它的可计算性、计算复杂性和求解算法。大数据样本量巨大,内在关联密切而复杂,价值密度分布极不均衡,这些特征对建立大数据计算范式提出了挑战。对于PB级的数据,即使只有线性复杂性的计算也难以实现,而且,由于数据分布的稀疏性,可能做了许多无效计算。

传统的计算复杂度是指某个问题求解时需要的时间空间与问题规模的函数关系,所谓具有多项式复杂性的算法是指当问题的规模增大时,计算时间和空间的增长速度在可容忍的范围内。传统科学计算关注的重点是,针对给定规模的问题,如何“算得快”。而在大数据应用中,尤其是流式计算中,往往对数据处理和分析的时间、空间有明确限制,比如网络服务如果回应时间超过几秒甚至几毫秒,就会丢失许多用户。大数据应用本质上是在给定的时间、空间限制下,如何“算得多”。从“算得快”到“算得多”,考虑计算复杂性的思维逻辑有很大的转变。所谓“算得多”并不是计算的数据量越大越好,需要探索从足够多的数据,到刚刚好的数据,再到有价值的数据的按需约简方法。

基于大数据求解困难问题的一条思路是放弃通用解,针对特殊的限制条件求具体问题的解。人类的认知问题一般都是NP难问题,但只要数据充分多,在限制条件下可以找到十分满意的解,近几年自动驾驶汽车取得重大进展就是很好的案例。为了降低计算量,需要研究基于自举和采样的局部计算和近似方法,提出不依赖于全量数据的新型算法理论,研究适应大数据的非确定性算法等理论。

(3)系统复杂性引起的挑战

大数据对计算机系统的运行效率和能耗提出了苛刻要求,大数据处理系统的效能评价与优化问题具有挑战性,不但要求理清大数据的计算复杂性与系统效率、能耗间的关系,还要综合度量系统的吞吐率、并行处理能力、作业计算精度、作业单位能耗等多种效能因素。针对大数据的价值稀疏性和访问弱局部性的特点,需要研究大数据的分布式存储和处理架构。

大数据应用涉及几乎所有的领域,大数据的优势是能在长尾应用中发现稀疏而珍贵的价值,但一种优化的计算机系统结构很难适应各种不同的需求,碎片化的应用大大增加了信息系统的复杂性,像昆虫种类一样多(500多万种)的大数据和物联网应用如何形成手机一样的巨大市场,这就是所谓“昆虫纲悖论”[6]。为了化解计算机系统的复杂性,需要研究异构计算系统和可塑计算技术。

大数据应用中,计算机系统的负载发生了本质性变化,计算机系统结构需要革命性的重构。信息系统需要从数据围着处理器转改变为处理能力围着数据转,关注的重点不是数据加工,而是数据的搬运;系统结构设计的出发点要从重视单任务的完成时间转变到提高系统吞吐率和并行处理能力,并发执行的规模要提高到10亿级以上。构建以数据为中心的计算系统的基本思路是从根本上消除不必要的数据流动,必要的数据搬运也应由“大象搬木头”转变为“蚂蚁搬大米”。

?5 .发展大数据应避免的误区

(1) 不要一味追求“数据规模大”

大数据主要难点不是数据量大,而是数据类型多样、要求及时回应和原始数据真假难辨。现有数据库软件解决不了非结构化数据,要重视数据融合、数据格式的标准化和数据的互操作。采集的数据往往质量不高是大数据的特点之一,但尽可能提高原始数据的质量仍然值得重视。脑科学研究的最大问题就是采集的数据可信度差,基于可信度很差的数据难以分析出有价值的结果。

一味追求数据规模大不仅会造成浪费,而且效果未必很好。多个来源的小数据的集成融合可能挖掘出单一来源大数据得不到的大价值。应多在数据的融合技术上下功夫,重视数据的开放与共享。所谓数据规模大与应用领域有密切关系,有些领域几个PB的数据未必算大,有些领域可能几十TB已经是很大的规模。

发展大数据不能无止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大众、公正法治的良性发展道路,要像现在治理环境污染一样,及早关注大数据可能带来的“污染”和侵犯隐私等各种弊端。

(2) 不要“技术驱动”,要“应用为先”

新的信息技术层出不穷,信息领域不断冒出新概念、新名词,估计继“大数据”以后,“认知计算”、“可穿戴设备”、“机器人”等新技术又会进入炒作高峰。我们习惯于跟随国外的热潮,往往不自觉地跟着技术潮流走,最容易走上“技术驱动”的道路。实际上发展信息技术的目的是为人服务,检验一切技术的唯一标准是应用。我国发展大数据产业一定要坚持“应用为先”的发展战略,坚持应用牵引的技术路线。技术有限,应用无限。各地发展云计算和大数据,一定要通过政策和各种措施调动应用部门和创新企业的积极性,通过跨界的组合创新开拓新的应用,从应用中找出路。

(3) 不能抛弃“小数据”方法

流行的“大数据”定义是:无法通过目前主流软件工具在合理时间内采集、存储、处理的数据集。这是用不能胜任的技术定义问题,可能导致认识的误区。按照这种定义,人们可能只会重视目前解决不了的问题,如同走路的人想踩着自己身前的影子。其实,目前各行各业碰到的数据处理多数还是“小数据”问题。我们应重视实际碰到的问题,不管是大数据还是小数据。

统计学家们花了200多年,总结出认知数据过程中的种种陷阱,这些陷阱不会随着数据量的增大而自动填平。大数据中有大量的小数据问题,大数据采集同样会犯小数据采集一样的统计偏差。Google公司的流感预测这两年失灵,就是由于搜索推荐等人为的干预造成统计误差。

大数据界流行一种看法:大数据不需要分析因果关系、不需要采样、不需要精确数据。这种观念不能绝对化,实际工作中要逻辑演绎和归纳相结合、白盒与黑盒研究相结合、大数据方法与小数据方法相结合。

(4) 要高度关注构建大数据平台的成本

目前全国各地都在建设大数据中心,吕梁山下都建立了容量达2 PB以上的数据处理中心,许多城市公安部门要求存储3个月以上的高清监控录像。这些系统的成本都非常高。数据挖掘的价值是用成本换来的,不能不计成本,盲目建设大数据系统。什么数据需要保存,要保存多少时间,应当根据可能的价值和所需的成本来决定。大数据系统技术还在研究之中,美国的E级超级计算机系统要求能耗降低1 000倍,计划到2024年才能研制出来,用现在的技术构建的巨型系统能耗极高。

我们不要攀比大数据系统的规模,而是要比实际应用效果,比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用,因地制宜发展大数据。发展大数据与实现信息化的策略一样:目标要远大、起步要精准、发展要快速。

关于“头条号、百家号、企鹅号、UC号……互联网公司为什么纷纷押注“内容”?”这个话题的介绍,今天小编就给大家分享完了,如果对你有所帮助请保持对本站的关注!

本文来自作者[listenwind]投稿,不代表问答号立场,如若转载,请注明出处:http://listenwind.com.cn/kepu/202501-3322.html

(37)

文章推荐

  • 旅游业的主要特征旅游业的基本特征是什么

    网上有关“旅游业的主要特征旅游业的基本特征是什么”话题很是火热,小编也是针对旅游业的主要特征旅游业的基本特征是什么寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。1.旅游业有哪些基本特点旅游的特点之一:综合性和整体性旅游的一个重要特点就是综合性、整体性更强。它

    2025年01月07日
    38
  • 幼儿园手足口病的预防措施有哪些

    网上有关“幼儿园手足口病的预防措施有哪些”话题很是火热,小编也是针对幼儿园手足口病的预防措施有哪些寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。1、注意饮食卫生,避免病从口入,平时应加强体质锻炼。2、避免与患儿接触,幼托机构发现病人,要采取隔离措施;儿童出现

    2025年01月14日
    33
  • 一旦出现三大信号立刻买房

    网上有关“一旦出现三大信号立刻买房”话题很是火热,小编也是针对一旦出现三大信号立刻买房寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。一旦出现三大信号立刻买房为:楼市限购政策放松、银行放水明显、楼市成交量异动。1、楼市限购政策放松:当政府对购房限制政策进行松绑

    2025年01月15日
    45
  • 新兴的教育研究方法有哪些简答题

    网上有关“新兴的教育研究方法有哪些简答题”话题很是火热,小编也是针对新兴的教育研究方法有哪些简答题寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。新兴的教育研究方法有以下几种:1、行动研究法:这是一种以解决实际问题为导向,通过实践经验总结出的研究方法。在教育领

    2025年01月15日
    29
  • 低估值农业股

    网上有关“低估值农业股”话题很是火热,小编也是针对低估值农业股寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。三大指数早盘下探回升,午后横盘震荡,两市个股涨多跌少,逾60只个股涨超10%,赚钱效应好转,但午后整体表现较为沉闷。板块上,消费电子受资金追捧

    2025年01月16日
    29
  • 科技节手抄报的内容_3

    网上有关“科技节手抄报的内容”话题很是火热,小编也是针对科技节手抄报的内容寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。 我校第三届科技节即将拉开序幕,这对我们每个人来说,都有着重大的意义。下面是科技节手抄报的内容,欢迎参考阅读! 科技节手抄报1 科

    2025年01月18日
    37
  • 双十一主要利好哪些股票

    网上有关“双十一主要利好哪些股票”话题很是火热,小编也是针对双十一主要利好哪些股票寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。 双十一概念股龙头有哪些?掘金智能物流概念股一览2015年,天猫双十一预售将于10月13日正式开启,双十一全球狂欢节的序幕也即将拉

    2025年01月18日
    60
  • 海峡保险出险快吗

    网上有关“海峡保险出险快吗”话题很是火热,小编也是针对海峡保险出险快吗寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。快。海峡保险在事发后能够及时汇报并提供必要的索赔材料和资料,海峡保险会尽快处理索赔,并在合理时间内给予赔付,出险速度特别快。海峡保险公司是一家

    2025年01月18日
    44
  • 学龄前幼儿 就学前应准备哪些?

    网上有关“学龄前幼儿就学前应准备哪些?”话题很是火热,小编也是针对学龄前幼儿就学前应准备哪些?寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。导读:当孩子3、4岁之后,你可能会考虑送他去幼儿园。不过在上学之前,你应该要先教导幼儿如何料理自己,像是如何穿衣

    2025年01月30日
    2
  • 北京南宫五洲植物乐园好玩吗?

    网上有关“北京南宫五洲植物乐园好玩吗?”话题很是火热,小编也是针对北京南宫五洲植物乐园好玩吗?寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。北京是很受欢迎的旅游城市,带孩子来北京玩,不要错过南宫五洲植物乐园,在这里,可以看到小动物,也可以做各种亲子游戏。去年

    2025年01月30日
    0

发表回复

本站作者后才能评论

评论列表(4条)

  • listenwind
    listenwind 2025年01月31日

    我是问答号的签约作者“listenwind”!

  • listenwind
    listenwind 2025年01月31日

    希望本篇文章《头条号、百家号、企鹅号、UC号……互联网公司为什么纷纷押注“内容”?》能对你有所帮助!

  • listenwind
    listenwind 2025年01月31日

    本站[问答号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • listenwind
    listenwind 2025年01月31日

    本文概览:网上有关“头条号、百家号、企鹅号、UC号……互联网公司为什么纷纷押注“内容”?”话题很是火热,小编也是针对头条号、百家号、企鹅号、UC号……互联网公司为什么纷纷押注“内容”?寻...

    联系我们

    邮件:问答号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们