网络音乐和“大数据”可以聊些啥？

摘要：几大音乐厂商加起来的曲库量在3000万首左右，按照每首歌10MB的存储空间，约为286.1TB，美国国会图书馆数据总共20TB，也就是说，国内所有网络音乐内容加起来的储存空间相当于143座美国图书馆数

正如普林斯顿大学计量经济学家奥利阿什菲尔特通过数学来评判葡萄酒的好坏、球探罗伯特帕克通过数据预测球员的是否具有投资价值一样，网络音乐自从脱离“播放器工具”宿命以后，人、环境、载体都发生了巨大的变化，网络音乐也即将进入“预测”的相关关系世界。

大数据从诞生到“人人皆是大数据，司司皆是大数据”，只用了三年不到的时间，普罗大众们对于大数据亦云里雾里，听起来很酷，但终究无法用很明晰的形象来形容大数据的情况，究竟多大的数据才算大数据，究竟怎样才算是对大数据的极致运用？虽然国内的互联网熟稔制造大数据的诸多概念，然而，真正对于大数据的挖掘和运用，却并不容易。

文字介质方面，新闻客户端产品早就和数据资产亲密接触，运用数据的力量让新闻内容更具有价值。音频介质呢，又会如何？

为啥会是现在？

国内的网络音乐发展并不顺利，没有文字介质普及度高，没有网络视频用户量大，特别是盈利方面，比刚出生的婴儿都要孱弱，网络音乐是国内互联网产品中用户量大、用户规模大，但并不赚大钱的产品代表。不过，这并不影响网络音乐与“大数据”的缘分，或者说，是时候来聊一聊网络音乐与“大数据”了。但为何是当下，而不是过去和未来呢？

1）庞大的用户基数。2008年6月，中国互联网信息中心公布的数据就显示，我国互联网用户总量超过美国，当然，用户普及率还有很大差距，美国是71%。CNNIC的数据显示，截止到2015年12月，我国互联网用户普及率为50.3%，其中手机上网用户量占总上网用户量的90.1%，网络音乐的用户量为5.01亿，网民普及率达72.8%，手机网络音乐用户量达4.16亿。有了用户规模，才有可能说大数据。

2）移动互联网给予数据抓取的可能性。PC时代，用户更多的习惯还是播放器思维，下载酷狗、酷我、千千静听等播放器，整个用户都是处于离线的。还有一点是，用户的登录注册习惯不强，用户不注册登录，网络音乐厂商所能获取的数据就是动态的，而且用户的IP还会随时变幻，厂商所能获取到的数据是热门数据，哪首歌的播放次数高，哪个歌手最受用户喜欢，C端用户的任何习惯是零，性别、年龄层次等，都无法获取。

音乐APP虽然也是以客户端的形态存在，但如今有优势的地方在于，QQ、微信、微博、手机通讯录等方式，能够让用户非常便捷的登录，而用户一旦登录，其在社交网络等地方的数据就有可能被连带进入到网络音乐平台里面，基于C端用户的数据终于能够被很好的记录下来。

自去年网络音乐大肆打击版权以来，不少音乐内容都需要收费获取，收费的前提就是用户ID登录。用户个人也开始习惯用ID登录，从而将自己喜欢的音乐内容放在云端存储以来，无论更换任何一个硬件设备，都能够有自己的音乐客户端。

用户登录ID后，C端的数据就不再是零了，性别、头像、年龄一级用户的个人兴趣爱好，都能够被获取到，而这，是大数据非常非常重要的一部分（有C端参与的任何产品，如果没有具体C端用户的数据，说大数据都是扯淡）。

3）数据处理能力的提升。数据如果不懂得运用，再多的数据亦无用，比如成千上万个垃圾APP，就算有再多的数据，他们也只能廉价卖给第三方而不能自用。国内的几大网络音乐厂商背后，都有BAT等的影子，显然，在数据处理能力方面，BAT的能力和经验，要比普通创业公司多的多，而且，其中很重要的一部分，云存储方面，BAT等互联网巨头都有自己的云存储业务公司。还有就是，近几年互联网的技术以及计算机的数据处理能力都有所提升，摩尔定律虽然不顶用了，但计算机硬件以及互联网却在快速成长。

网络音乐可以与“大数据”聊些啥？

数据是最迷惑人的玩意儿，投资人、大V、CEO、自媒体们均为数据迷醉其中，可是，数据本身并无任何价值，而且，数据是需要挖掘才可能有的，不被挖掘的，只能算是记录，记录，会随着删除按键烟消云散，连渣都不剩。网络音乐与大数据的基础环境具备了，但是，它又有哪些数据呢？又有哪些是可以被利用的？

1）基于对音频介质的识别，完成听歌识曲的功能。几乎所有的APP都有听歌识曲功能，用户只需将手机靠近音源即可识别声音源当中的歌曲，但我不止一次曾遇到过，多款音乐APP都无法识别音源的情况，后来还是通过歌词，再用歌词从搜索引擎搜文字介质才能搜到相关内容，诡异的是，我刚识别的音乐APP就包含这首歌曲，音乐APP的听歌识曲功能简直就是摆设。国内搜索引擎的技术，更多的是基于文字介质的，音频方面的技术，还有待提升。

艺恩的数据显示，酷狗音乐、酷我音乐、QQ音乐、网易云音乐、虾米音乐、百度音乐几大音乐厂商加起来的曲库量在3000万首左右，按照每首歌10MB的存储空间，约为286.1TB，美国国会图书馆数据总共20TB，也就是说，国内所有网络音乐内容加起来的储存空间相当于143座美国图书馆数据的总库存量。按照某云计算企业的数据来看，286.1TB储存空间的费用并不算高。

作为网络音乐厂商，完全有能力将所有的数据存储起来，并通过对存储数据的分析进行处理，286.1TB算是大数据吗？反正不小，这是来自内容层的数据，也是基础。期待各大网络音乐厂商真正将听歌识曲功能做到极致的一天，实在没技术，可以和几大音频技术型的公司合作，对自身内容的挖掘，还是挺靠谱的。

2）针对用户数据，做内容的分发。今日头条的原理，就是将海量的内容放到素材库里，再按照用户的需求，进行有效分发，从而达到扩大用户点击浏览的目的。用户对网络音乐的内容有两个需求，一是已知的兴趣，比如，用户喜欢徐良，可能徐良出新歌的时候，他就会经常去收听；一是未知的兴趣，用户对某些歌曲听腻了，需要有新鲜的音乐内容，要么，主动寻找，要么，系统推送，系统推送也包含两个点，基于社会化网络的共性，基于热点的共性，比如从徐良的歌里找到与之相关的歌曲，再推送，再比如某用户喜欢听韩文歌，再细分一点，韩文里面的摇滚曲，这些，都是基于对用户理解的基础上的。

我认为要特别说明歌单功能。网易云音乐之所以能够在短期内快速崛起，和其在歌单的创作和运营能力不无关系。实际上，酷我、酷狗、QQ音乐里面也有歌单功能，即根据用户下载和喜爱的过歌曲，自动生成一定的歌单，质量虽不高，但有了系统的分发以后，相关数据却也非常亮眼，某些热门的歌单播放次数甚至达到了数千万。

《大数据时代》一书里提到：通过去探求“是什么”，而不是“为什么”，相关关系帮助我们更好得来了解这个世界。歌单就是基于相关关系的产生，比如，将徐良的歌组合在一起，将安静的歌组合在一起，将曲库里的3000万首歌曲，完全打乱重组，重新生产一个组合型的数据，用户再从这些数据里找到“网络音乐里的另一个自己”，和热门歌单不同的是，私人组合的小众型歌单，更适合于，每个人，而不是一群人。

歌单是一种新型的数据，内容既包含本身的内容，又包含用户的参与性，同样，其他用户的收听、点赞或评论等，亦是参考数据之一。而网络音乐厂商要想针对用户的数据，做好内容的分发，歌单就是用户对未知需求里重要的一部分。

3）消费能力。屌丝用户是不介意广告的，中高端用户并不介意付费，其中的小九九靠的就是网络音乐厂商对每个用户单独的分析能力。盈利问题，并不是永远可以逃避的点，所有网络音乐厂商都没有明确表明自身的盈利状况，不是不盈利，只是盈利数据和自身的互联网巨头形象不匹配，可惜，有的时候只能当鸵鸟，但不能一辈子当鸵鸟。

网络音乐厂商目前也在不断尝试C端在网络音乐上的消费能力，正版化以后，付费的环环境不断紧缩，这间接促进了用户在网络音乐上的消费，当然，每个用户是有区别的。而基于用户单独数据库的建立和分析、挖掘，并不容易，如社交网络上的数据、通讯录下的数据等，都需要技术的支持，短期内，厂商们还不具备，巨头们还舍不得花费巨额资金在这上面投入。不过，要想彻底解决盈利问题，针对用户单个的分析是不可避免的。

所幸，网络音乐熬过了那段艰苦黑暗的时光，凭的是当年各家都在默认盗版的情况下生存的。如今版权开始付费，盈利就要提上日程了，“大数据”这一重中之重的产物，网络音乐也该尝试尝试，音频方向的数据处理能力，能否成就一个巨头呢，也许。