首页 > 产品中心 > 大数据
  • 大数据
  • 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
  • 大数据的处理

     1. 大数据处理之一:采集

       大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的 数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除 此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

       在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户 来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

       2. 大数据处理之二:导入/预处理

       虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这 些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。

       导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

       3. 大数据处理之三:统计/分析

       统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通 的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于 MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。

       统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

       4. 大数据处理之四:挖掘

       与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数 据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

    大数据的商业价值

    1、对顾客群体细分

       “大数据”可以对顾客群体细分,然后对每个群体量体裁衣般的采取独特的行动。瞄准特定的顾客群体来进行营销和服务是商家一直以来的追求。云存储的海量数据和“大数据”的分析技术使得对消费者的实时和极端的细分有了成本效率极高的可能。

       2、模拟实境

       运用“大数据”模拟实境,发掘新的需求和提高投入的回报率。现在越来越多的产品中都装有传感器,汽车和智能手机的普及使得可收集数据呈现爆炸性增长。Blog、Twitter、Facebook和微博等社交网络也在产生着海量的数据。

       云计算和“大数据”分析技术使得商家可以在成本效率较高的情况下,实时地把这些数据连同交易行为的数据进行储存和分析。交易过程、产品使用和人类行为都可以数据化。“大数据”技术可以把这些数据整合起来进行数据挖掘,从而在某些情况下通过模型模拟来判断不同变量(比如不同地区不同促销方案)的情况下何种方案投入回报最高。

       3、提高投入回报率

       提高“大数据”成果在各相关部门的分享程度,提高整个管理链条和产业链条的投入回报率。“大数据”能力强的部门可以通过云计算、互联网和内部搜索引擎把”大数据”成果和“大数据”能力比较薄弱的部门分享,帮助他们利用“大数据”创造商业价值。

       4、数据存储空间出租

       企业和个人有着海量信息存储的需求,只有将数据妥善存储,才有可能进一步挖掘其潜在价值。具体而言,这块业务模式又可以细分为针对个人文件存储和针对企业用户两大类。主要是通过易于使用的API,用户可以方便地将各种数据对象放在云端,然后再像使用水、电一样按用量收费。目前已有多个公司推出相应服务,如北京开运联合、网易、诺基亚等。运营商也推出了相应的服务,如中国移动的彩云业务。

      5、管理客户关系

       客户管理应用的目的是根据客户的属性(包括自然属性和行为属性),从不同角度深层次分析客户、了解客户,以此增加新的客户、提高客户的忠诚度、降低客户流失率、提高客户消费等。对中小客户来说,专门的CRM显然大而贵。不少中小商家将飞信作为初级CRM来使用。比如把老客户加到飞信群里,在群朋友圈里发布新产品预告、特价销售通知,完成售前售后服务等。

       6、个性化精准推荐

       在运营商内部,根据用户喜好推荐各类业务或应用是常见的,比如应用商店软件推荐、IPTV视频节目推荐等,而通过关联算法、文本摘要抽取、情感分析等智能分析算法后,可以将之延伸到商用化服务,利用数据挖掘技术帮助客户进行精准营销,今后盈利可以来自于客户增值部分的分成。

       以日常的“垃圾短信”为例,信息并不都是“垃圾”,因为收到的人并不需要而被视为垃圾。通过用户行为数据进行分析后,可以给需要的人发送需要的信息,这样“垃圾短信”就成了有价值的信息。在日本的麦当劳,用户在手机上下载优惠券,再去餐厅用运营商DoCoMo的手机钱包优惠支付。运营商和麦当劳搜集相关消费信息,例如经常买什么汉堡,去哪个店消费,消费频次多少,然后精准推送优惠券给用户。

       7、数据搜索

       数据搜索是一个并不新鲜的应用,随着“大数据”时代的到来,实时性、全范围搜索的需求也就变得越来越强烈。我们需要能搜索各种社交网络、用户行为等数据。其商业应用价值是将实时的数据处理与分析和广告联系起来,即实时广告业务和应用内移动广告的社交服务。

       运营商掌握的用户网上行为信息,使得所获取的数据“具备更全面维度”,更具商业价值。典型应用如中国移动的“盘古搜索”。

    大数据的应用

       1. 政府用于改善城市,调查民生

       大数据被应用改善我们日常生活的城市。例如基于城市实时交通信息、利用社交网络和天气数据来优化最新的交通情况。目前很多城市都在进行大数据的分析和试点。

       目前,智慧城市的建设在国内外许多地区已经展开,并取得了一系列成果,智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。其实质是利用先进的信息技术,实现城市智慧式管理和运行,进而为城市中的人创造更美好的生活,促进城市的和谐、可持续成长。科多大数据作为中国智慧城市大数据创新联盟副理事长单位,拥有不少此类大数据资源。

      2.医疗行业用大数据进行治疗与预测。

       大数据分析应用的计算能力可以让我们能够在几分钟内就可以解码整个DNA。并且让我们可以制定出最新的治疗方案。同时可以更好的去理解和预测疾病。就好像人们戴上智能手表等可以产生的数据一样,大数据同样可以帮助病人对于病情进行更好的治疗。在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。

      3. 销售行业通过大数据分析客户需求。

       大数据的应用目前在这领域是最广为人知的。重点是如何应用大数据更好的了解客户以及他们的爱好和行为。企业非常喜欢搜集社交方面的数据、浏览器的日志、分析出文本和传感器的数据,为了更加全面的了解客户。在一般情况下,建立出数据模型进行预测。

       大数据在这方面的应用最出名的就是亚马逊了,亚马逊个性推荐的算法包含多种因素,向用户推荐商品前,要分析例如购买历史、浏览历史、朋友影响、特定商品趋势、社会媒体上流行产品的广告、购买历史相似的用户所购买的商品等等。为了向用户提供更好的服务,亚马逊一直在不断改进推荐算法。通过向用用户提供建议,亚马逊获得了10%到30%的附加利润。

    大数据的运用,景区还缺了这些?

        大数据时代,景区的智慧化建设,各个方面的发展,大数据都成了绕不开的话题。这是因为它不仅有助于精准营销,有利于提升景区的管理水平和服务标准,甚至还能够推动景区进行产品创新,实现转型升级。

       目前,不少景区已经在数据采集与数据分析方面进行了探索,并初尝甜头。不过,在业内人士看来,景区对大数据的理解和运用还较浅显。如果说大数据是一座深埋地下的金矿,那么景区离这座金矿尚有些距离,甚至可以说仅仅处在刚刚开挖的阶段,而在挖掘的过程中,其最大的羁绊恐怕就是数据范围小、信息量少、难以获取景区之外的相关数据等问题了,但显然,这方面的数据才更加重要。

       大数据思维普遍被接受

       笔者在走访中发现,山东省5家受访的5A景区都将利用大数据进行精准营销放到首位,数据分析内容包括客源地、游客职业、性别年龄、消费能力等。除此之外,也有些景区开始尝试利用大数据提升管理与服务,促进转型升级。

       山东蒙山旅游集团营销总监郭涛表示,蒙山景区通过大数据分析,在济南、青岛、北京等地进行了精准营销。今年上半年,入园人数和消费实现了两位数增长,其中以20—40岁游客为主,而且消费能力较强的游客明显增多。

       位于海拔900米的蒙山会馆原来基本以会务接待为主,而如今散客占比达到60%-70%我们通过后台数据发现了散客化这样一种趋势。基于这些数据,我们将会进一步分析,看看新客群的旅行偏好、游览需求是什么,然后按照这些结论进行景区相关产品的调整升级。郭涛说。

       泰山景区信息中心主任宋磊介绍,除了有针对性地宣传营销,泰山还利用大数据对假日景区游客量、客流高峰期进行预测预判,以此作为景区假日信息指挥平台的管理依据,并结合电子门票、高清监控系统等实时客流数据,了解景区游客分布情况,及时采取分流疏导措施,保障游客旅游安全和秩序。

       曲阜三孔景区计划借助高德、百度地图等将景点讲解处、厕所、充电站、直饮机等位置信息推送给游客。

       崂山旅游集团总经理戴衍华表示,大数据可以对点评、投诉等数据进行分析,用以提升服务,也可以预测新产品是否会得到游客认可。

       蓬莱阁管理处副主任朱龙表示,通过大数据分析,景区可以掌握游客需求,增加供给,另一方面,把自己的产品线路、纪念品种类及特色、票务种类及价格、景区承载量及当前在园人数、景区气候环境状况、周边渔家乐农家乐等住宿情况及时提供给游客,使他们合理安排行程。

       数据主要来自景区及OTA

       目前,受访的55A景区都已经建立了数据采集与分析团队,有专职亦有兼职,数据来源主要是靠景区自己积累或与OTA合作产生。

       郭涛介绍,蒙山去年开始着手探索大数据,并组建了一支四五个人的分析团队,对景区停车场智能检索系统分析,可以通过车牌号了解自驾客的客源地;对旅游团的统计数据则能分析出团队的年龄性别比甚至消费能力,对线路产品做出调整。同时,景区也在与一些大的OTA进行合作,从广告投放的角度获取数据,分析目标受众的构成、广告的点击率与转化率,从而加强精准营销。

       泰山目前有5名数据采集、分析人员。宋磊介绍,泰山的数据来源有五个,一是网络数据,如网站、微信、微博等访问数据,以及百度搜索指数、百度热力图等第三方数据;二是电子售票系统的售票与检票数据,网络票务预订数据,获取游客的身份信息等;三是对游客抽样调查问卷;四是景区现有数字化保护管理系统,监控系统与定位系统,了解游客分布密度与实时动态;五是景区客运车辆、索道的运行数据。

       崂山旅游集团与崂山风景区信息中心共有7名数据分析员,数据来源基本靠OTA、天猫店、百度地图、景区网站、微信号等渠道进行数据搜集,现在正考虑与三大通信运营商进行合作,获取更细化的数据信息。

       三孔旅游服务有限公司在今年年初组建了5人的数据分析团队。该公司营销中心主任王勇介绍,数据来源主要是阿里旅行、携程、高德地图、百度地图,目前正考虑与一些知名OTA合作,获取大量数据。

       掘金大数据尚是难题

       戴衍华表示,景区非常需要大数据,但是景区如何获取全面、准确、有效的数据是当下面临的一道难题。获取数据的源头十分关键,电商手里的只是消费数据,景区更关心游客在景点的滞留时间、对景点的喜好偏向,在景区的消费、吃住、购物等环节,也包括游客使用厕所的数据等,这些对景区进行基础设施的设置有很大影响。

       “大多数景区掌握的都不是大数据而是大概数据,目前掌握大数据并准确使用大数据的景区非常少。穆衍鹏说,要想获得全面而准确的大数据,需要有大量人力、物力和资金的投入,还需要齐备的软件、硬件设施进行配套,而且数据分析人才也必不可少,不会分析数据,不懂数据的含义,必定是对数据资源的极大浪费。

       宋磊认为,目前更难解困的恐怕是如何获取景区之外的有效数据,这些数据分散在铁路、公路、公安、三大运营商、信息检索网站等不同部门、不同机构和企业中,很多数据还处于相对封闭状态,之间也缺乏联系性。景区只有获得全面、系统的数据并加以分析,才能精准把握游客的动态、消费偏好,才能有目的地进行整改提升,提供令人满意的服务。

       山东省旅游发展委员会市场处处长闫向军认为,现在所说的大数据实际上90%以上是细分市场统计数据,比较微观,很难称之为大数据,大数据的量要足够大,有相关性,有代表性。即使这样,相当一部分也不是大数据,只是正常的市场数据。市场数据能用好就已经算不错了。他说。

       闫向军指出,就目前来看,景区能做的有两方面,一方面要加强景区内基础数据的采集,另一方面要打通各主要行业,掌握游客完整的行为数据,这包括通信、交通、银行、餐饮等,将以上这些数据进行全方位整合,从游客消费习惯入手,去解决景区面临的实际问题。
    大数据对企业的发展,对于智慧城市的建设意义重大,而这一切的发展都将需要更多的大数据人才,想要成为企业争抢的人才,大数据培训就找科多大数据。