帮助 收藏

登录

图书资讯 | 活动预告 | 最新上架 | 重点推荐 | 精彩书评 | 套书展示 | 在线阅读

竞争情报进展(2014)——大数据竞时代企业应对挑战、把握机遇的有效手段

作者:谢新洲 主编

ISBN:9787508087191

出版时间:2016-04-28

开 本:16开 170*240  页数:236页

定价:¥86

已有0人评价,查看评论

分享到:0

图书详情

  本书《竞争情报进展(2014)》侧重于分享各国竞争情报实践案例,全书从大数据竞争情报系统、企业竞争情报组织运作、竞争情报在生产活动中的具体应用及社会化媒体分析四个方面由来自日本、德国、美国以及中国的专家和业者分享了他们的实践经验以及对专业的深刻思考。

章节目录

大数据竞争情报系统
网络大数据情报服务平台研究……2
工业企业大数据情报服务平台应用……24
MQShareNet系统在西门子竞争情报活动中的应用研究……38

企业竞争情报组织运作
企业竞争情报组织模式和行为的研究——日本三井化学公司与时俱进的竞争情报组织案例分析……62
企业竞争情报系统和组织模式研究——揭秘花王公司的秘密情报组织“数字商业管理室” ……71
日本企业竞争情报组织模式研究——味之素公司情报部门的历史变迁与启示……80
大型企业竞争情报组织与运作研究……88
Competitive Intelligence and Due Diligence—the case of Muddy Water Research…… 114

竞争情报在生产活动中的应用
竞争情报在体育产业中的应用——日本女排重返世界领奖台的秘诀探索…… 124
基于企业竞争情报的营销策略研究 ——日产汽车竞争情报案例分析…… 133
竞争情报循环在专利分析活动中的应用——旭化成集团专利组合的案例分析…… 143
中小企业新产品开发竞争情报研究与实践…… 154

社会化媒体分析
Innovative Solutions for Social Media Analysis concerning Known (1) and Unknown Unknowns (2)…… 164
汽车品牌在社会化媒体中传播效果评价研究…… 173

编辑推荐

1.竞争情报是大数据竞时代企业应对挑战、把握机遇的有效手段;
2.本书侧重于分享各国竞争情报实践案例,探讨了竞争情报如何应用在各种生产活动中;
3.本书是海内外竞争情报领域顶尖专家及从业者的又一次先进思想大集结。

书摘插图

序言
  在中国,对“情报”的认识和运用,其源头一般都会追溯到春秋战国时期,在孙子的那个年代,《孙子兵法》中的“谍报”大体上就等于情报。孙子将谍报人员分为“乡间、内间、反间、死间、生间”五类,并认为“五间俱起,莫知其道,是谓神纪,人君之宝也”,谍报采集人员以及谍报采集工作本身的重要性不言而喻。如今,虽然我们所说的情报早已不同于间谍、谍报,但情报工作的重要性仍然是不容撼动的。这些年,我们为了促进业内人员之间的互动和沟通,加深人们对情报工作的认知和理解,做了紧密联系的两件事:一是连续办了四届竞争情报国际会议,邀请国内外从业者、专家、学者汇聚在一起,相互交流彼此的研究成果和从业经验;二是出版了两部竞争情报进展书籍,分别是《竞争情报进展2010》、《竞争情报进展2012》,目前这本书可以说是竞争情报进展第三季。
  《竞争情报2010》概述系统追溯了中、英、法等国的竞争情报发展历程,并对未来各国竞争情报所面临的机遇与挑战进行了总结和展望,同时也就产业竞争情报、专利情报研究方法、观点挖掘与情报分析、技术竞争情报等专门问题展开了深入分析研究。《竞争情报2012》采取点面结合的方式,既有从面上对近25年来国内竞争情报研究进展的系统梳理,又有专注某一点如人际情报网络、竞争情报新方法等进行专门的梳理和报道,同时侧重最新竞争情报技术、方法及工具的研发与应用研究。
  本集《竞争情报进展》侧重于分享各国竞争情报实践案例,全书从大数据竞争情报系统、企业竞争情报组织运作、竞争情报在生产活动中的具体应用及社会化媒体分析四个方面由来自日本、德国、美国以及中国的专家和业者分享了他们的实践经验以及对专业的深刻思考。
  大数据时代,机遇与挑战同行,大数据竞争情报系统正是应对挑战、把握机遇的有效手段之一。谢新洲、王强分析了大数据对情报服务所产生的影响,并在此基础上提出了“网络大数据情报服务平台”构想,包括平台建设原则、建设目标、平台的功能架构等。崔琪介绍了已为全国超过2万家中小生产制造企业提供产业链情报信息服务的“工业企业大数据情报服务平台”的主要技术、情报规划、服务模式、应用案例、应用场景等;李纲、叶光辉就竞争情报实践活动提出了两层“社区—技术”系统的构想,并引入ShareNet系统实践案例加以例证。
  企业竞争情报如何组织运作一直是竞争情报领域的关键问题。王珊珊、高桥文行通过问卷调查方式向我们呈现了日本企业的竞争情报组织模式和活动状况,介绍了三井化学公司情报组织追随时代而不断变化和发展的状况;高桥庄子介绍了花王公司的竞争情报组织——“数字商业管理室”的作用和活动内容;南崎纪子以拥有百年历史的味之素公司为例,深度分析了情报关联部门的组织结构的演变过程;王庆红剖析了某大型电网企业基于“TAP-IN”机制的竞争情报系统的功能布局规划和运行情况;美国Qingjiu Tao以Muddy Water Research公司为例阐述了竞争情报如何在调查咨询企业得以成功运作的。
  探讨竞争情报如何应用在各种生产活动中、发挥怎样的作用也是竞争情报实践经验分享的主要目标之一。日本专家高桥文行、菅泽喜男介绍了美国和日本竞争情报在体育产业中的研究和应用情况,并以日本女子国家排球队为例验证了竞争情报在体育产业中的重要性和有效性;高桥庄子分析和总结了日产汽车公司开展竞争情报工作的成功经验;鹤见隆提出了竞争情报循环的改进型模式,通过对日本旭化成集团在建立业务、研发、知识产权三位一体体制下的专利组合分析的案例,验证了专利分析活动中竞争情报循环的有效性。史敏、李维思等以湖南省四类典型的中小企业为例,阐述了竞争情报是如何在中小企业新产品开发等方面发挥作用的。
  社会化媒体的兴起给竞争情报带来了机遇,通过社会化媒体分析获取竞争情报成了新的研究热点。德国Prof. Dr. Martin Grothe认为社会化媒体是分析企业优劣势的有力工具,计算机语言与语义分析工具结合将可使得企业有意想不到的收获,如洞察力的提高、对弱信号的捕捉能力增强等等。王强、邓明荣设计了适用于微博、博客、论坛、社区等多种社会化媒体的品牌传播效果评价指标体系,以“社会化媒体影响力指数(Social Media Influence Index,Somin)”为基础,对我国主要汽车品牌及其旗下车型在社会化媒体平台的影响力进行了全面评价。
  本书是继2010年、2012年《竞争情报进展》出版后,海内外竞争情报领域顶尖专家及从业者的又一次先进思想大集结,他们以自己深厚的知识积淀与深刻的实践体会,站在更高的角度为竞争情报研究者及从业者展现了他们思想的精华,对竞争情报、决策咨询、信息服务等相关领域的研究者和实践者具有参考价值和启发意义。
  在此,感谢“北京市科学技术研究院科技创新工程项目”专项资金的支持,并再次感谢参与本书写作的各位同仁诚恳而辛勤的付出!同时,若您对本书某一篇或某几篇文章有自己的看法,欢迎广大读者与本书作者切磋、交流。


谢新洲
2015年5月13日

网络大数据情报服务平台研究
谢新洲1    王 强2
1北京大学新媒体研究院,北京,xzxie@pku.edu.cn
2北京大学新闻与传播学院,北京市科学技术情报研究所,北京,wq971120@163.com

[摘  要] 大数据时代的到来为以数据为基础、以互联网作为重要情报来源的情报服务带来了前所未有的挑战和机遇。为此,本文通过对大数据相关研究现状的综述,分析了大数据对情报服务产生的影响,在此基础上,提出了构建基于海量互联网数据的获取与挖掘、异源异构数据整合及海量数据高速处理等技术的“网络大数据情报服务平台”的构想,明确了平台的建设原则和目标,详细阐述了由数据层、分析层、应用层和调度管理层构成的功能架构,以及基于Hadoop的分布式部署架构,最后总结了平台的特色。
[关键词]  大数据  情报服务平台  互联网  Hadoop  分布式部署
[分类号]  G250.2

Study on Intelligence Service Platform Based on Internet Big Data
[Abstract] The arrival of big data era brings unprecedented challenges and opportunities for intelligence service which is data based and consider internet as its important source. Therefore, Academy of New Media Research PKU, Beijing Institute of Science and Technology Information along with their partners such as Beijing Cyber Wisdom Information Technology co., LTD researched and developed the ‘Intelligence Service Platform Based on Internet Big Data’ successfully based on huge amounts of Internet data acquisition and mining technology, integration technology of heterogeneous source and structure data and high speed processing technology of huge amounts of data. This paper analyzes the influence of big data on intelligence service through the review of related research of big data. The function structure composed of data layer, analysis layer, application layer and dispatching management layer as well as distributed deployment architecture based on Hadoop is stated in detail. Finally the characteristics of this platform is summarized.
[Keywords]Big data; Intelligence service platform; Internet; distributed deployment architecture
  “大数据”已经成为当前最热门的词汇之一。关于什么是“大数据”,现在还没有标准的定义,维基百科对大数据给出的解释是:大数据是一个大而复杂的、难以用现有数据库管理工具处理的数据集。广义上,大数据有三层内涵:一是数据量巨大、来源多样和类型多样的数据集;二是新型的数据处理和分析技术;三是运用数据分析形成价值。随着互联网快速发展,特别是社会化媒体和移动互联网的广泛应用,互联网已经进入了大数据时代[1]。
  大数据时代的到来为以数据为基础、以互联网作为重要情报来源的情报服务带来了前所未有的挑战和机遇。一方面,大数据具有4V特征,即数据量巨大(Volume)、数据类型多样(Variety)、数据价值密度低(Value)、数据处理要求快(Velocity),这些特征对情报的获取方式、分析方法、处理技术和展现形式都提出了更高的要求;另一方面,数据存取技术的发展、海量数据的存在、云计算技术的成熟,为情报服务提供了更加丰富的信息来源,甚至改变了情报服务的理念。如何通过有效手段应对大数据的挑战,是把握互联网大数据所带来机遇的关键。
  本文通过对大数据相关研究现状的综述,分析了大数据对情报服务产生的影响,在此基础上,提出了构建基于海量互联网数据的获取与挖掘、异源异构数据整合及海量数据高速处理等技术的“网络大数据情报服务平台”的设想,明确了平台的建设原则和目标,详细阐述了平台的功能架构和分布式部署架构,并总结了平台的特色。
1 研究现状
  2008年,加州大学伯克利分校教授Clifford Lynch在Nature上发表了题为“Big data: How do your data grow?”的文章[2],首次使用了“大数据(Big Data)”这一词,此后,大数据受到各领域越来越多的关注。2011年5月,第11届EMC World大会以“云计算遇到大数据”为主题,会上正式提出了“大数据(Big Data)”的概念[3]。此后,IBM、麦肯锡等商业巨头在其发布的报告中,多次提到大数据带来的严峻挑战、巨大机遇,并阐述了大数据的特征及其对世界的影响[4,5]。2011年2月,Sciences就大数据问题出版了专刊Dealing with Data,探讨了大数据为气象、生态、生命科学等方面的研究带来的机遇和挑战,深入研究了如何更好地组织和使用科学研究中产生的大数据[6]。国内方面,大数据成为2012年8月在北京举办的第18届知识发现与数据挖掘(KDD)国际会议的重要议题,中国计算机学会(CCF)成立了大数据专家委员会(CCF Big Data Task Force,简称 CCF TFBD)[7]。
  大数据目前已经从商业和学术领域,逐渐成为国家和地方的战略。2012年3月,美国政府宣布了“大数据研究和发展倡议(Big Data Research and Development Initiative)”,来推进从大量的、复杂的数据集合中获取知识和洞见的能力[8]。广东省在2014年2月印发的《广东省经济和信息化委员会主要职责内设机构和人员编制规定》中明确提出了设立广东省大数据局[9],上海也在研究筹备大数据局[10]。
  尽管大数据备受关注,但与之相关的很多科学问题和关键技术仍然尚未成熟。黄哲学等总结了大数据面临的三大科学问题:超高维的问题,数据量的问题以及大数据分析方法的问题[11]。李晨晖设计了一个通用的大数据知识服务平台,并基于此提出了大数据环境下知识服务的关键技术,包括:复杂结构化、半结构化数据管理与处理技术,大数据智能识别、传感与适配技术,大数据知识服务模式、体系架构、资源分类及平台标准规范,大数据知识服务全生命周期中的数据、知识、资源、能力、服务、过程和任务等资源和能力的虚拟化接入技术,大数据知识服务交易模型研究,大数据知识服务全生命周期管理技术,大数据知识服务质量评价体系,支持多元化、可视化大数据知识服务终端交互技术等[12]。
  虽然大数据仍然面临很多严峻的挑战,许多机构为了掌握先机,已经在现有成熟技术的基础上建立了大数据平台,一些商业化产品纷纷推向市场。IBM、微软、英特尔、甲骨文等商业巨头推出了较为成熟的大数据解决方案,并在城市管理、医疗、电信等领域得到应用。华为、浪潮等国内IT企业也斥巨资布局大数据战略,并向市场推出了商业化产品。国内高校和科研机构是大数据研究的主要力量,在平台关键技术方面取得了大量成果,并开发了相应的大数据分析平台,如中国科学院开展了“海云数据系统关键技术研究与系统研制”[13],清华大学在清华知云基础上对大数据处理分析技术开展了深入研究[14],中南大学斥资1亿元建设湘雅临床大数据系统[15]。
  大数据同样引起了情报人员的广泛关注,情报研究人员在探讨大数据对情报服务和学科影响的同时,已经开展了大数据在情报服务中的应用研究。《图书情报工作》近期发表了专题——大数据环境下的情报方法研究与应用,从不同侧面探讨了情报方法在新的数据环境下的新发展和新应用以及现有情报方法的改进策略[16~20]。与IT领域相比,在平台建设方面,情报领域还在研究和设计阶段。李晨晖在对大数据知识服务模式的运行机理分析的基础上,设计了大数据知识服务平台体系架构[21]。黄晓斌从大数据产生的原因和特征出发,构建了基于大数据的企业竞争情报系统模型[22]。
2 大数据对情报服务的影响
  基于数据提供决策参考是情报服务的主要功能,这并非是大数据概念提出后情报服务才具有的,然而从大数据的概念来看,大数据从理念、分析方法、技术手段和展现方式等方面,均对情报服务的产生了较大影响。
2.1 大数据改变了情报服务的理念
  从服务理念看,大数据强调一切皆为数据,这使得情报服务过程中对数据更加关注,不仅是信息资源以及通过各种渠道采集的数据和事实需要进行处理,服务过程中产生的各种管理信息。例如,信息采集人员采集信息的过程,情报分析师分析信息使用的方法、模型和算法,情报循环中各个环节的交付件和交付过程等等,都需要使之转化为相应的数据并进行处理,基于对这些数据的分析,对整个情报服务过程进行优化,通过管理优化提高情报服务的质量和效率。
  除此之外,用户的需求数据、情报产品的用户使用数据、用户在业务中的一般行为数据在大数据理念下也将被利用起来,从以需求为导向的关键情报课题(Key Intelligence Topics, KITs)研究,转向以需求数据为导向的KITs,从把握需求为目标,转向以预见需求为目标,通过情报用户大数据为情报服务争取主动。大数据的存在可以更加全面地描述历史,并从中发现规律,从而更好地预见未来。可以说,正是由于大数据的存在,使面向决策的预测和预警成为情报服务的核心任务。
2.2 大数据丰富了情报源
  大数据产生的重要原因是数据获取、发布终端技术和数据存储、组织技术的快速发展,由于由用户生产内容(User Generate Contents, UGC)的新兴社交媒体的快速发展和普及,其所产生的数据所占比例越来越高,数据量也越来越大。这些数据内容中包含了传统数据源所不能提供的言论数据和由言论数据体现出的行为数据,通过深入分析和挖掘,又可以得到观点倾向性数据,这些数据在舆情监测、客户偏好分析、产品比较分析、竞争对手分析等方面为情报服务提供了新的思路和线索。
  如果说新兴社交媒体在空间上拓展了情报源,那么智能手机就在时间上拓展了情报源,移动社交媒体产生的大数据,从数量、形式、内容和结构上极大丰富了情报源。
2.3 大数据强化了情报服务的功能
  从情报服务的传统功能来看,环境监测、市场预警、技术跟踪、对手分析在大数据环境下都得到了强化。情报分析的各种数据不断丰富,并出现了很多新的数据类型:更多的行为数据和观点倾向性数据成为情报分析的重要组成部分;自媒体信息以及网络用户的评价信息,包括网络用户在社交媒体上体现的人际网络,为更加全面的情报分析提供了新的数据;更多关于环境变化的信息通过新媒体发布并快速传播,同时,大数据环境下,情报分析人员可以获知更多专家、相关利益群体对外部环境变化的反应和评论,为外部环境的实时监测和全面评估提供了新的思路;企业自媒体的运营为企业和客户的交流建立了更加通畅的渠道,通过这种渠道,更多针对产品、技术和服务的信息得以快速反馈,在加强企业与客户联系的同时,为技术缺陷的发现、新技术挖掘、技术完善等技术情报工作提供了新的情报源。
  大数据环境下,情报服务一直追求的全面性、时效性、准确性、预见性等服务指标得以大幅提高。大数据中更多关联数据、社交数据等增强了情报服务过程中对客户、对手、环境、技术、产品包括企业自身描述的全面性。正是由于这种全面性的存在,使情报监测分析对象的规律更加准确地被把握,将情报服务在及时推向实时的同时,进一步提高了情报服务预测预警的准确性,从而增强了决策的预见性。
2.4 大数据为情报处理技术提出了严峻的挑战
  大数据的存在为情报服务提供了前所未有的机遇,然而,在技术和方法方面仍面临着严峻的挑战。大数据环境下的核心矛盾是大数据高速增长与人类获取能力有限性的矛盾,发挥大数据价值的关键在于能否根据情报需求,将大数据进行采集、筛选、压缩、整合,并有效加以利用,通过信息化、智能化的手段,跟踪、获取并挖掘海量数据,从中发现线索,并将碎片化的线索组织起来,从中发现联系,掌握规律,进行预测预警。因此在大数据环境下,海量数据跟踪、获取和挖掘技术,异源、异构数据整合、组织技术,海量数据甄别、筛选技术以及海量数据高速处理技术都面临着严峻的挑战。大数据环境下,情报研究将从单一领域情报研究转向全领域情报研究,并向综合利用多种数据源、注重新型信息资源的分析、强调情报研究的严谨性和情报研究的智能化方向发展[23]。
3 网络大数据情报服务平台建设原则与目标
  面对大数据带来的巨大机遇和挑战,基于互联网大数据获取、存储、组织、挖掘等技术,构建“网络大数据情报服务平台”(以下简称“平台”),才能有效应对大数据4V特征带来的挑战,挖掘互联网大数据中蕴含的巨大价值,解决大数据高速增长与人类获取能力有限的矛盾,帮助政府和企业做出更加准确、更加具有预见性的决策。
3.1 建设原则
  从研究现状的述评可以看出,大数据环境下情报服务平台目前仍处于系统模型和平台框架研究阶段,尚未见平台建设的研究和实践。为保障平台建设总体目标的实现,平台建设应遵循如下原则。
3.1.1 技术先进性与可靠性的原则
  大数据的概念提出时间有限,其内涵和外延仍在快速发展当中,平台建设应当应用大数据的先进技术并留有足够的接口,以确保平台发展的可持续性,为今后先进成果的封装和应用提供空间。与此同时,平台建设以情报用户的最终需求为导向,以能否准确、高效地满足大数据环境下情报需求为评价标准,因而要始终强调平台在应用中的可靠性,优先采用Hadoop等技术领先、得到较为广泛认可并具有实际应用案例的成熟技术。
3.1.2 平台可拓展性与可维护性的原则
  随着大数据相关科学问题和技术难关的逐项突破,相关的研发成果将逐步应用于情报服务中。一方面,为降低二次开发成本,缩短大数据技术成果转化时间,平台应具有足够的可拓展性。另一方面,随着应用范围的不断拓展,应用领域的不断扩大,平台对硬件条件的要求会越来越高,将会需要不断扩展存储空间、提升计算能力,因而在存储和计算策略的制定上需具有足够的扩展性。
3.1.3 机器智能与人类智慧相结合的原则
  平台中将封装大量分析算法和模型,为切实保障平台运算准确、高效,在平台运行过程中,需结合人工干预,将分析人员和领域专家智慧与机器智能算法相结合。在此期间通过建设语料库,确保机器学习过程的有效指导,为算法的更新和优化奠定数据基础。在分析结果的解读方面,充分发挥情报分析人员和专家的知识优势,使最终用户通过平台不仅能够快速获得海量数据中有价值的信息,同时获得有智慧的情报。
3.1.4 界面友好与快速响应的原则
  平台为情报用户提供友好的操作界面,在UI方面严格以用户为中心进行设计,以可视化的方式显示分析结果,为用户提供更直观的情报内容,并提供界面定制功能,满足不同用户个性化的需要。快速响应用户点击、查询等请求,平台界面响应时间不超过7秒。
3.1.5 安全性的原则
  平台应确保运行安全和数据安全。平台通过建立完善的备份策略和故障处理机制,确保平台7×24小时不宕机运行。通过足够的冗余备份,保障数据存储安全,同时通过软硬件安全机制和权限策略,确保数据访问安全。
3.2 建设目标
  平台建设的总体目标是有效应对网络大数据对情报服务的挑战,挖掘互联网大数据中巨大的情报价值,在以上建设原则的指导下,实现如下建设目标。
3.2.1 实现互联网数据源全面跟踪
  平台将实现对新闻网站、论坛、博客、微博等不同类型数据源的持续监测,全面覆盖接入互联网的数据源。通过定义用户、新闻、评论等网络实体,对数据源中能够获得的所有属性进行全面抓取。
3.2.2 实现网络数据实时监测
  平台通过分布式架构进行多点并行采集,实时监测数据更新情况,并将分析结果第一时间反馈给用户,进一步提升大数据环境下情报服务的时效性。
3.2.3 实现对网络大数据的深度分析
  通过研发并实现大数据预处理算法,并围绕用户、内容、地域、媒介等情报分析对象进行分析模型的构建,以阐述历史及现状为基础,以挖掘数据中蕴含的规律为目标,以预测、预警为服务内容,以高水平云计算能力为条件,实现对网络大数据的深度分析。
3.2.4 实现情报分析结果可视化
  通过信息图、数据统计图、动态图等方式,直观地将情报分析结果反馈给情报用户和情报分析人员,同时提供情报分析报告自动生成和数据结果导出等功能,并充分利用各种互联网访问终端完成情报传播。
3.2.5 实现数据采集和分析的人工干预功能
  实现人机结合平台,通过人工干预,优化数据采集、预处理和情报分析的结果,一方面确保情报分析的准确性,另一方面为更加智能的机器分析奠定数据基础。
4 网络大数据情报服务平台架构
  大数据环境下,数据的体量、结构均不同于以往,为实现平台建设的目标,平台架构需要根据大数据的特点进行设计。
4.1 平台功能架构
  平台功能设计围绕大数据环境下用户的情报需求,采用“三层结构”的设计思想,在逻辑上按“数据层、分析层和应用层”进行设计,由于采用以云计算为基础的分布式存储和计算,因此建立调度管理层对存储、查询和计算等过程进行统一调度(图1)。尽管从平台的功能架构看,与传统数据环境下的情报服务平台相仿,但是在每个功能层的具体构成和实现上还是体现出大数据的特点。

图1 平台功能架构
4.1.1 数据层
  数据层实现对海量、异源、异构大数据的获取、组织和管理,由数据源管理系统、数据采集引擎、数据预处理系统和数据组织与存储系统构成。
(1)数据源管理系统
  各种类型的网站是网络大数据的数据源,然而不同的网站的结构差异性极大,导致无法采用统一的配置参数对不同数据源进行配置。网络爬虫虽然具有强大的网页信息获取能力,但是在获取网页信息的同时,并不对网页结构进行区分,例如,网页上通常含有标题、正文、发布时间、来源、关键词、评论数量等对情报分析有价值的内容,同时也有广告、网站推荐等噪音信息,但网络爬虫通常只能对标题、正文进行区分,并且不能对噪音信息进行有效过滤。
  为此,平台设计了数据源管理系统对数据源进行统一管理,通过人机结合的方式对数据源的结构进行精准配置。先通过自主研发的“iseeye可视化数据采集系统”对主要数据源进行人工配置(图2),以配置结果为训练样本,实现数据源抓取模板的自动配置,为准确获取数据奠定基础。

图2 iseeye可视化数据采集系统
(2)数据采集引擎
  数据采集是平台的核心任务,传统数据环境下单点采集的方式已经无法适应大数据环境的需要,必须采用多个采集节点进行分布式数据采集。为此,平台设计并实现了数据采集引擎(图3)对数以万计的数据源进行实时监测。
  数据采集引擎的核心是采集节点和采集任务调度中心(图4),其中采集节点按照调度中心度分配的任务,进行请求头设置、Cookie读写、代理服务器设置等操作,依据数据源配置结果进行网页爬取,对于提供接口的数据源进行访问,同时将获取的数据回传到调度中心,同时报告负载情况。采集任务调度中心完成对采集任务的分发,并统一管理不同任务之间的关系,同时负责维护众多的采集结点,以及IP分配、网址排重、数据预处理管理路由等工作。

图3 数据采集引擎逻辑结构图

图4 数据采集引擎功能结构图
(3)数据预处理系统
  在网络情报分析中,数据预处理包括对非结构化文本数据的结构化处理、异源异构数据的整合、文本自动分类以及基于文本内容的一些处理工作,在情报服务平台中,这些工作是情报分析的基础,同时也是限制情报分析效率和响应时间的瓶颈。
  在本平台中,在采集任务完成后,即通过数据预处理系统,通过分布式计算,对采集到的异源、异构数据进行预处理操作,具体的操作包括分词、内容关键词提取、关键词向量计算、自动摘要生成、命名实体识别、自动分类等(图5)。

图5 数据预处理系统
  为提高数据预处理的准确性,同时为算法优化提供必要的语料,平台设计了人工干预的数据加工平台对数据预处理系统自动处理的结构进行修正,特别是对不同领域的命名实体进行标注和加工(图6)。

图6 数据加工平台
(4)数据组织与存储系统
  经过预处理的数据尽管面向具体领域和任务,较之原始数据有了一定的压缩,但仍然处于很高的数量级,预计平台应用初期存储的增长速度约为100GB/天,因此,数据的组织和存储的策略将对分析的效率产生极大的影响。平台将采用成熟的Hadoop技术,采用分布式存储和索引策略,为分析层高效分析奠定基础,具体的架构方式将在下节详细介绍。
4.1.2 分析层
  分析层在数据预处理并组织存储的基础上,根据应用层功能需求,运用特定的情报分析算法和模型,对不同应用的共性对象进行分析,这些共性对象包括对情报生产者、传播者、浏览者等传播主体的分析,对门户网站、社会化媒体等不同媒介的分析,对传播内容的分析,对情报所在地域的分析,以及基于以上分析的预测和预警。
(1)算法&模型管理模块
  对不同对象的分析需要用到不同的算法或模型,由于使用的模型和算法众多,在可扩展性和可配置性原则的指导下,平台设计了算法&模型管理模块进行统一管理,具体实现对模型或者算法的功能、输入、输出、计算过程、约束等属性的管理和维护,实现分析层与数据层、应用层的低耦合。
(2)传播主体分析模块
  社会化媒体的快速发展进一步拓展了信息生产者和传播者的边界,所有生产、传播信息的互联网用户构成了情报传播的主体,为情报分析提供了更为丰富的线索,对这些主体的行为、属性、特征的分析成为具有重要价值的情报内容。传播主体分析模块以互联网用户和信息发布机构为分析对象(图7),对其发布的内容、持有的观点、各种属性进行分析,为情报判别提供依据。

图7 传播主体分析模块
(3)媒介分析模块
  媒介是情报生产和传播的渠道,针对情报传播媒介的分析可以迅速定位情报来源,是情报甄别、决策的重要依据(图8)。

图8 媒介分析模块
(4)内容分析模块
  内容是情报分析最关键的对象,本平台封装了大量内容分析的方法和技术,包括观点倾向性分析、热词分析、口碑分析、聚类分析等(图9)。

图9 内容分析模块
(5)地域分析模块
  本平台中的地域分析用于分析情报在不同地域生产和传播的情况(图10)。

图10 地域分析模块
(6)预测预警模块
  预测预警是根据应用领域中风险点的情况,以数据层存储和组织的数据或分析层不同模块输出数据为输入,通过预设条件以及相应的算法或模型对风险进行评估(图11)。

图11 预测预警模块
4.1.3 应用层
  应用层根据情报需求,将对分析层各模块进行组合,形成面向特定用户的、能够形成最终情报产品的一整套服务功能。例如,产业情报分析可以将特定产业作为监测对象,分析产业发展最新动态,跟踪产业新技术、新产品、新机构,分析不同人群对于产业发展的观点、看法等内容。再如,舆情分析系统可以对事件进行跟踪,分析事件及话题的随时间的变化,识别意见领袖,梳理传播路径等。
4.1.4 调度管理层
  为满足大数据采集、存储和分析的需要,平台基于云计算平台进行架构,通过不同的采集、存储和计算节点,采用分布式存储和计算方式完成各项功能,在此过程中,有序的调度是提供高效服务的前提,调度管理层的主要任务就是对功能层的采集、存储、查询和计算任务进行有序调度和统一分配。
4.2 分布式部署架构
  分布式部署是网络大数据高效处理的保障,同时也是本平台区别于传统情报服务平台最显著的特点。本平台以Hadoop作为基础架构,进行网络大数据获取、存储和计算。有研究表明,无论是存储性能、计算性能,还是可靠性、初次投资成本,较之传统的架构方式,Hadoop平台都有较为明显的优势[24],并且随着数据规模和计算复杂度的增加,Hadoop的优势愈加明显[25]。
4.2.1 Hadoop及其子项目
  Hadoop是由Apache基金会为大规模分布式可靠计算开发的一个开源项目。Hadoop软件库是一个开源框架,用户在Hadoop基础上可以使用简单编程模型实现分布式处理大型数据集。Hadoop设计的目的是将单一服务器扩展到数以千计的服务器,每台服务器提供相应的计算和存储[26]。
(1)HDFS
  Hadoop实现了一个分布式文件系统(Hadoop Distributed File System,HDFS),HDFS有高容错性的特点,并且可以用来部署在低端硬件上,它提供高吞吐量来访问应用程序的数据,适合处理大数据的应用程序[27]。一个HDFS集群是由一个命名节点(Namenode)和一定数目的数据节点(Datanode)组成。命名节点是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。集群中的数据节点一般是一个节点一个,负责管理它所在节点上的存储。用户能够以文件的形式在HDFS上面存储数据。命名节点执行文件系统的命名空间操作,比如打开、关闭、重命名文件或目录,它也负责确定数据块到具体数据节点的映射。数据节点负责处理文件系统客户端的读写请求,在命名节点的统一调度下进行数据块的创建、删除和复制[28]。
(2)MapReduce
  MapReduce是一种编程模型,Hadoop是MapReduce的java实现,基于MapReduce写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由Map任务(task)以完全并行的方式处理它们。MapReduce框架和分布式文件系统是运行在一组相同的节点上的,也就是说,计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务,这可以使整个集群的网络带宽被非常高效地利用。Map/Reduce框架由一个单独的Master Jobtracker 和每个集群节点一个Slave Tasktracker共同组成。Master负责调度构成一个作业的所有任务,这些任务分布在不同的Slave上,Slave监控它们的执行,重新执行已经失败的任务。而Slave仅负责执行由Master指派的任务[29]。
(3)HBase
  HBase(Hadoop Database)是非关系型数据库系统(Not Only SQL,NoSQL),它利用HDFS作为其文件存储系统,提供高可靠性、高性能、列存储、可伸缩、实时可读的分布式存储系统。HBase使用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。Client、Zookeeper、Master和Region Server是HBase体系结构的四大组成部分,其中Client包含访问HBase的接口,并负责维护缓存以加快对HBase的访问;Zookeeper的功能是保证任何时候,集群中只有一个Master,存储所有Region的寻址入口,实时监控Region Server的信息并通知Master,同时负责存储HBase的Schema和Table元数据;Master为Region Server分配region,负责Region Server的负载均衡,随时发现失效的Region Server并重新分配region;Region Server负责维护region,处理对这些region的I/O请求,并切分运行过程中过大的region[30]。
4.2.2 平台Hadoop架构
  图12展示了本平台应用Hadoop搭建的分布式存储/计算架构。平台由主节点(Master Node)和从节点(Slave Node)构成。本平台使用5台高性能服务器作为主节点,工作模式采用主备模式,采用“多虚一”的虚拟化方式,将其中4台物理机虚拟为一台服务器,作为主用服务器,另外1台物理机作为备用服务器。从节点由150台虚拟机构成,采用负载均衡的工作模式。在这种架构下,平台可以根据存储和计算任务的需求,动态调整存储和计算资源。如果需要增加硬件资源,以提升存储和计算能力,只需增加结点数量,并调整配置参数,即可实现对资源的提升操作,而对平台架构和应用程序不会产生任何影响,真正实现网络大数据存储和分析的可扩展和可维护。

图12 Hadoop架构设计
(1)HDFS部署
分别将主用和备用命名节点部署于主节点相应的服务器,同时将数据节点分别部署于主节点和从节点。
(2)MapReduce部署
分别将MapReduce的主用和备用Jobtracker配置并部署于主节点相应的服务器,同时将Tasktracker分别部署于主节点和从节点。
(3)HBase部署
分别将HBase的主用和备用HMaster配置并部署于主节点相应的服务器,同时将Region Server分别部署于主节点和从节点。
(4)Zookeeper部署
将Zookeeper部署于主节点。
5 网络大数据情报服务平台的特色
  与传统情报服务平台相比,本平台更加强调数据的作用,采用分布式并行计算对数据进行采集、管理和分析,因此,能够更全面、更快速、更准确的获知情报、分析情报和传递情报,情报分析的准确性、全面性和时效性更强,同时具备更加强大的预见和预警功能。
5.1 强大的大数据存储、计算能力
  平台针对大数据的特征,采用分布式架构,整合大量高性能存储和计算资源,并使用技术先进且成熟的部署策略,实现对PB级数据的有序组织、存储和高速计算。与此同时,科学的架构保证平台拥有极强的伸缩性、扩展性和可维护性,有效降低了由于外部环境变化造成的二次开发成本。
5.2 大数据管理智能化
  平台针对各种数据的应用方向,通过人机结合的方式,实现了数据的碎片化处理,将非结构化数据进行了结构化的转换,为平台积累了大量高质量数据,这些数据为非结构化数据的自动更新奠定了良好的模型基础。在高质量数据的支撑下,构建了大量的非结构数据处理模型,并对模型的处理精度进行不断的完善,基本实现了非结构数据处理的智能化。
5.3 情报方法工具化
  方法是情报工作的核心,在情报服务流程中的每个环节都涉及各种各样的方法,然而目前情报方法的使用具有很强的随意性,平台针对这一现状建立一套规范化的方法体系,对每个环节方法的选用标准和适用条件进行规范,并在分析层设计算法&模型管理模块进行统一管理。
5.4 情报产品可视化
  如何将海量数据中挖掘得到的有价值情报更加有效、更加直观地传递给情报用户,一直是情报服务面临的挑战。大数据一方面使情报分析结果可以数据的形式呈现给情报用户,并使得数据与图形、视频的映射变得更加容易;另一方面,更多的数据导致情报结果仍然是难以理解的大量数据。为此,平台设计了大量情报产品的可视化方案,对不同类型的情报产品和情报分析结果数据进行展现,最大程度上保留情报产品的情报价值。
5.5 实时情报传递
  对情报需求的精确分析,使得情报服务在决策过程中的位置不断前移,在情报服务中争取主动,为第一时间提供决策所需情报提供了保障,情报服务不再是需求到服务的单向行为,而是在需求之前已经开始,增强了情报与需求之间的紧密联系和情报服务的实时性。平台最大限度的利用移动互联网,将情报服务渗透到情报用户决策的各个阶段,通过移动终端获取用户情报需求,返回分析结果,同时增强与用户的沟通。
6 结 语
  大数据时代的到来对很多行业产生了重大影响,关键在于大数据唤醒了沉睡已久的数据的巨大价值,并促使人们有意识地去获取和使用数据。情报服务作为信息密集型行业,以数据和信息作为服务的基本原料,同时在服务的过程中也不断产生着各种类型的数据,本文设计构建的网络大数据情报服务平台正是不断挖掘互联网在情报服务过程中没有被唤醒的那部分数据。本平台围绕大数据时代情报用户越来越高的情报需求,以互联网这一高价值情报源为数据来源,应用分布式大数据处理技术,成功解决了网络大数据情报分析中面临的诸多技术难题,目前该平台已面向政府提供了舆情监测服务,面向企业开展了竞争情报服务。
  该平台不仅是高效的、安全的大数据平台,同时由于其良好的伸缩性、可扩展和可维护性,该平台还是一个开放的大数据平台。这种开放性首先体现在平台对于技术的开放性,随着大数据分析技术的进步,更多先进的、成熟的大数据分析模型、算法将会封装进入该平台,进一步提升情报服务的效率,特别是预测、预警的准确性;平台的开放性还体现在平台对于领域的开放性,平台将会在更多的领域,为更多情报用户提供超乎其想象的、优质、高效的情报服务,进而大力推动决策的科学性和可靠性。

  • 用户评论
  • 豆瓣评论
已有 0 条评论(查看更多评论)

我要评论

您尚未登录,请登录后发布评论! 登录

关闭

资料下载
联系邮箱: