来自 社会 2019-11-24 00:41 的文章

大数据时代舆情的内涵与分析方法

人类社会进入一个以网络社会为特征的社交网络时代,普罗大众成为新闻信息的发布者、传播者,社会的信息生产不再由专业的大众传媒机构垄断。这一过程深刻改写着舆论的生态,促使传统舆论概念的改变,同时在研究方法上也出现了革新。

舆情的概念与内涵

(一)从舆论到舆情:舆情的概念与内涵演进。在所有舆论概念中大家比较认同的是孟小平有关舆论的定义,其认为:“舆论是公众对其关切的人物、事件、现象、问题和观念的信念、态度和意见的总和,具有一定的一致性、强烈程度和持续性,并对有关事态发展产生影响。”①这个概念兼顾了舆论的主体(公众)、舆论的客体(关切的人物、事件、现象、问题和观念)与舆论的本体(信念、态度和意见),还强调了舆论的一致性、持续性和强烈程度等,是比较完善和严格的舆论概念。

网络时代来临后,舆论这一概念被逐步弱化,被“舆情”所取代。舆论到舆情仅一字之差,舆情中的“情”,一是强调网络时代舆论变化的速度,“情”字凸显舆论是变动的;二是强调网络时代舆论具有很大的感性特征,即其中夹杂着大量的情感与情绪。网络表达短文本、口语化,使舆情表达出现了最大的变化就是情感因素和感性元素的增多,因此,“情”的第二个含义是情绪或情感。

基于此,舆情是指在一定的社会空间和历史时期内,围绕中介性社会事项(可以是人、事,也可以是价值、观念、制度、规范)的发生、发展和变化,作为舆情主体的民众对相关社会事项的群体性情绪、意愿、态度和意见的总和,由于网络是舆情的主要表达平台,舆情必须是表达出来的言论。

(二)舆情的类别。目前对舆情的划分比较多元,按照内容可分为政务舆情、经济舆情、社会舆情、民生舆情、文体舆情等;按照关涉主体可分为公权力舆情、企业舆情、事业单位舆情、个体舆情等;按照预警级别可分为红色舆情、橙色舆情、黄色舆情与绿色舆情等;按照发生的范围可分为国际舆情、全国舆情、省区舆情、城市舆情、县级以下舆情等;按照发源地可分为媒体首发舆情、网民爆料舆情等。在日常的舆情分析操作中,中国人民大学舆论研究所一般按照内容将舆情划分为社会民生、反腐倡廉、文化教育、涉警涉法、社会安全、时事政治、灾害事故、企业财经、公共卫生等类别。只要存在内在一致性,各类舆情划分范围不交叉,能互斥、穷尽即可。

舆情软件系统平台:舆情大样本定向分析法

目前关于舆情分析的研究方法花样迭出,但概括起来主要有以下两种基本类别,一是大样本定向分析,即利用大型舆情软件系统平台来实现;二是小样本多元分析,即通过最新的研究方法进行局部样本的数据采集和分析。

(一)舆情软件系统平台的基本原理。近年来,舆情监测手段层出不穷,但舆情监测的底层方法没有根本的改变,即均通过网络爬虫程序来实现数据采集。基本原理如下:一是构建需要监测的样本库(包括微博、微信公众号、论坛、贴吧和网站等)作为监测数据源;二是通过网络爬虫进行数据抓取并下载到本地服务器;三是在本地服务器进行数据的消重和聚合;四是对“清洗”过的数据进行图像等智能化、直观化呈现。舆情监测软件监测微博中的数据,需要向新浪申请有偿的API(Application Programming Interface,应用程序编程接口),方可访问并抓取数据(不然会对网络爬虫关闭)。舆情监测软件可以7×24小时对互联网信息实时监测、采集,并对获取的信息进行全面检索及自动消重,进行舆情主题演化分析、时间趋势分析、话题传播分析。目前国内比较大的舆情监测软件服务商有拓尔思、方正舆情、谷尼舆情和美亚舆情等。

(二)舆情软件系统平台的发展趋势。近两年出现了新的趋势,即从舆情软件开发发展到云平台搭建。舆情监测主要是基于单体的监测软件而展开的,将软件产品放置到客户的本地服务器中,软件商为其提供后期的软件升级和支持服务。这种服务模式存在一定的弊端,由于各自为战,服务器较为分散,数据采集和分析都比较零散,不利于展开大规模的数据处理和集约化输出。而大数据与云计算时代来临,软件服务逐步被搭建云数据平台所替代,客户可以通过网页或客户端远程访问,并可以通过一定的权限定制关键词,进而实现舆情数据的抓取和直观化呈现数据结果。

(三)舆情软件系统平台的缺陷。一是舆情监测的效度和信度问题难以验证,目前舆情监测最大的问题是无法论证自己的有效性,各家有各家的“黑盒子”,相对并不透明,手段和算法的不同势必造成监测结果的偏离,到底谁家更准确,难有定论,依然有“盲人摸象”之虞;二是数据源的多寡一定程度上决定了舆情监测的精准度。目前舆情监测均是以样本库作为数据搜索源,不是基于全网进行舆情信息采集,实际上只是样本量较大的局部数据,可能因数据源不全面而造成重要信息监测缺失,最终影响数据监测结果;三是在消重聚合环节,计算机还暂时无法取代人工,目前舆情监测软件最大的区别在于后台的数据处理能力,但目前高层次的信息处理如情感判别和影响力评估等,计算机还不能完全取代人工;四是网络爬虫自身的弊端也在不断呈现,主要是关系数据越来越重要,而爬虫爬取的数据主要是碎片化的信息数据,关系数据往往被忽略,另外越来越多的网站对爬虫程序持不太友好的态度,一旦识别出来直接封闭端口,并且越来越多的社交网站如微信、豆瓣等不开放自己的数据抓取端口,很难抓取这些新兴的社交平台的数据。

舆情小样本多元分析法