400
正文

食品安全大数据的融合及分类技术综述

摘要:食品是人们赖以生存和发展的基本物质基础,食品的安全不仅仅关乎广大消费者的切身利益,甚至关系到国家经济的稳步发展和社会的繁荣昌盛。食品安全大数据具有数据容量大、来源多样、更新速度快、价值密度低却应用价值大的特点,通过将多源的食品安全大数据进行融合及分类并行处理可以帮助人们实现更多的价值。对食品安全大数据融合及分类技术综述。首先,总结了食品安全大数据的来源及特征以及数据处理关键技术;阐述了食品安全大数据预处理过程;分析了食品安全大数据融合三种融合层次以及融合关键技术;介绍了食品安全大数据的并行计算模式;然后,归纳了并行分类算法以及几种常见的分类算法,如朴素贝叶斯、决策树、神经网络等。最后,对食品安全大数据做出总结和展望。
关键词:食品安全大数据;预处理;数据融合;数据挖掘;分类
引 言:随着信息时代的到来,大数据迅速发展,逐渐成为科技界和企业界甚至全国关注的热门话题[1]。互联网和各产业数据的爆炸式增长,使得大数据、云计算等概念越来越广泛。大数据概念的兴起为人们打开了一个新视角,为了更大程度的发挥大数据的价值,大数据挖掘成为了人们的关注热点。与此同时,食品安全相关事件在我国不断发生[2], 如“洗衣粉油条”事件、“陈化粮毒米”事件、“铁酱油”事件、“毛发酱油”事件以及牛奶业普遍使用三聚氰胺事件等,给人民的生命和国家的发展带来严重的威胁。食品安全从原料生产到消费,涉及食品链的各个环节,产生了大量的数据。处理与分析数据量大、数据结构复杂的食品安 全大数据,传统的技术手段很难满足要求,因此实现食品安全和大数据产业的融合,增强食品安全大数据的分析,成为了研究的重点方向。
       本文关于食品安全大数据处理关键技术重点介绍了食品安全大数据预处理、食品安全大数据融合、并行挖掘技术、并行挖掘算法这几方面内容。目前,许多研究人员针对食品安全大数据处理技术进行了大量的研究。孟小峰[3]等详细解析了大数据的基本概念,介绍了大数据处理的基本框架以及大数据的主要应用。王志海[4]等提出了一种懒惰式 shapelets 分类模型,该模型主要依据待分类实例显著局部特征,为各个待分类的实例构建各自的数据驱动懒惰式分类模型,该模型不但具有高准确率,还具有强可解释性。季一木[5]等基于分布式计算平台提出了一种 Storm 的 P-HT 并行化算法,该算法解决了概念漂移问题的同时,提高了分类算法的有效性和高效性。宋杰[6]等介绍了 12 个典型的基于 MapReduce 的大数据处理平台的实现原理和适用场景以及基于 MapReduce 的大数据分析算法,并在对外存算法特征进行分析的基础上,提出了适合外存算法性能优化方法的研究思路。程学旗[7]等综述了大数据的应用场景,总结了大数据处理系统的关键技术,梳理了大数据处理所面临的各种挑战,并依次提出了应对措施。
       本文第 2 节对食品安全大数据进行概要性描述,概述食品安全大数据来源、特征以及处理关键技术和挖掘基本流程。第 3 节食品安全大数据预处理进行总结。第 4 节对食品安全大数据融合的三个层次进行分析和对比,并对已有的食品安全大数据的关键技术总结。第5节针对食品安全大数据并行挖掘技术,对并行计算模式进行介绍。第 6 节针对食品安全大数据并行挖掘算法的设计,对几种常用分类算法进行总结和比较。本文最后总结全文并展望未   来食品安全大数据面临的挑战和热门研究方向。
一、食品安全大数据概述
     食品安全大数据作为大数据的一种,符合大数据的典型 4V 特征,即量大(Volume)、多样(Varity)、高速(Velocity)和价值密度低却应用价值大(Value)[8]。食品安全数据作为食品安全大数据处理对象,需要对其进行充分的了解,包括:数据来源、数据特征以及处理关键技术,然后才能更加有效的挖掘出其信息中的价值。本节介绍了食品安全大数据的来源与特征、食品安全大数据处理关键技术和食品安全大数据挖掘基本流程。
1、食品安全大数据来源及其特征
     信息时代,食品安全数据来源范围较广,在日常生活中人们能够接触到的与食品相关的  数据都在范围之内,主要包括:1)各种食品安全检测装置的结果;2)RFID 传感器的食品质量检测数据;3)企业和监管部门;4)移动互联网、社交媒体等。食品安全数据涵盖了多种类型,数据量随时间的积累变得越来越大[9]。
       食品安全大数据除具有大数据的 4V 特性外,食品安全大数据受错综复杂的食品安全环境、消费人群、监测数据飞速增长等因素的影响,还具有如下具体特征[10]:
       数据容量大。来自食品安全监测点、哨点的数据、各个地方上报的食品污染物数据、食品安全环境监测数据和其他食品企业自身生产的数据,这些数据聚集在一起就形成了十分庞大的数据库。
       更新速度迅速。食品安全信息中包含大量的在线或实时数据分析和处理要求。
       种类多。食品安全数据包含各种结构化数据、非(半)结构化数据和其他多种数据存储  形式。
       成本低、价值大。食品安全大数据中存在着大量无用的、冗余的信息,但这些信息具有  很大的挖掘和应用价值,与个人生活、食品行业、国民经济息息相关。
2、食品安全大数据处理技术
      食品安全大数据模型中,层次与层次之间联系紧密,原始的食品安全数据存在很多的冗余和噪音,需要经过数据清洗和提炼、数据融合等预处理的方式转化为规范数据,再经过并行处理、分类等挖掘技术来获取有价值的信息,其采用的关键技术如图 1 所示。
食品安全大数据处理技术_论文发表
图 1 食品安全大数据处理技术
二、食品安全大数据预处理

       食品安全大数据预处理的目的主要有:①清除冗余数据;②纠正错误数据;③完善残缺数据;④选出必需的数据进行集成。另外,对食品安全大数据进行预处理后再挖掘,可以大大提高数据挖掘的质量,缩短实际挖掘所需的时间[11]。食品安全大数据预处理一般包括 4步:清洗、集成、转换、归约。本节将从这 4 方面介绍食品安全大数据预处理。
(一)大数据清洗
       食品安全大数据的清洗主要是为了检测食品安全数据中的冗余数据、错误数据、不一致数据等噪声数据。一般的清洗内容主要包括:清除重复数据、完善缺失数据、消除噪声数据等[12]。食品安全大数据的清洗技术大致可以分为以下几类:
(1)重复数据的清洗。由于在食品安全数据集中存在重复的记录,为了提高食品安全数据的挖掘效率,对重复数据进行清洗尤为重要。
(2)缺失数据清洗。食品安全大数据清洗需要解决的另外一个重要问题是完善缺失数据。对缺失值清洗的方法有很多,文献[13]提出了一种基于 MapReduce 的大数据缺失值填充算法,用来解决缺失值填充问题,该算法通过 MapReduce 框架中的两种算法实现了大数据处理的并行化。
(二)大数据集成
       由于食品安全大数据具有多源性,因此在对食品安全大数据进行数据处理过程中势必涉及到多个数据库。大量冗余数据可能会影响信息发现过程的性能。因此需要对食品安全大数据进行集成,将多个数据源合并成一致的数据源存储。经过有效的数据集成,能够提高食品安全大数据的挖掘精度和速度。
(三)大数据转换
       食品安全行业在长期的业务实践中累积了大量独立分布异构的数据,这些数据不仅具有不同的数据类型,而且具有不同的存储方式。这些都要求食品安全大数据在集成过程中对数据进行转换。通过转换将食品安全大数据变成适合挖掘的形式。
(四)大数据归约
       食品安全大数据的典型特征是数据规模大,如果直接进行数据挖掘、分析,将消耗大量的时间和精力,并且分析结果也会比较差。而通过归约技术可以将大规模数据集转换为小规模数据集,这样不但保持了原数据的完整性,又为进一步的数据挖掘提供了方便。
三、食品安全大数据融合及关键技术
       食品安全大数据融合作为一种技术手段,可以在最大程度上发挥食品安全大数据的价  值,它的实现可以使人们对食品安全行业的探索和认识向新的深度和广度拓展。它不同于传统的数据集或知识库技术,需要大跨度、深层次和综合性的研究方法。
       食品安全大数据的融合层次可以分为数据层融合、特征层融合和决策层融合[14]。本文主要工作是对 3 种层次的融合以及食品安全大数据融合关键技术进行介绍。
1、数据融合结构分类
(一)数据层融合
        数据层融合又叫像素级融合,在食品安全大数据中经过数据层融合不仅能够最大程度上  保留原始食品安全数据的特征,而且能够提供较多的细节信息[15]。融合过程如图 2 所示。
       数据层融合作为食品安全大数据融合的最低层次融合,用以消除食品安全数据中的冗余  信息,去噪和去异常值。
数据层融合过程图_期刊发表







2 数据层融合过程图
(二) 特征层融合
       特征层融合在食品安全大数据融合过程中属于中间的一个层次。融合过程如图 3 所示。从图中可以看出,特征级融合首先提取特征信息,然后进行融合。特征层融合可以在食品安全大数据融合过程中做到较好的信息压缩,从而减少了数据融合的通信量。相对于数据级融合,特征层融合具有更好的实时性。在食品安全大数据中为了保证数据融合精度,特征层融合常采用的方法有:人工神经网络、特征压缩聚类法、卡尔曼滤波等。








3 特征级融合过程图
(三)决策层融合
        决策层融合在食品安全大数据融合中属于一种更高层次的融合。融合过程如图 4 所示。通过各传感器的食品安全大数据,在融合之前先完成各自的决策或识别工作,随后将这些决策进行融合,最终获得具有整体一致性的决策结果。








4 决策级融合过程图
(四) 大数据融合层次比较
总体来说,三个层次的融合在食品安全大数据融合中各具其优势,如表 1 所示,从对传感器的依赖性、数据量、通信量等方面对比分析了几个融合级别的优缺点。









表1 数据融合级别对比
      可以看出,由于数据级融合是最基础层次融合,能够在保全尽量多信息的条件下对食品安全大数据进行数据融合,但是对传感器、通信能力、处理代价等要求较高;相反地,决策层融合多源异构食品安全大数据的同时,仅需要较小的数据线路通信,也有较好的通信量,但融合精度低。特征级数据融合各项性能居中,综合了其他两个层次的优缺点。
2、数据融合关键技术
      食品安全大数据融合方法可以分为经典融合方法和现代融合方法。在经典融合方法中一般采用加权平均数法、卡尔曼滤波法、贝叶斯推理法等方法。在现代融合方法中常常采用神经网络、逻辑模糊法等方法。具体结构如下图 5 所示。










数据融合算法结构图
(一) 估计方法
       估计方法主要包括最小二乘、加权平均数、卡尔曼滤波等线性估计方法,以及一些非线  性估计方法,主要有高斯滤波、扩展的卡尔曼滤波等。
(1)卡尔曼滤波法
      卡尔曼滤波法一般用于动态环境中多传感器信息的实时融合,其算法核心是计算各传感器数据之间的加权平均值,其中,权值与测量方差成反比。在实际应用中,通过调节各传感器的方差值来改变权值,从而得到更可靠的结果。
       目前国内外对卡尔曼滤波法进行了大量的研究。文献[16]提出了一种基于压缩感知的扩展卡尔曼滤波跟踪方法,并将该方法应用到单目标跟踪中,与传统卡尔曼滤波相比,该方法的具有更好的精确度和稳定度。文献[17]提出基于模糊卡尔曼算法的姿态误差补偿方法,通过引入模糊卡尔曼滤波数据融合算法对陀螺误差校正,与常规卡尔曼滤波算法相比,精度更高。针对食品安全大数据融合过程,采用卡尔曼滤波器对多传感器采集的食品安全数据进行融合,不仅可以显著提高容错性,还可以有效降低数据传输运算量。但是由于数据量巨大时,该方法的实时性较差,因此还需要进一步研究。
(二) 统计方法
       统计方法一般常用的有贝叶斯推理、支持向量机理论、经典推理等等方法。
(1)贝叶斯估计方法
      贝叶斯估计提供了一种按概率理论组合多传感器信息的方法,贝叶斯估计理论基础是贝  叶斯法则。
文献[18]通过实验证明,利用贝叶斯估计方法对多传感器数据进行融合,可以有解决数据的不确定和不一致性。通常来说,在先验概率已知的情况下,贝叶斯估计法是食品安全大数据融合的最佳方法。
(三) 信息论方法
       信息论方法在多源数据融合中应用数理统计知识研究信息的处理和传递,其典型算法  有:熵方法、模糊理论、模板法、最小描述长度方法等。
(1)模糊集理论
      模糊理论在数据融合领域应用的实质就是利用一个模糊映射将数据源信息作为输入映  射到融合结果的输出空间,其基本思想就是将原本只有两个取值 0 或 1,扩展到一个连续的取值范围:[0,1],用这个区间内的一个值来表示元素对某个模糊集的隶属程度,通过这种度量方法能够很好地描述和表达不确定事件。
       模糊理论一定程度上克服了概率论方法的缺点,不需要一个确定的概率表达事情可能性,它对“可能性”的分析更加贴近人的处理方式。
多传感器数据融合中,模糊集理论在处理模糊问题和模糊推理上具有显著优势。文献[19]  通过实验证明,模糊集理论在多传感器信息融合中计算量小、融合精度较高。在食品安全大数据融合过程中,模糊集理论方法可以实现食品安全数据的简化,去除冗余信息。
(四) 人工智能方法
        近几年人工智能方法蓬勃发展,被应用在多个领域。尤其在大数据融合领域应用十分广  泛。人工智能方法一般包括:神经网络、遗传算法、逻辑模糊法等。
(1)神经网络方法
      神经网络可以对复杂的非线性映射进行模拟,它具有运算速度快、适应能力强、容错率高等特点,使得神经网络能够很好地适应多源数据融合的处理要求。BP(Back Propagation) 神经网络是目前使用最普遍的一种神经网络,它能够采用梯度搜索技术对输入的样本进行学习。
      基于神经网络方法,文献[20]提出了一种粗糙集结合 BP 神经网络的数据融合方法,该方法缩减了 BP 神经网络的规模,提高了数据融合的效率,相比于传统的神经网络融合系统, 具有较强的有效性。文献[21]提出基于 Mam dani 模糊推理的神经无网络,并应用于通侦信息融合系统。通过实验证明该方法同时具备模糊集理论和神经网络的优点,相比于贝叶斯、DS,该方法不需要给出先验概率。运用神经网络方法实现食品安全大数据融合,可以仅仅依赖食品安全原始数据样本,从而大大降低了食品安全数据的处理代价。但是,由于网络网络节点较多,训练需要大量的计算量和时间。另外,由于该方法对食品安全大数据的融合效果不是太理想,因此将神经网络与其他理论相结合还需要进一步的改进。
四、食品安全大数据并行挖掘技术
1、并行计算模式
      并行数据挖掘的基础是并行计算。针对食品安全大数据,使用 Hadoop 平台的 MapReduce
可以实现并行挖掘,MapReduce 是 Hadoop 的核心部分之一,主要用于处理大量数据集。食品安全大数据的并行计算模式一般可以理解为两方面内容。首先将顺序执行的计算任务分成可以同时执行的子任务,然后通过并行执行这些子任务从而完成整个计算任务[22]。并行计算模式的实现可以提高食品安全大数据计算的速度。
      在 MapReduce 模型中,程序执行过程主要存在两个核心操作,即:Map 操作和 Reduce 操作,Map 是对数据进行映射,Reduce 是对数据进行规约[23]。目前,运行 MapReduce 的集群往往由数十台、甚至数百上千台服务器组成,用于处理大规模数据。
五、食品安全大数据并行挖掘算法设计
       食品安全大数据具有海量、高速变化、噪声、结构复杂等特点,对其进行快速准确的分类,是从食品安全大数据中提取符合需要的、精炼的、可理解信息的重要方法。分类技术是利用已有的训练样本去训练,从而得到一个最佳模型,再利用这个模型对测试数据进行类别判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。本节主要介绍了几种典型的分类算法并对它们的性能进行简单的比较。
1、常见分类算法
(1)朴素贝叶斯
朴素贝叶斯分类算法是基于贝叶斯定理,该算法的核心是概率统计知识,属于监督学习  的生成模型,算法原理如下:
1)设 x = {a1 , a2 ,..., am } 为一个待分类的项,而每一个 a x 的一个特征属性。
2)有类别集合C = {y1 , y2 ,..., yn } 。
3)计算P(y1 | x), P(y2 | x),..., P(yn | x) 。
4)如果P(yk | x) = max{P(y1 | x), P(y2 | x),..., P(yn | x)} ,则 x Î yk 。其中,第 3 步中的每个条件概率的计算,一般采用如下步骤:
1)找到一个已知分类的待分类项集合,这个集合称为训练样本集。
2)通过统计得各类别下每个特征属性的条件概率估计值。即:P(a1 | y1 ), P(a2 | y1 ),..., P(am | y1 ); P(a1 | y2 ), P(a2 | y2 ),..., P(am | y2 ),..., P(a1 | yn ), P(a2 | yn ),..., P(am | yn )
3)如果特征属性之间是条件独立的,则根据贝叶斯定理可以得出:
P( yi| x) = P(x | yi )P( yi )
P(x)
对于所有类通常我们认为P(x) 为常数,所以只要将P(x | yi ) 最大化即可。又由于特征属性之间是条件独立的,可以得出:
P(x | yi )P( yi ) = P(a1  | yi )P(a2  | yi )...P(am  | yi )P( yi ) = P( yi )ÕP(aj  | yi )
                                                                                                     j =1
       对于大数据分类,朴素贝叶斯分类算法的分类效率比较稳定,尤其对于小规模数据。但是在另一方面,由于食品安全大数据规模大,属性之间的关联性比较复杂,因此使用朴素贝叶斯分类算法效果不是太好,应该在考虑部分关联性的基础上对贝叶斯算法做进一步的改进。文献[24]基于粗糙集的可识别矩阵,提出了一种基于属性频率的加权朴素贝叶斯方法;文献[25]结合大样本集的缺点,将泊松分布模型引入到朴素贝叶斯分类算法中,从而提高了分类的精度;文献[26]介绍了代价敏感思想、构造出自适应代价函数,解决了不平衡数据分类问题。文献[27]给出了基于 MapReduce 并行化的朴素贝叶斯算法,该方法的核心处理过程由MapReduce 完成, Map 函数完成对训练文件的解析, Reduce 函数完成类别属性和特征属性知识库的构建。
(2)决策树
     决策树分类算法是一种自顶向下递归建模算法。该算法可以分为两大部分:1.构建决策  树部分;2.使用决策树分类部分。
      ID3 算法是决策树分类算法的经典算法,其用“信息增益”作为属性选择标准。由于 ID3 算法一般适用于离散型属性,因此提出了一种优化算法 C4.5。C4.5 算法用“信息增益率” 进行计算,在运算过程中先将连续型属性转换为离散型,然后再进行属性分类。
       针对食品安全大数据,采用决策树分类算法显著提高了食品安全数据的分类效果。另外,研究人员还提出了大量的改进算法,例如,文献[28]对生成决策树算法的目标函数进行了改进,并且对影响分类结果的约束条件中的特征进行了多方面衡量,从而提高了分类节点的精确度;文献[29]提出了一种基于粗糙模糊集的容错粗糙模糊决策树算法,与一般决策树相比,该算法具有较快的学习速度和较大的收敛概率;文献[30]提出了一种 HAC4.5 决策树算法, 该算法与 Hadoop 平台并行,不仅提高了运行速度,而且提高了计算精度。
(3)神经网络
      神经网络针对规模大、复杂度高、存在噪声等特点的数据,具有很强的承受力、较高的准确率和较强的分类速率。因此神经网络分类算法可用于食品安全大数据挖掘。但是当食品安全大数据的隐藏结点数量十分大时,实现食品安全大数据的分类将会消耗大量的时间。针对这个问题,文献[31]刘彩红结合生物神经元学习和记忆形成的特点,提出了一种改进的 BP 算法,解决了网络学习慢的问题;文献[32]又提出了一种基于构造型神经网络的最大密度覆盖分类方法,进一步提高了神经网络的训练速度,同时提高了神经网络分类算法的有效性。
       基于以上四种算法的原理,综合分类精度、模型效率、非数值型数据处理能力、运行速  度、模型结构等几方面给出如表 2 所示的对比情况。





2 典型分类算法综合对比情况
2、并行分类算法
     食品安全大数据具有海量、高速变化、噪声、结构复杂等特点,对其进行快速准确的分类,是寻找数据潜在规律的重要方法。传统的数据分类算法处理大数据时存在可行性差、效率低、分类精度不高等问题。而目前基于 MapReduce 模型的分布式并行处理架构成为处理海量数据的新方法。如文献[33]提出了一种在分布式环境中执行的决策树分类器构建算法,该算法与传统决策树分类器相比,对多处理器上的流数据具有可伸缩性。文献[34]回顾了分布式支持向量机(DSVMs)的研究现状,并分析现有的分布式支持向量机的优缺点,提出一些支持向量机算法分布的研究和有待解决的问题。文献[35]设计并实现了一种基于MapReduce 架构的并行决策树分类算法,相比于传统的决策树和 ID3 算法,该算法不仅可以处理规模比较大的数据,还具有较好的可扩展性。因此,从并行计算出发,提高食品安全大数据分类算法效率和精度是一个重要的研究方向。
六、总结与展望
       食品安全大数据是食品安全科学发展的一种趋势,同样也是大数据研究的重要应用领域之一。随着全国科技水平的不断提高,食品行业积累了大量、来源多样、增长速度快、价值密度低却应用价值大的数据,如何分析、处理和利用这些数据,挖掘其内在信息价值,成为食品安全行业重点关注的问题[36]。大数据作为一门综合性科学,其理论体系不断成熟,随着新的理论和方法的形成,将会催生新的技术,这给研究人员学习利用大数据技术,实现食品安全大数据的更多价值带来了许多挑战。本节主要从以下几方面进行展望未来食品安全大数据所面临的挑战。
1、基于分布式的食品安全大数据处理
      随着大数据时代的到来,针对当前多源、异构、海量的食品安全大数据,传统单一的处理模式和方法已经不能应对。而提升海量数据处理能力的问题迫在眉睫,同时分布式处理是当下最有效的手段。因此,根据不同的食品安全大数据处理要求,选择合适的分布式处理框架和处理算法,将成为未来食品安全大数据的研究重点。
2、基于深度学习的食品安全大数据处理
     在大数据和人工智能的不断发展下,深度学习越来越受重视,逐渐成为人工智能领域的研究热点[37]。深度学习被广泛应用于多个领域,目前在图像识别、语音识别、自然语言处理等领域取得了突破性的进展。文献[38]探索了深度学习在手写字符识别中的应用,提出卷积神经网络、深度信念网络两种深度学习算法并在实验中取得了较好的结果。文献[39]将 DBNs 运用到视听语音识别,测试了传统的结合单模态 DBNs 评分的决策融合和基于单模态 DBNs 学习的中级特征的新特征融合两种方法。由此可见,实现深度学习与食品安全大数据的结合,通过建立基于模式融合的深度学习方法,可以有效的改善传统食品安全大数据分析处理的缺点,从而更大程度上实现食品安全大数据的信息价值。
参考文献
1、程学旗, 靳小龙, 王元卓,等. 大数据系统和分析技术综述[J]. 软件学报, 2014(9):1889-1908.
2、Li X , Li G , Liu Z . Mechanism design of generating the risk communication strategies responding food safety incidents[C]// 2016 12th IEEE International Conference on Control & Automation. Kathmandu,Nepal:IEEE, 2016:122-126.
3、孟小峰, 慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展, 2013, 50(1):146-169.
4、王志海, 张伟, 原继东, et al. 一种基于 Shapelets 的懒惰式时间序列分类算法[J]. 计算机学报, 2019(1):29-43.
5、季一木, 张永潘, 郎贤波,等. 面向流数据的决策树分类算法并行化[J]. 计算机研究与发展, 2017, 54(9):1945-1957.
6、宋杰, 孙宗哲, 毛克明, 等. MapReduce 大数据处理平台与算法研究进展[J]. 软件学报, 2017, 28(3):514-543.
7、程学旗, 靳小龙, 王元卓,等. 大数据系统和分析技术综述[J]. 软件学报, 2014(9):1889-1908.
8、张引, 陈敏, 廖小飞. 大数据应用的现状与展望[J]. 计算机研究与发展, 2013, 50(S2):216-233.
9、陈谊, 刘莹, 田帅,等. 食品安全大数据可视分析方法研究[J]. 计算机辅助设计与图形学学报, 2017, 29(1):8-16.
10、周广军, 金志刚, 王玮健. 食品安全大数据分析的若干思考[J]. 食品安全导刊, 2017(36):127-128.
11、Kuhn M, Johnson K. Data Pre-processing[J]. Applied Predictive Modeling, 2013:27-59.
12 周傲英. 数据质量和数据清洗研究综述[J]. 软件学报, 2002, 13(11):2076-2082.
13、金连, 王宏志, 黄沈滨, et al. 基于 Map-Reduce 的大数据缺失值填充算法[J]. 计算机研究与发展, 2013, 50(s1):312-321.
14、周鹏. 多传感器数据融合技术研究与展望[J]. 物联网技术, 2015, 5(5):23-25.
15、徐雅薇,谢晓竹.多传感器图像融合方法及应用综述[J].四川兵工学报,2015,36(10):116-119.
16、常娟, 申晓红, 钱伟, 王领. 一种基于压缩感知的高精度目标跟踪算法 [J]. 科学技术与工程,2019,19(02):101-105.
17、章雪挺,许欢.基于模糊卡尔曼的 MEMS 陀螺误差校正算法研究[J].杭州电子科技大学学报(自然科学版),2019,39(01):1-6.
18、孙振东.面向多源数据融合的贝叶斯估计方法[J].齐鲁工业大学学报,2018,32(01):73-76.
19、杨永旭,陈旭辉.模糊集理论在多传感器信息融合中的应用[J].计算机应用与软件,2011,28(11):122-124.
20、Gao W G W , Wen J W J , Jiang N J N , et al. A Study of Data Fusion Based on Combining Rough Set with BP Neural Network[J]//2009 Ninth International Conference on Hybrid Intelligent Systems. Journal of Xian University of Technology, 2006, 3:103-106.
21、徐从富, 耿卫东, 谢澍, 潘云鹤. 面向通侦信息融合的模糊神经网络方法[J]. 计算机研究与发展,2000(10):1212-1217.
22、王彬, 雷丽晖. 一种利用大数据分析优化的分布式并行算法[J]. 计算机与数字工程, 2013, 41(11):1720-1724.
23、李成华, 张新访, 金海, et al. MapReduce:新型的分布式并行计算编程模型[J]. 计算机工程与科学, 2011, 33(3):129-135.
24、He Y, Xie J, Xu C. An improved Naive Bayesian algorithm for Web page text classification[C]//2011 Eighth International Conference on Fuzzy System and Knowledge Discovery. Shanghai, China:IEEE, 2011, 3:1765-1768.
25、Huang Y, Li L. Naive Bayes classification algorithm based on small sample set[C]// 2011 IEEE International Conference on Cloud Computing & Intelligence Systems. Beijing,China:IEEE, 2011:34-39.
26、蒋盛益, 谢照青, 余雯. 基于代价敏感的朴素贝叶斯不平衡数据分类研究[J]. 计算机研究与发展, 2011, 48(S1):387-390.
27、章雪挺,许欢.基于模糊卡尔曼的 MEMS 陀螺误差校正算法研究[J].杭州电子科技大学学报(自然科学版),2019,39(01):1-6.
28、王鹤澎, 王宏志, 李建中, et al. 不一致数据上精确决策树生成算法 [J]. 软件学报, 2017, 28(11):2814-2824.
29、Zhai J H, Hou S X, Zhang S F. Induction of tolerance rough fuzzy decision tree[C]//2015 International Conference on Machine Learning and Cybernetics (ICMLC). Guangzhou,China:IEEE, 2015, 2: 843-848.
30、Yuan Z, Wang C. An improved network traffic classification algorithm based on Hadoop decision tree[C]//2016 IEEE International Conference of Online Analysis and Computing Science (ICOACS). Chongqing,China:IEEE, 2016: 53-56.
31、刘彩红. BP 神经网络学习算法的研究[J]. 西安工业大学学报, 2012, 32(9):723-727.
32、黄国宏, 熊志化, 邵惠鹤. 一种新的基于构造型神经网络分类算法 [J]. 计算机学报, 2005, 28(9):1519-1523.
33、Ben-Haim Y, Tom-Tov E. A Streaming Parallel Decision Tree Algorithm.[J]. Journal of Machine Learning Research, 2008, 11(11):849-872.
34、Stolpe M , Bhaduri K , Das K . Distributed Support Vector Machines: An Overview[M]// Solving Large Scale Learning Tasks. Challenges and Algorithms. Springer International Publishing, 2016, 109-138.
35、陆秋, 程小辉. 基于MapReduce 的决策树算法并行化[J]. 计算机应用, 2012, 32(9):2463-2465.
36、肖革新, 肖辉, 刘杨. 食品安全大数据分析思考[J]. 中国数字医学, 2014(1):4-7.
37、Arel I, Rose D C, Karnowski T P. Deep Machine Learning - A New Frontier in Artificial Intelligence Research [Research Frontier][J]. Computational Intelligence Magazine IEEE, 2010, 5(4):13-18.
38、Wu M , Chen L . Image recognition based on deep learning[C]// 2015 Chinese Automation Congress (CAC). Wuhan,China:IEEE, 2016:542-546.
39、Huang J, Kingsbury B. Audio-visual deep learning for noise robust speech recognition[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver,BC,Canada:IEEE, 2013:7596-7599.

相关热词搜索:

热门期刊
027-59765396
联系地址 湖北省荆州市荆州区万达广场A栋504 周一至周五 09:00-17:30
友情链接: 会计培训班 | 老酒回收 | 出国留学申请 | 论文发表 | 企业培训系统 | Linux运维培训 |

网站地图

版权所有 Copyright © 2018 湖北帆云海文化传媒有限公司 www.xrqkw.com. All Rights Reserved ,鄂ICP备19020030号 如您在使用的过程中任何产品或技术性问题请反馈

编辑
顾问

联系客服

企业QQ,一对一编辑辅导发稿
QQ交谈 网页在线咨询

服务时间

周一至周五
08:30-17:30

服务
热线

18685220838
24小时服务热线:027-59765396

食品安全大数据的融合及分类技术综述
摘要:食品是人们赖以生存和发展的基本物质基础,食品的安全不仅仅关乎广大消费者的切身利益,甚至关系到国家经济的稳步发展和社会的繁荣昌盛。食品安全大数据具有数据容量大、来源多样、更新速度快、价值密度低却应用价值大的特点,通过将多源的食品安全大数据进行融合及分类并行处理可以帮助人们实现更多的价值。对食品安全大数据融合及分类技术综述。首先,总结了食品安全大数据的来源及特征以及数据处理关键技术;阐述了食品安全大数据预处理过程;分析了食品安全大数据融合三种融合层次以及融合关键技术;介绍了食品安全大数据的并行计算模式;然后,归纳了并行分类算法以及几种常见的分类算法,如朴素贝叶斯、决策树、神经网络等。最后,对食品安全大数据做出总结和展望。
关键词:食品安全大数据;预处理;数据融合;数据挖掘;分类
引 言:随着信息时代的到来,大数据迅速发展,逐渐成为科技界和企业界甚至全国关注的热门话题[1]。互联网和各产业数据的爆炸式增长,使得大数据、云计算等概念越来越广泛。大数据概念的兴起为人们打开了一个新视角,为了更大程度的发挥大数据的价值,大数据挖掘成为了人们的关注热点。与此同时,食品安全相关事件在我国不断发生[2], 如“洗衣粉油条”事件、“陈化粮毒米”事件、“铁酱油”事件、“毛发酱油”事件以及牛奶业普遍使用三聚氰胺事件等,给人民的生命和国家的发展带来严重的威胁。食品安全从原料生产到消费,涉及食品链的各个环节,产生了大量的数据。处理与分析数据量大、数据结构复杂的食品安 全大数据,传统的技术手段很难满足要求,因此实现食品安全和大数据产业的融合,增强食品安全大数据的分析,成为了研究的重点方向。
       本文关于食品安全大数据处理关键技术重点介绍了食品安全大数据预处理、食品安全大数据融合、并行挖掘技术、并行挖掘算法这几方面内容。目前,许多研究人员针对食品安全大数据处理技术进行了大量的研究。孟小峰[3]等详细解析了大数据的基本概念,介绍了大数据处理的基本框架以及大数据的主要应用。王志海[4]等提出了一种懒惰式 shapelets 分类模型,该模型主要依据待分类实例显著局部特征,为各个待分类的实例构建各自的数据驱动懒惰式分类模型,该模型不但具有高准确率,还具有强可解释性。季一木[5]等基于分布式计算平台提出了一种 Storm 的 P-HT 并行化算法,该算法解决了概念漂移问题的同时,提高了分类算法的有效性和高效性。宋杰[6]等介绍了 12 个典型的基于 MapReduce 的大数据处理平台的实现原理和适用场景以及基于 MapReduce 的大数据分析算法,并在对外存算法特征进行分析的基础上,提出了适合外存算法性能优化方法的研究思路。程学旗[7]等综述了大数据的应用场景,总结了大数据处理系统的关键技术,梳理了大数据处理所面临的各种挑战,并依次提出了应对措施。
       本文第 2 节对食品安全大数据进行概要性描述,概述食品安全大数据来源、特征以及处理关键技术和挖掘基本流程。第 3 节食品安全大数据预处理进行总结。第 4 节对食品安全大数据融合的三个层次进行分析和对比,并对已有的食品安全大数据的关键技术总结。第5节针对食品安全大数据并行挖掘技术,对并行计算模式进行介绍。第 6 节针对食品安全大数据并行挖掘算法的设计,对几种常用分类算法进行总结和比较。本文最后总结全文并展望未   来食品安全大数据面临的挑战和热门研究方向。
一、食品安全大数据概述
     食品安全大数据作为大数据的一种,符合大数据的典型 4V 特征,即量大(Volume)、多样(Varity)、高速(Velocity)和价值密度低却应用价值大(Value)[8]。食品安全数据作为食品安全大数据处理对象,需要对其进行充分的了解,包括:数据来源、数据特征以及处理关键技术,然后才能更加有效的挖掘出其信息中的价值。本节介绍了食品安全大数据的来源与特征、食品安全大数据处理关键技术和食品安全大数据挖掘基本流程。
1、食品安全大数据来源及其特征
     信息时代,食品安全数据来源范围较广,在日常生活中人们能够接触到的与食品相关的  数据都在范围之内,主要包括:1)各种食品安全检测装置的结果;2)RFID 传感器的食品质量检测数据;3)企业和监管部门;4)移动互联网、社交媒体等。食品安全数据涵盖了多种类型,数据量随时间的积累变得越来越大[9]。
       食品安全大数据除具有大数据的 4V 特性外,食品安全大数据受错综复杂的食品安全环境、消费人群、监测数据飞速增长等因素的影响,还具有如下具体特征[10]:
       数据容量大。来自食品安全监测点、哨点的数据、各个地方上报的食品污染物数据、食品安全环境监测数据和其他食品企业自身生产的数据,这些数据聚集在一起就形成了十分庞大的数据库。
       更新速度迅速。食品安全信息中包含大量的在线或实时数据分析和处理要求。
       种类多。食品安全数据包含各种结构化数据、非(半)结构化数据和其他多种数据存储  形式。
       成本低、价值大。食品安全大数据中存在着大量无用的、冗余的信息,但这些信息具有  很大的挖掘和应用价值,与个人生活、食品行业、国民经济息息相关。
2、食品安全大数据处理技术
      食品安全大数据模型中,层次与层次之间联系紧密,原始的食品安全数据存在很多的冗余和噪音,需要经过数据清洗和提炼、数据融合等预处理的方式转化为规范数据,再经过并行处理、分类等挖掘技术来获取有价值的信息,其采用的关键技术如图 1 所示。
食品安全大数据处理技术_论文发表
图 1 食品安全大数据处理技术
二、食品安全大数据预处理

       食品安全大数据预处理的目的主要有:①清除冗余数据;②纠正错误数据;③完善残缺数据;④选出必需的数据进行集成。另外,对食品安全大数据进行预处理后再挖掘,可以大大提高数据挖掘的质量,缩短实际挖掘所需的时间[11]。食品安全大数据预处理一般包括 4步:清洗、集成、转换、归约。本节将从这 4 方面介绍食品安全大数据预处理。
(一)大数据清洗
       食品安全大数据的清洗主要是为了检测食品安全数据中的冗余数据、错误数据、不一致数据等噪声数据。一般的清洗内容主要包括:清除重复数据、完善缺失数据、消除噪声数据等[12]。食品安全大数据的清洗技术大致可以分为以下几类:
(1)重复数据的清洗。由于在食品安全数据集中存在重复的记录,为了提高食品安全数据的挖掘效率,对重复数据进行清洗尤为重要。
(2)缺失数据清洗。食品安全大数据清洗需要解决的另外一个重要问题是完善缺失数据。对缺失值清洗的方法有很多,文献[13]提出了一种基于 MapReduce 的大数据缺失值填充算法,用来解决缺失值填充问题,该算法通过 MapReduce 框架中的两种算法实现了大数据处理的并行化。
(二)大数据集成
       由于食品安全大数据具有多源性,因此在对食品安全大数据进行数据处理过程中势必涉及到多个数据库。大量冗余数据可能会影响信息发现过程的性能。因此需要对食品安全大数据进行集成,将多个数据源合并成一致的数据源存储。经过有效的数据集成,能够提高食品安全大数据的挖掘精度和速度。
(三)大数据转换
       食品安全行业在长期的业务实践中累积了大量独立分布异构的数据,这些数据不仅具有不同的数据类型,而且具有不同的存储方式。这些都要求食品安全大数据在集成过程中对数据进行转换。通过转换将食品安全大数据变成适合挖掘的形式。
(四)大数据归约
       食品安全大数据的典型特征是数据规模大,如果直接进行数据挖掘、分析,将消耗大量的时间和精力,并且分析结果也会比较差。而通过归约技术可以将大规模数据集转换为小规模数据集,这样不但保持了原数据的完整性,又为进一步的数据挖掘提供了方便。
三、食品安全大数据融合及关键技术
       食品安全大数据融合作为一种技术手段,可以在最大程度上发挥食品安全大数据的价  值,它的实现可以使人们对食品安全行业的探索和认识向新的深度和广度拓展。它不同于传统的数据集或知识库技术,需要大跨度、深层次和综合性的研究方法。
       食品安全大数据的融合层次可以分为数据层融合、特征层融合和决策层融合[14]。本文主要工作是对 3 种层次的融合以及食品安全大数据融合关键技术进行介绍。
1、数据融合结构分类
(一)数据层融合
        数据层融合又叫像素级融合,在食品安全大数据中经过数据层融合不仅能够最大程度上  保留原始食品安全数据的特征,而且能够提供较多的细节信息[15]。融合过程如图 2 所示。
       数据层融合作为食品安全大数据融合的最低层次融合,用以消除食品安全数据中的冗余  信息,去噪和去异常值。
数据层融合过程图_期刊发表







2 数据层融合过程图
(二) 特征层融合
       特征层融合在食品安全大数据融合过程中属于中间的一个层次。融合过程如图 3 所示。从图中可以看出,特征级融合首先提取特征信息,然后进行融合。特征层融合可以在食品安全大数据融合过程中做到较好的信息压缩,从而减少了数据融合的通信量。相对于数据级融合,特征层融合具有更好的实时性。在食品安全大数据中为了保证数据融合精度,特征层融合常采用的方法有:人工神经网络、特征压缩聚类法、卡尔曼滤波等。








3 特征级融合过程图
(三)决策层融合
        决策层融合在食品安全大数据融合中属于一种更高层次的融合。融合过程如图 4 所示。通过各传感器的食品安全大数据,在融合之前先完成各自的决策或识别工作,随后将这些决策进行融合,最终获得具有整体一致性的决策结果。








4 决策级融合过程图
(四) 大数据融合层次比较
总体来说,三个层次的融合在食品安全大数据融合中各具其优势,如表 1 所示,从对传感器的依赖性、数据量、通信量等方面对比分析了几个融合级别的优缺点。









表1 数据融合级别对比
      可以看出,由于数据级融合是最基础层次融合,能够在保全尽量多信息的条件下对食品安全大数据进行数据融合,但是对传感器、通信能力、处理代价等要求较高;相反地,决策层融合多源异构食品安全大数据的同时,仅需要较小的数据线路通信,也有较好的通信量,但融合精度低。特征级数据融合各项性能居中,综合了其他两个层次的优缺点。
2、数据融合关键技术
      食品安全大数据融合方法可以分为经典融合方法和现代融合方法。在经典融合方法中一般采用加权平均数法、卡尔曼滤波法、贝叶斯推理法等方法。在现代融合方法中常常采用神经网络、逻辑模糊法等方法。具体结构如下图 5 所示。










数据融合算法结构图
(一) 估计方法
       估计方法主要包括最小二乘、加权平均数、卡尔曼滤波等线性估计方法,以及一些非线  性估计方法,主要有高斯滤波、扩展的卡尔曼滤波等。
(1)卡尔曼滤波法
      卡尔曼滤波法一般用于动态环境中多传感器信息的实时融合,其算法核心是计算各传感器数据之间的加权平均值,其中,权值与测量方差成反比。在实际应用中,通过调节各传感器的方差值来改变权值,从而得到更可靠的结果。
       目前国内外对卡尔曼滤波法进行了大量的研究。文献[16]提出了一种基于压缩感知的扩展卡尔曼滤波跟踪方法,并将该方法应用到单目标跟踪中,与传统卡尔曼滤波相比,该方法的具有更好的精确度和稳定度。文献[17]提出基于模糊卡尔曼算法的姿态误差补偿方法,通过引入模糊卡尔曼滤波数据融合算法对陀螺误差校正,与常规卡尔曼滤波算法相比,精度更高。针对食品安全大数据融合过程,采用卡尔曼滤波器对多传感器采集的食品安全数据进行融合,不仅可以显著提高容错性,还可以有效降低数据传输运算量。但是由于数据量巨大时,该方法的实时性较差,因此还需要进一步研究。
(二) 统计方法
       统计方法一般常用的有贝叶斯推理、支持向量机理论、经典推理等等方法。
(1)贝叶斯估计方法
      贝叶斯估计提供了一种按概率理论组合多传感器信息的方法,贝叶斯估计理论基础是贝  叶斯法则。
文献[18]通过实验证明,利用贝叶斯估计方法对多传感器数据进行融合,可以有解决数据的不确定和不一致性。通常来说,在先验概率已知的情况下,贝叶斯估计法是食品安全大数据融合的最佳方法。
(三) 信息论方法
       信息论方法在多源数据融合中应用数理统计知识研究信息的处理和传递,其典型算法  有:熵方法、模糊理论、模板法、最小描述长度方法等。
(1)模糊集理论
      模糊理论在数据融合领域应用的实质就是利用一个模糊映射将数据源信息作为输入映  射到融合结果的输出空间,其基本思想就是将原本只有两个取值 0 或 1,扩展到一个连续的取值范围:[0,1],用这个区间内的一个值来表示元素对某个模糊集的隶属程度,通过这种度量方法能够很好地描述和表达不确定事件。
       模糊理论一定程度上克服了概率论方法的缺点,不需要一个确定的概率表达事情可能性,它对“可能性”的分析更加贴近人的处理方式。
多传感器数据融合中,模糊集理论在处理模糊问题和模糊推理上具有显著优势。文献[19]  通过实验证明,模糊集理论在多传感器信息融合中计算量小、融合精度较高。在食品安全大数据融合过程中,模糊集理论方法可以实现食品安全数据的简化,去除冗余信息。
(四) 人工智能方法
        近几年人工智能方法蓬勃发展,被应用在多个领域。尤其在大数据融合领域应用十分广  泛。人工智能方法一般包括:神经网络、遗传算法、逻辑模糊法等。
(1)神经网络方法
      神经网络可以对复杂的非线性映射进行模拟,它具有运算速度快、适应能力强、容错率高等特点,使得神经网络能够很好地适应多源数据融合的处理要求。BP(Back Propagation) 神经网络是目前使用最普遍的一种神经网络,它能够采用梯度搜索技术对输入的样本进行学习。
      基于神经网络方法,文献[20]提出了一种粗糙集结合 BP 神经网络的数据融合方法,该方法缩减了 BP 神经网络的规模,提高了数据融合的效率,相比于传统的神经网络融合系统, 具有较强的有效性。文献[21]提出基于 Mam dani 模糊推理的神经无网络,并应用于通侦信息融合系统。通过实验证明该方法同时具备模糊集理论和神经网络的优点,相比于贝叶斯、DS,该方法不需要给出先验概率。运用神经网络方法实现食品安全大数据融合,可以仅仅依赖食品安全原始数据样本,从而大大降低了食品安全数据的处理代价。但是,由于网络网络节点较多,训练需要大量的计算量和时间。另外,由于该方法对食品安全大数据的融合效果不是太理想,因此将神经网络与其他理论相结合还需要进一步的改进。
四、食品安全大数据并行挖掘技术
1、并行计算模式
      并行数据挖掘的基础是并行计算。针对食品安全大数据,使用 Hadoop 平台的 MapReduce
可以实现并行挖掘,MapReduce 是 Hadoop 的核心部分之一,主要用于处理大量数据集。食品安全大数据的并行计算模式一般可以理解为两方面内容。首先将顺序执行的计算任务分成可以同时执行的子任务,然后通过并行执行这些子任务从而完成整个计算任务[22]。并行计算模式的实现可以提高食品安全大数据计算的速度。
      在 MapReduce 模型中,程序执行过程主要存在两个核心操作,即:Map 操作和 Reduce 操作,Map 是对数据进行映射,Reduce 是对数据进行规约[23]。目前,运行 MapReduce 的集群往往由数十台、甚至数百上千台服务器组成,用于处理大规模数据。
五、食品安全大数据并行挖掘算法设计
       食品安全大数据具有海量、高速变化、噪声、结构复杂等特点,对其进行快速准确的分类,是从食品安全大数据中提取符合需要的、精炼的、可理解信息的重要方法。分类技术是利用已有的训练样本去训练,从而得到一个最佳模型,再利用这个模型对测试数据进行类别判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。本节主要介绍了几种典型的分类算法并对它们的性能进行简单的比较。
1、常见分类算法
(1)朴素贝叶斯
朴素贝叶斯分类算法是基于贝叶斯定理,该算法的核心是概率统计知识,属于监督学习  的生成模型,算法原理如下:
1)设 x = {a1 , a2 ,..., am } 为一个待分类的项,而每一个 a x 的一个特征属性。
2)有类别集合C = {y1 , y2 ,..., yn } 。
3)计算P(y1 | x), P(y2 | x),..., P(yn | x) 。
4)如果P(yk | x) = max{P(y1 | x), P(y2 | x),..., P(yn | x)} ,则 x Î yk 。其中,第 3 步中的每个条件概率的计算,一般采用如下步骤:
1)找到一个已知分类的待分类项集合,这个集合称为训练样本集。
2)通过统计得各类别下每个特征属性的条件概率估计值。即:P(a1 | y1 ), P(a2 | y1 ),..., P(am | y1 ); P(a1 | y2 ), P(a2 | y2 ),..., P(am | y2 ),..., P(a1 | yn ), P(a2 | yn ),..., P(am | yn )
3)如果特征属性之间是条件独立的,则根据贝叶斯定理可以得出:
P( yi| x) = P(x | yi )P( yi )
P(x)
对于所有类通常我们认为P(x) 为常数,所以只要将P(x | yi ) 最大化即可。又由于特征属性之间是条件独立的,可以得出:
P(x | yi )P( yi ) = P(a1  | yi )P(a2  | yi )...P(am  | yi )P( yi ) = P( yi )ÕP(aj  | yi )
                                                                                                     j =1
       对于大数据分类,朴素贝叶斯分类算法的分类效率比较稳定,尤其对于小规模数据。但是在另一方面,由于食品安全大数据规模大,属性之间的关联性比较复杂,因此使用朴素贝叶斯分类算法效果不是太好,应该在考虑部分关联性的基础上对贝叶斯算法做进一步的改进。文献[24]基于粗糙集的可识别矩阵,提出了一种基于属性频率的加权朴素贝叶斯方法;文献[25]结合大样本集的缺点,将泊松分布模型引入到朴素贝叶斯分类算法中,从而提高了分类的精度;文献[26]介绍了代价敏感思想、构造出自适应代价函数,解决了不平衡数据分类问题。文献[27]给出了基于 MapReduce 并行化的朴素贝叶斯算法,该方法的核心处理过程由MapReduce 完成, Map 函数完成对训练文件的解析, Reduce 函数完成类别属性和特征属性知识库的构建。
(2)决策树
     决策树分类算法是一种自顶向下递归建模算法。该算法可以分为两大部分:1.构建决策  树部分;2.使用决策树分类部分。
      ID3 算法是决策树分类算法的经典算法,其用“信息增益”作为属性选择标准。由于 ID3 算法一般适用于离散型属性,因此提出了一种优化算法 C4.5。C4.5 算法用“信息增益率” 进行计算,在运算过程中先将连续型属性转换为离散型,然后再进行属性分类。
       针对食品安全大数据,采用决策树分类算法显著提高了食品安全数据的分类效果。另外,研究人员还提出了大量的改进算法,例如,文献[28]对生成决策树算法的目标函数进行了改进,并且对影响分类结果的约束条件中的特征进行了多方面衡量,从而提高了分类节点的精确度;文献[29]提出了一种基于粗糙模糊集的容错粗糙模糊决策树算法,与一般决策树相比,该算法具有较快的学习速度和较大的收敛概率;文献[30]提出了一种 HAC4.5 决策树算法, 该算法与 Hadoop 平台并行,不仅提高了运行速度,而且提高了计算精度。
(3)神经网络
      神经网络针对规模大、复杂度高、存在噪声等特点的数据,具有很强的承受力、较高的准确率和较强的分类速率。因此神经网络分类算法可用于食品安全大数据挖掘。但是当食品安全大数据的隐藏结点数量十分大时,实现食品安全大数据的分类将会消耗大量的时间。针对这个问题,文献[31]刘彩红结合生物神经元学习和记忆形成的特点,提出了一种改进的 BP 算法,解决了网络学习慢的问题;文献[32]又提出了一种基于构造型神经网络的最大密度覆盖分类方法,进一步提高了神经网络的训练速度,同时提高了神经网络分类算法的有效性。
       基于以上四种算法的原理,综合分类精度、模型效率、非数值型数据处理能力、运行速  度、模型结构等几方面给出如表 2 所示的对比情况。





2 典型分类算法综合对比情况
2、并行分类算法
     食品安全大数据具有海量、高速变化、噪声、结构复杂等特点,对其进行快速准确的分类,是寻找数据潜在规律的重要方法。传统的数据分类算法处理大数据时存在可行性差、效率低、分类精度不高等问题。而目前基于 MapReduce 模型的分布式并行处理架构成为处理海量数据的新方法。如文献[33]提出了一种在分布式环境中执行的决策树分类器构建算法,该算法与传统决策树分类器相比,对多处理器上的流数据具有可伸缩性。文献[34]回顾了分布式支持向量机(DSVMs)的研究现状,并分析现有的分布式支持向量机的优缺点,提出一些支持向量机算法分布的研究和有待解决的问题。文献[35]设计并实现了一种基于MapReduce 架构的并行决策树分类算法,相比于传统的决策树和 ID3 算法,该算法不仅可以处理规模比较大的数据,还具有较好的可扩展性。因此,从并行计算出发,提高食品安全大数据分类算法效率和精度是一个重要的研究方向。
六、总结与展望
       食品安全大数据是食品安全科学发展的一种趋势,同样也是大数据研究的重要应用领域之一。随着全国科技水平的不断提高,食品行业积累了大量、来源多样、增长速度快、价值密度低却应用价值大的数据,如何分析、处理和利用这些数据,挖掘其内在信息价值,成为食品安全行业重点关注的问题[36]。大数据作为一门综合性科学,其理论体系不断成熟,随着新的理论和方法的形成,将会催生新的技术,这给研究人员学习利用大数据技术,实现食品安全大数据的更多价值带来了许多挑战。本节主要从以下几方面进行展望未来食品安全大数据所面临的挑战。
1、基于分布式的食品安全大数据处理
      随着大数据时代的到来,针对当前多源、异构、海量的食品安全大数据,传统单一的处理模式和方法已经不能应对。而提升海量数据处理能力的问题迫在眉睫,同时分布式处理是当下最有效的手段。因此,根据不同的食品安全大数据处理要求,选择合适的分布式处理框架和处理算法,将成为未来食品安全大数据的研究重点。
2、基于深度学习的食品安全大数据处理
     在大数据和人工智能的不断发展下,深度学习越来越受重视,逐渐成为人工智能领域的研究热点[37]。深度学习被广泛应用于多个领域,目前在图像识别、语音识别、自然语言处理等领域取得了突破性的进展。文献[38]探索了深度学习在手写字符识别中的应用,提出卷积神经网络、深度信念网络两种深度学习算法并在实验中取得了较好的结果。文献[39]将 DBNs 运用到视听语音识别,测试了传统的结合单模态 DBNs 评分的决策融合和基于单模态 DBNs 学习的中级特征的新特征融合两种方法。由此可见,实现深度学习与食品安全大数据的结合,通过建立基于模式融合的深度学习方法,可以有效的改善传统食品安全大数据分析处理的缺点,从而更大程度上实现食品安全大数据的信息价值。
参考文献
1、程学旗, 靳小龙, 王元卓,等. 大数据系统和分析技术综述[J]. 软件学报, 2014(9):1889-1908.
2、Li X , Li G , Liu Z . Mechanism design of generating the risk communication strategies responding food safety incidents[C]// 2016 12th IEEE International Conference on Control & Automation. Kathmandu,Nepal:IEEE, 2016:122-126.
3、孟小峰, 慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展, 2013, 50(1):146-169.
4、王志海, 张伟, 原继东, et al. 一种基于 Shapelets 的懒惰式时间序列分类算法[J]. 计算机学报, 2019(1):29-43.
5、季一木, 张永潘, 郎贤波,等. 面向流数据的决策树分类算法并行化[J]. 计算机研究与发展, 2017, 54(9):1945-1957.
6、宋杰, 孙宗哲, 毛克明, 等. MapReduce 大数据处理平台与算法研究进展[J]. 软件学报, 2017, 28(3):514-543.
7、程学旗, 靳小龙, 王元卓,等. 大数据系统和分析技术综述[J]. 软件学报, 2014(9):1889-1908.
8、张引, 陈敏, 廖小飞. 大数据应用的现状与展望[J]. 计算机研究与发展, 2013, 50(S2):216-233.
9、陈谊, 刘莹, 田帅,等. 食品安全大数据可视分析方法研究[J]. 计算机辅助设计与图形学学报, 2017, 29(1):8-16.
10、周广军, 金志刚, 王玮健. 食品安全大数据分析的若干思考[J]. 食品安全导刊, 2017(36):127-128.
11、Kuhn M, Johnson K. Data Pre-processing[J]. Applied Predictive Modeling, 2013:27-59.
12 周傲英. 数据质量和数据清洗研究综述[J]. 软件学报, 2002, 13(11):2076-2082.
13、金连, 王宏志, 黄沈滨, et al. 基于 Map-Reduce 的大数据缺失值填充算法[J]. 计算机研究与发展, 2013, 50(s1):312-321.
14、周鹏. 多传感器数据融合技术研究与展望[J]. 物联网技术, 2015, 5(5):23-25.
15、徐雅薇,谢晓竹.多传感器图像融合方法及应用综述[J].四川兵工学报,2015,36(10):116-119.
16、常娟, 申晓红, 钱伟, 王领. 一种基于压缩感知的高精度目标跟踪算法 [J]. 科学技术与工程,2019,19(02):101-105.
17、章雪挺,许欢.基于模糊卡尔曼的 MEMS 陀螺误差校正算法研究[J].杭州电子科技大学学报(自然科学版),2019,39(01):1-6.
18、孙振东.面向多源数据融合的贝叶斯估计方法[J].齐鲁工业大学学报,2018,32(01):73-76.
19、杨永旭,陈旭辉.模糊集理论在多传感器信息融合中的应用[J].计算机应用与软件,2011,28(11):122-124.
20、Gao W G W , Wen J W J , Jiang N J N , et al. A Study of Data Fusion Based on Combining Rough Set with BP Neural Network[J]//2009 Ninth International Conference on Hybrid Intelligent Systems. Journal of Xian University of Technology, 2006, 3:103-106.
21、徐从富, 耿卫东, 谢澍, 潘云鹤. 面向通侦信息融合的模糊神经网络方法[J]. 计算机研究与发展,2000(10):1212-1217.
22、王彬, 雷丽晖. 一种利用大数据分析优化的分布式并行算法[J]. 计算机与数字工程, 2013, 41(11):1720-1724.
23、李成华, 张新访, 金海, et al. MapReduce:新型的分布式并行计算编程模型[J]. 计算机工程与科学, 2011, 33(3):129-135.
24、He Y, Xie J, Xu C. An improved Naive Bayesian algorithm for Web page text classification[C]//2011 Eighth International Conference on Fuzzy System and Knowledge Discovery. Shanghai, China:IEEE, 2011, 3:1765-1768.
25、Huang Y, Li L. Naive Bayes classification algorithm based on small sample set[C]// 2011 IEEE International Conference on Cloud Computing & Intelligence Systems. Beijing,China:IEEE, 2011:34-39.
26、蒋盛益, 谢照青, 余雯. 基于代价敏感的朴素贝叶斯不平衡数据分类研究[J]. 计算机研究与发展, 2011, 48(S1):387-390.
27、章雪挺,许欢.基于模糊卡尔曼的 MEMS 陀螺误差校正算法研究[J].杭州电子科技大学学报(自然科学版),2019,39(01):1-6.
28、王鹤澎, 王宏志, 李建中, et al. 不一致数据上精确决策树生成算法 [J]. 软件学报, 2017, 28(11):2814-2824.
29、Zhai J H, Hou S X, Zhang S F. Induction of tolerance rough fuzzy decision tree[C]//2015 International Conference on Machine Learning and Cybernetics (ICMLC). Guangzhou,China:IEEE, 2015, 2: 843-848.
30、Yuan Z, Wang C. An improved network traffic classification algorithm based on Hadoop decision tree[C]//2016 IEEE International Conference of Online Analysis and Computing Science (ICOACS). Chongqing,China:IEEE, 2016: 53-56.
31、刘彩红. BP 神经网络学习算法的研究[J]. 西安工业大学学报, 2012, 32(9):723-727.
32、黄国宏, 熊志化, 邵惠鹤. 一种新的基于构造型神经网络分类算法 [J]. 计算机学报, 2005, 28(9):1519-1523.
33、Ben-Haim Y, Tom-Tov E. A Streaming Parallel Decision Tree Algorithm.[J]. Journal of Machine Learning Research, 2008, 11(11):849-872.
34、Stolpe M , Bhaduri K , Das K . Distributed Support Vector Machines: An Overview[M]// Solving Large Scale Learning Tasks. Challenges and Algorithms. Springer International Publishing, 2016, 109-138.
35、陆秋, 程小辉. 基于MapReduce 的决策树算法并行化[J]. 计算机应用, 2012, 32(9):2463-2465.
36、肖革新, 肖辉, 刘杨. 食品安全大数据分析思考[J]. 中国数字医学, 2014(1):4-7.
37、Arel I, Rose D C, Karnowski T P. Deep Machine Learning - A New Frontier in Artificial Intelligence Research [Research Frontier][J]. Computational Intelligence Magazine IEEE, 2010, 5(4):13-18.
38、Wu M , Chen L . Image recognition based on deep learning[C]// 2015 Chinese Automation Congress (CAC). Wuhan,China:IEEE, 2016:542-546.
39、Huang J, Kingsbury B. Audio-visual deep learning for noise robust speech recognition[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver,BC,Canada:IEEE, 2013:7596-7599.