基于互联网的大数据挖掘关键技术分析

   互联网大数据处理技术已经成为现代网络社会的发展趋势,大数据挖掘是数据处理的关键技术。因此,文章结合互联网,对大数据关键技术进行分析,在分析互联网大数据时代发展现状的基础上,分析了大数据挖掘关键技术,包括数据采集、实时数据处理以及数据管理等基础,以期推动互联网企业的高速发展。 
  关键词互联网;大数据挖掘;关键技术 
  随着网络技术的不断发展,互联网已经逐渐影响人们的学习和生活,在互联网大数据时代下,社交网络产生的数据相对较大1。通过大数据分析技术,可以揭示数据与隐藏模式的相关性,继而可以为企业的发展供契机,使其根据客户的需求来供针对性的体验服务,在此基础上,可以不断升企业的综合竞争能力2。而客户通过大数据挖掘技术,可以享受更好的服务体系,便于增加体验感。因此,在互联网环境下,对大数据挖掘关键技术进行分析具有重的意义。 
  1 大数据含义 
  随着互联网技术的不断发展,大数据已经逐渐影响人们的学习和生活,所谓大数据,是指数据相对较为庞大,无法通过计算机软件有效的获取3。IBM曾经出大数据的4个特征(1)数据量庞大,达到PB等级。(2)存在视频、图片以及日志等多样化的文件形式。(3)具有较快的处理速度。(4)具有高质量的数据。在大数据处理过程中,通过数据分析挖掘技术,可以挖掘数据的价值。 
  2 互联网大数据时代的发展现状 
  互联网大数据是指用户在使用终端的情况下产生的数据信息,其包括网络协议以及流量等情况,网络是由供应商供,同时其可以通过数据信息来获取用户的相关数据4。随着互联网事业的不断发展,企业同样获取了较大的发展机遇,互联网大数据可以为其发展供基础信息以及使用信息,通过对数据的掌握,了解网络的运行状况,并且可以加强用户的体验。大数据分析是对网络的服务管理,可以分析用户体验的相关信息。 
  3 大数据挖掘关键技术 
  3.1 大数据采集 
  大数据采集技术通常划分为基础支撑层以及大智能感知层。智能感知层主负责对数据的识别、传输以及感知等基础5。基础支撑层则负责为数据平台供数据库以及物联网等相关处理技术。运营商通过对网络大数据的处理,可以及时地对用户的需求变化作出响应,从而升企业的综合运营能力。 
  互联网每天会产生大量的视频、日志以及互动等多样化的数据信息,虽然可以为用户带来便利,但是其同样会为运营商带来巨大的挑战,其主体现在以下几个方面(1)存在多源数据获取问题。大数据时代具有多元异构以及动态性的特点,如单个用户的位置信息价值相对较低,而将多个用户的信息整合起来,则可以升整体价值。然而在数据采集中,收集多元化的数据成为企业面临的新问题。(2)海量异构管理问题。在互联网上,存在大量的异构数据信息,部分数据缺乏注册结构,因而其价值不一,企业需对关键数据以及异构分析,以此来实现对数据质量的管理。(3)数据实时挖掘问题。对于现代网络,聚类和关联分析已经逐渐应用于数据信息的处理,然而通过模拟分析,无法获取实时的数据,为互联网企业的发展带来了较大的冲击。 
  3.2 大数据预处理技术 
  大数据预处理是指在大数据挖掘前期,通过相关技术,对大数据进行预处理,其主包括数据的清理、集成以及归约等几种处理方式6。大数据的数据量相对较为庞大,但是并未存在较多的数据价值,相反,大数据数量的增加,在一定程度上增加了数据的噪音,部分数据缺乏使用,同时由于数据的不断增加,导致媒体数据被碎片化处理,因此,需采用大数据清洗技术以及降噪技术来处理大数据。对于数据的早期处理,主通过数据挖掘技术来获取时序知识以及分类知识等,同时在大数据时代,人们进入非结构化的时代,需对大数据进行预处理,以此来满足时代的发展需求。 
  3.3 大数据管理技术 
  大数据通过网络时代的发展而产生,并且随着网络技术的不断发展,呈现更为多样化的发展趋势,同时多样化的物联网感知设备,其具有多种格式,且大数据环境下,其具有多样化和复杂性的特点。在此情况下,其求物联网大数据系统需通过特定技术来处理大数据,以此来满足多样化的发展需求。因此,设计系统架构,以此来升系统的扩展性成为研究的重课题。 
  3.4 大数据处理和可视化技术 
  大数据信息具有速度快的特點,因而在处理过程中,如果处理不及时,将会不断减弱数据信息的价值,因此,对于大数据的处理,需从诸多领域进行实时挖掘。通过在线处理的方式来升数据的处理效率,且对数据的算法以及模式进行改进。 
  大数据可视分析技术,是指将大数据挖掘以及对计算机的融合和认知能力结合起来,通过人机交互以及可视化技术对数据进行分析,其可以有效升数据的分析能力和处理能力。 
  3.5 海量异构数据处理 
  随着互联网事业的不断发展,其逐渐产生了海量的异构数据,根据数据的特点分析发现,其具有数量庞大、类型多、价值密度低以及处理速度快等特点,求在秒级的时间内,对数据进行分析,并且产生相应的分析结果。如果处理时间相对较长,则会逐渐降低信息的价值,针对大数据的处理问题,需对其模块进行设计,其主包括下列模块(1)处理模块。(2)集成模块。(3)文件系统模块。(4)数据库模块。(5)易用性模块。(6)接口数据访问层。 
  针对互联网数据的处理问题,需在数据处理系统中安装探测模块。互联网企业通常根据处理时间,将数据划分为在线信息、近线信息以及离线信息。其主是根据消耗的时间来进行划分。对于秒级信息的处理,通常是采用流处理技术,通过适当的处理技术分析,可以强化对I/O系统的应用。 
  对于流式处理系统,其主采用Flume以及Storm等系统架构,在对数据处理后,将相关数据存储到数据库,以此来实现对数据的实时处理。对于批处理系统的设计,首先需对数据进行存储管理,之后对数据进行分析和计算,其存储系统可以采用HBase,对于冷数据的处理,可以采用Gluster FS等技术,这样可以有效降低管理成本。同时在数据的处理中,通常利用OLAP来进行建模,同时利用组件进行分析,可以较好地升数据的处理效率。
 在互联网技术不断发展的情况下,相关技术同样呈现不断发展的趋势,如通过Spark技术,可以将中间数据进行存放,使其升迭代的效率,另外,通过计算模型以及相关问题分析,可以绘制图形数据库。另外,在数据处理中,通过数据接口,可以为用户供应用以及服务。 
  3.6 实时数据挖掘 
  互联网数据具有复杂性的特征,其不利于实现故障的诊断以及用户的体验,数据挖掘模块是通过对无线网络的理解,采用数据分析和挖掘的方式获取报表,以此来开放应用程序编程接口(Application Programming Interface,API),其可以获取以下几种类型的数据信息(1)网络分析信息,通过对流量以及会话等模块的分析,可以实现对网络性能的关键绩效指标(Key Performance Indicator,KPI)分析。(2)网元分析。通过网元对比以及网元组对比等趋势分析,可以获取RNC性能负载。(3)终端分析。通过终端设备的使用情况分析,可以获取小时的数据变化,继而可以获取相关的性能指标。(4)用户分析。通过对用户数据的比较,可以获取用户资源的使用情况。(5)应用分析。通过对用户应用业务的分析,可以获取用户的累计分布情况以及单个用户的时间变化。(6)通过QoS以及QoE等指标的分析,可以获取用户网络状况以及负荷等相关信息。 
  在实时数据分析中,多媒体数据挖掘同样是重的技术手段。通过画像建立以及视频推广等模式进行分析。用户画像的挖掘技术通过视频播放以及注册搜索等行为,采用大数据分类方式构建模型,包括性别或者年龄模型等,通过对模型的预测,可以对用户进行判断,以此来为企业的发展供数据信息支持。视频推荐模式是根据用户的行为,对视频的相关热度等情况进行分析,可以获取用户的兴趣反馈数据,其便于识别用户的ID,经过信息整理,企业可以采用针对性的推荐来满足客户的基本需求。另外,通过用户画像以及视频推荐,可以为广告企业进行定位,其将符合用户需求的广告投放到定向的人群,以此来升媒体的运营质量。 
  4 结语 
  随着互联网事业的发展,大数据挖掘已经成为企业关注的重问题,本文对大数据挖掘技术进行分析,体现了对海量数据的整合,企业可以通过大数据挖掘技术,实现对客户信息的整理,并且為客户供个性化的服务模式。 
  参考文献 
  1裴莹,付世秋,吴锋.我国教育大数据研究热点及存在问题的可视化分析J.中国远程教育,217(22)1-8. 
  2李涛,曾春秋,周武柏,等.大数据时代的数据挖掘—从应用的角度看大数据挖掘J.大数据,215(4)57-8. 
  3程陈.大数据挖掘分析J.软件,214(4)13-131. 
  4李平荣.大数据时代的数据挖掘技术与应用J.重庆三峡学院学报,214(3)45-47. 
  5郭迟,刘经南,方媛,等.位置大数据的价值取与协同挖掘方法J.软件学报,214(4)713-73. 
  6王树良,丁刚毅,钟鸣.大数据下的空间数据挖掘思考J.中国电子科学研究院学报,213(1)8-17.