, 研究与开发 / / / —————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————一——————————————————————文章编号:1007—1{23(201 7)29—0029—03 DOI:10.3969/-j.i SSr1.1007 1423.20I 7.29.007 基于K-means的用户分群分析 简宋全,李青海,泰于钦 摘要: 刈’J 仃 、Il,水蜕,对 户的精准分群行为nf以将大众苻销的方式转换为精准 I”t。[1 j力‘ 从 僻刘巫好的『I11报葺≮,” 刈r L ̄f,、 { 、 进仃研究,采川1 K—t a, s的粜类方法对电信川广I数据进行用户分群, J寸采川 像法的力‘ 对分群个数 以技分衅准确 度进行分析.并从分析结果f{]挖掘m有H】信息辅佐于运苻商的,ik务 *术 关键词: K—mt,z11 ;电f if、I ; 准 } 基金项目: 人河I≮科技汁划项fJ(No.20l502YH019) 0 引言 分为3个群体,然 刈‘每个群体进f 统汁分析,以 到 埘j 川 的分析埘丁符行符)Afflg 十分重要的一 最后的结果 ,能准确地将I l Jt 分为各个群体进行挖掘分析 1 K-means聚类算法解析 址f。分 聚类分析简称柴类,址-f1p尤监督的机搽学习斡: 甜Jl ,进 分群僻婵埘r企业来说是一种降低成 法,其主要作川为将 数 集分为多个 想交的数掂 小提I 效率的h‘法,通过群f小分类,可以『厂I结川:陔群体 集,且在这些数据集r{,的数{l Ifi11彼此 似,fIJ与J 他 的特 t 为偏好等f ,从而摊川 埘性的管理方法 数据集中的数据特 Il1会仃 II』】 ff】营销,J‘案, 达到符个企、IkX;J-成本控制以及苻销召 对于聚类分析的钟:法解释我f『J一-r以理解为,假设 … 的需求 仃在一个数据集,l发数抓集i,f以 拊数 n 特 划分 然 刈’ Itf一的分群通常仃 许多 题,数据的 为k个不相交子集,fI.k的数: 大1 l,所订的子集的 乩 瞍、: 级的人小,以及类圳的界定,种种原 导 集合为原始数据集 f1_ 个 策【fl, 【fl的数掘 敛_ri发过 难以实现I大I此,小义采川K—Ille ̄lllS聚类 与 子集巾数据特fiI!川似 , j 他子集If 数 特 的数 挖捌 0太 ̄,Jltj厂 进行聚类处胖,k聚类为 监督 具有差异性一 』 数批挖舢《钟:法,nf以蜓 数抛『}】的各个特 将数 K—1]le[tllS聚类分析址柴 分忻I},最常J}]5-帅 一种 分 k个群 ,这样只需 分忻每个群体巾的特性 聚类方法,该方法采川离II1心点距离最廷 ,J力 式进仃 桃川‘以刈’陔舯体实仃卡f】幢的埘策 背销方案 聚类,同时指定聚类rI ,J k仉,也就足聚类 集的个 小义案例『f1我们采川的足电 行业的川户行为 数 从数据语 1 捕述 l-r描述为仃 一个数 集 数}J-㈠发数 rfI包 川户 本信息, 龄、性别、枉 D 陔数批集南n个对象绀成,我ffJ通过聚 分析的厅 _II『K、癸 r机。1 J1牌等,Jt 行为信息包含J}】户不同时 』=I=将这I1个对象划分划k个予集C ,c ,….C It1, 段的通i ̄r,-U、r K.缴赞 求,以及一些衍午的变鞋,例 似设l≥ √≥厶日-i≠ ,使i C c D I. n C = 』『lJ.川 案址 合理等.该数抛巾包含1.8万条 埘于具体实现过 ,我f『J 埘簇心僻慨念进 川rJ数 , 过一系列汁 ,我f『J将k值没定为3,将 行理解 K—lnff ̄l1]S聚类iII'i我 将k个 集称为k个 现代计算机2017.10中 ⑨ 、 \研究与开发 \ 簇,每个簇都具仃一个簇心,该簇心为簇ff】所有对象的 特 均值组成,而对于某个对象是否为陔簇的判断条 件为陔对象与该簇l1l心的距离,这里的距离采用欧氏 离进行计算 对丁聚类分析来说,首先要确定簇心才能判断一 个对象最终lJ]属丁那个簇,但是存实际生活巾,我们无 法 接确定簇心,敝在小力 法I1l采川无监督式的K— inealls算法米完成聚类,该算法迭代算法.首先在欧氏 审问Ifl随机取k个点作为簇心,然后根据簇心对所有 对象进行聚类,从 产生k个簇, 利川均值特征的方 式产牛一个新的簇心,与原簇心进行对比,迭代, 至 最后簇心不会发牛变化则完成整个聚类过程 【 述捕述过程,其流程算法 下: 随fJ【嫩k个种子点 然后求数据IfI每个点分别列这些种子点的欧氏 距离,并将这 数据点lJ_]丁其欧氏 离最短的种子点 下,形b k个簇 然 移动种子点值其簇的『f1心 ④然后重复②、 步,直至第②步r{ 种子点不会在 移动,也就是种子点的原始位置为该簇的 2 实验过程及结果 对陔份数据进行实验之前需要对该份数据进数 据预处理,m于聚类分析只支持对数值型变量的计算, 故需要对数据ff1的字符型变量进行0/1化处理,对于某 些多分类宁符 变量则采取去除占比较少分类后在做 0/1化处理 处理结束后,!J!IJ采 R语言进行K—n] ̄'allS聚类分 析,往分析ffI我f『J对k值分别选择J,2、3、4、5进行分 析,得…的结果分圳为: , 一.一1. ●——●..- :i ,,__-_—_—-^ .¨ _—- … .r :’ .. 。jl 、 ≯ J 1 ④ 现代计算机2017.10中 上 从左1 钊 l 分圳为k 乃2、3、4、5[Ilf的 K—means聚类 ,从途r1]I『以行…,尢沦取k为几,邮 具有将类别聚为3类的趋势,故将k没定为3,进行柴 类分析,将数据进行聚类 我们分别对3个类进行研究 表1 分类 c1 c2 c3 慈教 }、j(} H “ h 1 漉竞事 【】(】“Hh79 『】{】 .{H I】(1c1l{.{ 套餐合适 【 f}9 (} 1 男柱 (J.1 1l 1}_1K{ {】 【) 1 n H 小于等于l8岁 【l l㈣ 0 i 769,{l “()5l¨lI lS瑚∞岁 0, c)l 7239:{ 【】ll{】l{{ 岁双上 f _㈣ f) { )6 { f】 I1252 高,极高被用牵 fj.{ i {l (1 0 一一 (J i—H { 高峰时期平均通话敖 :{ 1 l2 l 1 刚 .{{ . 高峰畸潮平均通话时间 lI: …i 7 州 l n. 非高峰时期平均通话教 1【) j 、ILI 【】1 l1) }_l l 非高峰时襄平坶通话时闭 .{2 7l5 H:{ j }、 【】n 高峰通话敷占出 【j _1.{26 f】_¨{ 7 【】 ln ’ 高峰通话时两占比 0 }‘ (】I1 l l (} .{ 平均总花费 nl (} { l 1 I h71 从聚类后的统计结 nf以行….川t户砒分 r 个类,分圳包含2650、8766 ffJ 6848个川r1 从寻找流失原 rf】瞍胥, 一f r.・2类包 最多的 8766个川FJ,同事其流失牢也怂最高的, 比 他 给 类高 30cA,在对c 2类进行进 步研究IIf以发现.陔 类rf l8至30岁川户最多,也就说…f'ii这个年龄段IfI 的人最容易流失,而小 r l 8岁和久r 3【)岁的川t r,流 失的呵能性不大 同时从使川牢【 L【土呵以行…, 陔 类川户II1高/檄岛使 半只 3%.卡¨较r』L他 个分 类的35%和24%鄙低_r很多 可以发 陔 (1k,l 足导 敛川rl流欠的重 原l大1: 从 户管理角度f盯以行… 1 f11 t・3上嘤为30 岁以上客户,切C3类f1l的18岁一卜客 较少,t 2土嵫 为l 8剑30岁客JrLI 同时t・l f1l ・3的逊 f|主嘤产,l 1 非高峰时段, c2冉高峰时段通 【 比岛达44%,敞 可以看作该类川户打多为f:JJF族,通常采川i,发 ’码进 行T作f 的联系 同样的方法还可以提取到很多信息,存本 r{1就 不冉赘述,可F}1波者自行开发 3 结果评估 陔模型 聚类Il1采川 像法对聚类数H,陔力‘法 简单易理解,得出结果也具有一定的研究价值,但是在 聚类上可能会存在一定的不稳定性,例如在上述试验 中c1类和c2类的区别就不是很明显,同时部分特征 如男女分布情况等没有明显体现出来,故还有改进的 余地例如利用轮廓系数对聚类k值进行判断等,同时 4 结语 本模型致力于简单的完成聚类分析过程,同时可 以让该过程产生一定有价值的结果,同时该模型还有 很多方面可以改进或深入,已达到更好的效果。 对于该聚类结果进行进一步的聚类分析也可以对分析 结果有一定的帮助。 作者简介: 简宋全(1971一),男,广东广州人,硕士研究生,工程师,研究方向为机器学习算法 李青海(1980一),男,广东广州人,硕士研究生,工程师,研究方向为机器学习算法 秦于钦(1993一),男,广东广州人,本科,助理工程师,研究方向为机器学习算法 收稿日期:2017—07—11 修稿日期:2017—09—28 User Group Analysis Based on K-’means JIAN Song—quan,LI Qing—hai,QIN Yu—qin (Guangdong Fine Point Data Polytron Technologies Inc,Guangzhou 510630) Abstract: It is necessary to cluster customers accurately in every walk of life SO that we can change a popular marketing program into an accurate mar- keting program for better return on equity.Studies the telecom industy,adopts clrustering method of K—means to cluster telecom users,and uses a method based on imaging processing to analyze the number and the accuracy of clustering at the same time,to search for useful me¥一 sages for operator's business requirements. Keywords: K—means;Telecom;Industy;Precision;Marketirng 现代计算机2017.10中 0