学术交流

首页 / 学术交流 / 学术会议 /

学术交流

2009中国数据挖掘与商业智能暨海峡两岸应用统计研讨会 会议纪要

2009-06-10

2009年6月6日上午9点,由中国人民大学应用统计科学研究中心及统计学院主办,中国人民大学统计咨询研究中心、中国人民大学数据挖掘中心、中华资料采矿协会、台湾辅仁大学统计资讯学系承办的“第六届中国数据挖掘与商业智能研讨会暨海峡两岸应用统计研讨会”在中国人民大学逸夫会议中心成功举行。中国人民大学常务副校长袁卫教授、中国人民大学统计学院院长金勇进教授、台湾辅仁大学统计资讯学系及中华资料采矿协会理事长谢邦昌教授、台湾政治大学郑宇庭教授、美国雪城大学陈江教授、首都经济贸易大学纪宏教授、台北医学大学蒋以仁教授等专家学者出席了会议。 

本次会议召开时间一天,其中上午时间集中在主会场,下午时间根据会议内容的不同分为三个会场举行。大会共收到论文30篇,与会人数达200余人。期间,诸位专家、学者畅所欲言,学术讨论气氛热烈,取得了良好的学术交流效果。研讨会围绕数据挖掘与其在商业智能上的应用等前沿问题展开讨论,与会专家学者踊跃发言,现场气氛十分热烈。

大会特邀6位专家作了专题学术报告,他们是:台湾辅仁大学应用统计研究所谢邦昌教授(《商业智慧与统计学习)、美国雪城大学陈江教授(以市场导向的管理决策平台-预测为例)、中国科学院数学与系统科学研究院陈敏教授(基于LossMetricsTM 违约数据库的LGD建模和管理的经验)、台湾政治大学统计学系郑宇庭教授(导入资料采矿技术于新巴塞尔协议中小企业信用模型)、耶鲁大学公共卫生学院马双鸽博士(A Tale of Two Streets: Incorporating grouping structure in high dimensional data mining)、北京商智通信息技术有限公司匡晓波总经理(CATI软件系统的现在与未来)、台北医学大学蒋以仁教授(文本采矿技术的发展、演进与应用)。

会议致辞环节中,袁卫校长、陈乃久教授、金勇进教授、纪宏教授、谢邦昌教授先后分别对大会的召开表示了强烈的支持及对大会的期许,并介绍了自己所研究与数据挖掘相关的学术领域。

本次讨论会的主要讨论主题如下:

第一分会场

台湾辅仁大学谢邦昌教授在其所做的报告《商业智慧与统计学习》中提出了Business Intelligence的定义,他指出是要“让每个人都能够及时获得有用的信息,以做出正确的判断”,也就是一种对企业营运内容迅速理解与推理的能力,而这种能力可以用来提升企业决策的质量、改善绩效。广义的商业智能是关于如何更简易、快速地作好决策的方法,企业每天收集大量的数据,订单数据、资产、销售点交易、应付账款与客户资料,也会从外部来源获得人口统计和邮寄清单等数据,然而企业数据并未有效地运用于决策制定过程中。商业智能系统定位企业智能系统(BIS)可以说是数据仓储(DW)+主管信息系统(EIS)+决策支持系统(DSS)。最后,谢教授还表达了他对统计学习的理解,统计学习是以统计学为工具来研究与设计的算法,其理论主要是研究从数据到分布的归纳问题,及要求解问题的目标是分布规则意义下的某种最优性,而我们所知到的只有有限样本集合,如何设计以训练数据为目标函数的机器学习算法,以有限的样本集合得到分布意义下的最优,这是统计学习研究的主要内容。

中国科学院数学与系统科学研究院陈敏教授在其所做的报告《基于LossMetricsTM 违约数据库的LGD建模和管理的经验》中介绍了中国东方资产管理公司旗下东和数据公司建立的LossMetricsTM违约数据库。该数据库是目前国内最大的跨行及规模LGD研究数据库。数据来自于东方资产管理公司,主要包含中国银行、中国建设银行和中国工商银行的违约贷款数据,还涉及光大银行、深圳商业银行、江苏银行等的违约贷款数据; 在东方公司原有数据基础上,东和公司对违约清收数据进行采集、核对和整理,目前数据库共涉及17000余户已处置终结的违约债权。在该数据库的基础上,建立了相应的LGD的模型及其模型的校验,并将模型用于清收实际工作,取得较好的效果。

台湾政治大学统计学系人郑宇庭教授在其报告《「中小企业融资服务平台」营运风险预警管理概况课程简报》中介绍了将数据挖掘技术应用于新巴塞尔协议下的企业信用模型,他指出银行的授信业务以个人信用贷款与企业贷款为主,又以企业贷款的金额为大宗,因此企业放款违约的可能性,是值得研究的课题。将数据采矿进行的分析流程,导入企业信用评等模型的建置程序。在研究过程中分别以类神经网络、决策树及罗吉斯回归等方法来建置模型。最后得出结论从公司的财务结构与经营效率中固定资产、累计折旧所占比例,以及短期偿债能力等财务指标;征审授信纪录是否有中期贷款、担保贷款使用率与是否为电子科技产业等信息,即潜藏着授信户未来是否违约的表征。

耶鲁大学公共卫生学院的马双鸽博士在其报告《A Tale of Two Streets: Incorporating grouping structure in high dimensional data mining》在耶鲁大学公共卫生学院,生物医学的研究是进行与癌症表现型相关的基因变形研究。在华尔街八十英哩外的商业银行和资产定价公司研究有效地对抵押缺省进行预测的模型。虽然这些模型的应用日新月异,但他们都提出高维的数据挖掘问题。另外,两项研究中相关性都有着一种“组织”结构。我们提出一组为规则化估计和变量选择的惩罚方法,可以将两种组织结构有效地合并起来。这一方法有着很高的价值和优越经验主义的表现。

北京商智通公司总经理匡晓波先生在其报告《CATI系统的研究与实践》从“海峡两岸四地消费者信心指数研究项目”谈起,详细描述了CATI系统的研究与实践。他简要介绍了海峡两岸四地消费者信心指数研究”项目,及“海峡两岸四地消费者信心指数研究”项目调查实施情况,然后指出了CATI系统应用的需求概述、CATI系统的使用流程、CATI系统的必要功能设计以及如何组建CATI调查中心,最后憧憬了CATI中心的未来。

第二分会场

首先是来自台北医学大学的蒋以仁教授,他的报告题目是《文本采矿技术的发展、演进与应用》。蒋教授说明了文本采矿技术的发展,简介从利用传统统计、自然语言方法、数据采矿方法,进而逐步形成文本采矿特殊技术的过程。蒋教授提到文本采矿技术目前进一步除应用于数据文件的分类分群而外,已经延伸至探索内部所存在的隐性知识,找出所存在的规则与深意,协助人们能迅速的解决问题。

来自吉林大学的刘伟江副教授以《奇异值分解法在预测用户页面兴趣度方面的应用研究》为题进行报告。以预测用户对页面的兴趣度为研究目标,考虑到用户页面兴趣度矩阵是一个稀疏矩阵,因此将奇异值分解(Singular Value Decomposition,简称SVD)方法用到Slope One算法(协同过滤算法中的一种)中,提出了一种基于奇异值分解的协同过滤算法——SlopeOne_After_SVD算法。该方法不仅解决了矩阵稀疏性问题,而且由于用户页面兴趣度矩阵中的数据是通过提取网络日志文件中对页面兴趣度有影响的因素计算得出的,因此又解决了显性用户评分数据可能存在的“虚假评分”问题。最后刘教授用易诚网站的数据进行了验证,实验结果显示:在数据稀疏性普遍存在的情况下,SlopeOne_After_SVD算法比单纯使用Slope One算法在预测用户页面兴趣度的准确性有所提高。

 来自河北经贸大学硕士研究生万平代表河北经贸大学李春林教授就《关联规则挖掘在中国社会和谐调查问卷中的应用》进行报告。该报告为研究转型时期中国社会和谐的主要影响因素,利用关联规则挖掘对2910份有效调查问卷数据进行了深入分析。首先,通过设定不同支持度和置信度阈值的方式进行了反复挖掘。接着,通过对挖掘出来的关联规则进行分析,尤其是通过进一步对正相关关联规则进行交叉分析和对负相关关联规则进行比较分析,发现了许多有趣的知识。这些知识可为我国社会主义和谐社会和科学构建提供可信的微观数量分析论证指导。

微软中国的吴家振经理以《Microsoft Data Platform and Future of BI》为题进行报告。吴经理着重谈了Microsoft SQL Server2008的几大特点——企业级的数据平台、最低的TCO、动态的快速开发、广泛的商业智能。针对知道并需要商务智能的用户。他介绍到,微软公司为传统商务智能用户提供轻松的”自助服务”报表,为专业Excel用户提供强大的分析功能,通过SharePoint 组建数据的“社会网络”,为IT人员提供可扩展和可维护的工具。具体的长处在,IT人员可提供数据和底层结构,报表可轻易地生成, 并可重用,报表可在Excel中生成,用户可根据报表数据定义提示信息,强大的Excel分析功能,针对的目标群为使用大量数据的用户,需要共享自己方案的用户,不了解商务智能的用户。

来自北京宏能畅然数据应用有限公司的姜宏副总经理做了题为《开放易用的挖掘工具S+Miner》的报告。他介绍了具有易用性、完整性、伸缩性、开放性、集成性、高效性的s +Miner软件为市场提供了一个可靠、易用、开放的数据挖掘工具。姜副总经理重点介绍了S+Miner数据挖掘过程如下:业务理解、数据获取准备、数据理解整理、数据建模评估、预测模型应用。作为集成数据获取、探索、操纵、清洗、建模、评估发布的数据挖掘平台S+Miner广泛应用于金融业、制造业、CRM等各种数据分析领域。最后,通过质量缺陷发现应用、小灵通客户流失预警应用、KDD应用三个实例展示了软件应用的全部过程。

第二分会场

富邦金控公司邓家驹高级顾问的其报告《Basel II 信用风险建置蓝图》中介绍了信用风险管理的建置阶段,其分为数据准备--个别资产客户分析--资产组合风险管理三个阶段,然后描述了Basel II的评级系统。Basel 定义下的Rating System不仅针对PD模型,Basel 评等系统包括所有使用的方法 (methods) 、程序 (processes) 、控制点 (controls) 、与支持之信息系统 (IT) ,用以决定内部风险分级 (internal risk rating) ,与损失估计 (loss estimates),接着介绍了台湾金管会对评级结果面向的检视,认为风险评估的重点在于是否可以针对每一笔申贷,都可以正确估计出风险大小,因此可以风险计价决定合适的放款利率与额度。

台湾辅仁大学应用统计研究所的谢邦昌教授在其报告《中小企业融资服务平台营运风险预警管理之研究》中,首先介绍了贷后风险管理因子的现况,表示目前透过平台所介接政府单位的数据源包括商业司/工业局/财税中心,劳保局也会在未来进行介接。未来透过更多外部的资料源撷取,配合银行内部e-loan系统,让银行可以更有系统的整合风险因子和信息,有效进行监控并降低呆帐发生的机率。接着介绍了可调整之风险例外管理模块、中企处设定风险规则参数,表示中企处将会在【风险规则设定】,针对「基本数据及关系户」& 「财务数据」作相关风险值的设定。最后描述了如何进行有效地风险处理,表示银行将可透过中小企业融资服务平台中「风险管理>风险历史分析」针对曾经在融资服务平台中有被所设定的风险点所触发到的借款企业,将会在此呈现它过去的风险记录和历史。

• 中国人民大学统计学院王星副教授在其报告《银行持卡用户行为预测》中指出用户行为规律的把握会给银行带来利润,如何评估用户的价值, 评估用户价值的原理和方法,就成为了一个很值得研究的问题。在此问题基础上,她引入了带惩罚项的聚类、隐马氏链随机模拟等方法和实验主要结果。得出结论,带惩罚的聚类提供了一个一般性自动化处理消费数据的聚类,却不需要删除噪声数据,而HMM可以帮助找到数据流中隐藏的序规律。

山西财经大学统计学院的储海林教授在其报告《数据挖掘与数据搜集》中运用纤维丛的方法研究金融数据与金融理论源于金融行业的实际从业者,纤维丛是具有两个不同坐标系的空间。它非常适合描述同时具备内部和外部自由度的系统。指出他的工作就是在matlab操作系统的基础上,通过对纤维丛构成要素进行矩阵化处理,创建一个平台,在这个平台上,从另一个视角处理金融、经济数据。

北京华通人商用信息有限公司张伟婵业务总监在其报告《如何发现有投资价值的企业》中利用ACMR企业数据库(30万家企业信息),采取数据挖掘技术,从企业数据库中找出最具投资价值的企业类型与特征,进而对各类型企业进行判别分析,规避金融风险。 

第三分会场

政治大学统计学系研究所的陈冠宇等在报告《新巴塞尔资本协定下应用资料采矿技术建置台湾中小企业信用评等模型》中以中小企业中电子业为主要研究对象,采资料采矿流程进行信用评等模型建置。为求配适最佳违约机率模型,分别以不同精细抽样比例逐一配适罗吉斯回归、类神经网路及分类回归树等统计模型,经评估后筛选出罗吉斯回归模型建置信用评等系统。再者,为确认模型与信用评等系统建置适当,系遵循新巴塞尔协定相关规范进行各项测试及验证,结果显示模型于样本外资料测试表现良好,信用评等系统亦通过正确性分析、等级区隔同质性检定及稳定度分析等验证准则,冀能提供金融机构一套有效且精简的信用管理机制,建立与中小企业间资讯对称管道,于两造双方取得互利平衡。

政治大学统计学系研究所的谢尚文等的报告《导入资料采矿技术于中小企业信用风险模型之建置-以营造业为例》中,以台湾未上市中小企业为实例,资料的观察期间为2003至2005年,透过资料采矿流程,建构企业违约风险模型及其信用评等系统。研究中分别利用罗吉斯回归、类神经网路、和分类回归树三种方法建立模型并加以评估比较其预测能力。发现罗吉斯回归模型对于违约户的预测能力及有效性皆优于其它两者,并选定为本研究之最终模型。接下来便针对该模型进行各项验证,以确立能够在银行授信流程实务中加以应用。

政治大学统计学系研究所的罗浩祯等在报告《应用资料采矿技术建置中小企业信用评等模型-以传统产业为例》中,以中小企业中制造传统产业公司为主要的研究对象,建构企业违约风险模型及其信用评等系统,资料的观察期间为2003至2005年。研究分别利用罗吉斯回归、类神经网路、和C&R Tree三种方法建立模型并加以评估比较其预测能力。研究结果发现,经评估确立以1:1精细抽样比例下,使用罗吉斯回归技术建模的效果最佳,共选出六个变数作为企业违约机率模型之建模变数。经验证后,此模型即使应用到不同期间或其它实际资料,仍具有一定的稳定性与预测效力,且符合新巴塞资本协定与金管会的各项规范,表示本研究之信用评等模型,确实能够在银行授信流程实务中加以应用。

政治大学统计学系研究所的谢欣芸等在报告《导入资料采矿技术于中小企业信用风险模型之建置-以营造业为例》中提出,希望利用92至94年未上市上柜中小企业之营造业的资料,依循新巴赛尔资本协定之规定并配合资料采矿的技术,拟出一套信用风险模型建置与评估的标准流程,其中包含企业违约机率模型以及信用评等系统的建置,前者能预测出授信户的违约情形以及违约机率;后者则是能利用前者的分析结果将授信户分成数个不同的等级,藉此区别授信户是否属于具有高度风险的违约授信户,期待能提供银行业者作为因应新巴赛尔协定中内部评等法的建置,以及中小企业的融资业务上内部风险管理的需求一个参考的依据。研究结果共选出5个变数作为企业违约机率模型建立之依据,训练资料以及原始资料的AUC分别为0.799以及0.773,表示模型能有效的预测违约机率并判别出违约授信户以及非违约授信户。接着,经过回顾测试与系数拔靴测试,证实本研究的模型具有一定的稳定性。另外,透过信用评等系统将所有授信户分为8个评等等级,并藉由等级同质性检定以及敏感度分析的测试,可以验证出本研究之评等系统在具有将不同违约程度之授信户正确归类之能力。最后,经由转移矩阵可以发现,整体而言,营造业在92年到94年间的表现有逐渐好转的趋势,与营造业实际发展情形相互比较之下,也确实得到相互吻合的结论。

政治大学统计学系研究所的甘龄珺等在报告《应用资料采矿技术于自行车产业》中,期望透过资料采矿的应用,配合SPSS Clementine 12.0软体,冀望找出是否拥有自行车之影响变数,并以巨大捷安特以及爱地雅为个案分析对象,进行行销组合策略分析与建议。投入变数共分为三大部分:基本人口统计变数、生活型态变数以及自行车消费行为变数,进行模型建置,由于分类决策树不论是在整体预测正确率或准确度,皆是高于罗吉斯回归和类神经网路,故最后选择分类决策树此一模型。透过分类决策树共获得十三项影响「是否拥有自行车」之相关变数,其中「V11-月可支配所得」、「V2-出生年次」、「V1-性别」、「V79-报纸接触率」、「V173-商品诉求-乐活」、「V58-保健食品最近一年使用时间」、「V105-亲疏关系情人」、「V148-商品诉求-排毒」,此八项变数对自行车拥有者具较大影响力,故本研究以此八项变数为巨大捷安特和爱地雅之行销策略建议依据。

台湾辅仁大学应用统计研究所的宋龙华在报告《应用资料采矿于智能型统计资料库系统》中,设计「智能型统计资料库系统」即为解决企业所面临问题,此系统基础为函数映射理念,并藉由资料采矿技术推估预测资料短缺问题。本研究以情境分析法说明「智能型统计资料库系统」的可行性,首先将企业资料库视为统计资料库且具有资料短缺问题,故企业须藉由调查获得资料。调查得执行以全国意向顾问公司的行动调查系统为调查工具,其突破传统调查上的限制与具有机动性的优势,在调查品质上有一定水准。「智能型统计资料库系统」正是将企业统计资料库与行动调查系统透过资料采矿技术整合,企业资讯缺失问题透过行动调查系统不断将所得讯息传回资料库,藉由不断地循环方式丰富企业统计资料库,其附加价值不断扩增,统计资料库逐渐形成智能型系统,即称为「智能型统计资料库系统」。

台湾辅仁大学应用统计研究所林效荷在报告《资料采矿应用于复合式休闲运动市场区隔之研究》中针对休闲活动及运动型态进行市场区隔,找出各群的特性;探讨「复合式休闲运动馆」潜在顾客,在不同类型市场区隔之下,「复合式休闲运动馆」需求之间的差异;并利用Text Mining探讨休闲俱乐部的营运困境及休闲运动产业未来发展趋势。综合而言,受访者对「复合式休闲运动馆」的游憩需求,会受到个人的游憩认知所影响,因此,可朝加强民众对「复合式休闲运动馆」的了解,进而产生游憩需求,提供符合期待的游憩服务。

台湾辅仁大学应用统计研究所许晏宾在报告《资料采矿技术应用于微阵列资料分析以筛选阿兹海默症候选基因之研究》中指出其欲找出更多与阿兹海默症病患的基因,提供未来医学研究之探讨。本研究分析利用美国国家卫生研究中心(NCBI)资料库所提供的HGU-133A平台的GSE1297微阵列资料,首先进行差异性分析筛选出影响阿兹海默病症的表现期显着的相关基因,总共有1,681笔显着,将此分别以「全部的显着基因群」、「与MMSE智能分数相关的基因群」、与「NFT神经纤维缠结相关的基因群」以及「与MMSE或NFT任一有相关的基因群」四大种基因群,利用CART决策树反复运算挑选出最能显着判别的基因,结果剩余64种基因;再以HGU-1332Plus平台的微阵列资料进行验证,结果排除1种基因,并且计算每一种基因的显着率,作为一种缩减维度的指标。之后结合群集分析以及GO-terms分析来进行功能探讨,试图描绘阿兹海默症候选基因的表现与调控。最后再以资料采矿模组分析来进行预后模式的建构,分成跨平台以及非跨平台两种,以GSE5281资料作为测试,进行判断正确率以作为候选基因的评断依据,提供阿兹海默症研究之参考。

台湾辅仁大学应用统计研究所的朱国豪在报告《资料采矿应用于乳癌患者之遗传基因及生活因素探讨》中利用乳癌病患的特性资料,从NCBI资料库,抓取病人的54675个基因表现量,进行乳癌、家族遗传、抽烟、转移等之T-test差异性比较,从中可找出59个候选基因与因遗传而罹患乳癌最有显着相关,利用这些基因建立31个有无家族史之判别模组,而此31个判别分析模型之整体预测能力约界在50%至60%左右,进而将84笔测试资料带入判别分析模型,得分类矩阵之正确率约达60%。因此在往后疾病刚萌芽的分子阶段,挑选出病患的59个主要影响乳癌遗传基因表现量,带入判别模型来辨别病人是否因家族史而罹患乳癌,如此可在早期让病患进行乳癌的治疗,为乳癌病患提供一个更完善的医疗照顾。

辅仁大学生命科学系的侯蔼玲在报告《由资料采矿技术探讨微阵列资料筛选乳癌相关基因》采用Affymetrix GeneChip Human Genome U133 Plus 2.0 Array这组芯片所做出来的microarray资料为材料来进行研究,所使用的资料集为NCBI里面的GSE2109、GSE3744、GSE7307三个资料集。本研究使用了集群分析来筛选出在乳癌病患及正常个体之间表现有差异的基因,并建立判别模型来判别一个新个体资料是否可能为乳癌病患,最后再结合GO基因功能分类资料库,将筛选出的基因进行基因功能分类,提供生物及医学研究上之参考。

台湾辅仁大学应用统计研究所的林雅雯在其报告《台湾地区博弈事业定位与市场结构分析之研究》中采问卷调查方式,分析民众对于设置观光赌场的信心分数及赌场的市场定位,并由新闻文件的特殊性,分析、探勘、解读新闻文件库中潜藏的知识,预估观光赌场所能带来的经济利益与冲击。从国外赌场的成功发展经验与条件,来探讨台湾未来设置观光赌场之优劣,并给予相关配套措施与法规。本研究结果如下:(一) 博彩业欲提优质的服务,也必须仰赖大量高素质的人力资源,并且配合上有效能的管理,才能达到博彩业持续发展的目标。(二) 设置观光赌场除了带来经济效益,负面影响尤其是治安问题,于事前应整合各方意见,审慎评估与规划。(三) 观光赌场的设立需具有可及性,故交通设施必须要有完整的规划。设置观光赌场是一个必须多方思考的政策议题,然而,在设置模式上,由于台湾缺乏相关经验,因此可以参考国外其它成功案例,引进国际企业专业管理经验,从策略管理的角度思考,提出台湾发展观光赌场之相关规划,供政府部门决策参考。

中国人民大学统计学院的王昕在报告《支持向量机与逻辑回归判别面置信带的比较研究》中指出,分类模型算法设计的主要部分是求解判别面的参数估计。支持向量机和逻辑回归是两种典型的分类模型,文中重点研究这两类模型的判别面置信带,使用判别面置信带评价分类模型的精确性与稳定性。本文中首先提出了一种使用Bootstrap方法构造分类模型判别面置信带的方法;接下来设计了几种数据环境,使用模拟样本数据分别构造了支持向量机与逻辑回归模型的分类判别面和相应的置信带。在改变数据分布类型,样本量和分布参数等条件下,本文发现两种模型判别面置信带都受到样本量的影响,而逻辑回归模型对各种数据因素更加敏感。

中国人民大学统计学院的张慧等在报告《基于设备质量数据的Apriori的实现与组合算法的比较》中提出,分类问题是现实生活和工作中应用非常广泛的问题,通过已有的分类信息建立模型,从而根据相关信息对未知的分类情况进行预测,因为其重要的现实意义,分类问题也就成为了数据挖掘的一个重要应用方面。数据挖掘关联规则的算法用于挖掘各变量间的强相关性,数据挖掘中决策树等统计模型则应用于研究一部分变量对某一变量即目标变量的影响程度,并对其进行预测。将二者结合将帮助更完整地了解数据结构,以期得到更精准合理的分类结果。

中国人民大学统计学院的黄媛在报告《Carma算法的效率和稳定性研究》中,在对Carma算法基本原理介绍的基础,研究了该算法的使用效果和影响算法的因素,并提出了对该算法的一种改进。文章在两个测试集上进行四个部分的实验,实验结果表明:1.在固定支持度的情况下,Carma算法的得到的项集是Apriori的子集。在支持度设计不系统偏高时,两种算法得到一致的结果。2.用户给定的支持度对Carma算法产生影响, PhaseΙ生成的项集随着支持度阀值的升高而减少,PhaseⅡ删除的项集数目先增加再减少。在变动支持度的情况下,Carma算法具有很好的一致性,只要理想水平相同,变化的支持度能得到一致的项集。3.项集的首达时是影响Carma算法的因素。对项集首达时的讨论表明项集越早进入支持格,估计就越可能准确,并且早进入的项集在PhaseⅡ中被删除的可能性较小。4.文章最后引入了一个判别指标,根据该指标的值对进入PhaseΙ的项集进行判别从而省略了PhaseⅡ,简化了算法。

中国人民大学统计学院的刘苗在报告《基于概率潜在语义分析(PLSA)和Adaboost算法的文本分类技术研究》中,从文本特征抽取、分类算法效率和精度两个角度出发,首先利用概率潜在语义分析(PLSA)方法,有效地提取出隐含在文档词频数据中的语义概念信息,在此基础上构建了分类精度较高的Adaboost算法分类器,从技术方面对文本分类算法进行了改进,并采用实际数据进行了测试,实验结果表明,该方法发挥了两种方法的优势,能够很好的完成对文本的自动分类。

 中国人民大学应用统计科学研究中心研究中心

中国人民大学统计学院

2009-6-10