基于知識(shí)模式挖掘的流程知識(shí)推薦系統(tǒng)1
(1.復(fù)旦大學(xué) 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,上海 201203; 2. 復(fù)旦大學(xué) 軟件學(xué)院,上海
201203)
摘要:傳統(tǒng)的流程管理與知識(shí)管理相互獨(dú)立,難以為流程參與者提供充分的知識(shí)支持,
為此提出一種基于知識(shí)模式挖掘的流程知識(shí)推薦系統(tǒng)。將流程日志和知識(shí)學(xué)習(xí)日志集成,
創(chuàng)建流程案例庫(kù)。根據(jù)角色信息和問(wèn)題描述文本對(duì)流程案例建模,使用基于案例的推理挖
掘參與者面對(duì)新問(wèn)題時(shí)的知識(shí)主題需求。使用馬爾科夫模型和序列模式算法挖掘面向主題
的知識(shí)學(xué)習(xí)模式,為參與者提供符合學(xué)習(xí)習(xí)慣的知識(shí)序列。在某軟件開(kāi)發(fā)流程數(shù)據(jù)集上的
實(shí)驗(yàn)驗(yàn)證了在流程知識(shí)推薦中的可行性,實(shí)驗(yàn)結(jié)果表明該方法具有較好的準(zhǔn)確率和召回率。
關(guān)鍵詞:序列模式;馬爾科夫模型;基于案例的推理;業(yè)務(wù)流程管理;推薦系統(tǒng)
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
Process-oriented knowledge recommendation by mining knowledge
patterns
LIU Haitao1, 2+,ZHAO Weidong1,2
(1.Shanghai Key Laboratory of Data Science, Fudan University, Shanghai 201203, China;
2. School of Software, Fudan University, Shanghai 201203, China)
Abstract:The disparity of business process management and knowledge management makes it a
challenge to provide effective knowledge support for process participants. To solve this problem,
the study proposes a process-oriented knowledge recommendation systemby mining knowledge
patterns from historical process executions. First, process context is modeledwith role information
of participants and description text of process problems. Then, a case repository is builtby
integrating process execution logs and knowledge reference logs. Based on the case repository, a
case based reasoning approach is utilized to reason the knowledge intention for new process
contexts. Further, thetopic-wise Markov model and sequential miningare usedto analyze
participants’ learning patterns on each knowledge topic. In this way, more helpful knowledge
sequences arerecommendedin accordance with learners’ cognitive patterns. Finally, the
effectiveness of this study is evaluated with a real-life software development process, and results
indicate that the system can achieve better precision and recall.
Keywords : sequential pattern; Markov model; case based reasoning; business process
management; recommender system
0 引言
知識(shí)是企業(yè)獲取競(jìng)爭(zhēng)優(yōu)勢(shì)的重要資源。在知識(shí)日益豐富的今天,如何使用知識(shí)管理系統(tǒng)將企業(yè)
的知識(shí)資本轉(zhuǎn)化為企業(yè)效益成為一個(gè)重要問(wèn)題。目前,許多企業(yè)使用工作流管理系統(tǒng)實(shí)現(xiàn)了自動(dòng)化
辦公,但多數(shù)流程管理系統(tǒng)都沒(méi)有提供有效的知識(shí)支持[1,2]。流程管理與知識(shí)管理的分離使企業(yè)的知
收稿日期:2016-01-07;修訂日期:2016-03-10。Received 07 Jan.2016;accepted 10 Mar.2016.
基金項(xiàng)目:上海市浦江人才計(jì)劃資助項(xiàng)目(14PJC017);國(guó)家自然科學(xué)基金資助項(xiàng)目(71071038)。Foundation items:
Project supported bythe Pujiang Program, Shanghai, China (No. 14PJC017) ,and the National Natural Science Foundation,
China (No. 71071038).
網(wǎng)絡(luò)出版時(shí)間:2016-05-06 14:06:01
網(wǎng)絡(luò)出版地址:https://www.cnki.net/kcms/detail/11.3619.TP.20160506.1406.004.html
識(shí)財(cái)富得不到充分的利用,無(wú)法為員工提供充分的知識(shí)幫助。
如何實(shí)現(xiàn)知識(shí)管理與流程管理的有機(jī)結(jié)合已經(jīng)成為學(xué)術(shù)界的研究熱點(diǎn)[3,4]。文獻(xiàn)[5]使用協(xié)同過(guò)濾
發(fā)現(xiàn)知識(shí)需求相似的用戶(hù),為流程參與者主動(dòng)提供知識(shí)支持。在業(yè)務(wù)流程中,處理相似任務(wù)的員工
通常具有相似的知識(shí)需求。文獻(xiàn)[6]使用工作流模型分析員工之間的協(xié)作緊密程度,利用協(xié)同過(guò)濾為
參與者推薦感興趣的流程知識(shí)。類(lèi)似地,Liu 等借鑒數(shù)據(jù)庫(kù)中視圖的思想,為不同角色的知識(shí)工作者
創(chuàng)建知識(shí)流視圖,提供面向角色的知識(shí)需求建模和知識(shí)支持[7]。流程中通常伴隨著隱性的知識(shí)流動(dòng),
從知識(shí)流的角度分析知識(shí)的創(chuàng)建、傳播過(guò)程,是流程知識(shí)推薦的另一種思路[8]。例如,文獻(xiàn)[9]嘗試
挖掘員工之間的郵件互動(dòng)發(fā)現(xiàn)隱性的知識(shí)協(xié)作流程,促進(jìn)隱性知識(shí)的分享。通過(guò)挖掘員工的知識(shí)需
求并主動(dòng)地推薦知識(shí),這些方法促進(jìn)了企業(yè)知識(shí)的分享。然而,現(xiàn)有的流程知識(shí)推薦方法大多從信
息需求的角度提供知識(shí)支持,很少考慮用戶(hù)的學(xué)習(xí)過(guò)程,所推薦的知識(shí)列表并不能很好地滿(mǎn)足用戶(hù)
的認(rèn)知需求。
在線(xiàn)學(xué)習(xí)(E-learning)領(lǐng)域的研究顯示,知識(shí)學(xué)習(xí)過(guò)程會(huì)遵循一定的知識(shí)模式[10]。例如,在學(xué)
習(xí)新知識(shí)時(shí),會(huì)遵循由淺入深、從寬泛到具體的學(xué)習(xí)規(guī)律。在面對(duì)海量潛在有益的知識(shí)時(shí),如果能
推薦符合學(xué)習(xí)模式的知識(shí)序列,可以幫助員工更好地學(xué)習(xí)流程知識(shí),促進(jìn)知識(shí)財(cái)富的轉(zhuǎn)化。文獻(xiàn)[11]
研究了在線(xiàn)學(xué)習(xí)中的知識(shí)推薦,利用圖方法為學(xué)習(xí)者推薦符合自身知識(shí)結(jié)構(gòu)和學(xué)習(xí)目標(biāo)的知識(shí)路徑。
然而,業(yè)務(wù)流程的復(fù)雜性使得這些推薦方法很難發(fā)揮作用。在 E-learning 中,學(xué)習(xí)者的學(xué)習(xí)目標(biāo)和
知識(shí)水平比較容易建模,課程之間具有清晰的層次遞進(jìn)關(guān)系;而在業(yè)務(wù)流程中,員工的知識(shí)需求復(fù)
雜多變,知識(shí)項(xiàng)之間關(guān)系松散。需要開(kāi)發(fā)新的方法挖掘流程參與者的知識(shí)需求和知識(shí)學(xué)習(xí)模式。
本文提出一種基于知識(shí)模式挖掘的流程知識(shí)推薦系統(tǒng)。在知識(shí)密集型流程中(如軟件開(kāi)發(fā)流程),
員工需要借助知識(shí)庫(kù)解決流程問(wèn)題,通過(guò)檢索相關(guān)主題的知識(shí)文檔,獲取知識(shí)幫助。這些知識(shí)訪問(wèn)
行為以日志的形式記錄在知識(shí)管理系統(tǒng)中,從中可以挖掘有益的知識(shí)模式,為解決新的流程問(wèn)題提
供幫助[12]。本文將知識(shí)管理系統(tǒng)和流程管理系統(tǒng)的日志數(shù)據(jù)進(jìn)行集成,挖掘了流程實(shí)例—知識(shí)主題
和知識(shí)主題—知識(shí)學(xué)習(xí)模式兩種知識(shí)模式。使用基于案例的推理[13]挖掘流程實(shí)例—知識(shí)主題模式,
通過(guò)識(shí)別相似的流程問(wèn)題,發(fā)掘員工面對(duì)新問(wèn)題時(shí)所需要的知識(shí)主題;利用馬爾科夫模型和序列模
式算法挖掘參與者學(xué)習(xí)各個(gè)主題時(shí)的知識(shí)學(xué)習(xí)模式,并推薦符合用戶(hù)認(rèn)知習(xí)慣的知識(shí)序列。實(shí)驗(yàn)結(jié)
果表明本文的方法具有較高的推薦準(zhǔn)確率和召回率,證明了該方法在流程知識(shí)推薦中的可行性。
1 系統(tǒng)設(shè)計(jì)
圖 1 為流程知識(shí)推薦系統(tǒng)的架構(gòu)圖,包括離線(xiàn)學(xué)習(xí)和在線(xiàn)推薦兩個(gè)模塊。離線(xiàn)學(xué)習(xí)的主要任務(wù)
是創(chuàng)建流程案例庫(kù)和挖掘知識(shí)學(xué)習(xí)模式:①?gòu)墓ぷ髁鞴芾硐到y(tǒng)(Workflow Management System, WfMS)
和知識(shí)管理系統(tǒng)(Knowledge Management System, KMS)讀取日志數(shù)據(jù),經(jīng)過(guò)抽取、轉(zhuǎn)換、加載(ETL)
操作,創(chuàng)建描述流程問(wèn)題實(shí)例—知識(shí)主題行為的案例庫(kù);②使用序列模式挖掘、Markov 模型等算法
挖掘員工在學(xué)習(xí)各個(gè)知識(shí)主題時(shí)的學(xué)習(xí)模式。為了解決新的流程問(wèn)題,在線(xiàn)推薦模塊采用兩階段推
薦策略:①對(duì)問(wèn)題的描述文本進(jìn)行分析,結(jié)合流程實(shí)例數(shù)據(jù),抽取新實(shí)例的流程上下文特征,使用
基于案例的推理在案例庫(kù)中發(fā)現(xiàn)相似的歷史案例,推理參與者需要的知識(shí)主題;②根據(jù)挖掘得到的
知識(shí)學(xué)習(xí)模式,為員工推薦符合認(rèn)知習(xí)慣的最佳知識(shí)序列,使參與者能夠較好地學(xué)習(xí)所需主題的流
程知識(shí)。
以某 IT 公司的軟件開(kāi)發(fā)流程為例,論述基于知識(shí)模式挖掘的流程知識(shí)推薦方法。軟件開(kāi)發(fā)流程
包括需求分析、系統(tǒng)設(shè)計(jì)、模塊開(kāi)發(fā)、測(cè)試、文檔與報(bào)告等階段,各項(xiàng)任務(wù)都需要參與者具備專(zhuān)業(yè)
的業(yè)務(wù)知識(shí)。WfMS 以流程日志的形式記錄了流程的運(yùn)行過(guò)程,如表 1 所示。每條數(shù)據(jù)記錄了一個(gè)流
程問(wèn)題(或任務(wù))的處理,稱(chēng)作流程實(shí)例。實(shí)例數(shù)據(jù)包括 Issue(問(wèn)題)編號(hào)、參與者 ID、參與者的
角色、流程任務(wù)、實(shí)例描述等信息,其中“實(shí)例描述”以文本形式介紹了參與者要解決的流程問(wèn)題,
是流程實(shí)例建模的重要信息。知識(shí)管理系統(tǒng)(Knowledge Management Systems,KMS)記錄了員工
使用知識(shí)庫(kù)解決實(shí)例問(wèn)題的學(xué)習(xí)過(guò)程,每條行為數(shù)據(jù)包括 Issue 編號(hào)、參與者 ID、知識(shí)序列和學(xué)習(xí)
時(shí)間等,如表 2 所示。例如,軟件開(kāi)發(fā)工程師 D2 為了解決開(kāi)發(fā)任務(wù)遇到的“文件加密”問(wèn)題,依
次學(xué)習(xí)了 k1,k3,k5 等知識(shí)項(xiàng)。通常情況下,KMS 和 WfMS 相對(duì)獨(dú)立,KMS 并沒(méi)有記錄 Issue 編號(hào)等
流程信息。為了充分發(fā)揮 KMS 的效用、更好地為參與者提供知識(shí)服務(wù),本文將 WfMS 和 KMS 進(jìn)行了系
統(tǒng)層面的集成,使 KMS 能夠記錄參與者訪問(wèn)知識(shí)庫(kù)時(shí)所處理的流程問(wèn)題(Issue 編號(hào))。
圖 1 流程知識(shí)推薦系統(tǒng)架構(gòu)圖
新實(shí)例 基于案例的推理 知識(shí)推薦
案例庫(kù)
ETL
知識(shí)庫(kù)
知 識(shí) 管 理 系
統(tǒng)
模式挖掘
離線(xiàn)學(xué)習(xí)
ETL
在線(xiàn)推薦
ETL
流 程 管 理 系
統(tǒng)
表 1 流程日志示例
Issue 參與者 角色 任務(wù) 實(shí)例描述
S116 A1 分析師 需求分析 “訪問(wèn)控制…”
S117 D2 開(kāi)發(fā)工程師 模塊開(kāi)發(fā) “文件加密…”
S117 T1 測(cè)試工程師 軟件測(cè)試 “文件加密…”
表 2 知識(shí)學(xué)習(xí)日志示例
Issue 參與者 知識(shí)序列 時(shí)間
S116 A1 k7,k6,… 2012-09-06 15:35:00
S117 D2 k1,k3,k5,… 2012-09-08 17:35:00
S117 T1 k3,k2,k8,… 2012-10-22 08:29:06
WfMS 和 KMS 的日志數(shù)據(jù)是挖掘知識(shí)模式的基礎(chǔ),但在深入分析之前需要以下數(shù)據(jù)預(yù)處理操作:
(1)數(shù)據(jù)清洗。對(duì)數(shù)據(jù)集中的空值、異常值進(jìn)行清洗。
(2)數(shù)據(jù)集成。使用 Issue 編號(hào)和參與者 ID 作為聯(lián)合主鍵,將流程日志和知識(shí)學(xué)習(xí)日志進(jìn)行數(shù)
據(jù)集成。
(3)知識(shí)主題標(biāo)注。軟件公司的 KMS 以元數(shù)據(jù)的形式記錄了每條知識(shí)項(xiàng)所屬的知識(shí)主題,使用
知識(shí)主題元數(shù)據(jù)對(duì)知識(shí)序列進(jìn)行主題標(biāo)注。對(duì)于未進(jìn)行主題劃分的知識(shí)庫(kù),可以使用聚類(lèi)、LDA 等
文本挖掘算法自動(dòng)抽取知識(shí)主題[14]。
(4)創(chuàng)建流程案例庫(kù)。流程案例庫(kù)記錄了歷史的流程問(wèn)題和對(duì)應(yīng)的解決方案,可以為新的流程
問(wèn)題提供指導(dǎo)。使用參與者角色、問(wèn)題描述作為流程問(wèn)題的上下文信息,將參與者學(xué)習(xí)的知識(shí)主題
作為相應(yīng)的解決方案,創(chuàng)建描述流程問(wèn)題—知識(shí)主題關(guān)系的流程案例庫(kù)。
2 基于案例的知識(shí)推理
基于案例的推理(Case-Based Reasoning,CBR)使用過(guò)往案例的經(jīng)驗(yàn),為新案例尋求解決方案。
在業(yè)務(wù)流程中,歷史流程問(wèn)題的知識(shí)解決方案可以為新問(wèn)題提供思路。雖然 CBR 在流程決策支持中
得到了應(yīng)用,但很少有學(xué)者研究基于 CBR 的流程知識(shí)推薦[13]。流程知識(shí)推理存在以下幾個(gè)難點(diǎn):①
流程問(wèn)題的知識(shí)上下文相對(duì)復(fù)雜,受到參與者知識(shí)背景和任務(wù)要求等因素影響,存在一定的建模難
度。②知識(shí)庫(kù)中知識(shí)項(xiàng)數(shù)量龐大,直接針對(duì)知識(shí)項(xiàng)進(jìn)行推理存在數(shù)據(jù)稀疏的問(wèn)題,推理的準(zhǔn)確度不
高。針對(duì)這些問(wèn)題,本章結(jié)合流程數(shù)據(jù)和知識(shí)數(shù)據(jù)進(jìn)行案例建模,使用 CBR 推理參與者面對(duì)新問(wèn)題
時(shí)的知識(shí)主題需求。
2.1 流程案例建模
案例建模是對(duì)流程問(wèn)題的上下文進(jìn)行描述。在本文中,CBR 的目標(biāo)是發(fā)掘員工的知識(shí)意圖,即
確定員工在面對(duì)流程問(wèn)題時(shí)所需要的知識(shí)主題。員工的知識(shí)背景、流程任務(wù)的要求和問(wèn)題本身都是
決定員工知識(shí)需求的重要因素。在流程中,相同角色的員工由于執(zhí)行相似的流程任務(wù),擁有相似的
背景知識(shí)和知識(shí)需求[7]。角色信息和問(wèn)題描述一起能夠較好地決定員工的知識(shí)意圖。
定義流程案例 c 為關(guān)系(r, p) → ????????? ,其中 r 為參與者的角色,p 為流程問(wèn)題的文本描述,(r, p)
構(gòu)成了流程問(wèn)題的上下文信息;KT 為知識(shí)庫(kù)中的知識(shí)主題全集,????????? 表示參與者為了解決問(wèn)題所學(xué)
習(xí)的知識(shí)主題,即解決方案。為了解決問(wèn)題,參與者可能同時(shí)需要多個(gè)主題的知識(shí),????????? 以向量的形
式表示每個(gè)知識(shí)主題的權(quán)重。給定知識(shí)主題???? ∈ ????,權(quán)重 wc,kt 為該主題的知識(shí)在案例 c 的解決方案
中的數(shù)量比例。
2.2 案例相似度指標(biāo)
相似度指標(biāo)用于評(píng)估案例之間的相似程度。相似度高的歷史案例可以作為新問(wèn)題推理的依據(jù)。
定義案例 c1=(r1, p1)與 c2=(r2, p2)的案例相似度為式(1)。其中:simR(r1, r2)為角色 r1和 r2 的角色相似度,
衡量角色之間知識(shí)背景的相似程度;simP(p1, p2)為問(wèn)題 p1和 p2的問(wèn)題相似度;0 ≤ α ≤ 1為權(quán)重因子。
α值越大,角色相似度的權(quán)重越大,推理更側(cè)重參與者的知識(shí)背景;反之,α值越小,問(wèn)題相似度權(quán)
重越大,推理更傾向于尋找相似的歷史問(wèn)題。
( , ) ( , ) (1 ) ( , ) 1 2 1 2 p1 p2 Sim c c ?? ? simR r r ? ?? ? simP 。 (1)
承擔(dān)相似流程任務(wù)的角色,其知識(shí)背景和知識(shí)需求也比較類(lèi)似。例如,在軟件開(kāi)發(fā)流程中,開(kāi)
發(fā)工程師和測(cè)試工程師都會(huì)參與一定量的開(kāi)發(fā)和測(cè)試任務(wù),在一定程度上有著相似的知識(shí)需求。流
程日志為評(píng)估參與者的行為提供了基礎(chǔ),本文使用流程挖掘技術(shù)計(jì)算角色之間的相似度[12]。給定流
程日志 L 和流程任務(wù)集 TASK,統(tǒng)計(jì)角色 r 參與任務(wù) t ∈TASK 的次數(shù),記作 frequency(r, t)。角色
r 可以表示為向量?? =,其中 fti= frequency(r, ti)。使用余弦相似度定義角色 r1
和 r2的相似度,如式(2)所示。
( , ) /(| | *| | ) 1 2 1 2 1 2
simR r r ? r ?r r r 。 (2)
在業(yè)務(wù)流程中,通常以需求文檔、設(shè)計(jì)說(shuō)明書(shū)等文本形式描述流程問(wèn)題或任務(wù)要求。例如,軟
件開(kāi)發(fā)人員通過(guò)閱讀設(shè)計(jì)文檔,了解軟件模塊的業(yè)務(wù)需求。為了評(píng)估流程問(wèn)題之間的相似度,使用
文本挖掘計(jì)算問(wèn)題描述文本的語(yǔ)義相似程度。利用開(kāi)源的自然語(yǔ)言處理工具 StanfordNLP[15]對(duì)問(wèn)題
描述文本進(jìn)行分詞、去停頓詞、詞干化等預(yù)處理操作。隨后利用詞頻—逆文檔頻率(TF-IDF)模型
對(duì)流程問(wèn)題文本建模,如式(3)所示。最后定義問(wèn)題相似度為問(wèn)題描述文本之間的余弦相似度。
( , ) *log( / ) doc TFterm,doc N DFterm weight term ? 。 (3)
2.3 知識(shí)需求推理
在案例推理階段,根據(jù)新問(wèn)題的上下文特征和案例庫(kù)的歷史經(jīng)驗(yàn),確定員工的知識(shí)主題需求。
采用 K 近鄰的思路進(jìn)行案例推理——在案例庫(kù)中發(fā)現(xiàn)相似度最高的 l 個(gè)歷史案例,使用相似度加權(quán)
預(yù)測(cè)員工對(duì)各個(gè)知識(shí)主題的需求權(quán)重,如式(4)所示。
? ?
?
c C
c t
duration Weight c t Sim c c w
'
'
,
( , ) ? * ( ,
')* 。 (4)
式中:C 為 l 個(gè)最相似案例的集合,Sim(c, c’)為案例相似度權(quán)重;
duration ?
為案例 c’的時(shí)間權(quán)重,
0 ? ? ?1
為衰減因子,duration 為案例 c’發(fā)生事件和當(dāng)前的時(shí)間間隔(以年為單位),即時(shí)間越久,權(quán)重越小。
在知識(shí)密集型的流程中,知識(shí)更新速度相對(duì)較快,為員工推薦新的知識(shí)方案能更好地滿(mǎn)足流程參與
者的知識(shí)需求。本文進(jìn)行了實(shí)驗(yàn)分析并設(shè)置 l=10,? ? 0.8。值得注意的是,在一些新開(kāi)始的流程環(huán)
境中,可能無(wú)法獲取足夠數(shù)量的相似案例作為推理依據(jù)。針對(duì)這種情況,可以使用 SVM、Logistic
回歸等準(zhǔn)確率較高的分類(lèi)算法從案例數(shù)據(jù)訓(xùn)練知識(shí)主題預(yù)測(cè)器,輔助 CBR 的知識(shí)推理過(guò)程。
CBR 能夠推理出參與者面對(duì)新問(wèn)題時(shí)需要的知識(shí)主題和主題權(quán)重,解決了“學(xué)什么”的問(wèn)題。
但對(duì)于每個(gè)主題的知識(shí),還需要根據(jù)參與者的學(xué)習(xí)模式,以更友好的方式提供知識(shí)支持,即解決“怎
么學(xué)”的問(wèn)題。
3 知識(shí)學(xué)習(xí)模式挖掘
知識(shí)的學(xué)習(xí)過(guò)程存在著一定的認(rèn)知模式,從知識(shí)庫(kù)的訪問(wèn)日志中挖掘?qū)W習(xí)者的學(xué)習(xí)模式,能夠
更合理地為參與者(尤其是新員工)提供知識(shí)推薦。本文使用馬爾科夫模型和序列模式算法挖掘知
識(shí)工作者的學(xué)習(xí)模式。
3.1 面向主題的馬爾科夫模型
馬爾科夫(Markov)模型使用概率模型對(duì)序列模式建模,在 Web 日志分析、個(gè)性化推薦等領(lǐng)域
得到了廣泛應(yīng)用[16]。然而,現(xiàn)有的方法大多只考慮知識(shí)項(xiàng)之間的轉(zhuǎn)移關(guān)系,忽略了知識(shí)主題對(duì)學(xué)習(xí)
行為的影響。通常來(lái)看,學(xué)習(xí)者在短時(shí)間內(nèi)只會(huì)關(guān)注單個(gè)主題的知識(shí),表現(xiàn)出一定的主題聚集性,
很少出現(xiàn)從一個(gè)知識(shí)主題突然跳轉(zhuǎn)到另一個(gè)主題的情況。傳統(tǒng)的 Markov 模型很少考慮這一特征,會(huì)
出現(xiàn)跨主題知識(shí)推薦的情況,影響了推薦的質(zhì)量。為了改善知識(shí)推薦的用戶(hù)體驗(yàn),本文利用知識(shí)庫(kù)
的元信息將知識(shí)學(xué)習(xí)日志按照主題進(jìn)行切割,并訓(xùn)練面向主題的 Markov 模型,提高知識(shí)推薦的準(zhǔn)確
性和友好性。
3.1.1 知識(shí)學(xué)習(xí)日志分割
原始的知識(shí)學(xué)習(xí)日志(KL)記錄了參與者的學(xué)習(xí)行為,如表 2 所示。每條數(shù)據(jù)包含參與者解決
流程問(wèn)題的知識(shí)學(xué)習(xí)序列,記作,m 為序列長(zhǎng)度。利用知識(shí)庫(kù)的元信息,將知識(shí)
序列劃分為多個(gè)知識(shí)子序列——每個(gè)子序列中的知識(shí)項(xiàng)隸屬相同的知識(shí)主題,并按照學(xué)習(xí)順序排列。
令 K 表示知識(shí)庫(kù)中知識(shí)項(xiàng)的集合,T 表示知識(shí)主題的集合。對(duì)于每個(gè)知識(shí)主題???? ∈ ??,得到相應(yīng)的
知識(shí)序列子集 KLkt。
3.1.2 狀態(tài)與知識(shí)跳轉(zhuǎn)關(guān)系
在 k 階 Markov 模型中,狀態(tài)是指知識(shí)序列中的一個(gè) k-gram。給定知識(shí)序列,
k 階 Markov 模型的第 j 個(gè)狀態(tài)為
?? j j? j?k?i ?
k
j S k , k ,...,k 1
,1 ≤ ?? ≤ ?? ? ?? + 1。例如,對(duì)于知識(shí)序列
s’=,一階 Markov 模型的狀態(tài)集為{k1, k2, k3},二階 Markov 模型的狀態(tài)集為{,}。
跳轉(zhuǎn)關(guān)系是指從一個(gè)狀態(tài)跳轉(zhuǎn)到一個(gè)知識(shí)項(xiàng)的時(shí)序關(guān)系。將從知識(shí)項(xiàng) kj 跳轉(zhuǎn)到 ki的跳轉(zhuǎn)關(guān)系記
作 kj→ki,表示參與者在學(xué)習(xí)知識(shí)項(xiàng) kj之后轉(zhuǎn)向?qū)W習(xí) ki。對(duì)于起始的知識(shí)項(xiàng),源狀態(tài) kj為空,記作?。
上述序列 s’中存在跳轉(zhuǎn)關(guān)系{?→k1, k1→k2, k2→k3,→k3}。
3.1.3 面向主題的 Markov 模型
為了保證知識(shí)學(xué)習(xí)的連貫性,訓(xùn)練面向主題的知識(shí)學(xué)習(xí)模型。即對(duì)于每個(gè)知識(shí)主題 kt,在數(shù)據(jù)
集 KLkt 上單獨(dú)訓(xùn)練 Markov 模型。在 Markov 模型中,跳轉(zhuǎn)概率矩陣 P 和初始化概率向量??
是需要學(xué)
習(xí)的兩個(gè)重要參數(shù)。跳轉(zhuǎn)概率
( | )
k
i j P k S
表示給定當(dāng)前的知識(shí)學(xué)習(xí)狀態(tài)
k
j S
,下一個(gè)要學(xué)習(xí)的知識(shí)項(xiàng)為
ki 的概率。利用跳轉(zhuǎn)概率矩陣,推薦系統(tǒng)可以根據(jù)學(xué)習(xí)者當(dāng)前的學(xué)習(xí)狀況,預(yù)測(cè)接下來(lái)最有可能學(xué)
習(xí)的知識(shí)項(xiàng),提供基于上下文的實(shí)時(shí)知識(shí)項(xiàng)推薦。初始化概率表示各個(gè)知識(shí)項(xiàng)作為起始知識(shí)的概率,
為學(xué)習(xí)者推薦歡迎度較高的起始知識(shí)項(xiàng)可以提高知識(shí)學(xué)習(xí)的效率。根據(jù)最大似然估計(jì),跳轉(zhuǎn)概率
( | )
k
i j P k S
的計(jì)算方法為式(5),即 ki 出現(xiàn)在
k
j S
之后的比例。相應(yīng)地,ki 作為起始知識(shí)項(xiàng)的概率?????? =
??(????
|?)。
( | ) ( , )/ ( )
k
i j
k
j
k
P ki
S j
? frequency S k frequency S 。 (5)
在 Markov 模型中,隨著階數(shù) k 的增大,模型加入更多上下文信息,預(yù)測(cè)的準(zhǔn)確度會(huì)相應(yīng)提升;
但與此同時(shí),數(shù)據(jù)稀疏性問(wèn)題會(huì)降低預(yù)測(cè)的覆蓋率。采用 1 階模型和 2 階模型線(xiàn)性插值的方法,在
準(zhǔn)確率和召回率之間取得平衡,如式(6)所示。
( | ) * ( | ) (1 )* ( | )
1 2
i j i j i
S j P k S ? ? P k S ? ? ? P k 。 (6)
式中:
0 ? ? ?1
為權(quán)重系數(shù)。設(shè)置
? ? 0.5
,即兩個(gè)模型的概率預(yù)測(cè)平均值。
3.2 知識(shí)序列模式挖掘
知識(shí)的上下文依賴(lài)關(guān)系決定了學(xué)習(xí)者的學(xué)習(xí)行為存在一定的序列模式。例如,學(xué)習(xí)知識(shí)項(xiàng) ka 之
后,通常會(huì)學(xué)習(xí)知識(shí)項(xiàng) kb,稱(chēng)為頻繁序列。挖掘知識(shí)學(xué)習(xí)中的序列模式,可以在新的知識(shí)上
下文中為用戶(hù)推薦合適的知識(shí)序列。
3.2.1 頻繁知識(shí)序列挖掘
本文挖掘面向知識(shí)主題的頻繁序列模式——給定知識(shí)主題 kt,從知識(shí)序列數(shù)據(jù)集 KLkt中挖掘頻
繁的知識(shí)序列。設(shè) K={k1, k2, …, kp }為包含 p 個(gè)知識(shí)項(xiàng)的集合。一個(gè)知識(shí)序列 S 是知識(shí)項(xiàng)集的有序
集合,記為 S=,其中每個(gè)元素 xi是知識(shí)集 K 的子集。序列 X=被另一
個(gè) 序 列 Y= 所 包 含 , 當(dāng) 且 僅 當(dāng) 存 在 1 ≤ ??1 < ??2 < ? < ???? ≤ ?? , 使 得
X ? Yi X ? Yi X m ? Yim , ,...,
1 1 2 2
。稱(chēng) X 是 Y 的子序列,Y 為 X 的超序列。給定序列數(shù)據(jù)集,定義序列 X
的支持度為數(shù)據(jù)集中 X 超序列的數(shù)量,記作 support(X)。給定最小支持度閾值 minSupport,如果
support(X)≥minSupport 則稱(chēng) X 為頻繁序列。
GSP 算法是常見(jiàn)的序列挖掘算法,利用 Aprior 性質(zhì)迭代地生成候選集、剪枝,最終得到頻繁序
列集[17]。由于GSP算法需要多次掃描事務(wù)數(shù)據(jù)庫(kù)且每次產(chǎn)生的候選集過(guò)大,算法效率不高。PrefixSpan
算法借鑒 FP-growth 的思想,在內(nèi)存中利用樹(shù)形結(jié)構(gòu)存儲(chǔ)序列信息,能夠更高效地挖掘序列模式。
本文使用 PrefixSpan 算法挖掘各個(gè)知識(shí)主題的頻繁序列模式。
3.2.2 知識(shí)項(xiàng)預(yù)測(cè)
知識(shí)項(xiàng)預(yù)測(cè)模塊將挖掘得到的序列模式集作為輸入,通過(guò)匹配用戶(hù)當(dāng)前的知識(shí)學(xué)習(xí)序列,預(yù)測(cè)
用戶(hù)接下來(lái)可能學(xué)習(xí)的知識(shí)項(xiàng)。
令用戶(hù) u 當(dāng)前的學(xué)習(xí)會(huì)話(huà) su 為 su=< k1, k2, …, kn>,即用戶(hù)最近學(xué)習(xí)的 n 條知識(shí)項(xiàng)所組成的知識(shí)
序列。令 SP=表示挖掘得到的序列模式集,pren(p)表示序列 p 的 n 項(xiàng)前綴。定義會(huì)
話(huà) su與模式 p 匹配,當(dāng)且僅當(dāng) p 的長(zhǎng)度為 n+1,且 pren(p)是 su的子序列。對(duì)于匹配的模式 p,將該
序列的第 n+1 項(xiàng)的知識(shí)項(xiàng)集合作為候選的推薦知識(shí)。定義推薦的置信度為式(7),即序列 p 和前綴序
列 pren(p)的支持度比值。隨后,推薦模塊將置信度大于閾值 minConfidence 的知識(shí)項(xiàng)推薦給學(xué)習(xí)者。
Confidence(p,s ) support(p)/support(pre (p)) u
?
n 。 (7)
對(duì)于會(huì)話(huà)狀態(tài) su,時(shí)間窗口 n 的大小會(huì)影響推薦的效果。當(dāng) n 較小時(shí),序列的上下文信息較少,
序列模式很難捕捉到用戶(hù)真實(shí)的知識(shí)意圖,推薦的準(zhǔn)確度較低;反之,當(dāng) n 過(guò)大時(shí),用戶(hù)的學(xué)習(xí)興
趣會(huì)發(fā)生演化,由于數(shù)據(jù)的稀疏性問(wèn)題,推薦的覆蓋率較低。為了解決這一問(wèn)題,使用 all-kth-order
的方法進(jìn)行序列模式匹配[18]。首先,推薦引擎使用當(dāng)前會(huì)話(huà)狀態(tài) su 進(jìn)行模式匹配。如果匹配失敗,
則迭代地從會(huì)話(huà)序列中移除最久(最開(kāi)始)的知識(shí)項(xiàng)后再進(jìn)行序列匹配,直到產(chǎn)生推薦結(jié)果為止。
4 實(shí)驗(yàn)
為了評(píng)估本文的方法,使用軟件開(kāi)發(fā)流程數(shù)據(jù)進(jìn)行實(shí)驗(yàn),分析流程知識(shí)推薦系統(tǒng)的推薦效果。
4.1 數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)來(lái)源于某 IT 公司的軟件開(kāi)發(fā)流程,以 2012 年 5 月~2013 年 5 月的流程日志和知識(shí)學(xué)
習(xí)日志作為訓(xùn)練數(shù)據(jù),以 2013 年 6 月~2013 年 9 月的數(shù)據(jù)作為評(píng)估數(shù)據(jù)。訓(xùn)練數(shù)據(jù)包含 16 239 條
流程實(shí)例、8 670 條知識(shí)項(xiàng)和 186 個(gè)知識(shí)主題,知識(shí)學(xué)習(xí)序列的平均長(zhǎng)度為 16。
4.2 CBR 性能評(píng)估
為了評(píng)估 CBR 知識(shí)主題推理的效果,使用式(8)計(jì)算 top-N 推薦結(jié)果的準(zhǔn)確度。分析學(xué)習(xí)日志,
發(fā)現(xiàn)85%的流程問(wèn)題僅需要一個(gè)主題的知識(shí)就可以得到解決,而98%的問(wèn)題需要的知識(shí)主題數(shù)量≤3。
基于此,實(shí)驗(yàn)分析了在 N=1 和 N=3 情況下 CBR 的推薦準(zhǔn)確度。
| |
| |
推薦的主題集 實(shí)際學(xué)習(xí)的主題集
推薦的主題集 實(shí)際學(xué)習(xí)的主題集 推薦準(zhǔn)確度
?
?
? 。 (8)
圖 2 給出了在不同權(quán)重因子??下,CBR 的主題推理的準(zhǔn)確度變化曲線(xiàn)??偟膩?lái)看,top-1 的推薦
準(zhǔn)確度高于 top-3,即單個(gè)主題的命中率更高。隨著系數(shù)α的增大,準(zhǔn)確度曲線(xiàn)呈現(xiàn)先升后降的趨勢(shì)。
當(dāng)α=0 時(shí),CBR 僅根據(jù)流程問(wèn)題的相似度進(jìn)行推理,推薦準(zhǔn)確度為 88%(N=1),隨著模型加入角
色信息,推薦準(zhǔn)確度逐漸提升。反之,當(dāng)α=1 時(shí),CBR 僅考慮了角色的知識(shí)背景,推薦效果近似于
隨機(jī)預(yù)測(cè)(50%),在模型加入問(wèn)題信息后,推薦效果大幅提升。由此可知,在知識(shí)推理中問(wèn)題描
述信息對(duì)挖掘知識(shí)需求貢獻(xiàn)更大。在α=0.3 時(shí),CBR 取得最優(yōu)的推薦結(jié)果——top-1 推薦的準(zhǔn)確度高
達(dá) 97%,top-3 推薦的準(zhǔn)確度為 93%,推薦效果較好?;诖?,系統(tǒng)將權(quán)重系數(shù)α設(shè)置為 0.3。
圖 2 不同權(quán)重系數(shù)下 CBR 的準(zhǔn)確率比較
4.3 學(xué)習(xí)模式評(píng)估
本節(jié)比較了兩種知識(shí)模型的推薦效果,并與相關(guān)的知識(shí)推薦算法比較,驗(yàn)證本文算法的有效性。
4.3.1 Markov 模型評(píng)估
為了評(píng)估主題劃分對(duì)學(xué)習(xí)模式挖掘的有效性,實(shí)驗(yàn)對(duì)比了面向主題的 Markov 模型(記做 TAM)
和一般 Markov 模型(記做 GM)的推薦效果。
圖 3 為不同 Markov 模型的準(zhǔn)確率變化曲線(xiàn)。隨著閾值的增大,Markov 模型的準(zhǔn)確度逐步提高,
且高階 Markov 模型的準(zhǔn)確度高于低階模型(如 GM-2nd 優(yōu)于 GM-1st)。對(duì)比兩類(lèi)模型(如 GM-2nd
和 TAM-2nd),發(fā)現(xiàn) TAM 模型的準(zhǔn)確率比 GM 提高了約 10%。由于學(xué)習(xí)者在短時(shí)間內(nèi)的知識(shí)意圖
相對(duì)集中,對(duì)知識(shí)序列集進(jìn)行主題劃分,能夠顯著提高知識(shí)模式的質(zhì)量。圖 4 給出了不同 Markov
模型的召回率變化曲線(xiàn)。隨著概率閾值的增大,Markov 模型的召回率逐步降低,且高階 Markov 模
型的準(zhǔn)確度低于低階模型。對(duì)比 GM 模型和 TAM 模型,發(fā)現(xiàn) TAM 的召回率也優(yōu)于 GM。因?yàn)?TAM
提高了同一主題下知識(shí)項(xiàng)被推薦的概率,使得推薦結(jié)果能夠覆蓋更多該主題的知識(shí),提高了推薦的
召回率。結(jié)合圖 3 和圖 4,可以發(fā)現(xiàn)線(xiàn)性插值模型(TAM-Inter)模型的準(zhǔn)確率優(yōu)于 1 階模型,召回
率優(yōu)于 2 階模型。線(xiàn)性插值模型在推薦的準(zhǔn)確率和召回率之間得到較好的平衡,模型的 F1 較高。
TAM-Inter 在閾值為 0.2 時(shí)取得最優(yōu)的 F1 值(0.48)。
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
準(zhǔn)確率
權(quán)重系數(shù)
N=3
N=1
圖 3 不同 Markov 模型的準(zhǔn)準(zhǔn)確率變化曲線(xiàn)
圖 4 不同 Markov 模型的召回率變化曲線(xiàn)
4.3.2 兩種知識(shí)模型對(duì)比
為了評(píng)估頻繁序列模式的推薦效果,設(shè)置用戶(hù)的知識(shí)會(huì)話(huà)長(zhǎng)度 n=6,并將最后一個(gè)知識(shí)項(xiàng)移除
作為預(yù)測(cè)目標(biāo)。在評(píng)估數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),得到圖 5 和圖 6 所示的結(jié)果,其中線(xiàn)性插值模型作為基
準(zhǔn)。
對(duì)比可知,序列模式(SP)的推薦準(zhǔn)確度優(yōu)于 Markov 模型,這是因?yàn)樾蛄心J桨S富的
上下文信息,能夠更好地挖掘?qū)W習(xí)者的知識(shí)需求。相應(yīng)地,序列模式的召回率較低,尤其是在精確
匹配時(shí)。由于 Markov 模型是概率模型,在數(shù)據(jù)稀疏時(shí)可以起到一定的數(shù)據(jù)平滑作用,模型的覆蓋率
較好。此外,all-kth-order 策略很好地平衡了 SP 的準(zhǔn)確率和召回率,以較小的準(zhǔn)確度犧牲換取了大
幅的召回率提升。all-kth-order 策略在置信度閾值為 0.2 時(shí),取得最優(yōu)的 F1 值(0.57),優(yōu)于 TAM-Inter。
基于此,系統(tǒng)使用 all-kth-order 策略進(jìn)行知識(shí)模式匹配,并將置信度大于 0.2 的知識(shí)項(xiàng)作為推薦結(jié)果。
總的來(lái)看,兩種知識(shí)模型各有優(yōu)缺。SP 能夠挖掘得到豐富的知識(shí)學(xué)習(xí)模式,在會(huì)話(huà)長(zhǎng)度適中的
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
準(zhǔn)確率
概率閾值
GM-1st
GM-2nd
TAM-1st
TAM-2nd
TAM-Inter
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
召回率
概率閾值
GM-1st
GM-2nd
TAM-1st
TAM-2nd
TAM-Inter
情況下,通過(guò)匹配知識(shí)模式準(zhǔn)確地識(shí)別員工的知識(shí)意圖,推薦準(zhǔn)確率較高。然而,在知識(shí)會(huì)話(huà)較短
的情況下,員工的知識(shí)意圖相對(duì)模糊,需要借助于 Markov 模型的優(yōu)勢(shì),通過(guò)概率推理推薦合適的知
識(shí)項(xiàng)。此外,對(duì)于新加入知識(shí)系統(tǒng)的流程知識(shí),知識(shí)訪問(wèn)數(shù)據(jù)相對(duì)稀疏,使用 Markov 模型可以一定
程度地提高推薦的覆蓋率。在實(shí)際的應(yīng)用中需要將兩種模型有機(jī)結(jié)合、取長(zhǎng)補(bǔ)短,提高知識(shí)推薦的
效果。
圖 5 不同預(yù)測(cè)模型的準(zhǔn)確率變化曲線(xiàn)
圖 6 不同預(yù)測(cè)模型的召回率變化曲線(xiàn)
4.3.3 推薦效果評(píng)估
為了評(píng)估本文算法的推薦效果,和現(xiàn)有的兩種流程知識(shí)推薦算法作比較。基于用戶(hù)的過(guò)濾(又
叫協(xié)同過(guò)濾)通過(guò)識(shí)別知識(shí)興趣相似的知識(shí)群體,推薦“鄰居”用戶(hù)感興趣的知識(shí)項(xiàng)[6]
;基于內(nèi)容的
過(guò)濾通過(guò)分析知識(shí)項(xiàng)的語(yǔ)義信息,學(xué)習(xí)用戶(hù)的知識(shí)偏好模型。這里使用 all-kth-order 策略的推薦
結(jié)果進(jìn)行比較。參考文獻(xiàn)[18]的方法,將知識(shí)序列中最后一個(gè)知識(shí)項(xiàng)移除,作為知識(shí)推薦的預(yù)測(cè)目
標(biāo),并使用命中率評(píng)估推薦的準(zhǔn)確率。將知識(shí)序列 s 的最后一項(xiàng)(即推薦目標(biāo))記作 st,式(9)給出
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
準(zhǔn)確率
置信度閾值
SP
All-kth-order
TAM-Inter
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
召回率
置信度閾值
SP
All-kth-order
TAM-Inter
了命中率的定義。RN(s)為針對(duì)知識(shí)序列 s 的 top-N 推薦結(jié)果,testset 為所有測(cè)試集,命中率表示推薦
結(jié)果包含目標(biāo)知識(shí)項(xiàng)的概率。命中率越高,說(shuō)明推薦的準(zhǔn)確率越高,推薦效果越高。
HitRatio | s testset:s RN (s) | | testset | ? ? t ? 。 (9)
圖 6 為不同推薦算法的命中率變化曲線(xiàn)。隨著推薦數(shù)量 N 的增大,各種算法的命中率逐步提高,
且提升速度減緩。相對(duì)于基于用戶(hù)的過(guò)濾,基于內(nèi)容的過(guò)濾推薦結(jié)果較好。在業(yè)務(wù)流程中,短時(shí)間
內(nèi)的知識(shí)學(xué)習(xí)行為通常是為了解決特定的流程問(wèn)題,訪問(wèn)的知識(shí)內(nèi)容存在較高的主題相關(guān)性?;?
內(nèi)容的過(guò)濾通過(guò)推薦與當(dāng)前知識(shí)內(nèi)容語(yǔ)義相似的知識(shí)項(xiàng),可以改善推薦的準(zhǔn)確率。本文算法在分析
案例相似度時(shí),既考慮了知識(shí)群體的知識(shí)背景相似度(角色),還分析了流程問(wèn)題的相似度,能夠
準(zhǔn)確地挖掘參與者的知識(shí)需求,推薦的命中率較好。此外,通過(guò)挖掘參與者的知識(shí)學(xué)習(xí)模式,進(jìn)一
步提高了知識(shí)推薦的準(zhǔn)確性。
圖 6 不同推薦算法的命中率比較
5 結(jié)束語(yǔ)
參與者的知識(shí)水平是決定流程質(zhì)量的重要因素。本文提出一種基于知識(shí)模式挖掘的流程知識(shí)推
薦系統(tǒng),通過(guò)主動(dòng)推送流程知識(shí)的方式幫助參與者解決流程問(wèn)題。系統(tǒng)集成了 KMS 和 WfMS 的流
程日志,以創(chuàng)建流程案例庫(kù)。使用 CBR 發(fā)現(xiàn)相似的歷史流程案例,挖掘參與者的知識(shí)主題需求。面
向主題的序列模式和 Markov 模型用于挖掘參與者學(xué)習(xí)各個(gè)知識(shí)主題時(shí)的學(xué)習(xí)模式,提供符合學(xué)習(xí)習(xí)
慣的知識(shí)推薦。實(shí)驗(yàn)結(jié)果表明,本文方法具有較高的準(zhǔn)確度和召回率,證明了其在流程知識(shí)支持中
的可行性。
本文使用角色信息和問(wèn)題的文本描述對(duì)流程案例建模,但在現(xiàn)實(shí)的業(yè)務(wù)流程中,流程上下文數(shù)
據(jù)更加復(fù)雜。未來(lái)計(jì)劃在案例建模中考慮更多的流程元素,促進(jìn)知識(shí)推薦與流程管理的緊密結(jié)合,
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
命中率
推薦數(shù)量
本文算法
基于內(nèi)容的過(guò)濾
基于用戶(hù)的過(guò)濾
更加準(zhǔn)確地挖掘流程參與者的知識(shí)需求。另一個(gè)研究方向是,挖掘知識(shí)主題之間的序列模式和認(rèn)知
習(xí)慣,提供跨知識(shí)主題的知識(shí)推薦。
參考文獻(xiàn):
[1] GUO J, YU D. Development of process-oriented knowledge supply model for E-maintenance[J]. Advances
in Information Sciences & Service Sciences,2012,4(10).
[2] JUNG J, CHOI I, SONG M.An integration architecture for knowledge management systems and business
process management systems[J].Computers in Industry,2007,58(1):21-34.
[3] WANG Zhansong, TIAN Ling, DUAN Wenrui.Knowledge push technology based on design intent modeling [J].
Computer Integrated Manufacturing Systems, 2015, 21(3): 606-617(in Chinese).[王占松, 田 凌, 段文
睿.基于設(shè)計(jì)意圖建模的知識(shí)推送技術(shù)[J].計(jì)算機(jī)集成制造系統(tǒng),2015,21(3): 606-617.]
[4] LAI C. Applying knowledge flow mining to group recommendation methods for task-based groups[J].
Journal of the Association for Information Science and Technology,2015,66(3):545-563.
[5] LAI C, Liu D.Integrating knowledge flow mining and collaborative filtering to support document
recommendation[J].Journal of Systems and Software,2009, 82(12): 2023-2037.
[6] HUANG Z, LU X, DUAN H, et al.Collaboration-based medical knowledge recommendation[J].Artificial
intelligence in medicine,2012,55(1):13-24.
[7] LIU D, LIN C, CHEN H.Discovering role-based virtual knowledge flows for organizational knowledge
support[J]. Decision Support Systems,2013,55(1):12-30.
[8] LEE H J, KIM J H. Mining knowledge demands from information flow[J]. Expert Systems with Applications,
2012, 39(8):6799-6806.
[9] SOARES D C, SANTORO F M, BAI?O F A.Discovering collaborative knowledge-intensive processes through
e-mail mining[J].Journal of Network and Computer Applications,2013,36(6):1451-1465.
[10] HHAMPARIA A, PANDEY B. Knowledge and intelligent computing methods in e-learning[J].International
Journal of Technology Enhanced Learning,2015,7(3):221-242.
[11] GUILLAUME D, NABIL B, FRAN?OIS L Graph theory based model for learning path recommendation[J].
Information Sciences,2013,251:10-21.
[12] ZHAO Weidong,LIU Haitao.Application of process mining in process optimization[J].Computer
Integrated Manufacturing Systems,2014, 20(10): 2632-2642 (in Chinese).[趙衛(wèi)東, 劉海濤.流程挖掘在
流程優(yōu)化中的應(yīng)用[J].計(jì)算機(jī)集成制造系統(tǒng), 2014, 20(10): 2632-2642.]
[13] MINOR M, MONTANI S, RECIO-GARCíA J A.Process-oriented case-based reasoning[J].Information Systems,
2014, 40: 103-105.
[14] BLEI D M. Probabilistic topic models[J].Communications of the ACM, 2012, 55(4): 77-84.
[15] Manning C D, Surdeanu M, Bauer J, et al. The stanford CoreNLP natural language processing toolkit[C]//
Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System
Demonstrations.2014: 55-60.
[16] YANG Q, FAN J, WANG J,et al.Personalizing web page recommendation via collaborative filtering and
topic-aware Markov model[C]//Proceedings of the 10th International Conference onData
Mining.Washington,D.C.,USA:IEEE, 2010: 1145-1150.
[17] MOONEY C H, RODDICK J F.Sequential pattern mining--approaches and algorithms[J].ACM Computing
Surveys,2013,45(2):19.
[18] HARIRI N, MOBASHER B, BURKE R. Context-aware music recommendation based on latenttopic sequential
patterns[C]//Proceedings of the 6th ACM Conference on Recommender Systems.New York, N.Y., USA:ACM,
2012:131-138.