品牌名稱
某大型石油國有企業(yè)
所在行業(yè)
工業(yè)
企業(yè)規(guī)模
501-1000人

某石油合作竹間智能:打造科技管理智能信息處理及查重平臺

521次閱讀

客戶介紹

某大型石油國有企業(yè)。

項目介紹

某大型石油國有企業(yè)在近期的科技轉(zhuǎn)型中遇到了一個難題,難的不是科技項目研究本身,關(guān)鍵是如何避免與已有的2000多個科研項目重復立項而導致研究經(jīng)費的浪費。原有的查重模式是通過員工的記憶加上人工查看的模式對已研或在研科技項目2000多份的歷史資料進行科技項目查重,每年還會以400—500的數(shù)量在增加,而對科技項目查重的工作要求也逐年提高。平均一份項目文檔有25頁,近2萬字,這樣一份文檔的查重至少需要一天的時間,每年500份的新增項目文檔需要2個人花一整年的時間才能完成比對查重,如此的工作模式費時費力,查重遺漏和錯誤率都非常高。

解決方案

首先要將歷史的2000多份文檔整理入“庫”進行標注和抽取,進行統(tǒng)一管理。對于新上傳的項目書通過文檔抽取工具完成文本轉(zhuǎn)換及抽取,將文檔抽取的轉(zhuǎn)換的文本入查重庫,對待查文檔及歷史文檔進行語義分析、詞句分析,計算相似結(jié)果。將查重結(jié)果匯總,供用戶瀏覽或下載。
這一系列看似復雜的流程,而通過竹間智能的Gemini認知知識推理平臺即可進行可視化操作。現(xiàn)在該企業(yè)進行新文檔查重平均僅需12s,效率至少提高上千倍。對于員工來說只需進行一步操作——上傳文檔,即可查看詳細查重結(jié)果。結(jié)果可精細至比對到哪些段落語義上有重復,相似率具體為多少。

image.png

竹間通過擅長的NLP技術(shù),可對長文本進行自動實體識別抽取,實體發(fā)現(xiàn),實體識別和比對。對文檔的語義相似度進行匹配判斷,而非簡單的關(guān)鍵字對比。支持PDF、Word中字詞句段章表格等各種非結(jié)構(gòu)化文檔的關(guān)鍵信息提取。待提取的文檔類型、關(guān)鍵信息點可根據(jù)用戶實際業(yè)務場景進行自定義配置。有別于直接將文檔通過算法進行對比,平臺操作化簡單,結(jié)果可視拓展性也更強。

價值

竹間自研的一套全新模型語言——Gemini Script,內(nèi)嵌可擴展的NLP深度學習模型,同時支持文檔特征和語義特征識別,能夠處理章節(jié)定位、抽取信息、計算、段落提煉??蛻敉ㄟ^Gemini平臺可以自主訓練模型,根據(jù)客戶的實際業(yè)務需求,結(jié)合竹間積累的行業(yè)數(shù)據(jù),模型冷啟動只需對3-5篇文章進行標注既可生成。并且通過自學習能力幫助文檔抽取任務越變越準確,越來越聰明??蛻敉ㄟ^Gemini平臺可自主完成模型創(chuàng)建-訓練-賦能生產(chǎn)的整個過程。

竹間的Gemini認知知識推理平臺不僅可以進行文本的抽取和比對,還可以自動化構(gòu)建知識圖譜,處理大量非結(jié)構(gòu)化數(shù)據(jù),例如:產(chǎn)品文檔、法規(guī)文檔、財務報表等等,同時還可以持續(xù)不斷地從數(shù)據(jù)挖掘、NLP和智能自動化中學習,從而幫助企業(yè)處理海量數(shù)據(jù),幫助企業(yè)解決整個數(shù)據(jù)價值難題。