億橙NLP內容分析平臺基于我們十七年在情報分析、文獻挖掘領域積累的訓練樣本和算法模型,從內容提取階段,到詞句分析、機器閱讀理解提供內容分析全流程的技術服務。
平臺目前支持400余種格式及小版本的內容提取,包括Office word、ppt、excel、Visio,WPS,PDF、RAR、ZIP、DWG、HTML、TXT、BMP、JPEG等上百種主流文檔,并支持基于文檔結構深入解析的文檔冗余信息提取、嵌入信息提取等功能,實現文檔類型偽裝的準確檢查。解析提取速度高達10GB/分鐘,配合OCR可實現圖片、視頻內容提取。
收起
點評