大模型智能文档技术是2023年以来人工智能领域的一个快速发展的重要分支,它通过应用Transformer模型和自然语言处理(NLP)等技术,能够自动从各种文档中提取信息、识别文本、理解内容并将其转换为结构化特征。这项技术对于提高工作效率、优化信息管理以及支持企业决策具有重要意义。
当下诸多智能文档产品所面临的痛点有以下几个方面:
2.文本数量过大,随着企业和组织的发展,所产生的文件数量呈指数级增长,很多企业的云盘中存储着大量的历史数据,甚至达到上百GB甚至TB的规模,庞大的数据量不仅会使文件的管理变得困难,难以迅速找到所需的内容;而且会增加搜索的负担,并且不重要的信息可能影响问答的质量。
3.GPU昂贵问题,当前的大模型在生成文本时需要占用大量的显存资源。对于许多中小型企业来说,为了获得更精确的推理效果,这可能成为一项极为浪费成本的事情。此外,对于大部分企业来说,与GPU相似的CPU资源可能过于冗余。是否存在一种方法让大模型文档理解服务产品在不同场景、不同体量的公司内都能应用也是产品关键竞争力之一。

针对以上痛点和难点,富通东方旗下恒先人工智能实验室(以下简称“实验室”),依托多年在自然语言处理和文本逻辑推理领域的深厚积累和技术沉淀,自主研发出一套智能文档服务型产品——太行chatDoc。主要解决方案如下:
为了解决文件格式众多的问题,实验室使用大量文本内容训练了文本架构识别模型,可以有效划分不同文本结构的区域并进行分类,从而识别文本中的图片、表格等信息,并结合上下文提炼关键信息。 对于文本量过大的企业,实验室通过大量的规则匹配和筛除,开发了配套的数据清理服务流,旨在形成高质量的数据要素。该服务可以有效地将实际可用数据的检索特征压缩,从而使问答更加精准、提高召回率,为用户提供更完美的使用体验。
针对GPU昂贵的问题,太行chatDoc支持对大型预训练模型进行蒸馏和量化。通过使用教师模型来训练学生模型,可以减少模型的复杂度,同时保持精度,确保性能。在模型蒸馏和模型量化的共同作用下,模型可以在24GB的消费级显卡中独立运行,并支持最多十个并发访问。在极端情况下,太行chatDoc还支持在CPU上部署推理,以极少量精度损失的代价尽可能保证各种规模的企业可以使用该产品。
"