数据项素DPA
入选2022中国人工智能与大数据变革性技术图谱与中国IDP创新者
DPA技术特点:
多模态-利用NLP/CV/OCR多模态算法对全域非结构化大数据进行充分且统一的结构化处理和精准索引;超大规模预训练-感知+决策完整智能化流水线闭环,让模型在专业领域拥有接近技能专家的性能表现及复杂工作场景的替代能力;Auto Automation-将迁移学习和自动机器学习应用到智能文档领域,大幅降低整体拥有成本和定制化效率,并提供跨组织、跨领域的规模化扩展能力和持续学习迭代能力
DPA技术特点:
多模态-利用NLP/CV/OCR多模态算法对全域非结构化大数据进行充分且统一的结构化处理和精准索引;超大规模预训练-感知+决策完整智能化流水线闭环,让模型在专业领域拥有接近技能专家的性能表现及复杂工作场景的替代能力;Auto Automation-将迁移学习和自动机器学习应用到智能文档领域,大幅降低整体拥有成本和定制化效率,并提供跨组织、跨领域的规模化扩展能力和持续学习迭代能力
将构建自动化任务的过程全面自动化
0代码构建个性化场景模型,使得绝大部分核心技术均可灵活应用、根据业务场景调整,实现自主掌控
覆盖种类丰富的信息事务处理场景
多模态指的是多种模态的信息,包括:文本、图像、视频、音频等,将计算机视觉和交互式人工智能智能模型的最终融合,提供更接近于人类感知的场景
将构建自动化任务的过程全面自动化
基于视觉和NLP技术,从任意制式文档中提取所需要的结构化信息,可涵盖合同、财报、档案、保单、问卷、简历等各行各业工作生活中常见的文档材料,内容可能包含表格、文字、图片等大量非结构化内容信息
将多源信息沉淀为知识并实现数据资产化
知识构建,是指以某种形式,有效的组织信息,并可以通过这个行为,产生额外的收益。目前的主流组织形式,就是大家熟知的知识图谱
针对特定领域进行优化的大模型与数据增强
不同于ChatGPT或DALL-E,DPA研究的重点方向是在尽可能聚焦的场景和有限数据边界内构建更加具有针对性的大规模预训练模型,并在特定的使用环境下让模型具有很好的通用性与自适应能力