人工智能(AI)专业企业Bitwin(首席执行官 An Taeil)4日表示,其已圆满完成由科学技术信息通信部主办、韩国智能信息社会振兴院(NIA)推进的“2023年AI学习用数据构建项目”。


“AI学习用数据构建项目”是为应对以ChatGPT为代表的超大规模人工智能的出现,由国家层面支持构建大规模高质量数据的政府主导项目。


在本次项目中,Bitwin作为三个联合体的AI学习用数据质量管理专职企业及质量管理服务企业参与,三个联合体分别为:▲基于语音识别的视频摘要数据 ▲漫画网络连载数据 ▲建筑裂缝检测图像(高阶化)。此外,公司还与Saltlux、PCN、Teambell等多家人工智能相关专业企业紧密协作,构建了系统化的质量管理体系。


Bitwin在去年AI学习用数据构建项目中进行质量检查的AI学习用数据共4类、66万件,其中包括63万件图像、3万件子标注数据(超大规模AI语料、图像描述)以及3000小时语音。公司以AI学习用数据质量管理技术的准确性和稳定性为基础,成功完成了韩语、灾难安全环境、文化旅游等多个领域的数据质量管理。


尤其是本次项目中,还同步开展了针对可作为支持最新AI技术——超大规模AI的语言模型使用的高质量语料数据的质量验证,并对已构建完成的共186万句、1744万标记(以词语为单位)的语料数据进行了全面的质量检验。


同时,公司还以项目目标和需求为基础,负责制定并执行数据质量管理方案,检查各阶段质量管理活动,提供韩国信息通信技术协会(TTA)质量验证专门支持等联合体内部的整体质量管理工作,从而提升了数据的可信度。


Bitwin AIX事业群负责人 Park Soonhyuk 表示:“凭借多年积累的经验和专业性,我们在AI学习用数据构建项目的执行能力方面从多方面获得认可,在今年2024年超大规模AI数据构建项目中,来自计划构建多模态数据和生成式AI数据等的多家机构和企业的咨询正在不断涌入。”


他接着表示:“今年为构建高质量的超大规模AI数据,我们计划扩大针对大规模语料数据在内容相似性、重复性、有害性等方面的质量管理”,并称:“除利用既有‘SDQ for AI’进行句法准确性与统计多样性检验外,还将通过作为AI学习用数据集成平台的‘Laflow’,同步支持对语义准确性的检验。”



另一方面,自2020年至2023年,Bitwin已连续4年以多种形式参与AI学习用数据构建项目,包括面向在AI学习用数据构建联合体内尚未配备质量检验工具的课题,提供“SDQ for AI”工具及质量验证服务等。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点