B2EN成功完成“AI训练数据构建项目”

by Jang Hyowon

Published 04 Mar.2024 08:54(KST)

人工智能（AI）专业企业Bitwin（首席执行官 An Taeil）4日表示，其已圆满完成由科学技术信息通信部主办、韩国智能信息社会振兴院（NIA）推进的“2023年AI学习用数据构建项目”。

“AI学习用数据构建项目”是为应对以ChatGPT为代表的超大规模人工智能的出现，由国家层面支持构建大规模高质量数据的政府主导项目。

在本次项目中，Bitwin作为三个联合体的AI学习用数据质量管理专职企业及质量管理服务企业参与，三个联合体分别为：▲基于语音识别的视频摘要数据 ▲漫画网络连载数据 ▲建筑裂缝检测图像（高阶化）。此外，公司还与Saltlux、PCN、Teambell等多家人工智能相关专业企业紧密协作，构建了系统化的质量管理体系。

Bitwin在去年AI学习用数据构建项目中进行质量检查的AI学习用数据共4类、66万件，其中包括63万件图像、3万件子标注数据（超大规模AI语料、图像描述）以及3000小时语音。公司以AI学习用数据质量管理技术的准确性和稳定性为基础，成功完成了韩语、灾难安全环境、文化旅游等多个领域的数据质量管理。

尤其是本次项目中，还同步开展了针对可作为支持最新AI技术——超大规模AI的语言模型使用的高质量语料数据的质量验证，并对已构建完成的共186万句、1744万标记（以词语为单位）的语料数据进行了全面的质量检验。

同时，公司还以项目目标和需求为基础，负责制定并执行数据质量管理方案，检查各阶段质量管理活动，提供韩国信息通信技术协会（TTA）质量验证专门支持等联合体内部的整体质量管理工作，从而提升了数据的可信度。

Bitwin AIX事业群负责人 Park Soonhyuk 表示：“凭借多年积累的经验和专业性，我们在AI学习用数据构建项目的执行能力方面从多方面获得认可，在今年2024年超大规模AI数据构建项目中，来自计划构建多模态数据和生成式AI数据等的多家机构和企业的咨询正在不断涌入。”

他接着表示：“今年为构建高质量的超大规模AI数据，我们计划扩大针对大规模语料数据在内容相似性、重复性、有害性等方面的质量管理”，并称：“除利用既有‘SDQ for AI’进行句法准确性与统计多样性检验外，还将通过作为AI学习用数据集成平台的‘Laflow’，同步支持对语义准确性的检验。”

必读新闻

“现在谁还当公务员”……报名者接连“0人”，日本拉响最高警报

另一方面，自2020年至2023年，Bitwin已连续4年以多种形式参与AI学习用数据构建项目，包括面向在AI学习用数据构建联合体内尚未配备质量检验工具的课题，提供“SDQ for AI”工具及质量验证服务等。

한글 기사 보기

本报道由人工智能(AI)翻译技术生成。

B2EN成功完成“AI训练数据构建项目”

必读新闻

不容错过的热点