与高丽大学共同开发……可立即适用于其他文化圈
反映韩国国内最大规模的1.4万个评估样本
KT于16日发布了评估多模态大型语言模型(MLLM)在反映韩国社会议题与文化语境时,能够多安全地作出回答的基准测试“KSAFE-MM”。
这一由高丽大学联合开发的基准测试由两部分构成:将全球共通风险转换为韩国文化语境的“KSAFE-MM-G”,以及反映全租房诈骗、独岛争议等韩国社会特有议题的“KSAFE-MM-C”。研究基于韩国国内最大规模的共1.4135万个评估样本,对谷歌(Google)的Gemma、Naver的HyperCLOVA X等12个全球多模态大型语言模型进行了验证。
此次基准测试的特点在于提出了自动化的通用流程。现有基准测试多以人工审查为主,成本高且效率不高。但“KSAFE-MM”覆盖了从基于本地社区收集敏感话题、基于模板生成查询(即用户输入人工智能(AI)模型的问题)、生成合成图像,到生成经过变形的“越狱”查询以巧妙绕过AI安全装置或伦理限制的全过程。
这意味着,即使没有特定文化圈专家,也能提供一套可快速构建反映本地特征的安全性基准测试的标准框架,从而降低成本并提高效率。KT与高丽大学联合研究团队还通过将同一流程应用于日语的试点实验“JSAFE-MM-C”,实证证明该方法可立即适用于全球任何文化圈。
KT表示,期待此次研究成果能够用于实际AI服务环境中的安全性验证、红队测试以及护栏模型评估等多种用途。研究成果和基准测试已公开于arXiv和Hugging Face,任何人都可加以利用。
KT以负责任人工智能专责组织为中心,在安全风险分类体系设计、评估指标及逻辑实现等整体研究中发挥了核心作用。该组织近期还发布了多语言文本基准测试“XL-SafetyBench”。
Park Jaehyeong,KT AX未来技术院前沿人工智能实验室负责人、常务表示:“公开安全性基准测试并不只是简单分发数据,而是在为整个人工智能安全研究生态共同发展奠定基础。”他还称:“期待KSAFE-MM能够成为学界和产业界验证韩语及韩国文化语境下人工智能安全性的共同标准。”
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。