8月第二轮评估前正全力升级
重点评估大语言模型性能与应用度

Bae Gyeonghun副总理兼科学技术信息通信部部长29日在首尔中区首尔中央邮局举行的科学技术信息通信部记者座谈会上发言。科学技术信息通信部供图。韩联社提供

Bae Gyeonghun副总理兼科学技术信息通信部部长29日在首尔中区首尔中央邮局举行的科学技术信息通信部记者座谈会上发言。科学技术信息通信部供图。韩联社提供

View original image

李在明政府提出以跻身人工智能(AI)全球前三强为目标,构建具有自主性的韩国AI模型已成为最大课题。作为其中一环,政府的“自主AI基础模型”项目在国民和业界的高度关注下,正以生存赛方式推进,在最终选出2家之前,各团队正全力进行性能升级。此前,在该项目精英团队首轮遴选过程中,曾因部分挑战候选被批评“照搬”中国模型而引发自主性争议,令市场高度关注。鉴于此,政府正通过进一步明确指南、调整评估标准等方式推进改进。


据科学技术信息通信部5日消息,首轮入选的LG AI研究院、SK电讯、Upstage、Motif Technologies等4家,将于8月接受评估,届时有1家将被淘汰,并计划于明年2月最终选出2家公司。4支精英团队目前均在推进大语言模型(LLM)后续模型研发,并集中力量引入多模态等下一代训练架构,进一步提升现有模型的性能与应用范围。


以LG AI研究院为例,在第二轮评估中,计划在首轮K-EXAONE基础上扩大模型规模,确保具备可与全球最新前沿级开源权重LLM竞争的性能。此前在首轮评估中,K-EXAONE按照全球性能评估机构Artificial Analysis标准,在韩国模型中排名第一、在全球开源权重模型中排名第七,并在第二轮评估中以实现进一步高阶性能为目标。


LG AI研究院相关人士表示:“我们正在推进开发,不仅要提升知识、推理、指令执行、长上下文等多方面基准测试表现,也要在近期使用率激增的智能体工具应用和智能体编程领域发挥顶级能力。”模型开发完成后,计划通过Hugging Face公开模型,并通过与联盟参与企业合作,积极扩大其在各类产业现场的实际应用案例。


提升模型水平·扩大产业现场应用案例


SK电讯正全力开发“A.X K1”的后续模型“A.X K2”。SKT正与全球AI芯片企业英伟达持续在训练数据、基础设施、框架等全领域开展技术合作,并据此推进后续模型开发,目标是通过引入多模态等下一代训练架构,进一步提升现有模型的性能与应用范围


SKT相关人士称:“未来方向的核心关键词是‘多模态’。”并表示,“从第二阶段评估起,计划先从图像数据开始,分阶段引入多模态。”他还强调:“从今年下半年开始,还将进一步升级多模态,使其能够处理语音数据和视频数据,从而突破仅能理解文本的局限,具备理解和处理图像、语音、视频等多种数据的能力。”从长期来看,模型规模还计划扩展至万亿级参数。


Bgyeonghun副总理正在发表演讲。韩联社供图

Bgyeonghun副总理正在发表演讲。韩联社供图

View original image

Upstage近期正集中力量提升全球AI性能指标。Upstage首席执行官Kim Seonghun近日通过社交媒体表示:“在自主AI基础模型项目支持下打造的Upstage联盟中期模型,模型性能比较指标Artificial Analysis Intelligence Index(AAII)已突破40。”他还强调,“此次中期模型已高于欧洲代表性AI企业Mistral的39分,以及加拿大Cohere的37分。”


Kim Seonghun表示:“今年夏天将挑战AAII 50+,并在年内冲击60,打造出获得全球认可的‘Solar’大语言模型。”最终模型预计将于本月底公开。Upstage近期还通过国民成长基金获得了规模达5600亿韩元的直接股权投资批准,整体势头持续上升。公司希望发挥其作为初创企业的差异化优势,通过第二轮评估并最终入选2家名单。


初创企业 확보资金……以自主架构实现差异化


通过追加招募加入的Motif Technologies,同样因已投入最后阶段竞争,正集中力量提升性能。现有3支精英团队(LG AI研究院、SKT、Upstage)将在本月底前完成模型开发,而作为初创企业较晚加入的Motif Technologies,则计划在7月底前完成模型开发,并于8月参加第二轮评估。


Motif Technologies近期成功引入规模240亿韩元的B轮融资,着手强化资金储备。在获得充足资金后,公司战略是以前沿自主架构实现差异化。Motif Technologies首席执行官Im Jeonghwan表示:“目前正在开发300B级推理型LLM,正集中组织力量打造高性能模型。”他还称,“在通过第二轮评估后,计划分阶段升级为310B级视觉语言模型(VLM)和320B级视觉语言行动模型(VLA)。”



科学技术信息通信部计划在今年8月进行的第二轮评估中,细致考察模型性能与应用度。鉴于政府在上一轮阶段评估中曾因自主性争议导致热门候选被淘汰、经历试错,因此也事先与业界展开讨论,以消除围绕评估要素的争议。一位要求匿名的业界人士表示:“基准测试表现好的模型,并不一定是实际使用体验好的模型。若自主AI基础模型项目要超越韩国型LLM,成为确保‘AI主权’的象征,关键在于其不仅能否在内部组织中使用,更能否广泛应用于实际产业现场。”


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。