当前位置: 首页 » 资讯 » 新科技 » 正文

2025年机器语言大模型赋能软件自主可控与安全可信报告-清华大学

IP属地 北京 编辑:苏婉清 子龙爱游戏 时间:2025-03-13 09:00:27

报告聚焦于机器语言大模型对软件自主可控与安全可信的赋能,深入分析了当前软件生态面临的困境,提出创新解决方案并展示其应用成果,为推动软件行业发展提供了重要思路。

1. 背景:软件生态面临双重难题

自主可控难题:关键软件长期依赖国外,如PC和移动端操作系统、工业设计与控制软件等。这些软件闭源,供应链风险高,面临断供、安全和知识产权风险,自主可控难度极大。

安全可信难题:软件安全风险频发,漏洞问题层出不穷,恶意代码急剧增长,像震网病毒、MIRAI僵尸网络、WannaCry勒索病毒等,给网络安全带来巨大威胁。目标软件闭源增加了分析难度,安全问题隐藏深。

2. 关键问题:软件分析与理解困境

软件分析——二进制信息缺失:在软件开发过程中,从源代码到机器码,符号、类型、边界等信息逐步丢失。二进制程序缺乏关键信息,反编译和反汇编时需恢复这些缺失内容,增加了软件分析的难度。

软件理解——人在回路:分析软件代码功能、安全和性能时,需要人工参与语义分析,判断内存分配、加密解密、敏感数据流动等情况,但人工分析效率低且易出错。

3. 智能化方案:机器语言大模型MLM

方案简介:基于Transformer架构,通过预训练、微调、RAG知识增强和工具使用,利用海量数据和适量标注数据,实现对二进制软件的分析。这一过程涉及大规模机器语言、自然语言和源代码的多模态对齐数据,以及全自动的数据生成、标注和对齐。

关键技术突破:融合领域知识优化模型设计,融入代码领域知识;基于对比学习,使语义相似的二进制代码embedding接近;利用多模态学习,将语义空间与人类意图对齐,更准确表示二进制代码语义。

模型优势:MLM可实现全场景智能化,语义理解超越人类专家水平,能高效辅助逆向分析,在多平台、多架构下,其反汇编核心功能全面超越传统工具IDA Pro。

4. 典型应用:多领域突破创新*

软件供应链分析:细粒度、高速地比对二进制代码,检测软件一致性,助力信创国产化和老旧软件升级迁移,解决采购痛点,保护软件版权。

软件逆向分析:将黑盒二进制程序转化为白盒代码,挖掘0day、1day漏洞,突破卡脖子技术,解决破解取证难题,为软件安全提供有力支持。

5. 开启软件分析新范式**:机器语言大模型MLM作为全球首个此类模型,在软件自主可控与安全可信方面具有巨大潜力。它能有效应对软件生态面临的自主可控和安全可信难题,为软件行业的发展带来新的机遇,推动软件分析进入智能化新时代,在多领域发挥关键作用,助力产业升级与安全保障。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新