当前位置:首页 > AI技术 > 正文内容

c++ 符号执行klee c++如何用klee自动探索代码路径深度解析|Duuu笔记

admin6天前AI技术16

KLEE 对 C++ 代码基本无效,因其仅支持无运行时依赖的纯 C 风格 LLVM bitcode,无法处理 std::string、异常、RTTI、虚函数表、构造/析构等引入的不可控符号与动态行为。

为什么 KLEE 对 C++ 代码基本无效

KLEE 本质只支持纯 C 风格的、无运行时依赖的 LLVM bitcode,而 C++ 的

std::string

std::vector

、异常、RTTI、虚函数表、构造/析构调用等,都会引入不可控的外部符号或动态行为。KLEE 在加载 bitcode 时遇到未定义的

_ZNSs4_Rep20_S_empty_rep_storageE

这类符号就直接报错退出,不是配置问题,是能力边界问题。

常见错误现象:

llvm-link: error: undefined reference to 'operator new(unsigned long)'

Unable to resolve symbol: _ZTVNSt7__cxx1112basic_stringIcSt11char_traitsIcESaIcEE

别尝试用

-stdlib=libc++

或静态链接

libstdc++.a

—— KLEE 不会执行构造函数,全局对象状态为空,

std::cout

等根本不可用

别指望

klee --link-llvm-lib

能补全 C++ 标准库 —— 它只接受裸函数定义,不处理 vtable 布局或 ABI 适配

哪怕你把所有 C++ 特性都删光,只留

class

声明和 POD 成员,只要用了

new

或隐式构造,bitcode 里就会出现 KLEE 无法求解的调用链

什么情况下能“凑合跑”C++ 片段

仅当代码被严格限制为 C 子集 + 极简封装:无 STL、无异常、无虚函数、无全局对象、所有类仅含 public POD 成员、所有函数用

extern "C"

导出、内存全部用

malloc

/

free

手动管理。

使用场景:验证某个算法逻辑(如解析器核心、密码学轮函数),且你愿意把原 C++ 类拆成 C 风格的

struct

+ 独立函数。

C++免费学习笔记(深入)

”;

编译命令必须用

clang++ -emit-llvm -c -g -O0 -std=c++11 -fno-exceptions -fno-rtti -D__STDC_LIMIT_MACROS

必须用

llvm-link

手动合并所有 .bc 文件,确保没有未解析符号 —— 可用

llvm-nm a.bc | grep ' U '

检查

入口函数必须是

int main(int, char**)

形式,且不能调用任何未提供实现的 C++ runtime 函数

klee_make_symbolic

在 C++ 里的危险用法

即使你绕过了链接问题,在 C++ 上调用

klee_make_symbolic

依然极易崩溃。因为 KLEE 不知道对象布局、对齐、padding,更不知道成员变量是否被构造过。

典型翻车点:对

std::array

整体做 symbolic,KLEE 会把它当一块裸内存处理,但实际访问

a[0]

时可能触发未定义行为;对

std::vector

data()

做 symbolic,底层指针本身是 concrete 的,但指向内容被标记 symbolic,KLEE 无法建模这种混合状态。

安全做法:只对 plain C-style

int*

char*

struct

指针做

klee_make_symbolic

绝对避免:对

this

指针、

std::unique_ptr

内部、

std::string::c_str()

返回值做 symbolic

若必须测试类逻辑,请先用

memcpy

把目标字段拷到独立

char buf[1024]

,再对

buf

调用

klee_make_symbolic

比硬刚 C++ 更靠谱的替代路径

真正想对 C++ 项目做路径探索,KLEE 不是工具选型问题,是范式错配。它适合验证已知结构的、小规模的、无状态的系统逻辑(比如协议解析器、加密算法),而不是通用 C++ 应用。

可考虑的务实方案:

clang++ -cc1 -x c++ -emit-llvm

生成 bitcode 后,用

opt -passes='lower-switch,lower-constant-intrinsics'

简化控制流,再喂给 KLEE —— 仅限极简函数

改用

LLVM-based fuzzing

(如 libFuzzer)+

AddressSanitizer

,它天然兼容 C++,能发现崩溃但不保证路径覆盖

对关键算法抽离为 C 接口(头文件只含

extern "C"

函数声明),在 KLEE 中单独验证,其余 C++ 逻辑走单元测试

最常被忽略的一点:KLEE 的路径爆炸不是算力问题,而是建模精度问题。C++ 的隐式行为越多(比如 copy elision、临时对象生命周期),KLEE 越难维持语义一致性 —— 这不是参数能调出来的。

相关文章

【深度学习】Java DL4J 2024年度技术总结

一、Java DL4J深度学习概述 1.1 DL4J框架简介 1.2 与其他深度学习框架的比较 1.3 DL4J 的优势 1.3.1 与 Java 生态系统的无...

【大模型应用开发

二、大模型的泛化与微调 模型的泛化能力:是指一个模型在面对新的、未见过的数据时,能够正确理解和预测这些数据的能力。在机器学习和人工智能领域,模型的泛化能力是评估模型性能的重要指标之一。...

什么是LLM?看这一篇就够了!

一、全套AGI大模型学习路线 AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能! 二、640套AI大模型报告合集 这套包含640份报告的合集,涵盖了AI大...

什么是人工智能 ?

您可以使用 ML 训练 AI,使其精确、快速地执行任务。这可以通过自动化员工感到吃力或厌烦的业务部分来提高运营效率。同样,您可以使用 AI 自动化来腾出员工资源,用于更复杂和更具创造性的工作。...

bp神经网络是什么网络,神经网络和bp神经网络

1、前馈神经网络:一种最简单的神经网络,各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层.各层间没有反馈。 2、BP神经网络:是一种按照误差逆向传播...

深入理解前端开发:Minimax 视频生成中负面提示词(Negative Prompt)写法完全指南|Duuu笔记

Minimax视频生成中负面提示词需用英文、逗号分隔,支持权重调节(如(blurry:1.3)),按构图/主体/画质/风格四类精简选取,禁用not/no/中文及违规词,须通过A/B测试验证有效性。...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。