KC Sefety C Language User's Manual

安全C语言使用手册

安徽中科国创高可信软件有限公司
科创验证器^® 2021年1月

前言

　　本手册供熟悉C语言，并准备用安全C语言的程序验证器（名字：科创验证器），进行程序验证的软件技术人员学习安全C语言(PDF文档)时使用。当然，使用者还需要学习规范语言SCSL使用手册，才能逐步胜任程序验证工作。

　　第一章介绍怎样用尽量少的编程约束，把不安全的C99（C语言标准ISO/IEC 9899：1999）语言限制成安全C语言的设计思路。这主要是把程序验证中使用赋值公理时关注的是否存在变量别名，和安全语言设计中关注的类型是否可靠，这两件表面上面向不同需求但实质上紧密相关的事情综合起来，给出设计方案。本章主要通过一些简单的实例来展示变量别名和类型可靠两者的相关性。

　　第二章以第一章的设计方案为基础，对C语言的各种类型，介绍具体的编程约束。从中可以看到，为保证安全性，代码中缺少的一些信息，是由程序员在程序标注中进行补充而得到的。程序标注是程序员为程序代码写一些说明，作为给验证器的提示，以提高验证器判断程序安全性和正确性的能力。本章还简略介绍了各种主要的程序标注。

　　第三章介绍为易变数据结构设计的形状系统。各种易变数据结构的名称就是它们形状的名称。形状系统仿照类型系统，把形状分成基本形状和构造形状，构造形状分成嵌套形状和含附加指针的形状。本章围绕单态命名基本形状和形状的分类，对形状系统进行初步介绍，让大家对形状系统有大体的了解，并了解形状图在验证操作易变数据结构的代码上的优点。以方便学习标注语言和为代码书写标注。

　　程序验证是以C的源文件为单位，各源文件分别验证，然后再集成验证。对于每个源文件，验证器对源文件的每个函数，自上而下地按照各种语句的推理规则进行演绎推理，并在重要的程序点产生验证条件。若一个函数的所有验证条件都得证，则该函数得证。

　　重要备注：对于第三章介绍为易变数据结构设计的形状系统，目前已实现3.1节介绍的单态命名基本形状。3.2节和3.3节的内容在相关形状的实现过程中可能还会修改。

安全C语言使用手册下载

第1章安全编程语言

1.1 安全编程语言的定义
1.2 从杜绝别名和类型可靠相结合的角度考察C 语言的安全性

1.2.1 别名是程序验证中关注的一个重要问题
1.2.2 可推断的别名
1.2.3 不可推断的别名

第2章面向验证的安全C语言的设计

2.1 编程约束

2.1.1 对各种类型都有的约束
2.1.2 对各种构造类型都有的约束
2.1.3 对指针类型的约束
2.1.4 对结构体类型的约束
2.1.5 对共用体类型的约束
2.1.6 对数组类型的约束
2.1.7 对位运算的约束
2.1.8 对含副作用的表达式的约束
2.1.9 对控制结构的限制
2.1.10 对变量作用域的限制
2.1.11 不允许定义参数个数可变的函数
2.1.12 对多文件组成程序的限制
2.1.13 保证验证结果独立于编译器的限制
2.1.14 程序中使用的标识符不能与SMT-LIB的保留字重名

2.2 程序标注

2.2.1 全局标注
2.2.2 语句标注

第3章安全C语言的形状系统

3.1 单态命名基本形状

3.1.1 形状图
3.1.2 单态命名基本形状的逻辑定义
3.1.3 操作单态命名基本形状的代码的验证

3.2 易变数据结构的形状分类

3.2.1 单态无名基本形状
3.2.2 多态基本形状
3.2.3 嵌套形状
3.2.4 含内部附加指针的形状
3.2.5 含外来附加指针的形状
3.2.6 相同形状实例的序列
3.2.7 单个节点的使用

3.3 形状推断和形状检查

3.3.1 形状推断
3.3.2 形状检查
3.3.3 形状系统给程序验证带来的好处

参考文献

第1章安全编程语言

程序语言的安全性

　　上世纪70年代，C语言的设计目的是用来写Unix操作系统。C语言提供指针算术运算和对指针的类型强制，它们可用来直接访问原始内存（raw memory），以便程序员编写灵活的内存操作以获得程序运行的高性能。这就使得程序员很容易用C语言取代汇编语言，编写许多如操作系统、设备驱动程序和编程语言的运行时系统等低层的系统程序。时至今日，C语言仍然是编写操作系统、虚拟机监视器、编程语言的运行时系统、数据库管理系统、嵌入式软件和 Web浏览器等的一种主要编程语言，还包括运行在英特网上的各种服务器上的程序。

　　C语言的指针操作没有任何保护，这给C语言带来很多不安全因素，导致C程序容易出现安全缺陷。特别是在程序运行时，通过悬空指针（dangling pointer）解引用（dereference）或数组越界访问破坏了内存中的数据结构后，程序接下去的行为可能会完全不同于从程序正文得到的想象。恶意攻击者就是根据程序中的这类错误，通过刻意准备的输入数据，有可能达到操纵程序行为的目的。近年来报告的大多数安全漏洞都是源于程序中这样的不端行为。

　　简言之，C语言不是一种安全语言。在本篇中，编程语言简称为语言。

1.1 安全编程语言的定义
1.2 从杜绝别名和类型可靠相结合的角度考察C语言的安全性: 1.2.1 别名是程序验证中关注的一个重要问题; 1.2.2 可推断的别名; 1.2.3 不可推断的别名

1.1 安全编程语言的定义

　　安全语言并没有一个统一的定义，在此通过下述几个概念[1]定义安全语言。程序运行时出现的错误称为执行错误（execution error）。有些执行错误，如非法指令错误、非法内存访问错误和除数为零错误，在它们出现时操作系统都会立即停止计算，报告发现错误的位置和错误性质。这类错误称为会被捕获的错误（trapped error）。还有一些难以捉摸的执行错误，它们引起数据遭到破坏但操作系统未能发现，因而也不会立即报告错误。例如，在没有越界检查的情况下访问超越数组边界的数据。另一个例子是程序跳到一个错误的地址，该地址开始的内存正好代表一个指令序列，使得该错误可能会有一段时间未引起会被捕捉到的事情。这类错误叫做不会被捕获的错误（untrapped error）。一个程序是良行为的（well behaved），如果它的运行过程中不出现不会被捕获的错误。所有合法程序都是良行为的语言叫做安全语言（safe language）。显然，C语言不是安全语言，因为某些C程序对应的目标程序在运行过程中会引起不会被捕获的错误。

　　保证语言安全性的通常做法是为语言设计一个类型系统（type system）。类型系统由一组定型规则（typing rule）构成，这组规则用来给构成一个程序的各种语言构造（如变量、表达式、函数和模块等）指派类型。非形式描述的定型规则的例子有：若 M和 N都是整型表达式，则 M+N 也是整型表达式。根据语言的类型系统，编译器或者其他程序分析工具通过静态（例如编译时）检查，动态（运行时）检查或静态检查与动态检查混合的方式来拒绝一切有类型错误的程序（指无法根据类型系统给其中某个语言构造指派类型的程序），例如含表达式 3 + true 的程序。如果良类型的程序（即经类型检查后无任何类型错误的程序，也称合法程序）一定是良行为的，则称该语言是类型可靠的（type sound）语言。类型可靠的语言一定是安全语言。用安全语言编写的程序，运行时就没有不会被捕获的错误。

　　显然，C语言虽然是一个类型化的语言，但它不是类型可靠的语言。在共用体类型、含灵活数组结构体类型（结构体的最后一个域是未指定长度的数组）和参数个数可变的函数类型等方面，C语言都有类型不可靠之处。1.2节会给出一些简单的例子。这部分的内容可见参考文献[1]。