东东整理
Linux 进程编程介绍
1
第一章 进程的定义
摘要:本节将介绍进程的定义。进程作为构成系统的基本细胞,不仅是系统内部独立运行的实体,而
且是独立竞争资源的基本实体。了解进程的本质,对于理解、描述和设计操作系统有着极为重要的意义。
了解进程的活动、状态,也有利于编制复杂程序。
1.进程的基本概念
首先我们先看看进程的定义,进程是一个具有独立功能的程序关于某个数据集合的一次可以并发执行
的运行活动,是处于活动状态的计算机程序。进程作为构成系统的基本细胞,不仅是系统内部独立运行的
实体,而且是独立竞争资源的基本实体。了解进程的本质,对于理解、描述和设计操作系统有着极为重要
的意义。了解进程的活动、状态,也有利于编制复杂程序。
1.1 进程状态和状态转换
现在我们来看看,进程在生存周期中的各种状态及状态的转换。下面是 LINUX 系统的进程状态模型
的各种状态:
1) 用户状态:进程在用户状态下运行的状态。
2) 内核状态
①
:进程在内核状态下运行的状态。
3) 内存中就绪:进程没有执行,但处于就绪状态,只要内核调度它,就可以执行。
4) 内存中睡眠:进程正在睡眠并且进程存储在内存中,没有被交换到 SWAP 设备。
5) 就绪且换出:进程处于就绪状态,但是必须把它换入内存,内核才能再次调度它进行运行。
6) 睡眠且换出:进程正在睡眠,且被换出内存。
7) 被抢先:进程从内核状态返回用户状态时,内核抢先于它,做了上下文切换,调度了另一个进程。
原先这个进程就处于被抢先状态。
8) 创建状态:进程刚被创建。该进程存在,但既不是就绪状态,也不是睡眠状态。这个状态是除了进
程 0 以外的所有进程的最初状态。
9) 僵死状态(zombie):进程调用 exit 结束,进程不再存在,但在进程表项中仍有纪录,该纪录可由
父进程收集。
现在我们从进程的创建到退出来看看进程的状态转化。需要说明的是,进程在它的生命周期里并不一
定要经历所有的状态。
首先父进程通过系统调用 fork 来创建子进程,调用 fork 时,子进程首先处于创建态,fork 调用为子进
程配置好内核数据结构和子进程私有数据结构后,子进程就要进入就绪态 3 或 5,即在内存中就绪,或者
因为内存不够,而导致在 SWAP 设备中就绪。
假设进程在内存中就绪,这时子进程就可以被内核调度程序调度上 CPU 运行。内核调度该进程进入
内核状态
②
,再由内核状态返回用户状态执行。该进程在用户状态运行一定时间后,又会被调度程序所调
①
关于内核态与用户态,请参见附录 I。
②
内核对外的接口是系统调用,内核外的程序都必须经由系统调用才能获得操作系统的服务。进程调度程序属系统调用,因
此无论进程获得或让出 CPU 都要执行进程调度程序,从而在这段时间内运行于内核态。
东东整理
Linux 进程编程介绍
2
度而进入内核状态,由此转入就绪态
①
。有时进程在用户状态运行时,也会因为需要内核服务,使用系统
调用而进入内核状态,服务完毕,会由内核状态转回用户状态。要注意的是,进程在从内核状态向用户状
态返回时可能被抢占,进入状态 7,这是由于有优先级更高的进程急需使用 CPU,不能等到下一次调度时
机,从而造成抢占。
进程还会因为请求的资源不能得到满足,进入睡眠状态,直到它请求的资源被释放,才会被内核唤醒
而进入就绪态。如果进程在内存中睡眠时,内存不足,当进程睡眠时间达到一个阀值,进程会被 SWAP 出
内存,使得进程在 SWAP 设备上睡眠。这种状况同样可能发生在就绪的进程上。
进程调用 exit 系统调用,将使得进程进入内核状态,执行 exit 调用,进入僵死状态而结束。以上就是
进程状态转换的简单描述。
进程的上下文
②
是由用户级上下文、寄存器上下文以及系统级上下文组成。主要内容是该进程用户空
间内容、寄存器内容以及与该进程有关的内核数据结构。当系统收到一个中断、执行系统调用或内核做上
下文切换时,就会保存进程的上下文。一个进程是在它的上下文中运行的,若要调度进程,就要进行上下
文切换。内核在四种情况下允许发生上下文切换:
1) 当进程自己进入睡眠时;
2) 当进程执行完系统调用要返回用户状态,但发现该进程不是最有资格运行的进程时;
3) 当内核完成中断处理后要返回用户状态,但发现该进程不是最有资格运行的进程时;
4) 当进程退出(执行系统调用 exit 后)时。
有时内核要求必须终止当前进程的执行,立即从先前保存的上下文处执行。这可由 setjmp 和 longjmp
实现,setjmp 将保存的上下文存入进程自身的数据空间(u 区)中,并继续在当前的上下文中执行,一旦
碰到了 longjmp,内核就从该进程的 u 区,取出先前保存的上下文,并恢复该进程的上下文为原先保存的。
这时内核将使得进程从 setjmp 处执行,并给 setjmp 返回 1
③
。
进程因等待资源或其他原因,进入睡眠态是通过内核的 sleep 算法。该算法与本章后面要讲到的 sleep
函数是两个概念。算法 sleep 记录进程原先的处理机优先级,置进程为睡眠态,将进程放入睡眠队列,记
录睡眠的原因,给该进程进行上下文切换。内核通过算法 wakeup 来唤醒进程,如某资源被释放,则唤醒
所有因等待该资源而进入睡眠的进程。如果进程睡眠在一个可以接收软中断信号(signal)的级别上,则进
程的睡眠可由软中断信号的到来而被唤醒。
1.2 进程控制
现在我们开始讲述一下进程的控制,主要介绍内核对 fork、exec、wait、exit 的处理过程,为下一节学
习这些调用打下概念上的基础,并介绍系统启动(boot)的过程以及进程 init 的作用。
在 Linux 系统中,用户创建一个进程的唯一方法就是使用系统调用 fork。内核为完成系统调用 fork 要
进行几步操作:
①
同上页②。关于进程调度的详细介绍请参见本章第 3 节或附录 II。
②
关于进程上下文,请参见附录 I
③
该过程类似于对当前进程上下文进行备份,一旦进程出现了问题,则从备份点重新运行。
东东整理
Linux 进程编程介绍
3
第一步,为新进程在进程表中分配一个表项。系统对一个用户可以同时运行的进程数是有限制的,对
超级用户没有该限制,但也不能超过进程表的最大表项的数目。
第二步,给子进程一个唯一的进程标识号(PID)。该进程标识号其实就是该表项在进程表中的索引号。
第三步,复制一个父进程的进程表项的副本给子进程。内核初始化子进程的进程表项时,是从父进程
处拷贝的。所以子进程拥有与父进程一样的 uid、euid、gid、用于计算优先权的 nice 值、当前目录、当前
根、用户文件描述符表等。
第四步,把与父进程相连的文件表和索引节点表
①
的引用数加 1。这些文件自动地与该子进程相连。
第五步,内核为子进程创建用户级上下文。内核为子进程的 u 区及辅助页表分配内存,并复制父进程
的 u 区内容。这样生成的是进程的静态部分。
第六步,生成进程的动态部分,内核复制父进程的上下文的第一层,即寄存器上下文和内核栈,内核
再为子进程虚设一个上下文层,这是为了子进程能“恢复”它的上下文。这时,该调用会对父进程返回子
进程的 pid,对子进程返回 0。
Linux 系统的系统调用 exit,是进程用来终止执行时调用的。进程发出该调用,内核就会释放该进程所
占的资源,释放进程上下文所占的内存空间,保留进程表项,将进程表项中纪录进程状态的字段设为僵死
状态。内核在进程收到不可捕捉
②
的信号时,会从内核内部调用 exit,使得进程退出。父进程通过 wait 得
到其子进程的进程表项中记录的计时数据,并释放进程表项。最后,内核使得进程 1(init 进程)接收终止
执行的进程的所有子进程。如果有子进程僵死,就向 init 进程发出一个 SIGCHLD 的软中断信号.
一个进程通过调用 wait 来与它的子进程同步,如果发出调用的进程没有子进程则返回一个错误,如果
找到一个僵死的子进程就取子进程的 PID 及退出时提供给父进程的参数。如果有子进程,但没有僵死的子
进程,发出调用的进程就睡眠在一个可中断的级别上,直到收到一个子进程僵死(SIGCLD
③
)的信号或其
他信号。
进程控制的另一个主要内容就是对其他程序引用。该功能是通过系统调用 exec 来实现的,该调用将一
个可执行的程序文件读入,代替发出调用的进程执行。内核读入程序文件的正文,清除原先进程的数据区,
清除原先用户软中断信号处理函数的地址,当 exec 调用返回时,进程执行新的正文。
一个系统启动的过程,也称作是自举的过程。该过程因机器的不同而有所差异。但该过程的目的对所
有机器都相同:将操作系统装入内存并开始执行。计算机先由硬件将引导块的内容读到内存并执行,自举
块
④
的程序将内核从文件系统中装入内存,并将控制转入内核的入口,内核开始运行。内核首先初始化它
的数据结构,并将根文件系统安装到根“/”,为进程 0 形成执行环境。设置好进程 0 的环境后,内核便作
为进程 0 开始执行,并调用系统调用 fork。因为这时进程 0 运行在内核状态,所以新的进程也运行在内核
状态。新的进程(进程 1)创建自己的用户级上下文,设置并保存好用户寄存器上下文。这时,进程 1 就
从内核状态返回用户状态执行从内核拷贝的代码(exec),并调用 exec 执行/sbin/init 程序。进程 1 通常称
为初始化进程,它负责初始化新的进程。
进程init 除了产生新的进程外,还负责一些使用户在系统上注册的进程。例如,进程 init 一般要产生
一些 getty 的子进程来监视终端。如果一个终端被打开,getty 子进程就要求在这个终端上执行一个注册的
过程,当成功注册后,执行一个 shell 程序,来使得用户与系统交互。同时,进程 init 执行系统调用 wait
①
关于索引结点表,请参见附录 III。
②
应该是指进程收到了信号,但并没有设置屏蔽(如用 sigprocmask)或注册相应的处理程序(如用 sigaction)。
③
SIGCHLD 是 POSIX 标准中定义的,SIGCLD 是 SysV 的事实标准,两个信号想表达的意思一样,只是出处不同,而今大多数
UNIX 都把两个信号 define 成同一个值。推荐用 SIGCHLD
④
就是引导块(BootBlock)。
东东整理
Linux 进程编程介绍
4
来监视子进程的死亡,以及由于父进程的退出而产生的孤儿进程的移交。以上是系统启动和进程 init 的一
个粗略的模型
①
。
1.3 进程调度的概念
Linux 系统是一个分时系统,内核给每个进程分一个时间片,该进程的时间片用完就会调度另一个进
程执行。LINUX 系统上的调度程序属于多级反馈循环调度。该调度方法是,给一个进程分一个时间片,抢
先一个运行超过时间片的进程,并把进程反馈到若干优先级队列中的一个队列。进程在执行完之前,要经
过这样多次反馈循环。
进程调度分成两个部分,一个是调度的时机,即什么时候调度;一个是调度的算法,即如何调度和调
度哪个进程。我们先来看看调度的算法,假设目前内核要求进行调度,调度程序从“在内存中就绪”和“被
抢先”状态的进程中选择一个优先权最高的进程,如果有若干优先权一样高的进程,则在其中选择等待时
间最长的进程。切换进程上下文,继续执行该进程。如果没有选择到进程,则不做操作,等待下一次调度
时机的到来。
每一个进程都有一个用于调度的优先权域。进程的优先权由低到高粗略地分为用户优先权和内核优先
权。每种优先权有若干优先权值
②
(优先数)与其对应。每个优先权都有一个逻辑上与其相连的进程队列。
进程从内核状态返回用户状态时被抢先,从而得到用户优先权。进程在内核算法 sleep 中得到内核优先权。
内核优先权高于用户优先权,即内核优先权和用户优先权之间存在一个阀值,所有用户优先权低于该阀值,
而内核优先权高于该阀值。内核优先权中又划分为可中断和不可中断,即进程在收到一个软中断信号时,
低内核优先权的进程可被唤醒,而有高内核优先权的进程继续睡眠。
计算一个进程优先权的时机是:内核将一个优先权值赋给一个将进入睡眠的进程,这个优先权值是固
定的,且与睡眠原因相联系;另一个时机是,时钟处理程序每隔一定时间(如每隔 1 秒)调整用户状态下
的所有进程的优先权,并使内核运行调度算法。时钟处理程序还根据一个衰减函数,每秒一次的调整每个
进程的最近 CPU 使用时间。例如可按如下公式调整:
decay(CPU) = CPU/2;
再根据公式重新计算在“就绪”和“被抢先”状态下的每个进程的优先权值。
Priority = (“recent CPU usage”/constant) + (base priority) + (nice value);
其中constant 是个系统常量(一般取值为“2”)。base priority 值也是系统的一个常量,一般 base priority
取值为 60。最后,nice 的值是由进程发出 nice 调用时给出的值,这样就可以使得用户通过降低优先权而让
出一些执行时间。只有超级用户才能指定提高优先权的 nice 值。
①
关于 Linux 系统启动的详细介绍,请参见附录 IV。
②
进程的优先权值(优先数)越小,优先权越高。
评论0