工作队列linux

发布时间: 2023-02-01 18:08:35

㈠关于linux下的select/epoll

select这个系统调用的原型如下

第一个参数nfds用来告诉内核 要扫描的socket fd的数量+1 ，select系统调用最大接收的数量是1024，但是如果每次都去扫描1024，实际上的数量并不多，则效率太低，这里可以指定需要扫描的数量。 最大数量为1024，如果需要修改这个数量，则需要重新编译Linux内核源码。
第2、3、4个参数分别是readfds、writefds、exceptfds，传递的参数应该是fd_set 类型的引用，内核会检测每个socket的fd，如果没有读事件，就将对应的fd从第二个参数传入的fd_set中移除，如果没有写事件，就将对应的fd从第二个参数的fd_set中移除，如果没有异常事件，就将对应的fd从第三个参数的fd_set中移除。这里我们应该 要将实际的readfds、writefds、exceptfds拷贝一份副本传进去，而不是传入原引用，因为如果传递的是原引用，某些socket可能就已经丢失 。
最后一个参数是等待时间， 传入0表示非阻塞，传入>0表示等待一定时间，传入NULL表示阻塞，直到等到某个socket就绪 。

FD_ZERO()这个函数将fd_set中的所有bit清0，一般用来进行初始化等。
FD_CLR()这个函数用来将bitmap(fd_set )中的某个bit清0，在客户端异常退出时就会用到这个函数，将fd从fd_set中删除。
FD_ISSET()用来判断某个bit是否被置1了，也就是判断某个fd是否在fd_set中。
FD_SET()这个函数用来将某个fd加入fd_set中，当客户端新加入连接时就会使用到这个函数。

epoll_create系统调用用来创建epfd，会在开辟一块内存空间(epoll的结构空间)。size为epoll上能关注的最大描述符数，不够会进行扩展，size只要＞0就行，早期的设计size是固定大小，但是现在size参数没什么用，会自动扩展。
返回值是epfd，如果为-1则说明创建epoll对象失败 。

第一个参数epfd传入的就是epoll_create返回的epfd。
第二个参数传入对应操作的宏，包括 增删改(EPOLL_CTL_ADD、EPOLL_CTL_DEL、EPOLL_CTL_MOD) 。
第三个参数传入的是 需要增删改的socket的fd 。
第四个参数传入的是 需要操作的fd的哪些事件 ，具体的事件可以看后续。
返回值是一个int类型，如果为-1则说明操作失败 。

第一个参数是epfd，也就是epoll_create的返回值。
第二个参数是一个epoll_event类型的指针，也就是传入的是一个数组指针。 内核会将就绪的socket的事件拷贝到这个数组中，用户可以根据这个数组拿到事件和消息等 。
第三个参数是maxevents，传入的是 第二个参数的数组的容量 。
第四个参数是timeout， 如果设为-1一直阻塞直到有就绪数据为止，如果设为0立即返回，如果＞0那么阻塞一段时间 。
返回值是一个int类型，也就是就绪的socket的事件的数量(内核拷贝给用户的events的元素的数量)，通过这个数量可以进行遍历处理每个事件 。

一般需要传入 ev.data.fd 和 ev.events ，也就是fd和需要监控的fd的事件。事件如果需要传入多个，可以通过按位与来连接，比如需要监控读写事件，只需要像如下这样操作即可： ev.events=EPOLLIN | EPOLLOUT 。

LT(水平触发)，默认的工作模式， 事件就绪后用户可以选择处理和不处理，如果用户不处理，内核会对这部分数据进行维护，那么下次调用epoll_wait()时仍旧会打包出来 。
ET(边缘触发)，事件就绪之后， 用户必须进行处理 ，因为内核把事件打包出来之后就把对应的就绪事件给清掉了， 如果不处理那么就绪事件就没了 。ET可以减少epoll事件被重复触发的次数，效率比LT高。
如果需要设置为边缘触发只需要设置事件为类似 ev.events=EPOLLIN | EPOLLET 即可 。

select/poll/epoll是nio多路复用技术， 传统的bio无法实现C10K/C100K ，也就是无法满足1w/10w的并发量，在这么高的并发量下，在进行上下文切换就很容易将服务器的负载拉飞。

1.将fd_set从用户态拷贝到内核态
2.根据fd_set扫描内存中的socket的fd的状态，时间复杂度为O(n)
3.检查fd_set，如果有已经就绪的socket，就给对应的socket的fd打标记，那么就return 就绪socket的数量并唤醒当前线程，如果没有就绪的socket就继续阻塞当前线程直到有socket就绪才将当前线程唤醒。
4.如果想要获取当前已经就绪的socket列表，则还需要进行一次系统调用，使用O(n)的时间去扫描socket的fd列表，将已经打上标记的socket的fd返回。

CPU在同一个时刻只能执行一个程序，通过RR时间片轮转去切换执行各个程序。没有被挂起的进程(线程)则在工作队列中排队等待CPU的执行，将进程(线程)从工作队列中移除就是挂起，反映到Java层面的就是线程的阻塞。

什么是中断？当我们使用键盘、鼠标等IO设备的时候，会给主板一个电流信号，这个电流信号就给CPU一个中断信号，CPU执行完当前的指令便会保存现场，然后执行键盘/鼠标等设备的中断程序，让中断程序获取CPU的使用权，在中断程序后又将现场恢复，继续执行之前的进程。

如果第一次没检测到就绪的socket，就要将其进程(线程)从工作队列中移除，并加入到socket的等待队列中。

socket包含读缓冲区+写缓冲区+等待队列(放线程或eventpoll对象)

当从客户端往服务器端发送数据时，使用TCP/IP协议将通过物理链路、网线发给服务器的网卡设备，网卡的DMA设备将接收到的的数据写入到内存中的一块区域(网卡缓冲区)，然后会给CPU发出一个中断信号，CPU执行完当前指令则会保存现场，然后网卡的中断程序就获得了CPU的使用权，然后CPU便开始执行网卡的中断程序，将内存中的缓存区中的数据包拿出，判断端口号便可以判断它是哪个socket的数据，将数据包写入对应的socket的读(输入)缓冲区，去检查对应的socket的等待队列有没有等待着的进程(线程)，如果有就将该线程(进程)从socket的等待队列中移除，将其加入工作队列，这时候该进程(线程)就再次拥有了CPU的使用权限，到这里中断程序就结束了。

之后这个进程(线程)就执行select函数再次去检查fd_set就能发现有socket缓冲区中有数据了，就将该socket的fd打标记，这个时候select函数就执行完了，这时候就会给上层返回一个int类型的数值，表示已经就绪的socket的数量或者是发生了错误。这个时候就再进行内核态到用户态的切换，对已经打标记的socket的fd进行处理。

将原本1024bit长度的bitmap(fd_set)换成了数组的方式传入 ，可以 解决原本1024个不够用的情况 ，因为传入的是数组，长度可以不止是1024了，因此socket数量可以更多，在Kernel底层会将数组转换成链表。

在十多年前，linux2.6之前，不支持epoll，当时可能会选择用Windows/Unix用作服务器，而不会去选择Linux，因为select/poll会随着并发量的上升，性能变得越来越低，每次都得检查所有的Socket列表。

1.select/poll每次调用都必须根据提供所有的socket集合，然后就 会涉及到将这个集合从用户空间拷贝到内核空间，在这个过程中很耗费性能 。但是 其实每次的socket集合的变化也许并不大，也许就1-2个socket ，但是它会全部进行拷贝，全部进行遍历一一判断是否就绪。

2.select/poll的返回类型是int，只能代表当前的就绪的socket的数量/发生了错误， 如果还需要知道是哪些socket就绪了，则还需要再次使用系统调用去检查哪些socket是就绪的，又是一次O(n)的操作，很耗费性能 。

1.epoll在Kernel内核中存储了对应的数据结构(eventpoll)。我们可以 使用epoll_create()这个系统调用去创建一个eventpoll对象 ，并返回eventpoll的对象id(epfd)，eventpoll对象主要包括三个部分：需要处理的正在监听的socket_fd列表(红黑树结构)、socket就绪列表以及等待队列(线程)。

2.我们可以使用epoll_ctl()这个系统调用对socket_fd列表进行CRUD操作，因为可能频繁地进行CRUD，因此 socket_fd使用的是红黑树的结构 ，让其效率能更高。epoll_ctl()传递的参数主要是epfd(eventpoll对象id)。

3.epoll_wait()这个系统调用默认会 将当前进程(线程)阻塞，加入到eventpoll对象的等待队列中，直到socket就绪列表中有socket，才会将该进程(线程)重新加入工作队列 ，并返回就绪队列中的socket的数量。

socket包含读缓冲区、写缓冲区和等待队列。当使用epoll_ctl()系统调用将socket新加入socket_fd列表时，就会将eventpoll对象引用加到socket的等待队列中， 当网卡的中断程序发现socket的等待队列中不是一个进程(线程)，而是一个eventpoll对象的引用，就将socket引用追加到eventpoll对象的就绪列表的尾部 。而eventpoll对象中的等待队列存放的就是调用了epoll_wait()的进程(线程)，网卡的中断程序执行会将等待队列中的进程(线程)重新加入工作队列，让其拥有占用CPU执行的资格。epoll_wait()的返回值是int类型，返回的是就绪的socket的数量/发生错误，-1表示发生错误。

epoll的参数有传入一个epoll_event的数组指针(作为输出参数)，在调用epoll_wait()返回的同时，Kernel内核还会将就绪的socket列表添加到epoll_event类型的数组当中。

㈡在linux编程中若一个用户程序希望将一组数据传递给kernel有几种方式

教科书里的Linux代码例子都已作古，所以看到的代码不能当真，领会意思就行了
比如以前的init进程的启动代码
execve(init_filename,argv_init,envp_init);

现在改为
static void run_init_process(char *init_filename)
{
argv_init[0] = init_filename;
kernel_execve(init_filename, argv_init, envp_init);
}

好的，聪明人就发现，linux内核中调用用户空间的程序可以使用init这样的方式，调用 kernel_execve
不过内核还是提供了更好的辅助接口call_usermodehelper，自然最后也是调用kernel_execve

调用特定的内核函数（系统调用）是 GNU/Linux 中软件开发的原本就有的组成部分。但如果方向反过来呢，内核空间调用用户空间？确实有一些有这种特性的应用程序需要每天使用。例如，当内核找到一个设备，这时需要加载某个模块，进程如何处理？动态模块加载在内核通过 usermode-helper 进程进行。
让我们从探索 usermode-helper 应用程序编程接口（API）以及在内核中使用的例子开始。然后，使用 API 构造一个示例应用程序，以便更好地理解其工作原理与局限。
usermode-helper API
usermode-helper API 是个很简单的 API，其选项为用户熟知。例如，要创建一个用户空间进程，通常只要设置名称为 executable，选项都为 executable，以及一组环境变量（指向 execve 主页）。创建内核进程也是一样。但由于创建内核空间进程，还需要设置一些额外选项。

内核版本
本文探讨的是 2.6.27 版内核的 usermode-helper API。
表 1 展示的是 usermode-helper API 中一组关键的内核函数

表 1. usermode-helper API 中的核心函数

API 函数
描述

call_usermodehelper_setup 准备 user-land 调用的处理函数
call_usermodehelper_setkeys 设置 helper 的会话密钥
call_usermodehelper_setcleanup 为 helper 设置一个清空函数
call_usermodehelper_stdinpipe 为 helper 创建 stdin 管道
call_usermodehelper_exec 调用 user-land
表 2 中还有一些简化函数，它们封装了的几个内核函数（用一个调用代替多个调用）。这些简化函数在很多情况下都很有用，因此尽可能使用他们。

表 2. usermode-helper API 的简化

API 函数
描述

call_usermodehelper 调用 user-land
call_usermodehelper_pipe 使用 stdin 管道调用 user-land
call_usermodehelper_keys 使用会话密钥调用 user-land
让我们先浏览一遍这些核心函数，然后探索简化函数提供了哪些功能。核心 API 使用了一个称为subprocess_info 结构的处理函数引用进行操作。该结构（可在 ./kernel/kmod.c 中找到）集合了给定的 usermode-helper 实例的所有必需元素。该结构引用从 call_usermodehelper_setup 调用返回。该结构（以及后续调用）将会在 call_usermodehelper_setkeys（用于存储凭证）、call_usermodehelper_setcleanup 以及 call_usermodehelper_stdinpipe 的调用中进一步配置。最后，一旦配置完成，就可通过调用 call_usermodehelper_exec 来调用配置好的用户模式应用程序。

声明
该方法提供了一个从内核调用用户空间应用程序必需的函数。尽管这项功能有合理用途，还应仔细考虑是否需要其他实现。这是一个方法，但其他方法会更合适。
核心函数提供了最大程度的控制，其中 helper 函数在单个调用中完成了大部分工作。管道相关调用（call_usermodehelper_stdinpipe 和 helper 函数 call_usermodehelper_pipe）创建了一个相联管道供 helper 使用。具体地说，创建了管道（内核中的文件结构）。用户空间应用程序对管道可读，内核对管道可写。对于本文，核心转储只是使用 usermode-helper 管道的应用程序。在该应用程序（./fs/exec.c do_coremp()）中，核心转储通过管道从内核空间写到用户空间。
这些函数与 sub_processinfo 以及 subprocess_info 结构的细节之间的关系如图 1 所示。
图 1. Usermode-helper API 关系

表 2 中的简化函数内部执行 call_usermodehelper_setup 函数和 call_usermodehelper_exec 函数。表 2 中最后两个调用分别调用的是 call_usermodehelper_setkeys 和 call_usermodehelper_stdinpipe。可以在 ./kernel/kmod.c 找到 call_usermodehelper_pipe 和 call_usermodehelper 的代码，在 ./include/linux/kmod.h 中找到 call_usermodhelper_keys 的代码。
为什么要从内核调用用户空间应用程序？
现在让我们看一看 usermode-helper API 所使用的内核空间。表 3 提供的并不是专门的应用程序列表，而是一些有趣应用的示例。

表 3. 内核中的 usermode-helper API 应用程序

应用程序
源文件位置

内核模块调用 ./kernel/kmod.c
电源管理 ./kernel/sys.c
控制组 ./kernel/cgroup.c
安全密匙生成 ./security/keys/request_key.c
内核事件交付 ./lib/kobject_uevent.c
最直接的 usermode-helper API 应用程序是从内核空间加载内核模块。request_mole 函数封装了 usermode-helper API 的功能并提供了简单的接口。在一个常用的模块中，内核指定一个设备或所需服务并调用 request_mole 来加载模块。通过使用 usermode-helper API，模块通过 modprobe 加载到内核（应用程序通过 request_mole 在用户空间被调用）。
与模块加载类似的应用程序是设备热插拔（在运行时添加或删除设备）。该特性是通过使用 usermode-helper API，调用用户空间的 /sbin/hotplug 工具实现的。
关于 usermode-helper API 的一个有趣的应用程序（通过 request_mole）是文本搜索 API（./lib/textsearch.c）。该应用程序在内核中提供了一个可配置的文本搜索基础架构。该应用程序使用 usermode-helper API 将搜索算法当作可加载模块进行动态加载。在 2.6.30 内核版本中，支持三个算法，包括 Boyer-Moore（./lib/ts_bm.c），简单固定状态机方法（./lib/ts_fsm.c），以及 Knuth-Morris-Pratt 算法（./lib/ts_kmp.c）。
usermode-helper API 还支持 Linux 按照顺序关闭系统。当需要系统关闭电源时，内核调用用户空间的 /sbin/poweroff 命令来完成。其他应用程序如表 3 所示，表中附有其源文件位置。
Usermode-helper API 内部
在 kernel/kmod.c 中可以找到 usermode-helper API 的源代码和 API（展示了主要的用作内核空间的内核模块加载器）。这个实现使用 kernel_execve 完成脏工作（dirty work）。请注意 kernel_execve是在启动时开启 init 进程的函数，而且未使用 usermode-helper API。
usermode-helper API 的实现相当简单直观（见图 2）。usermode-helper 从调用call_usermodehelper_exec 开始执行（它用于从预先配置好的 subprocess_info 结构中清除用户空间应用程序）。该函数接受两个参数：subprocess_info 结构引用和一个枚举类型（不等待、等待进程中止及等待进程完全结束）。subprocess_info（或者是，该结构的 work_struct 元素）然后被压入工作队列（khelper_wq），然后队列异步执行调用。

图 2. usermode-helper API 内部实现

当一个元素放入 khelper_wq 时，工作队列的处理函数就被调用（本例中是__call_usermodehelper），它在 khelper 线程中运行。该函数从将 subprocess_info 结构出队开始，此结构包含所有用户空间调用所需信息。该路径下一步取决于 wait 枚举变量。如果请求者想要等整个进程结束，包含用户空间调用（UMH_WAIT_PROC）或者是根本不等待（UMH_NO_WAIT），那么会从 wait_for_helper 函数创建一个内核线程。否则，请求者只是等待用户空间应用程序被调用（UMH_WAIT_EXEC），但并不完全。这种情况下，会为____call_usermodehelper() 创建一个内核线程。
在 wait_for_helper 线程中，会安装一个 SIGCHLD 信号处理函数，并为 ____call_usermodehelper 创建另一个内核线程。但在 wait_for_helper 线程中，会调用 sys_wait4 来等待____call_usermodehelper 内核线程（由 SIGCHLD 信号指示）结束。然后线程执行必要的清除工作（为UMH_NO_WAIT 释放结构空间或简单地向 call_usermodehelper_exec() 回送一个完成报告）。
函数 ____call_usermodehelper 是实际让应用程序在用户空间启动的地方。该函数首先解锁所有信号并设置会话密钥环。它还安装了 stdin 管道（如果有请求）。进行了一些安装以后，用户空间应用程序通过 kernel_execve（来自 kernel/syscall.c）被调用，此文件包含此前定义的 path、argv 清单（包含用户空间应用程序名称）以及环境。当该进程完成后，此线程通过调用 do_exit() 而产生。
该进程还使用了 Linux 的 completion，它是像信号一样的操作。当 call_usermodehelper_exec 函数被调用后，就会声明 completion。当 subprocess_info 结构放入 khelper_wq 后，会调用wait_for_completion（使用 completion 变量作为参数）。请注意此变量会存储到 subprocess_info 结构作为 complete 字段。当子线程想要唤醒 call_usermodehelper_exec 函数，会调用内核方法complete，并判断来自 subprocess_info 结构的 completion 变量。该调用会解锁此函数使其能继续。可以在 include/linux/completion.h 中找到 API 的实现。
应用程序示例
现在，让我们看看 usermode-helper API 的简单应用。首先看一下标准 API，然后学习如何使用 helper 函数使事情更简单。
在该例中，首先开发了一个简单的调用 API 的可加载内核模块。清单 1 展示了样板模块功能，定义了模块入口和出口函数。这两个函数根据模块的 modprobe（模块入口函数）或 insmod（模块入口函数），以及 rmmod（模块出口函数）被调用。

清单 1. 模块样板函数

#include
#include
#include

MODULE_LICENSE( "GPL" );

static int __init mod_entry_func( void )
{
return umh_test();
}

static void __exit mod_exit_func( void )
{
return;
}

mole_init( mod_entry_func );
mole_exit( mod_exit_func );

usermode-helper API 的使用如清单 2 所示，其中有详细描述。函数开始是声明所需变量和结构。以subprocess_info 结构开始，它包含所有的执行用户空间调用的信息。该调用在调用call_usermodehelper_setup 时初始化。下一步，定义参数列表，使 argv 被调用。该列表与普通 C 程序中的 argv 列表类似，定义了应用程序（数组第一个元素）和参数列表。需要 NULL 终止符来提示列表末尾。请注意这里的 argc 变量（参数数量）是隐式的，因为 argv 列表的长度已经知道。该例中，应用程序名是 /usr/bin/logger，参数是 help!，然后是 NULL 终止符。下一个所需变量是环境数组（envp）。该数组是一组定义用户空间应用程序执行环境的参数列表。本例中，定义一些常用的参数，这些参数用于定义 shell 并以 NULL 条目结束。

清单 2. 简单的 usermode_helper API 测试

static int umh_test( void )
{
struct subprocess_info *sub_info;
char *argv[] = { "/usr/bin/logger", "help!", NULL };
static char *envp[] = {
"HOME=/",
"TERM=linux",
"PATH=/sbin:/bin:/usr/sbin:/usr/bin", NULL };

sub_info = call_usermodehelper_setup( argv[0], argv, envp, GFP_ATOMIC );
if (sub_info == NULL) return -ENOMEM;

return call_usermodehelper_exec( sub_info, UMH_WAIT_PROC );
}

下一步，调用 call_usermodehelper_setup 来创建已初始化的 subprocess_info 结构。请注意使用了先前初始化的变量以及指示用于内存初始化的 GFP 屏蔽第四个参数。在安装函数内部，调用了kzalloc（分配内核内存并清零）。该函数需要 GFP_ATOMIC 或 GFP_KERNEL 标志（前者定义调用不可以休眠，后者定义可以休眠）。快速测试新结构（即，非 NULL）后，使用 call_usermodehelper_exec 函数继续调用。该函数使用 subprocess_info 结构以及定义是否等待的枚举变量（在 “Usermode-helper API 内部” 一节中有描述）。全部完成！模块一旦加载，就可以在 /var/log/messages 文件中看到信息。
还可以通过 call_usermodehelper API 函数进一步简化进程，它同时执行 call_usermodehelper_setup和 call_usermodehelper_exec 函数。如清单 3 所示，它不仅删除函数，还消除了调用者管理subprocess_info 结构的必要性。

清单 3. 更简单的 usermode-helper API 测试

static int umh_test( void )
{
char *argv[] = { "/usr/bin/logger", "help!", NULL };
static char *envp[] = {
"HOME=/",
"TERM=linux",
"PATH=/sbin:/bin:/usr/sbin:/usr/bin", NULL };

return call_usermodehelper( argv[0], argv, envp, UMH_WAIT_PROC );
}

请注意在清单 3 中，有着同样的安装并调用（例如初始化 argv 和 envp 数组）的需求。此处惟一的区别是 helper 函数执行 setup 和 exec 函数。

㈢ Linux 工作队列和等待队列的区别

work queue是一种bottom half，中断处理的后半程，强调的是动态的概念，即work是重点，而queue是其次。
wait queue是一种“任务队列”，可以把一些进程放在上面睡眠等待某个事件，强调静态多一些，重点在queue上，即它就是一个queue，这个queue如何调度，什么时候调度并不重要
等待队列在内核中有很多用途，尤其适合用于中断处理，进程同步及定时。这里只说，进程经常必须等待某些事件的发生。例如，等待一个磁盘操作的终止，等待释放系统资源，或者等待时间经过固定的间隔。
等待队列实现了在事件上的条件等待，希望等待特定事件的进程把放进合适的等待队列，并放弃控制权。因此。等待队列表示一组睡眠的进程，当某一条件为真时，由内核唤醒进程。
等待队列由循环链表实现，其元素包括指向进程描述符的指针。每个等待队列都有一个等待队列头，等待队列头是一个类型为wait_queue_head_t的数据结构。
等待队列链表的每个元素代表一个睡眠进程，该进程等待某一事件的发生，描述符地址存放在task字段中。然而，要唤醒等待队列中所有的进程有时并不方便。例如，如果两个或多个进程在等待互斥访问某一个要释放的资源，仅唤醒等待队列中一个才有意义。这个进程占有资源，而其他进程继续睡眠可以用DECLARE_WAIT_QUEUE_HEAD(name)宏定义一个新的等待队列，该宏静态地声明和初始化名为name的等待队列头变量。 init_waitqueue_head()函数用于初始化已动态分配的wait queue head变量等待队列可以通过DECLARE_WAITQUEUE()静态创建，也可以用init_waitqueue_head()动态创建。进程放入等待队列并设置成不可执行状态。
工作队列，workqueue，它允许内核代码来请求在将来某个时间调用一个函数。用来处理不是很紧急事件的回调方式处理方法.工作队列的作用就是把工作推后,交由一个内核线程去执行，更直接的说就是写了一个函数,而现在不想马上执行它，需要在将来某个时刻去执行，那就得用工作队列准没错。
如果需要用一个可以重新调度的实体来执行下半部处理，也应该使用工作队列。是唯一能在进程上下文运行的下半部实现的机制。这意味着在需要获得大量的内存时、在需要获取信号量时，在需要执行阻塞式的I/O操作时，都会非常有用。

㈣ linux定时器和延时工作队列的区别

工作队列中是即将要调度到的任务队列，等待队列是暂时被挂起的任务队列，或者有些任务无事可做休眠状态的任务，它们会在某些条件触发时恢复换入工作队列并进入执行状态，同样在工作队列中的任务在某个时刻也可以被换入到等待队列中

㈤ Linux进程的调度

上回书说到 Linux进程的由来和 Linux进程的创建，其实在同一时刻只能支持有限个进程或线程同时运行(这取决于CPU核数量，基本上一个进程对应一个CPU)，在一个运行的操作系统上可能运行着很多进程，如果运行的进程占据CPU的时间很长，就有可能导致其他进程饿死。为了解决这种问题，操作系统引入了进程调度器来进行进程的切换，轮流让各个进程使用CPU资源。

1）rq：进程的运行队列( runqueue)，每个CPU对应一个，包含自旋锁(spinlock)、进程数量、用于公平调度的CFS信息结构、当前运行的进程描述符等。实际的进程队列用红黑树来维护(通过CFS信息结构来访问)。

2）cfs_rq： cfs调度的进程运行队列信息，包含红黑树的根结点、正在运行的进程指针、用于负载均衡的叶子队列等。

3）sched_entity：把需要调度的东西抽象成调度实体，调度实体可以是进程、进程组、用户等。这里包含负载权重值、对应红黑树结点、虚拟运行时vruntime 等。

4）sched_class：把调度策略(算法)抽象成调度类，包含一组通用的调度操作接口。接口和实现是分离，可以根据调度接口去实现不同的调度算法，使一个Linux调度程序可以有多个不同的调度策略。

1）关闭内核抢占，初始化部分变量。获取当前CPU的ID号，并赋值给局部变量CPU，使rq指向CPU对应的运行队列。标识当前CPU发生任务切换，通知RCU更新状态，如果当前CPU处于rcu_read_lock状态，当前进程将会放入rnp-> blkd_tasks阻塞队列，并呈现在rnp-> gp_tasks链表中。关闭本地中断，获取所要保护的运行队列的自旋锁，为查找可运行进程做准备。

2）检查prev的状态，更新运行队列。如果不是可运行状态，而且在内核态没被抢占，应该从运行队列中删除prev进程。如果是非阻塞挂起信号，而且状态为TASK_INTER-RUPTIBLE，就把该进程的状态设置为TASK_RUNNING，并将它插入到运行队列。

3）task_on_rq_queued(prev) 将pre进程插入到运行队列的队尾。

4）pick_next_task 选取将要执行的next进程。

5）context_switch(rq, prev, next)进行进程上下文切换。

1) 该进程分配的CPU时间片用完。

2) 该进程主动放弃CPU(例如IO操作)。

3) 某一进程抢占CPU获得执行机会。

Linux并没有使用x86 CPU自带的任务切换机制，需要通过手工的方式实现了切换。

进程创建后在内核的数据结构为task_struct ，该结构中有掩码属性cpus_allowed，4个核的CPU可以有4位掩码，如果CPU开启超线程，有一个8位掩码，进程可以运行在掩码位设置为1的CPU上。

Linux内核API提供了两个系统调用，让用户可以修改和查看当前的掩码：

1) sched_setaffinity()：用来修改位掩码。

2) sched_getaffinity()：用来查看当前的位掩码。

在下次task被唤醒时，select_task_rq_fair根据cpu_allowed里的掩码来确定将其置于哪个CPU的运行队列，一个进程在某一时刻只能存在于一个CPU的运行队列里。

在Nginx中，使用了CPU亲和度来完成某些场景的工作：

worker_processes 4;

worker_cpu_affinity 0001001001001000;

上面这个配置说明了4个工作进程中的每一个和一个CPU核挂钩。如果这个内容写入Nginx的配置文件中，然后Nginx启动或者重新加载配置的时候，若worker_process是4，就会启用4个worker，然后把worker_cpu_affinity后面的4个值当作4个cpu affinity mask，分别调用ngx_setaffinity，然后就把4个worker进程分别绑定到CPU0～3上。

worker_processes 2;

worker_cpu_affinity 01011010;

上面这个配置则说明了两个工作进程中的每一个和2个核挂钩。

阅读全文

热点内容

苹果安卓不知道到底怎么选发布：2025-07-14 15:07:52 浏览：925

数据库spl 发布：2025-07-14 15:05:22 浏览：436

手机存储中照片被删除了咋办发布：2025-07-14 14:57:45 浏览：987

为什么把文件拖不进ftp 发布：2025-07-14 14:52:45 浏览：678

vod存储位置不存在发布：2025-07-14 14:49:28 浏览：194

怎么清理uc浏览缓存发布：2025-07-14 14:44:34 浏览：13

打开linux端口号发布：2025-07-14 14:37:27 浏览：168

高防云服务器妙解发布：2025-07-14 14:34:01 浏览：630

苹果怎么设置信息密码发布：2025-07-14 14:23:44 浏览：990

java输入多行发布：2025-07-14 13:59:05 浏览：110

工作队列linux

与工作队列linux相关的资讯