Unix系统编程读书笔记-文件IO缓冲

768次阅读  |  发布于3年以前

I/O 系统调用会直接将数据传递到内核缓冲区高速缓存,而 stdio 库函数会等到用户空间的流缓冲区填满,再调用 write()将其传递到内核缓冲区高速缓存。

-w791

文件I/O的内核缓冲

read()和 write()系统调用在操作磁盘文件时不会直接发起磁盘访问, 而是仅仅在用户空间 缓冲区与内核缓冲区高速缓存(kernel buffer cache)之间复制数据。

执行write系统调用之后,在后续某个时刻,内核会将其缓冲区中的数据写入(刷新至)磁盘。如果在此期间,另一进程试图读取该文件的这几 个字节,那么内核将自动从缓冲区高速缓存中提供这些数据,而不是从文件中。

对输入而言,内核从磁盘中读取数据并存储到内核缓冲区中。 read()调用将从 该缓冲区中读取数据,直至把缓冲区中的数据取完,这时,内核会将文件的下一段内容读入缓冲区高速缓存。

Linux 内核对缓冲区高速缓存的大小没有固定上限。内核会分配尽可能多的缓冲区高速缓 存页,而仅受限于两个因素:可用的物理内存总量,以及出于其他目的对物理内存的需求。

缓冲区如果太小,写入同样大小的文件,需要执行系统调用的次数越多,因此性能会变差。

stdio标准库的缓冲

当操作磁盘文件时,缓冲大块数据以减少系统调用, C 语言函数库的 I/O 函数(比如, fprintf()、fscanf()、fgets()、fputs()、fputc()、fgetc())正是这么做的。

设置一个 stdio 流的缓冲模式

setvbuf()

调用 setvbuf()函数, 可以控制 stdio 库使用缓冲的形式

-w799

打开流后,必须在调用任何其他 stdio 函数 之前先调用 setvbuf()。setvbuf()调用将影响后续在指定流上进行的所有 stdio 操作。

参数mode执行了缓冲类型

setbuf()

setbuf()函数构建于 setvbuf()之上, 执行了类似任务

-w387

setbuf(fp,buf)调用除了不返回函数结果外, 就相当于 setvbuf(fp, buf, (buf != NULL) ? _IOFBF : _IONBF, BUFSIZ)。

setbuffer()

setbuffer()函数类似于 setbuf()函数, 但允许调用者指定 buf 缓冲区大小

-w515

对setbuffer的调用,相当于 setvbuf(fp, buf, (buf != NULL) ? _IOFBUF : _IONBUF, size)。

刷新stdio缓冲区

使用 fflush()库函数强制将 stdio 输出 流中的数据(即通过 write())刷新到内核缓冲区中

-w801

fflush()函数应用于输入流, 这将丢弃业已缓冲的输入数据。

若参数 stream 为 NULL, 则 fflush()将刷新所有的 stdio 缓冲区,当关闭相应流时,将自动刷新其 stdio 缓冲区。

若 stdin 和 stdout 指向一终端,那么无论何时从 stdin 中读取输入时,都将隐含调用一次 fflush(stdout)函数。

控制文件 I/O 的内核缓冲

同步 I/O 完整性

用于控制文件 I/O 内核缓冲的系统调用

fsync

fsync()系统调用将使缓冲数据和与打开文件描述符 fd 相关的所有元数据都刷新到磁盘上

-w802

仅在对磁盘设备(或者至少是其高速缓存)的传递完成后, fsync()调用才会返回

fdatasync

fdatasync()系统调用的运作类似于 fsync(), 只是强制文件处于 synchronized I/O data integrity completion 的状态

-w802

fdatasync()可能会减少对磁盘操作的次数, 由 fsync()调用请求的两次变为一次

sync

sync()系统调用会使包含更新文件信息的所有内核缓冲区(即数据块、指针块、 元数据等) 刷新到磁盘上

-w247

调用 open() 函数时如指定 O_SYNC 标志

调用 open()函数时如指定 O_SYNC 标志,则会使所有后续输出同步(synchronous)

-w389

就 I/O 模式向内核提出建议

posix_fadvise()系统调用允许进程就自身访问文件数据时可能采取的模式通知内核

-w803

内核可以(但不必非要)根据 posix_fadvise()所提供的信息来优化对缓冲区高速缓存的使 用,进而提高进程和整个系统的性能。调用 posix_fadvise()对程序语义并无影响。

绕过缓冲区高速缓存:直接 I/O

始于内核 2.4,Linux 允许应用程序在执行磁盘 I/O 时绕过缓冲区高速缓存,从用户空间直 接将数据传递到文件或磁盘设备。有时也称此为直接 I/O(direct I/O)或者裸 I/O(raw I/O)。

在执行open系统调用时指定O_DIRECT标识,可针对一个单独文件或块设备(比如,一块磁盘)执行直接 I/O。

因为直接 I/O(针对磁盘设备和文件)涉及对磁盘的直接访问, 所以在执行 I/O 时,必须遵守一些限制

混合使用库函数和系统调用进行文件 I/O

-w806

Copyright© 2013-2019

京ICP备2023019179号-2