标准IO：缓存机制

1. 标准 IO 与文件 IO 的对比

1.1 核心区别

文件 IO (File I/O):
- 属于系统调用 (System Call)。
- 每次操作（如 read, write）都会触发内核态与用户态的切换。
- 频繁的系统调用会降低效率。
- 使用 文件描述符 (File Descriptor, FD)，是一个整型值 (int)。
标准 IO (Standard I/O):
- 属于 C 库函数 (Library Function)，是对文件 IO 的封装。
- 增加了缓冲机制 (Buffering)，减少系统调用的次数，提高效率。
- 屏蔽了底层硬件差异，降低了耦合度，对应用层编程更友好。
- 使用 流 (Stream) 的概念，核心是 FILE 结构体指针。

1.2 函数对应关系

标准 IO 函数通常封装了对应的文件 IO 系统调用：

fopen \rightarrow open
fclose \rightarrow close
fread/fwrite \rightarrow read/write
fseek \rightarrow lseek

2. 流 (Stream) 与 FILE 结构体

2.1 什么是流

在标准 IO 中，所有的操作都是围绕 FILE 结构体进行的。FILE 结构体也被称为 流 (stream)。它不仅仅是一个简单的整型值（如 FD），而是一个包含丰富信息的结构体。

2.2 FILE 结构体定义

头文件: 通常在 <stdio.h> 中引用，但实际定义隐藏在底层头文件中。
源码路径: 在 Linux 系统中，可以通过以下路径查看定义（具体路径可能因系统版本而异）：
- /usr/include/stdio.h (引用了其他文件)
- /usr/include/bits/types/FILE.h
- /usr/include/bits/types/struct_FILE.h (最终定义位置)
结构体原型: struct _IO_FILE (通过 typedef 定义为 FILE)。

2.3 关键成员变量

FILE 结构体中包含了管理缓冲区的关键指针：

_IO_read_ptr / _IO_write_ptr: 当前读/写指针位置。
_IO_read_base / _IO_write_base: 缓冲区起始地址。
_IO_read_end / _IO_write_end: 缓冲区结束地址。
缓冲区大小计算: end_ptr - base_ptr。

3. 缓冲区的三种类型

标准 IO 提供了三种缓冲策略，以平衡效率和实时性。

3.1 无缓冲 (Unbuffered)

特性: 数据写入后直接输出，不经过缓冲区等待。
典型代表: 标准错误流 (stderr)。
原因: 错误信息需要立即提示用户，不能延迟。

验证实验:

使用 perror("aaa") 输出错误信息。
即使程序随后进入死循环或 sleep，错误信息也会立即显示在终端。

代码示例：

#include <stdio.h>
#include <unistd.h>
int main() {
    perror("aaa"); // 立即输出
    while(1) { sleep(1); } // 程序卡住，但上面已输出
    return 0;
}

3.2 行缓冲 (Line Buffered)

特性: 当遇到 换行符 (\n) 或者 缓冲区满 时，才会刷新缓冲区输出数据。
典型代表: 标准输出流 (stdout) (当连接到终端时)。
缓冲区大小: 通常为 1024 字节 (具体取决于系统环境，如 Ubuntu 22.04)。
验证实验:
- 情况 1 (无换行): printf("a"); 后接死循环，字符 'a' 不会立即显示。
- 情况 2 (有换行): printf("a\n"); 后接死循环，字符 'a' 会立即显示。
- 情况 3 (缓冲区满): 循环打印 1025 个字符（超过 1024 字节），即使没有 \n，前 1024 个字符也会被迫刷新输出。

3.3 全缓冲 (Fully Buffered)

特性: 只有当 缓冲区填满 时，才会刷新输出。
典型代表: 磁盘文件 IO (使用 fopen 打开的文件流)。
缓冲区大小: 通常为 4096 字节 (具体取决于系统环境，如 Ubuntu 14.04/22.04)。
验证实验:
- 使用 fopen 打开文件，获取 FILE *fp。
- 通过访问 fp 内部成员计算缓冲区大小：fp->_IO_buf_end - fp->_IO_buf_base。
- 写入 4095 字节：缓冲区未满，不刷新到磁盘。
- 写入 4096 字节：缓冲区满，触发刷新。
- 写入 4098 字节：先刷新 4096 字节，剩余 2 字节留在新缓冲区中。

4. 标准 IO 缓冲机制原理图解

用户空间: 存在 FILE 结构体及对应的用户态缓冲区。
内核空间: 存在内核缓冲区。
流程:
1. 应用程序调用 printf/fprintf。
2. 数据先写入用户态的 FILE 缓冲区。
3. 当缓冲区满足刷新条件（满、换行、手动刷新、关闭流）时。
4. 触发系统调用 (write)，将数据从用户态缓冲区拷贝到内核缓冲区。
5. 内核再将数据写入磁盘或终端。
优势: 减少了 write 系统调用的频率（例如写 4096 次 1 字节，变为写 1 次 4096 字节）。

5. 修改缓冲类型

如果需要改变默认的缓冲行为（例如希望 stdout 像 stderr 一样无缓冲），可以使用以下函数。

5.1 setbuf 函数

功能: 设置流的缓冲区。
原型: void setbuf(FILE *stream, char *buf);
用法:
- 关闭缓冲: setbuf(stdout, NULL); (将 stdout 设置为无缓冲)。
- 效果: 设置后，printf 输出将立即显示，无需 \n。

5.2 setvbuf 函数

功能: 更精细地控制缓冲类型和大小。
原型: int setvbuf(FILE *stream, char *buf, int mode, size_t size);
参数 mode:
- _IONBF: 无缓冲 (Unbuffered)。
- _IOLBF: 行缓冲 (Line buffered)。
- _IOFBF: 全缓冲 (Fully buffered)。
等价关系: setbuf(stream, NULL) 等价于 setvbuf(stream, NULL, _IONBF, 0)。

5.3 代码示例：关闭 stdout 缓冲

#include <stdio.h>
#include <unistd.h>

int main() {
    // 将标准输出设置为无缓冲
    setbuf(stdout, NULL); 
  
    printf("a"); // 即使没有 \n，也会立即输出
    sleep(5);    // 等待 5 秒
    printf("b"); // 立即输出
    return 0;
}

6. 总结与注意事项

环境差异: 缓冲区大小（1024 或 4096）取决于具体的 C 库实现和操作系统版本，编程时不应硬编码，可通过测试或宏获取。
调试技巧: 在调试程序时，如果 printf 不输出，可能是因为缓冲区未刷新。可以在 printf 后加 \n 或 fflush(stdout)。
崩溃风险: 如果程序异常退出（如 kill -9 或段错误），未刷新的缓冲区数据会丢失。重要数据应及时 fflush 或使用无缓冲 IO。
混合使用: 尽量避免混用标准 IO (fprintf) 和文件 IO (write) 操作同一个文件描述符，因为它们的缓冲区不同步，可能导致数据错乱。

标准IO：缓存机制

1. 标准 IO 与文件 IO 的对比

1.1 核心区别

1.2 函数对应关系

2. 流 (Stream) 与 FILE 结构体

2.1 什么是流

2.2 FILE 结构体定义

2.3 关键成员变量

3. 缓冲区的三种类型

3.1 无缓冲 (Unbuffered)

3.2 行缓冲 (Line Buffered)

3.3 全缓冲 (Fully Buffered)

4. 标准 IO 缓冲机制原理图解

5. 修改缓冲类型

5.1 setbuf 函数

5.2 setvbuf 函数

5.3 代码示例：关闭 stdout 缓冲

6. 总结与注意事项

评论区

标准IO：缓存机制