C语言进阶教程:文件操作高级 - 文件缓冲与性能

yumo6667个月前 (06-02)技术文章40

1. 什么是文件缓冲？

当程序执行文件I/O操作（如 fread, fwrite, fgetc, fputc 等）时，数据通常不会立即直接写入或从物理磁盘读取。相反，C标准库（以及操作系统层面）会使用一种称为文件缓冲（File Buffering） 或 I/O缓冲（I/O Buffering） 的机制来提高效率。

文件缓冲是指在内存中开辟一块区域（称为缓冲区或buffer），用于临时存储待写入磁盘的数据或从磁盘读取的数据。这样做的好处是：

减少物理I/O次数：磁盘I/O操作相对于内存访问来说非常缓慢。通过缓冲，可以将多次小规模的读写操作合并为一次大规模的磁盘操作，从而显著减少昂贵的物理I/O次数。
提高吞吐量：程序可以继续执行而无需等待每次I/O操作完成，因为数据是先与内存中的缓冲区交互的。

2. C标准库中的缓冲类型

C标准库（stdio.h）为文件流提供了三种缓冲类型，可以通过 setvbuf() 函数进行设置，或者由系统根据文件类型自动选择默认类型。

全缓冲（Full Buffering）：

当缓冲区被填满时，才会进行实际的I/O操作（写入磁盘或从磁盘读取）。
对于输出流，当缓冲区满时，或者显式调用 fflush()，或者关闭文件时，数据才会被写入。
对于输入流，当缓冲区为空时，会从磁盘读取一块数据填充缓冲区。
默认情况：普通磁盘文件通常采用全缓冲。
优点：最大限度地减少了物理I/O次数，效率较高。

行缓冲（Line Buffering）：

当遇到换行符 \n 时，或者当缓冲区满时，或者当有输入请求时（对于与终端关联的输入流），才会进行实际的I/O操作。
默认情况：标准输入 (stdin) 和标准输出 (stdout) 在连接到交互式设备（如终端）时通常采用行缓冲。这样可以确保用户在输入一行并按回车后，程序能立即看到输入；或者程序输出一行后，用户能立即在屏幕上看到。
优点：对于交互式设备，提供了较好的响应性。

无缓冲（No Buffering / Unbuffered）：

数据会尽快地进行实际的I/O操作，不经过或只经过极小的系统级缓冲。
默认情况：标准错误输出 (stderr) 通常是无缓冲的（或行缓冲，取决于实现，但目标是尽快显示错误信息）。
优点：错误信息可以立即显示，对于调试和错误报告很重要。
缺点：频繁的物理I/O操作可能导致性能下降。

3. 控制文件缓冲的函数

setvbuf()

int setvbuf(FILE *restrict stream, char *restrict buf, int mode, size_t size);

stream: 指向要设置缓冲的 FILE 对象。
buf: 用户提供的缓冲区。如果为 NULL，系统会自动分配一个缓冲区。
mode: 指定缓冲类型：

_IOFBF: 全缓冲 (Full Buffering)
_IOLBF: 行缓冲 (Line Buffering)
_IONBF: 无缓冲 (No Buffering)

size: 缓冲区的大小（以字节为单位）。如果 buf 为 NULL，系统会分配 size 大小的缓冲区。如果 buf 不为 NULL，则 size 必须是用户提供缓冲区的大小。

注意事项：

setvbuf() 必须在对流进行任何其他操作（如读写、fseek 等）之前，且在文件打开之后立即调用。
如果 buf 由用户提供，则该缓冲区在文件关闭之前必须保持有效且不被修改。
成功时返回0，失败时返回非零值。

 #include <stdio.h>
 #include <stdlib.h>
 
 #define MY_BUF_SIZE 1024
 
 int main() {
     FILE *fp;
     char my_buffer[MY_BUF_SIZE];
 
     fp = fopen("buffered_example.txt", "w");
     if (fp == NULL) {
         perror("Error opening file");
         return 1;
     }
 
     // 设置为全缓冲，并使用自定义缓冲区
     if (setvbuf(fp, my_buffer, _IOFBF, MY_BUF_SIZE) != 0) {
         perror("Error setting buffer type");
         // 可以选择继续使用默认缓冲或关闭文件
     }
     printf("File stream set to full buffering with custom buffer.\n");
 
     fprintf(fp, "This is a line of text.\n");
     fprintf(fp, "This is another line of text.\n");
     // 此时数据可能仍在my_buffer中，未写入磁盘
 
     fclose(fp); // 关闭文件时，缓冲区会被刷新
     return 0;
 }

setbuf()

void setbuf(FILE *restrict stream, char *restrict buf);

这是一个简化的版本，功能上不如 setvbuf() 灵活。

如果 buf 为 NULL，则流变为无缓冲。
如果 buf 不为 NULL，则流变为全缓冲，buf 指向的数组（大小应为 BUFSIZ，定义在 stdio.h 中）被用作缓冲区。

setbuf() 也必须在文件打开后、进行任何其他操作前调用。

fflush()

int fflush(FILE *stream);

对于输出流，fflush() 强制将缓冲区中所有未写入的数据写入到关联的文件或设备。
对于输入流，其行为是未定义的（某些实现可能会丢弃缓冲区中的数据）。
如果 stream 是 NULL，fflush() 会刷新所有打开的输出流。
成功时返回0，失败时返回 EOF 并设置错误指示符。

 #include <stdio.h>
 #include <unistd.h> // for sleep
 
 int main() {
     FILE *fp = stdout; // 使用标准输出
 
     // 默认情况下，stdout连接到终端时是行缓冲的
     // 如果重定向到文件，则可能是全缓冲
     // 为了演示，我们假设它是行缓冲或全缓冲
 
     printf("This will appear immediately or after newline (line buffered).");
     // fflush(stdout); // 如果没有换行符，且是全缓冲，这会强制输出
 
     printf("\nThis line includes a newline, so it should appear.\n");
 
     printf("Waiting for 3 seconds before this appears...");
     fflush(stdout); // 确保 "Waiting..." 立即显示，而不是等待换行或缓冲区满
     sleep(3);
     printf(" Done waiting!\n");
 
     return 0;
 }

4. 文件缓冲与性能

选择合适的缓冲类型：

对于大量顺序读写的文件，全缓冲通常性能最好。
对于交互式输入输出（如终端），行缓冲能提供更好的用户体验。
对于错误日志或需要立即响应的输出，无缓冲（或行缓冲）是必要的，尽管可能牺牲一些性能。

缓冲区大小：

缓冲区大小会影响性能。太小的缓冲区可能导致频繁的物理I/O。太大的缓冲区会消耗更多内存，并且如果程序异常终止，可能丢失更多未刷新的数据。
BUFSIZ (定义在 stdio.h) 是一个系统推荐的默认缓冲区大小，通常是几KB (例如4KB或8KB)，这通常是一个不错的起点。
对于特定应用，可以通过测试不同缓冲区大小来找到最佳值。

显式刷新 (fflush)：

在关键点（如数据写入完成、程序即将长时间等待或退出前）使用 fflush() 可以确保数据持久化，防止数据丢失。
但过度使用 fflush() 会抵消缓冲带来的性能优势，因为它会强制进行物理I/O。

操作系统级缓冲：

除了C标准库的缓冲，操作系统本身也有自己的文件系统缓存（Page Cache）。即使C库刷新了它的缓冲区，数据也可能只是到达了操作系统的缓存，而不是物理磁盘。操作系统会根据其策略决定何时将数据最终写入磁盘。
函数如 fsync() (POSIX) 或 FlushFileBuffers() (Windows) 可以用来请求操作系统将数据刷新到物理存储设备，但这通常比 fflush() 更重量级。

5. 示例：比较不同缓冲策略（概念性）

假设我们要向文件写入大量数据：

无缓冲：每次 fputc 或小块 fwrite 都可能导致一次物理磁盘写。非常慢。
行缓冲：如果数据包含很多换行符，每次换行都会触发写入。比无缓冲好，但仍不如全缓冲。
全缓冲（小缓冲区）：例如缓冲区大小为100字节。每写入100字节数据，触发一次物理写。比行缓冲（如果行很短）或无缓冲好。
全缓冲（大缓冲区，如 BUFSIZ 或更大）：例如缓冲区大小为8KB。每写入8KB数据，触发一次物理写。这是最高效的方式，因为磁盘I/O的开销被分摊到更多数据上。

总结

文件缓冲是C语言I/O性能优化的一个重要方面。理解不同的缓冲类型（全缓冲、行缓冲、无缓冲）及其适用场景，以及如何通过 setvbuf() 和 fflush() 等函数来控制它们，对于编写高效且可靠的文件操作代码至关重要。在大多数情况下，默认的缓冲策略是合理的，但对于性能敏感的应用或有特殊需求（如立即显示错误信息）的场景，手动调整缓冲策略可以带来显著的好处。

返回列表

上一篇：利用C语言读取BMP文件

下一篇：C语言中的fwrite 与 write的区别

雨墨芝士网

C语言进阶教程:文件操作高级 - 文件缓冲与性能

1. 什么是文件缓冲？

2. C标准库中的缓冲类型

3. 控制文件缓冲的函数

setvbuf()

setbuf()

fflush()

4. 文件缓冲与性能

5. 示例：比较不同缓冲策略（概念性）

总结

相关文章

C语言控制标准I/O的5个函数

C语言这些常见标准文件该如何使用?很基础也很重要

Python提速神器

利用C语言读取BMP文件

C语言中的fwrite 与 write的区别

「技术干货」一文搞懂内存映射原理及使用方法

滇ICP备2024046894号-16