欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 社会 > .Net / C# 分析文件编码 并将 各种编码格式 转为 另一个编码格式 ( 比如: GB2312→UTF-8, UTF-8→GB2312)

.Net / C# 分析文件编码 并将 各种编码格式 转为 另一个编码格式 ( 比如: GB2312→UTF-8, UTF-8→GB2312)

2025/5/14 19:11:33 来源:https://blog.csdn.net/qq_37214567/article/details/145396247  浏览:    关键词:.Net / C# 分析文件编码 并将 各种编码格式 转为 另一个编码格式 ( 比如: GB2312→UTF-8, UTF-8→GB2312)

相关库

.Net 8
编码识别: github.com/CharsetDetector/UTF-unknown

<PackageReference Include="UTF.Unknown" Version="2.5.1" />

代码

using UtfUnknown;var dir_path = "D:\\Desktop\\新建文件夹2\\新建文件夹";
var dir_new_path = "D:\\Desktop\\新建文件夹2\\utf8_files";
var dir_rest_path = "D:\\Desktop\\新建文件夹2\\rest_files";if (!Directory.Exists(dir_new_path)) Directory.CreateDirectory(dir_new_path);
if (!Directory.Exists(dir_rest_path)) Directory.CreateDirectory(dir_rest_path);var file_path_list = Directory.EnumerateFiles(dir_path);// 并行处理, 充分利用多核 CPU
file_path_list.AsParallel().ForAll(async file_path =>
{var file_info = new FileInfo(file_path);var file_new_path = Path.Combine(dir_new_path, file_info.Name);var file_rest_path = Path.Combine(dir_rest_path, file_info.Name);var file_bytes = await File.ReadAllBytesAsync(file_path);// 截取文件的开头一点数据去分析,性能好, ( 整个文件分析,大文件太慢了. )var file_type = CharsetDetector.DetectFromBytes(file_bytes[0..100]) ?? throw new Exception($"未知类型 {file_path}");if (file_type.Detected.EncodingName == "gb18030"){// gb2312 -> c# 字符串 (utf-16)var file_str = file_type.Detected.Encoding.GetString(file_bytes);// utf-8,utf-8-bom,utf-16 有一点点差异 (具体自己查)// WriteAllText 默认就是 UTF8 No BOMawait File.WriteAllTextAsync(file_new_path, file_str);Console.WriteLine($"{file_info.Name} gb2312 -> utf8 完成");// 如果事先就知道所有文件是 gb2312 编码,// 可以直接调用解析, 无需 UtfUnknown 去识别. 性能更快// 注册编码 写在 for 外面, 注册一次就行// Encoding.RegisterProvider(CodePagesEncodingProvider.Instance);// 调用// var str = Encoding.GetEncoding("gb18030").GetString(file_bytes);}else if (file_type.Detected.EncodingName == "utf-8"){File.Copy(file_path, file_new_path);Console.WriteLine($"{file_info.Name} utf8 复制完成");}else{File.Copy(file_path, file_rest_path);Console.WriteLine($"warn: {file_info.Name} ${file_type.Detected.EncodingName} 复制完成 ");}
});// 保持主线程运行
Console.ReadLine();

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词