Python批量将html文件转换为txt文件
来自用Python批量转换html为txt文件 - That Interpreter的代码:
import os
from bs4 import BeautifulSoup
# 源文件夹和目标文件夹。把所有文件放进源文件夹里
INPUT = "./html"
OUTPUT = "./txt"
# 遍历文件夹下的所有html文件
for file in os.listdir(INPUT):
file_name = INPUT + "/" + file
# 读取html内容
html_content = open(file_name, "rb")
text = BeautifulSoup(html_content).get_text()
# 纯文本文件名,是去除html后缀名的部分
text_name = file[: -5]
# 将纯文本内容写入目标文件夹的纯文本文件
with open(f"{OUTPUT}/{text_name}.txt".format(file), "a", encoding="utf-8") as file_handle:
file_handle.write(text)
file_handle.write('\n')
# 显示进度
print(f"Converting {text_name}.txt")
print("Done!")
注意⚠️:
- 要转换的html文件放在
html文件夹
txt文件夹
为空