项目分为五个部分
多个爬取脚本,批量执行,清理,可视化,整理
其中重点为整理部分的脚本
主要功能如下:
1.编码检测:脚本使用`chardet`库自动检测每个文本文件的字符编码,确保在读取文件内容时的兼容性。
2.新闻解析:它读取每个`.txt`文件,通过正则表达式提取新闻条目,识别标题、链接、来源、内容和发布日期等关键信息。
3.HTML清理:对于新闻内容中的HTML标签,脚本使用`BeautifulSoup`库进行清理,确保文本干净无杂。
4.数据整理:将提取的信息存储为字典格式,并进一步转化为PandasDataFrame,便于数据分析和操作。
5.TF-IDF向量化:利用`scikit-learn`库中的`TfidfVectorizer`对新闻内容进行向量化,用于后续的相似度计算。
6.余弦相似度计算:基于TF-IDF向量,使用`cosine_similarity`函数计算新闻之间的相似度,以识别潜在的重复新闻。
7.重复项识别与删除:设定一个相似度阈值(如0.5),将相似度过高的新闻标记为重复项,并从DataFrame中移除。
8.结果输出:最后,脚本将去