算法优化 – Malcolm`s Blog

LDA主题模型工程化优化策略与实验分析

2025-11-10 21:27

|

79

|

0

|

工程实践,机器学习

5856 字

|

23 分钟

本文以 THUCNews 中文新闻语料库为基准，采用严格的控制变量法与分层随机抽样技术，系统评估了 N-gram 特征提取、TF-IDF 词权重变换、先验知识注入及停用词过滤序列对模型一致性指标（$C_V$）的影响。

NLP Python 数据处理机器学习算法优化

基于特征标准化流水线与高斯朴素贝叶斯的恶意网站识别研究

2025-9-20 5:29

|

132

|

0

|

安全笔记,机器学习

2672 字

|

15 分钟

针对现代网络钓鱼攻击的高频与隐蔽特性，本文提出了一种基于高斯朴素贝叶斯（Gaussian Naive Bayes）的自动化识别模型，并引入特征标准化流水线（Standardization Pipeline）解决了多量纲数值特征导致的预测偏差问题。实验采用包含 23.5 万样本的 PhiUSIIL 数据集，通过对 54 项 URL 维度特征的深度挖掘与预处理优化，模型在测试集上表现卓越。结果显示，优化后的流水线模型召回率（Recall）保持在 99.96%，误报数（False Positives）从原始数据的 687 例锐减至 17 例，ROC-AUC 达到 0.9998。该研究证明了轻量级生成式模型在经过严格特征工程处理后，能够在大规模实时检测场景中兼顾高精度与低延迟。

Naive Bayes Python Scikit-learn 机器学习算法优化

DCT数字水印鲁棒性改进

2023-9-09 3:08

|

114

|

0

|

安全笔记,工程实践

2721 字

|

12 分钟