数据驱动的机器学习在电化学储能材料研究中的应用
施思齐, 涂章伟, 邹欣欣, 孙拾雨, 杨正伟, 刘悦

Applying data-driven machine learning to studying electrochemical energy storage materials
Siqi SHI, Zhangwei TU, Xinxin ZOU, Shiyu SUN, Zhengwei YANG, Yue LIU
表2 常用于储能电池研发的机器学习模型对比
Table 2 Comparison of machine learning models commonly used in energy storage battery research and development
方法简介优点缺点适用范围相关文献
逻辑回归面向分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数简单高效;可解释性强容易欠拟合;对于异常值和缺失值敏感线性可分数据[47, 82]
偏最小二乘分析通过最小化误差的平方和找到一组数据的最佳函数匹配计算简单;预测精度高;易于定性解释降维导致信息损失小样本数据[48]
决策树一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果计算简单,易于理解,可解释性强容易过拟合稀疏性数据、不相关性数据[49]
随机森林以决策树作为基学习器,通过构建和组合多个弱学习器来完成学习任务抗过拟合能力强;对缺失数据不敏感噪音敏感高维度、小样本、非均衡数据[54]
支持向量机通过最小化寻求结构化风险以提高学习器的泛化能力,实现经验风险和置信范围的最小化使用核函数可以解决非线性的分类回归计算耗时;对参数和核函数的选择比较敏感高维数据[75, 83-86]
岭回归一种改良的最小二乘法,在MLR基础上加了L2正则项稳定性较好特征之间为稀疏的线性关系时效果差多重共线性数据、病态数据[76, 83]
朴素贝叶斯基于贝叶斯定理和特征条件独立假设的分类方法,属于生成式模型能个处理多分类任务;算法简单需要计算先验概率;对输入数据的表达形式敏感小样本数据;稀疏性数据[87]
高斯过程回归使用高斯过程先验对数据进行回归分析的非参数模型预测值是观察值的插值;预测值具有概率评估在高维空间效果差时间序列数据[85, 88-90]
XGBoost经过优化的分布式梯度提升库,旨在高效、灵活且可移植收敛速度快;内置交叉验证在高维空间效果差稀疏性数据[91]
人工神经网络通过调整内部大量节点之间相互连接的关系,以达到处理信息的目的鲁棒性和容错能力强;能充分逼近复杂的非线性关系参数复杂;不易解释复杂非线性数据[92-94]