数据驱动的机器学习在电化学储能材料研究中的应用
|
施思齐, 涂章伟, 邹欣欣, 孙拾雨, 杨正伟, 刘悦
|
Applying data-driven machine learning to studying electrochemical energy storage materials
|
Siqi SHI, Zhangwei TU, Xinxin ZOU, Shiyu SUN, Zhengwei YANG, Yue LIU
|
|
表2 常用于储能电池研发的机器学习模型对比
|
Table 2 Comparison of machine learning models commonly used in energy storage battery research and development
|
|
方法 | 简介 | 优点 | 缺点 | 适用范围 | 相关文献 |
---|
逻辑回归 | 面向分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数 | 简单高效;可解释性强 | 容易欠拟合;对于异常值和缺失值敏感 | 线性可分数据 | [47, 82] | 偏最小二乘分析 | 通过最小化误差的平方和找到一组数据的最佳函数匹配 | 计算简单;预测精度高;易于定性解释 | 降维导致信息损失 | 小样本数据 | [48] | 决策树 | 一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果 | 计算简单,易于理解,可解释性强 | 容易过拟合 | 稀疏性数据、不相关性数据 | [49] | 随机森林 | 以决策树作为基学习器,通过构建和组合多个弱学习器来完成学习任务 | 抗过拟合能力强;对缺失数据不敏感 | 噪音敏感 | 高维度、小样本、非均衡数据 | [54] | 支持向量机 | 通过最小化寻求结构化风险以提高学习器的泛化能力,实现经验风险和置信范围的最小化 | 使用核函数可以解决非线性的分类回归 | 计算耗时;对参数和核函数的选择比较敏感 | 高维数据 | [75, 83-86] | 岭回归 | 一种改良的最小二乘法,在MLR基础上加了L2正则项 | 稳定性较好 | 特征之间为稀疏的线性关系时效果差 | 多重共线性数据、病态数据 | [76, 83] | 朴素贝叶斯 | 基于贝叶斯定理和特征条件独立假设的分类方法,属于生成式模型 | 能个处理多分类任务;算法简单 | 需要计算先验概率;对输入数据的表达形式敏感 | 小样本数据;稀疏性数据 | [87] | 高斯过程回归 | 使用高斯过程先验对数据进行回归分析的非参数模型 | 预测值是观察值的插值;预测值具有概率评估 | 在高维空间效果差 | 时间序列数据 | [85, 88-90] | XGBoost | 经过优化的分布式梯度提升库,旨在高效、灵活且可移植 | 收敛速度快;内置交叉验证 | 在高维空间效果差 | 稀疏性数据 | [91] | 人工神经网络 | 通过调整内部大量节点之间相互连接的关系,以达到处理信息的目的 | 鲁棒性和容错能力强;能充分逼近复杂的非线性关系 | 参数复杂;不易解释 | 复杂非线性数据 | [92-94] |
|
|
|