数据质量评估助力高效人工智能

发布时间:2023-07-31 15:35:12 | 来源:中国网 | 作者:李阳 | 责任编辑:郭顶

数据是人工智能的基石,数据质量的高低直接影响到人工智能系统的准确性和可靠性。由于数据来源的多样性和复杂性,数据中可能存在错误、缺失、冗余、偏差等问题,这会导致人工智能系统的输出结果不准确甚至产生误导性,为解决这一挑战,中国科研人员正在研究数据质量评估方法以提高人工智能系统的性能和效率。

石河子大学机械电气工程学院李阳副教授针对人工智能的图像识别任务提出了一种通用的数据质量评估方法—扰动熵,该评估方法从数据的信息价值出发,将各类别已参与训练的样本均值记为原型,与待评估样本进行融合,再根据网络预测概率计算扰动图像的信息熵以衡量数据质量。实验结果表明,在数据数量相同的情况下,基于高质量数据训练的模型性能要显著优于基于低质量数据训练的模型性能。该研究方法首次发表在知名期刊ICT Express (SCI检索,影响因子5.4),并于2023年7月5日被授予Best Paper Award。

(李阳供图)

李阳表示,数据质量评估在人工智能系统中的应用范围十分广泛,比如,医疗领域,人工智能可用于疾病诊断和治疗,而准确的医疗数据是确保系统可靠性的关键;金融领域,人工智能可用于风险评估和交易决策,数据的准确性和一致性对避免错误决策至关重要;交通领域,精准的交通数据能够帮助优化交通流量和减少拥堵。开展数据质量评估不仅能提高人工智能系统的准确性和可靠性,还能筛选高质量数据以避免训练时间和训练资源的浪费,而且还有助于促进跨组织和跨行业的数据交流与共享。尽管数据质量评估在推动人工智能的高效运行方面发挥着重要作用,但仍然面临着一些挑战和难题,比如,数据隐私和安全问题,以及数据质量评估的标准化和规范化问题。

未来,随着数据质量评估技术的不断发展和应用,人工智能有望在各行业中展现出更高效、可靠和创新的应用前景。(李阳)