数据作为人工智能产业的重要生产要素,是人工智能模型与应用的重要基础性资源,发挥着关键的作用与重要的价值。人工智能行业一直面临着数据采集、标注与治理成本居高不下、数据资源分析后闲置、数据持续存储费用高以及数据要素无法复用共享等问题。随着人工智能产业的进一步发展,通过标注数据的“确权登记、可信流通、全程可控、降本增效”,将有效帮助人工智能企业降低数据获取成本,加速人工智能模型算法优化,促进标注数据的价值实现,将一次获取一家分析利用变为一次获取多家分析利用,实现“数据确权计量、可信流通交易”基础上的可信复用。
2022年1月11日,全国首笔人工智能标注数据可信流通交易完成,包含98770DRs的语音指令识别数据集以9877元人民币由数据采集标注平台铭识协议EpiKProtocol通过数据要素确权与可信流通平台交易给业内知名芯片厂商深圳市中科蓝讯科技股份有限公司,中科蓝讯的芯片产品已经被传音、飞利浦、联想、铁三角、网易、爱奇艺、天猫精灵等知名品牌厂商采用,该数据集将用于该公司旗下智能耳机芯片的简单语音指令理解训练。
“简单语音指令识别数据集”主要包括由1411位用户朗读YES和NO各5遍的清晰语音数据,以及每条语音数据的标注信息,含有用户性别、地域等多维度脱敏信息。
数据采集标注平台铭识协议EpiKProtocol,独创性地研发了“AI数据标注系统”,通过领域专家与生态社区共同完成数据集的采集与标注工作。通过基于分布式存储的区块链技术的知识节点,构建了“AI数据存储系统”,实现了AI数据集的低成本、高质量和可用性,确保了数据集的安全性和可信性。
铭识协议EpiKProtocol将持续通过“数据要素确权与可信流通平台”,将自己采集与标注的数据进行登记确权与可信流通交易,为人工智能行业标注数据的高效可信复用发挥自己的作用,持续为各行业大数据需求提供知识图谱训练所必须的数据集综合解决方案。目前平台已经聚集了多位领域专家,在医疗健康、金融基金、智能交通、情感计算、多模态机器学习等领域开展了数据集采集及加工工作,未来将可应用于医疗机器人、金融风险预测、自动驾驶、商业广告投放或人工智能训练等多种领域。
来源:金色财经
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。