让“无声世界”感受赛场魅力!带你看看冬奥手语数字人有哪些奥秘******
2022年2月4日,第24届冬季奥林匹克运动会在北京举行,让世界目光再次聚焦中国。本届北京冬奥会秉持绿色、共享、开放、廉洁的办赛理念,凝聚中国科技力量,面向世界、面向未来,向全球奉献了一场精彩、非凡、卓越的奥运盛会。
本届冬奥会运用最新科技手段,为全世界观众提供了惊艳的现场转播和全方位覆盖报道,北京冬奥会也成一场上科技含量高的奥运会。赛事活动期间,为了让各类人群都能平等地享受本届冬奥盛会,北京电视台上线了智能手语播报数字人,在《北京新闻》和《北京您早》等节目中进行冬奥专题手语播报,为听障人士带来精彩赛事报道。
最新数据显示,我国听障人群超过2700万,这部分人群与健听人一样,他们对教育、社交、娱乐等信息获取都有巨大的需求。但长期以来,传统人工手语翻译工作量大,且主持人和手语主持人配合难度极高。手语动作表情复杂,语序与正常语序差异大,正常情况下想要熟练掌握手语大约需要2年左右的时间,还要结合语境进行猜测。
受北京市科委科技冬奥专班委托,北京电视台联合凌云光、智谱AI等业内科技公司,在北京市残疾人联合会和市残联聋人协会等支持下,用3个多月时间,让手语播报数字人完成了近10万条手语语料学习,且翻译准确率高达90%。
在如此短的时间内实现这项高难度动作,智能手语数字人是如何做到,在这背后又有哪些技术创新难点?
在多位业内人士看来,近年来人工智能体系建设重点布局在算法层和应用层,数据层建设远远不足,并且针对数字人相关产业,底层数据库的数量、质量和开源程度还明显不足。尤其是国内现有的手语语料数据库数量少,且多以图像、视频等二维平面为主,无法满足AI(人工智能)训练的需求。
同时,因手语语序与中文语序差异大,方言分化更加复杂,且需要通过表情、口型、动作等方式来传达信息。除了传统的二维平面图像、视频采集,三维肢体运动、表情信息数据采集及结构化参数表达外,手语语料数据库建设对三维运动信息捕捉也十分重要。
凌云光手语数字人产品相关负责人介绍,在建设高质量手语语料库的同时,他们充分调研了2022北京冬奥专用手语术语,并联合北京市残联、聋人协会等相关组织机构,进行数据标注,建设手语语义映射关系,不仅完善了国内手语数据库的建设,也为手语推广和AI研究留下了宝贵的数据资产。
该负责人举例说,基于“悟道2.0”超大规模人工智能模型的技术支撑,手语数字脑用计算机模仿听障人士的大脑,将看到的中文文本信息转换成手语词汇序列,包括中文语义蒸馏模型和AI手语分词快编算法的研究。中文语义蒸馏模型用于从输入的文稿或文本中提取出关键的语义信息,将中文文本语义提炼和精简,形成精准匹配适合手语表达的文本;AI手语分词快编算法则用于将蒸馏得到的中文文本,根据冬奥手语语料库划分成相应的手语词汇序列,供数字人做表达输入。
该负责人还提到,数字人是冬奥手语播报的载体和展现形式,通过高精度写实数字人全流程制作方案,可实现一键数字建模,高度还原真人发肤,重新毛孔等细节,更加真实亲切。同时,通过跨模态拟人生成算法,还可以将手语词汇序列,生成相应的动作信息,驱动数字人模型做出相应的动作、手势和表情。(姚坤森)
【光明论坛】激活数据潜能 建设数字中国******
【光明论坛】
作者:支振锋(中国社会科学院习近平新时代中国特色社会主义思想研究中心研究员、法学研究所研究员)
数据作为新型生产要素和资源形态,日益成为驱动经济社会发展的基础。近日,中共中央、国务院出台《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”),围绕如何建立和健全关于数据要素基础制度体系提出了全面系统的意见,为做好数据权益配置和风险防控提供了明确的政策指引,也为激活数据潜能和促进数字经济发展作出了有力的制度安排。
数据是映射大千世界的符码,数据中自有大千世界。宇宙星空、山川河流、鸟兽虫鱼、人类行为、国家治理、社会百态……万物皆产生数据,万物皆可被数据化。自人类社会产生起,数据就承载着人类对自然万物、生产生活的记录和表达。从传统数据到网络数据,从“小数据”到“大数据”,数据日益成为理解万事万物最微观、最奇妙的元素。在信息化发展新阶段,数据爆发增长、海量集聚,量的累积逐渐引发质的飞跃。万物互联、人机交互、天地一体的网络空间内,大数据技术使数量巨大、来源分散的图像、声音、文件等非结构化数据得以被广泛搜集、存储、利用,使分析、预测、捕捉隐藏在自然万物和人类社会的深层逻辑成为可能,人类认知的敏锐性和洞察力得到极大提升。
数据基础制度建设事关国家发展和安全大局。数据原是伴随自然与人类而产生的寻常事物,但数字技术为其赋予了无尽潜能。作为新型生产要素,数据已成为数字化、网络化、智能化的基础性资源,并快速融入生产、分配、流通、消费和社会服务管理等各环节。通过数据,可以更好地理解自然和社会的运行规律,推动生产力发展,优化生产关系,丰富人类生活,促进国家和社会治理。但数据并非自在之物,而是人类协作与互动的结果。数据不仅承载着个人、市场主体与国家的大量信息,关系到公民个体人格权益、市场主体财产权益以及国家安全和社会公共利益;还呈现出不同于传统知识产权的全新特点。如何既鼓励数据的充分流通利用,又通过制度设计进行科学合理的权益配置和风险防控,就成为信息时代制度创新的重大课题。
数据相关权益配置,是数据基础制度的基础。作为世界第二数据大国,我国深刻认识到大数据作为推动经济转型发展的新动力、重塑国家竞争优势的新机遇、提升政府治理能力的新途径所具有的战略意义。2021年公布实施的《数据安全法》明确提出“保障数据安全,促进数据开发利用”。但数据流通利用除供需双方外,还涉及协助数据产品开发的第三方服务商,情形复杂、链条悠长、风险突出。为推进数据合法合规交易,我国多年来一直在探索数据交易所建设。在此背景下,此次意见提出探索数据资源持有权、数据加工使用权、数据产品经营权等结构性分置的产权运行机制,推进实施公共数据确权授权机制,推动建立企业数据确权授权机制,是对数据相关权益合理配置这个世界性难题的创新性开拓。
促进数据流通和交易是数据基础制度的核心。数据交易是新业态,也带来新问题。由于数据的无形性和可复制性,除了不易计量、难于定价且合规评估复杂外,交易一旦达成,无论是买方发现“货不对版”,还是卖方认为数据已被使用,都“无法退货”。如何确保数据需求方接收到的数据来源合法合规,数据提供方交易后的权利得到充分保障,决定着数据制度体系的成败。此次意见尝试构建促进使用和流通、场内场外相结合的交易制度体系,规范引导场外交易,培育壮大场内交易,试图建立数据来源可确认、使用范围可界定、流通过程可追溯、安全风险可防范的数据可信流通体系,必将推动鼓励数据流通利用的制度创新。
数据要素收益分配制度是数据基础制度的重点。作为新型生产要素和资源形态,数据要素不断创造新的价值,也不断产生利益纷争。针对数据收益分配问题,此次意见既坚持充分发挥市场在资源配置中的决定性作用,按照“谁投入、谁贡献、谁受益”原则,健全数据要素由市场评价贡献、按贡献决定报酬机制,强化基于数据价值创造和价值实现的激励导向,平衡兼顾数据内容采集、加工、流通、应用等不同环节相关主体之间的利益分配;也努力做到有为政府和有效市场相结合,强调完善数据要素收益的再分配调节机制,让全体人民更好共享数字经济发展成果。
党的二十大报告提出加快建设网络强国、数字中国,加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。“数据二十条”的出台和落地实施,有利于从历史和全局维度深刻认识数据要素的战略价值,充分发挥我国海量数据规模和丰富应用场景优势,推进数字产业化和产业数字化,推动实体经济和数字经济融合发展,增强经济发展新动能,塑造人类文明新形态。
《光明日报》( 2023年01月04日 02版)