向善而生的AI助盲,让AI多一点,障碍少一点******
有人说,盲人与世界之间,相差的只是一个黎明。在浪潮信息研发人员的心中,失去视力的盲人不会陷入永夜,科技的进步正在力图给每一个人以光明未来。
AI助盲在人工智能赛道上一直是最热门的话题之一。以前,让失明者重见光明依靠的是医学的进步或“奇迹”。而随着以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,更多的失明者正在借助AI提供的感知、理解与交互能力,以另一种方式重新“看见世界”。
新契机:多模态算法或将造福数以亿计失明者
科学实验表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%,因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是最直接有效的解决方案。
一个优秀的AI助盲技术,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展,才能构建信息无障碍的交互界面。仅仅依靠“一枝独秀”超越人类水平的单模态人工智能比如计算机视觉技术还远远不够,以“机器视觉+自然语言理解”为代表的多模态算法的突破才是正确的新方向和新契机。
多个模态的交互可以提升AI的感知、理解与交互能力,也为AI理解并帮助残障人士带来了更多可能。浪潮信息研发人员介绍说,多模态算法在AI助盲领域的应用一旦成熟,将能够造福数以亿计的失明者。据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,每年新增的盲人数量甚至高达45万。
大挑战:如何看到盲人“眼中”的千人千面
AI助盲看似简单,但多模态算法依然面临重大挑战。
多模态智能算法,营造的是沉浸式人机交互体验。在该领域,盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一,这项研究已经吸引了全球数以万计的视障患者参与,这些患者们上传自己拍摄的图像数据和相匹配的文本问题,形成了最真实的模型训练数据集。
但是在现有技术条件下,盲人视觉问答任务的精度提升面临巨大挑战:一方面是盲人上传的问题类型很复杂,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等等。
另一方面,由于盲人的特殊性,很难提取面前物体的有效特征。比如盲人在拍照时,经常会产生虚焦的情况,可能上传的照片是模糊的或者没有拍全,或者没拍到关键信息,这就给AI推理增加了难度。
为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态视觉问答挑战赛。挑战赛是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案,解决盲人的求助。
另外,盲人的视觉问答还会遭遇到噪声干扰的衍生问题。比如说,盲人逛超市,由于商品外观触感相似,很容易犯错,他可能会拿起一瓶醋却询问酱油的成分表,拿起酸奶却询问牛奶的保质期等等。这种噪声干扰往往会导致现有AI模型失效,没法给出有效信息。
最后,针对不同盲人患者的个性化交互服务以及算法自有的反馈闭环机制,同样也是现阶段的研发难点。
多解法:浪潮信息AI助盲靶向消灭痛点
AI助盲哪怕形式百变,无一例外都是消灭痛点,逐光而行。浪潮信息多模态算法研发团队正在推动多个领域的AI助盲研究,只为帮助盲人“看”到愈发精彩的世界。
在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,很多情况下这些物品没法靠触觉或嗅觉来做出判断,例如 “这本书书名是什么?”为此研发团队在双流多模态锚点对齐模型的基础上,提出了自监督旋转多模态模型,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的问题。
盲人所拍摄图片模糊、有效信息少?研发团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略,具备更充分的常识能力,低质量图像、残缺的信息,依然能够精准的解答用户的求助。
目前浪潮信息研发团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。
真实场景中的盲人在口述时往往会有口误、歧义、修辞等噪声。为此,研发团队首次提出视觉定位文本去噪推理任务FREC,FREC提供3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。同时,该团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。上述研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。
在智能交互研究方面上,浪潮信息研发团队构建了可解释智能体视觉交互问答任务AI-VQA,同时给出首个智能体交互行为理解算法模型ARE。该研究成果已发表于ACM Multimedia 2022会议。该研究项目的底层技术未来可广泛应用于AI医疗诊断、故事续写、剧情推理、危情告警、智能政务等多模态交互推理场景。
眼球虽然对温度并不敏感,但浪潮信息的研发团队,却在努力让盲人能“看”到科技的温度,也希望吸引更多人一起推动人工智能技术在AI助盲、AI反诈、AI诊疗、AI灾情预警等更多场景中的落地。有AI无碍,跨越山海。科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能变成可能。当科技成为人的延伸,当AI充满人性光辉,我们终将在瞬息万变的科技浪潮中感受到更加细腻温柔的善意,见证着更加光明宏大的远方。
电子榨菜:不止是场景消费下的娱乐需求******
被网友评价为2022年度最“下饭”的网剧《卿卿日常》
赵丽瑾
支起手机、解锁屏幕,追剧集综艺纪录片,刷各类短视频,正在成为很多人用餐时的新姿势。这类在吃饭时观看的视频节目、收听的有声书等,因为像榨菜一样被赋予“下饭”的功能,被称为“电子榨菜”。
虽然命名已经明确站在批评的立场,释放出多“食”无益的信号,但对于很多人来说,已经习惯了“电子榨菜”带来的快乐,甚至成了一种吃饭仪式,“挑选电子榨菜1小时,把饭吃完5分钟”。“电子榨菜”除指向一种用餐场景下的娱乐需求,还代表了网络时代文艺作品和娱乐产品的特征,更是用户文化和社会心理变化的结果。
“电子榨菜”是网络文艺作品与用餐娱乐诉求高度适配的结果
“电子榨菜”没有统一标准,主要看用户需求,而轻松治愈的内容,尤其易于被用户选作“电子榨菜”。
被网友评价为2022年度最“下饭”的网剧《卿卿日常》,可以算是“鲜香脆爽”的大众口味,故事没有再现清宫戏、古装宫斗、夺嫡的“名场面”,而是跳脱“雌竞”主题,围绕女性互助建构故事,加上甜宠情节,以三句一个包袱五句一个梗的密集笑点,营造了剧集内的恬淡生活,也让观看者体会到松弛快乐和闲适感。
有很多“电子榨菜”都是老作品。根据网友分享的清单来看,《武林外传》《蜡笔小新》《后宫·甄嬛传》《知否知否应是绿肥红瘦》《老友记》《请回答1988》《琅琊榜》等剧情类电视剧、情景喜剧、动画短剧和美食类纪录片等颇受欢迎。《甄嬛传》开播11年间,观众已经从初级的看剧情、找穿帮镜头,到解读后宫娘娘们的话外之音,再到分析剧情以外的人物和情节,如今还出现了一批听到一句台词立刻能接下一句的“甄嬛传十级学者”“甄学家”。反复观看的用户不再停留于宫斗,对剧集烂熟于心,可以做到随时轻松接入的观看状态。
广义的“电子榨菜”,曾包括抖音、快手、B站等平台的短视频、微短剧,研究者批评其叙事手法碎片化、主题表达简单化、内容质量肤浅化等问题。确实,短视频、微短剧在故事叙事、人物塑造、时空容量等方面的连贯性、复杂性,与剧集、综艺、纪录片有一定差距,观看的体验也有差别。同时,吃饭时刷短视频、微短剧需要频繁选择和切换,或者被动接受算法推荐,也会影响观看沉浸,降低娱乐快感。因此,“电子榨菜”不仅要具备轻松治愈的内容,匹配简单易得的操作,才能满足用户的娱乐体验需求。
与剧集不同,美食纪录片直接把美味诱惑的氛围拉满。《舌尖上的中国》《风味人间》画面极致精美,观看中很容易被背景音乐带入吃饭场景。《人生一串》中烧烤的烟火味,《小海鲜》中海的鲜味,《寻味顺德》《新疆味道》《老广的味道》中各地的滋味是真“下饭”。《早餐中国》索性带出店名,让观看与品尝只差一个“打卡”的距离。即使寡淡的生活和食物,在各种美食纪录片的视听感染中,总会触发舌尖的兴奋和肠胃渴望。
“电子榨菜”代表了新场景下,用户对文艺作品娱乐功能和消费形式的创造和延伸。《卿卿日常》等作品的创作者并不拒绝“电子榨菜”的定位,在一个用户需求主导和影响文艺作品、娱乐产品内容生产的语境下,作品与用户是互为成就、深刻影响的。未来多场景下媒介发展的新需求,可能激发网络文艺发展更多契机。
“电子榨菜”是人们在虚拟空间寻求“精神按摩”的尝试
与人们日常随时随地刷手机不同,用餐时间和地点相对稳定,“电子榨菜”比其他碎片化观看更容易专注沉浸,同时获取成本低,从内容到时间都无需额外支付,就能在日常工作生活的夹缝中加速获得快乐。有人用“电子榨菜”消磨独自用餐的“孤独”,也有人架起屏幕昭告天下“请勿打扰”,保护一人份的自在;无论看什么、听什么下饭,人们都意图在虚拟的屏幕中暂时寻找一块舒适的情绪环境,或者自由地掌控一小段时间,将现实固定拥挤的时空,在心理层面上想象性地拓展。
闲暇时光的娱乐无可厚非。亚里士多德认为,休闲是一切事物环绕的中心,并把休闲看成是哲学、艺术和科学诞生的基本条件之一。中国文字“休”被解释为吉庆、欢乐、美善、福禄,“倚木而休”表明人与自然的和谐,人对自然的敬畏。“闲”常被引申为道德、法度,通“娴”,有思想纯洁与安宁的意思。只是在当代竞争社会,追求绩效让人们深感时间紧迫。因此,很多人无法在几十分钟的用餐时间“无所事事”,加速娱乐或获取信息,成了某种兼顾和平衡的选择。
不过,屏幕把“电子榨菜”与先贤哲人所思考的闲暇、休闲区分开来。触屏观看可以自由选择内容,并可以使用智能按键解决观看过程中的个性化诉求,大多数功能体现出高效性、便捷化,例如倍速、跳过片头广告等选项,大大简化了“电子榨菜”的播放和观看过程。这般操作下来,一顿饭的功夫,即使较长的剧集、综艺、纪录片,刷完也不是问题,吃饭娱乐两不误。只不过长此以往,人们可能逐渐失去了对完整文艺作品的耐心,以“小帅和小美”为代表的“三分钟看电影”“五分钟追剧”泛滥全网,不仅压缩了影视作品时长,同时暴力拆解情节人物,通过降低理解难度的方式,迎合用户高效休闲、加速娱乐的趋势。可见,人们在用“电子榨菜”调味加料调节食欲的时候,要提防别被“电子榨菜”彻底更改了口味。
从另一个角度来看,人们依赖技术体验感知世界,已然成为一种媒介未来发展的趋势。作为数字原住民,“Z世代”的成长伴随互联网媒介的迅速发展,手机、平板电脑等是生活标配。近年频繁的线上社交、学习和工作,使人们越来越习惯于在虚拟世界中体验情绪、补偿心理。手机或其他电子设备几乎成为身体不可分割的部分,被看作游离于身体之外的第六种感觉器官。人们愿意并能够将情感体验、情绪价值等需求转向虚拟世界,随时筑起个体精神世界的虚拟空间,以此抵消物理空间对人精神的强占关系。当移动互联网、虚拟现实、人工智能等新技术逐渐深度介入人们日常生活,加之新冠疫情等因素,加快了人类身体演化为“自然肉身科技赋能”的新形态,有研究者提出人类已经是一种初级“赛博格”。人类原本依赖身体感官体验世界、认知世界,未来感知外部世界的渠道将逐渐深度依赖技术手段,同时人们也开始习惯技术赋能所带来的存在体验。
在“元宇宙”概念对于未来媒介的构想中,提出以虚拟空间的建构和技术身体的发展,拓展有限的现实空间,增强人类的生命体验,补偿现实的有限性和匮乏。“电子榨菜”虽是小菜一碟,远非科技的饕餮盛宴,但是戴上耳机,点击播放键,人们在视觉和听觉带动下进入故事虚构世界和技术虚拟空间,躲避复杂的现实人际关系,遗忘繁重的工作和压力,以知觉沉浸对抗现实压迫,通过“精神按摩”寻找心理舒适空间。
但不得不承认,“电子榨菜”也是人类高度依赖网络媒介,并在各种场景深陷其中的结果。当越来越多的人即使面对面进餐,也各执一部手机逃离现实,并导致吃饭时间延长,工作思维和注意力难以集中,则意味着新的对人精神的强占关系正在形成,需引起足够的警惕和反思。毕竟,真正的文艺作品,应该有助于人们精神境界的阔达和情感的自由。
(作者为西北师范大学传媒学院教授)