本文来自微信公众号 “ 胡说成理 ”,作者:胡喆,纷传经授权发布。
导语:
两年前,腾讯会议创下一个记录——用了245天的时间,从冷启动到用户超过1个亿。
今天,腾讯会议的用户数量已经稳超3亿,成为30多个行业的选择。
值得我们深思的有三点:
一方面,两年多的时间,腾讯会议是怎么做到生态合作伙伴数量达到200家,腾讯会议是如何与生态合作?使得一款为了“会开会”而诞生的软件产品,成为远程教育、远程医疗、金融路演等不同场景共同的选择?
另一方面,线上线下融合的“混合式会议”,又将如何从根本上变革人类的协作模式?
天籁模组又如何成为行业竞相集成、确保会议室体验的“定海神针”?
更重要的是,当腾讯会议进入商业化收费的阶段之后,核心指标几乎没有什么发生变化,也让我们深思。
腾讯会议做对了什么?又在追求什么?
01
追求的变与不变
再次见到腾讯会议的负责人吴祖榕,已经是2023年的7月,在北京InfoComm China上。
这是亚太最具影响力的专业视听及集成体验展,但如果你在会场里溜一圈,你会发现大量的设备都有腾讯会议的认证LOGO,仿佛这里是腾讯会议的半个主场。
上次见到吴祖榕时,觉得他似乎很有压力,没有想象中那么轻松。彼时,腾讯会议从冷启动到用户超过1亿人,仅仅用了245天的时间。这个速度至今仍是中国互联网市场上单一应用的用户增速之最。
其实,这也很容易理解。在互联网这个行业里,“热的快,凉的更快”是一个常见的现象。特别是拥有一个1亿用户的梦幻开局的现象级业务,它的负责人压力一定特别的大,因为这样的业务如果开局后急转直下,所有的压力都会给到业务负责人。
例如,另一个现象级的会议产品zoom,今年已经宣布了计划裁员1300人,约占全球员工总人数的15%。
但腾讯会议却成功的渡过了复杂的中盘挑战,并使用户成功的达到了3亿以上。
而且,当腾讯会议进入商业化收费的阶段之后,数据显示,在会议的使用时长和月活数据两个核心指标几乎没有什么发生变化,这给腾讯会议的团队极大的鼓舞,“一方面,说明大家比较熟悉和信赖腾讯会议了;另一方面,收费之后的场景、用户需求,并没有比较大的变化,说明大家认可我们的价值”。
所以,我问吴祖榕,在目前这种比较乐观的局势下,你的工作重点是什么?你现在最大的追求是什么?令我没有想到的是,他还有那么多的对自己的不满意,和对腾讯会议下一步发展的那么多的追求。例如,他告诉我,腾讯会议的研发力量中,有四分之一是基础技术团队,“他们专门做音视频技术,通过一年的努力,使得端到端的延迟又降低了50毫秒”。需要略微解释一下的是,在对于网络延迟的敏感性远远高于网络会议的手机游戏场景中,100毫秒的延迟就已经被认为是完全可以接受的,50毫秒的延迟则是很优秀的水平。但没想到吴祖榕的下一句话是:“所以我花了很长时间和研发团队讨价还价,争论的就是明年能继续压缩20毫秒还是30毫秒,每一毫秒的争论都是激烈的。“他向我解释——人们面对面交流的时候,打断对方是很容易的一件事情,因为对方有很多微表情,你很容易找到一个点切进去。“但开线上会议的时候,人们通常是等一个人讲完再接话,如果有延迟,甚至音画不同步,就会出现在不该打断别人的时候打断,那整个会议的节奏就会被打乱了,所以做到无限接近于零延迟,是我们持之以恒的追求。”另一个让吴祖榕上心的,是这次腾讯会议展出的4K共享屏幕、60fps帧率、10 比特、HDR标准的画质输出,乍听起来在遍地8K的今天,这个标准并不高,但腾讯会议上是用软件的形式来做到的,这在业内几乎是空白。高画质的编解码是一个非常吃算力的任务,对会议硬件的要求很高,但腾讯会议兼容的硬件很多,其中有些硬件“年事已高”,很难胜任如此强大的渲染需求,所以如果能用软件来实现,等于拉高了整个会议系统的画面质量的下限。“我们有很多游戏客户,他们说腾讯会议什么都好,就是我们的游戏画面、视频画面共享出来完全没法看,感觉所有美工的努力都白费了“,吴祖榕说:“所以我们花了非常多的时间去做端到端的链路优化,从屏幕内容的采集、编码、传输整个过程中,我们尽量避免发生内存拷贝和内存交换,从非常底层的技术层面去做优化。”吴祖榕给我讲的第三个故事很有趣,是一个关于一条狗的故事。他回忆说,腾讯会议开始使用新的降噪算法后,会议的效果得到了非常大的提升,但有一次测试的时候,就发现一个员工的麦克风里传来非常吵的声音,而且无法通过降噪算法压制。“后来我们去了解情况,发现是这个员工家里养了一条狗,而我们用来训练算法的数据里没有狗叫声,主要都是一些键盘声、喝水的声音、走路的声音”,吴祖榕说:“所以,我们后来专门采集了狗的声音来训练AI。甚至,为了保证开会的时候的虚拟场景的一致性,我们还买过上千把不同类型的办公椅,针对不同的头枕形状来抠图,确保显示虚拟画面时不要‘露馅’……你所能感受到的AI的所有的智能,其实都是从这些人工的一点点的优化开始的。““所以你问我,现在追求什么,这个问题很难回答”,吴祖榕说:“但很确定的是,对于我们的基础技术来说是三个追求,那就是更低的延迟、更高的分辨率、更高的帧率,这是不变的追求。”
02
重新理解生态
腾讯会议的slogan是“腾讯会议会开会”,但如今,“开会”已经不能完全描绘腾讯会议的应用场景。数据显示,目前腾讯会议生态合作伙伴数量达到200家,认证的硬件厂商超过30家,覆盖产品型号超过120款,是目前国内最大的会议服务生态之一,而通过这些伙伴,腾讯会议的服务已经覆盖了金融、教育、医疗、工业等30多个行业,场景也并不只是“开会”,而是在远程教学、路演、财报会、远程医疗等细分业务场景开花散叶。能够快速的覆盖大量的行业,生态伙伴的力量很重要,腾讯会议”不做硬件+被集成“的中立站位,也很重要。但是,仅仅从占据更多销售渠道的角度去理解腾讯会议的生态,也过于简单。笔者的最新理解是,借助生态的认证和技术开放两大职能,腾讯会议基于云的能力,帮助整个社会的协同提高了效率。具体而言,笔者认为,腾讯会议的生态对整个行业和社会提供了4种核心价值:第一种价值,笔者称之为“普惠连接”,它的最大价值在于需求侧的入门门槛为零。疫情期间大家可能都有所感触,凭借腾讯会议前端的音视频能力和后端的云计算资源,几乎所有的设备如PC、智能手机、平板电脑、智能电视盒子等都可以用于接入会议,而路径则包括内网、外网,甚至是卫星电话……这在疫情期间最大程度的保证了我们的社会协作、生产生活仍然能够正常进行,这就是云会议最核心的魅力之一。第二种价值,笔者称之为“盘活存量“,它的价值在于保护既有的投资,加强应有的协作。其中,一种情况是,企业、机构已经在传统的会议设备上有巨大的投资,采购了许多老牌的专用会议设备,使用着昂贵的软硬件捆绑的会议服务。但因为没有一个中立的、可帮助大家互通的软件平台,“因为不同品牌的互通问题,这些昂贵的会议硬件终端设备大多数只用在单位内部的远程会议,有时候甚至基于同一品牌的硬件平台,但因为跨企业或者不同职场之间的防火墙等问题也无法有效的进行会议”,经常跑一线的腾讯会议总经理钱敏对客户痛点烂熟于心。而腾讯会议作为一个纯软件平台,可以最大程度的兼容这些传统硬件,打通它们之间的奇经八脉,保护用户既有的硬件投资,避免社会资源的浪费。另一个方面,是大量应该被连接的场所没有连接,吴祖榕提到过一个数据:全国有几千万间会议室,但其中只有2%不到安装了视频会议设备,通过腾讯会议的服务,“只需要一台旧笔记本电脑,外接麦克风和摄像头、电视机,下载一个腾讯会议Rooms软件,就可以将这些会议室连接起来,完成异地的协作工作。“第三种价值,笔者认为是“定义标准,提升体验”,这也是腾讯生态开放的核心价值。疫情之后呢,我们开会的场所再次回到会议室。只是偶尔使用电脑或手机开会的用户并不知道,这些个人硬件设备并非专门为会议室开会设计,例如,大量的设备并不具备远距离和多方位拾音的能力,也不具有降噪能力,所以实际的会议效果很是一般。音视频会议行业近年来涌入大量的玩家,但在音频算法、硬件设计能力、智能化水平等方面,可以说参差不齐,而完全依赖它们自身攻关,对于这个行业的众多硬件生态来说,成本很高且一致性很差,所以赋能水平决定了竞争的能力乃至胜负。早在2020 年 9 月,腾讯会议发布了基于会议室的软件系统“腾讯会议Rooms”,让厂商可以把腾讯会议装到会议室硬件大屏里。为了保证用户使用Rooms的音视频质量,腾讯会议同步推出了认证标准,所有搭载Rooms的硬件设备必须通过50个测试项,近200个测试指标才算合格。但实际测试的结果显示,大批硬件厂商的设备在如此严格的标准前,全军覆没。市场不等人,时间不等人,如果硬件厂家能快速被技术赋能将对整个产业的发展,产生积极的推动作用,将整个社会的重复投入降到最低。于是,腾讯会议团队开始将音视频能力对外赋能,腾讯会议旗下的天籁实验室开始了漫长的攻关。会议室,特别是中大型会议室里,声学设计的挑战是极为复杂的。远距离拾音、常见背景音消除,这只不过是开胃小菜;办公室场景形态各异、装修材质复杂,会对声音造成完全不同的反射;会议参会人诸多,如何区分不同人的发言;发言者随时移动位置,如何始终锁定C位;深度学习加上多模态算法的训练中,如何避免参数裁剪和精度转换对模型压缩造成的破坏……这些问题被一一攻克,最终形成了一套解决方案,它被骄傲的称之为——腾讯天籁 inside 音频解决方案。这个小巧的模组方案,可以实现12米超长距离拾音,消除超过300种会议噪声,在双讲、回声消除等方面实现突破性升级。 这也在腾讯会议的合作伙伴中引发了轰动,吴祖榕开玩笑说——我要在腾讯会议的展位上站着,不一定有人来找我说话,可如果东哥(天籁实验室主任商世东)在下面站那么一会儿,立刻就能被硬件厂商们围个水泄不通……由于坚定的“不做硬件”的承诺,天籁模组以设计方案的方式进行技术开放,并对模组的硬件设计有极其具体的定义,这套模组授权开放给腾讯会议Rooms专款硬件合作伙伴,由它们自行制造和嵌入设备……每一台通过天籁实验室认证的设备,都会打上“腾讯天籁inside”的LOGO上市。在笔者看来,腾讯会议认证体系的建立定义了认证设备的能力不会低于一个下限,天籁模组的形式,又提升了硬件厂商创新设计和体验的上限……主动担当和高度克制的平衡,不但让腾讯会议和硬件企业间找到了最佳的连接点,也为此后更多形态的创新奠定了基础。考验腾讯会议和生态伙伴的合作格局的,除了技术,还有利益的分配。在实际业务中,高频发生的一个现象是,有时候伙伴一直在跟进的客户,需要腾讯会议KA的协助,公司仍然会基于伙伴的付出,将单子算在服务商名下,给予适当佣金作为对服务商技术交流和配合客户测试的服务回报。这就让双方有了非常默契的合作和清楚的边界,让ISV有了很强的动力。事实上,在ToB行业,大部分的厂商的做法是,如果自己的销售去做了项目,那就不算伙伴的业绩,也不给伙伴相关的佣金,伙伴做的才算他的,而且大部分厂商都是这样的。对于很多toB的产品来说,服务商的很多价值是原厂不能取代的,真实场景下的“最后一公里”的业务服务,服务商通常在同一个客户那里提供多个产品的服务,他们可能比我们更了解客户的网络和使用习惯,他们来做好最后一公里服务才有更高的效率和更合理的成本把和服务商的边界搞清楚,从而夯实这种生态的基础。当然,对腾讯会议来说,有时候相当于佣金事实上是付了两份,但通过这种被称为“复算”的机制,减少了冲突,提升了生态伙伴的积极性,故而,这已经作为一个长期的‘伙伴优先’的机制确立下来了。
03
未来的追求
腾讯会议的未来要从哪里找寻,这不是一个简单的问题。但从和吴祖榕、腾讯会议总经理钱敏、天籁实验室负责人商世东等人的对话中,我尝试找寻了三个方向。腾讯会议诞生的第一天,就开始使用AI算法,所以它是自带AI基因的。而吴祖榕认为,未来以大模型为核心的技术底座,会在各种体验上让腾讯会议的能力和体验得到持续优化,而好的大模型一定是多模态的。例如,腾讯会议是面向全球的,腾讯云在全球都有分布节点,为了确保网络传输效果,需要采用BGP技术,也就是将多个运营商网络融合在一起,让路由器智能调度,随时切换最快的路线传输信号,这需要AI的支撑。又比如,目前的会议已经实现了基于NLP的实时记录,但在AI的加持下,以往冗长的会议记录可以自动的章节化、摘要化;声纹识别技术,可以在众多参会人员中准确识别发言者,而且在会议大屏上始终自动处于C位。更重要的是,基于多模态的技术,会议中产生的海量文本、图像可以得到实时处理,在数据安全的前提下,可以成为优质的训练数据,复用于模型的再训练、企业知识图谱的完善等等……可以说,在AI底座的加持下,会议将不再是是一种负担,而成为一种知识和数据的重要来源。 第二个方向,是和合作伙伴进行超越单向助力的合作创新。作为会议平板的头部厂商,MAXHUB是腾讯会议重要的合作伙伴之一,也是腾讯会议天籁模组的第一批用户。MAXHUB在和天籁的合作中发现,仅仅把模组嵌入大屏,如果是在特大面积的会议室中,仅仅是靠近大屏部分的收音效果较好,因此它们提出了在桌面上增加麦克风的方案,并得到了天籁实验室的支持。由此,2023 年,MAXHUB发布了全新的无线全向麦 BM51,它既基于腾讯天籁inside音频解决方案,同时也把MAXHUB在大屏设备上独有的硬软件工业设计交互能力融合进来,实现了和天籁Al语音技术“双向奔赴”式的创新,把大屏设备的会议收音提到了业界的最高水平。而这些基于天籁模组,又不止于天籁的创新,在腾讯会议的生态中的诞生率也越来越高,假以时日,大有希望成为全球云会议的创新策源地。会议的本质其实是一种协作,疫情的背景+腾讯会议的出现,使人们意识到这种协作是可以跨越时空的,也可以是线上线下融合的。比如这次展会,腾讯会议就首发了轻量化混合式教学解决方案,它基于腾讯会议教育版、Rooms会议室解决方案、腾讯天籁inside音频解决方案打造,其中的“智慧教室解决方案”,能够实现高质量的跨校区、跨国、跨区域视频连接,打通教学过程中的“实体空间与虚拟空间”。更多的数据也显示,截止 2023年 4 月,中国企业的会议室用户比上一年增长了 4 倍,其中工作日平均每间会议室,至少有3次以上的会议是混合会议。毫无疑问,这意味人类的协作方式出现了历史性变革的萌芽。笔者相信,随着大模型等新技术红利的出现,人们将以前所未有的方式混合式的协作,时间、距离、语种、文化的障碍在技术加持下会逐渐突破,新的生产方式甚至新的文明,也许就会诞生在这间小小的会议室中。