开发者社区技术周刊又和大家见面了,萌妹子主播为您带来最新一期“开发者技术联播”。让我们一起听听,过去一周有哪些值得我们开发者关注的重要新闻吧。
技 术 要 闻
Industry News
1, 京东智联云4篇论文入选国际语音顶级大会Interspeech 2020
近日,国际语音顶级会议Interspeech 2020在线上举行。京东人工智能研究院有4篇论文脱颖而出,成功入选本次大会。分别在声音事件定位与检测、语音去混响、语音验证系统、神经网络声码器等领域取得突破。Interspeech 2020是由国际语音通信协会ISCA组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会。该会议每年举办一次,今年大会是第21届INTERSPEECH会议,也是第二次在中国举办。本届会议以“Cognitive Intelligence for Speech Processing”为主题,内容涵盖信号处理、语音识别、自然语言处理、神经机器翻译等领域。
2,国家超算深圳中心计划2年内提升计算能力至少1000倍
从国家超级计算深圳中心获悉,当前高技术领域角逐的焦点之一的E级计算机即将落户深圳,计划至 2022 年,该中心计算能力将至少提升 1000 倍,为湾区基础科学研究、云计算、大数据和人工智能提供支持。目前,超算中心二期建设正在推进,包括E级机研制、新园区建设、应用生态建设三大部分。
3,T-Mobile扩大更快中频5G网络 覆盖范围几乎翻一倍
据国外媒体报道,美国电信运营商T-Mobile宣布了拓展其2.5GHz中频段5G网络,该网络目前在数十个新城市中可用,相比去年9月底一次主要中频段,覆盖范围增加接近一倍。T-Mobile表示,它现在已经在美国近410个城市和乡镇获得了5G中频支持。T-Mobile的5G网络将其广泛使用的600mhz 低频网络(覆盖范围覆盖全国范围,但在速度提升方面不及 LTE)与更快的2.5 GHz网络以及超快的mmWave网络(速度最快,但覆盖范围最差)结合在一起。T-Mobile计划继续积极的中频段5G扩展,目标是到2020年底覆盖1亿人。
4,苹果正研发iMac处理器A14T 采用台积电5nm工艺制造
在6月22日开幕的全球开发者大会(WWDC)上,苹果公司公布了基于ARM架构的自研Mac处理器计划,并宣布首款基于自研处理器的Mac,计划今年年底开始出货,在未来的两年完成过渡,届时Mac产品线就将全部采用苹果自研处理器。而从外媒最新的报道来看,除了自研用于Mac笔记本电脑的处理器,苹果还在研发用于桌面电脑iMac的处理器,明年年初推出的iMac预计就会采用。苹果正在研发的桌面电脑处理器是A14T,预计在2021年推出。此外,苹果自研的GPU,也将在2021年推出,这也就意味着苹果明年新推出的iMac,有望同时搭载苹果自研的中央处理器和图形处理器。
5,MongoDB Atlas现支持多云数据库集群
新的MongoDB Atlas多云集群功能已于上周二全面推出,并扩展了该公司现有的云数据库产品。这个新的多云集群支持不只是在不同的云提供商上运行托管的MongoDB数据库,在此次更新中,MongoDB还允许用户同时在多个云提供商之间运行数据库,这在此前很难实现。451 Research高级研究分析师James Curtis对此表示:“对于很多企业来说,作为一种流行的数据库选择,MongoDB通过Atlas支持多云很有意义,他们的客户需要这种支持,即使他们现在没有提出要求,将来也会提出这个要求。”但是,Curtis指出,多云对不同企业可能有不同的含义。他认为,现实情况是,多云能够最好地满足目标工作负载,例如高可用性、备份和专业分析,这也是MongoDB在此Atlas更新中的重点。
6,维基媒体决定将代码库迁移到 GitLab
维基媒体基金会决定将其代码库从 Gerrit 迁移到自托管的 GitLab 社区版。维基媒体称,过去两年的开发者满意度调查显示对代码审查系统 Gerrit 的不满有点高,志愿者社区对其不满尤其高。越来越多的个人和团队放弃使用 Gerrit 改用第三方托管选项 GitHub。这些证据显示 Gerrit 没有促进开发而是放缓了开发,如果不能解决 Gerrit 上的可用性问题,开发者将会选择在他们偏爱的平台上构建项目。维基媒体发布工程团队在调查和评估之后选择迁移到 GitLab,GitLab 允许自托管,提供了 MIT 授权的社区版,符合基金会的自由和开源原则。
学 术 前 沿
Academic News
1,GPT-GNN:图神经网络的生成式预训练
机器学习的成功很大程度上取决于数据。但高质量的标记数据通常很昂贵且难以获得,尤其是对于希望训练参数较多的模型。而相对的我们却可以很容易地获取大量的无标记数据,其数量可以是标记数据的数千倍。例如,在社交网络上进行异常检测时,恶意帐户的标注需要依赖于专家知识,数量较小,而整个网络的规模却可以达到十亿规模。
为了解决标注数据较少,尽可能利用其无标注数据,一个常规的做法是自监督的预训练(self-supervised pre-training)。其目标是设计合理的自监督任务,从而使模型能从无标注数据里学得数据的信息,作为初始化迁移到下游任务中。由于目标任务中很多的知识已经在预训练中学到,因此通过预训练,我们只需要非常少量的标注数据,就能得到较好的泛化性能。
论文链接:https://arxiv.org/abs/2006.15437
2,图神经网络时代的深度聚类
聚类是机器学习/数据挖掘的一个基础性问题。从传统聚类到深度聚类以及现在图神经网络赋能的聚类, 各种各样的聚类算层出不穷,也在很多领域得到了广泛的应用。考虑到图神经网络对结构信息的捕获能力,在涉及到群体结构的聚类任务上,本篇文章所介绍的聚类算法应该会取得更大的提升。
论文链接:https://arxiv.org/abs/1906.06532
以上信息来源于网络,由“京东智联云开发者”公众号编辑整理,不代表京东智联云立场
欢迎点击【京东智联云】,了解开发者社区
更多精彩技术实践与独家干货解析
欢迎关注【京东智联云开发者】公众号