线上KubeCon 2020分论坛前瞻丨可观察性、性能、机器学习+数据

2020-07-22 17:02:17 来源：E科技抢沙发

2020-07-22 17:02:17 来源：E科技

摘要：由CNCF与全球开源志愿者共同发起的“Cloud Native + Open Source Virtual Summit China 2020中国线上峰会”（KubeCon 2020），将于2020年7月30日-8月1日正式上线。
关键词：机器学习

由CNCF与全球开源志愿者共同发起的“Cloud Native + Open Source Virtual Summit China 2020中国线上峰会”（KubeCon 2020），将于2020年7月30日-8月1日正式上线。峰会官网「cncf.lfasiallc.cn」已经上线，会议注册免费，诚邀全球广大的开源组织、企业、技术大咖和开发者报名参会，提前锁定这场开源界最负盛名的旗舰峰会，开启云原生下一个十年。

云原生能够帮助企业快速部署新业务，其高弹性、动态调度、自动伸缩等传统IT技术无法匹敌的能力，在实际运用中更是绝对的杀手锏。尤其在企业数字化转型逐步进入深水区，云原生备受企业青睐。

首届线上KubeCon 2020技术峰会，聚焦云原生和微服务的解谜，涵盖15大主题论坛。今天将为大家重点介绍其中的3大分论坛，可观察性、性能和机器学习+数据，力求让参会者抢先了解KubeCon 2020云原生大会的热门话题。

分论坛主题简介——可观察性

近两年，“可观察性”被引入到IT领域，它是一套观察系统，重点是要团队融入可观察性的理念，特别要求开发人员写出的应用是可观察的，它与扩展性、可用性具有同等地位。

OpenTelemetry提供了一组API、库、代理和收集器服务，用于从应用程序中捕获分布式跟踪和指标。Google软件工程师Sergey Kanzhelev将重点介绍OpenTelemetry值最高的原则，构建最佳遥测解决方案。它解释了如何保持它的简单，但具有表现力和表达力。

Thanos是一个开源的CNCF sandbox项目，它基于Prometheus创建了一个全球规模的高可用的监控系统。作为该项目的维护者，华为软件工程师戴翔将解释该项目的基本概念、使用场景和权衡。参会者可以学习从哪里开始以及如何在Kubernetes上快速部署Thanos ，而不会影响现有的Prometheus设置。

在云原生环境中，传统的监控技术不足以理解系统行为，不能有效地解决可用性和性能问题。Splunk 工程总监 Steve Flanders将深入探讨什么是抽样，在会议和行业实践中讨论成本、性能和开销等问题。

Cortex是一个CNCF项目，它为Prometheus指标提供水平可伸缩、高可用性、多租户、长期存储，以及一个水平可伸缩、兼容Prometheus的查询API。Grafana Labs 软件工程师 Goutham Veeramachaneni将讨论近期Cortex 1.0版本发布的所有因素，以及它对项目、用户和社区的意义。

在《深入了解：Kubernetes SIG Instrumentation》主题分享中，来自华为的自身软件工程师Hongcai Ren将重点分享SIG Instrumentation内正在进行的努力的细节，与观众分享工作的具体片段，如何确保稳定性，并努力提高其整体可靠性，以鼓励未来的合作。

Kubernetes事件包含宝贵的信息，可以用来了解Kubernetes集群、工作负载、节点和其他 K8s 资源的状态，并在发生错误时触发告警。青云QingCloud的Benjamin Huo和Junot Xiang将重点分享Kubernetes事件管理的各个方面，包括事件导出、过滤、告警及通知。

在分布式环境中，日志记录要求很高，特别是当应用程序以很高的速率生成数据时，需要尽可能低的占用CPU和内存并快速地处理数据。Arm Treasure Data的首席工程师Eduardo Silva将带您了解Fluent Bit的架构、性能设计和最佳实践。

Prometheus 2.x版本修正了以前的可伸缩性限制，并极大地提高了性能。Red Hat首席软件工程师Bartlomiej Plotka和Grafana Labs软件工程师Goutham Veeramachaneni将介绍这些先进的使用模式，以及最新版本中可用的新功能。

可观察性分论坛

详细议程可参阅：https://cncf.lfasiallc.cn/schedule/cn，选择：KC+CNC-可观察性

分论坛主题简介——性能

极致的性能是每一位工程师希望计算机所能表现的理想状态，但在现实应用中往往很难实现，只能根据具体应用或实际落地场景中不断调整，已达到最匹配的状态。

随着各种各样的工作负载正在涌入云中，作为云的实际操作系统，Kubernetes生态系统很快就面临这样的挑战：如何管理混合工作负载，在实现不同的SLO的同时实现高资源利用率？阿里云技术专家余英豪和阿里云技术专家王双将重点分享在阿里巴巴的Kubernetes集群中整合混合工作负载的实践，包括电子商务服务和对商业至关重要的人工智能工作。

在所有的故障类型中，内核故障可能是最难分析和模拟的。PingCAP软件工程师Wenbo Zhang他将介绍BPF是什么，如何开发BPF程序来分析内核造成的性能问题，以及如何在Kubernetes上做内核混沌实验。

性能分论坛

详细议程可参阅：https://cncf.lfasiallc.cn/schedule/cn，选择：KC+CNC-性能

分论坛主题简介——机器学习+数据

Kubernetes原本用来管理无状态应用的容器平台，随着近两年越来越多的企业基于Kubernetes运行各种各样工作负载，尤其是通过机器学习处理海量数据，为此本分论坛重点探讨“机器学习+数据”相关的议题。

ML模型的生产有很长的数据沿袭，建模只是其中的一小部分。Bestpay首席数据科学家Vincent将在《使用Kubernetes构建企业AI PaaS的旅程》中，重点强调通过Kubernetes协同定位大数据、深度学习和微服务工作负载，为不同的ML库统一模型服务层以及通过一个在线模型服务故障案例，分享如何在生产中正确配置Istio。

通过采用Kubeflow和Kubeflow Pipelines，腾讯内部的机器学习工作流已经迁移到了Kubernetes。腾讯资深软件工程师Lei Xue和Tiller Zha将介绍如何通过智能批处理调度、GPU共享、NVidia-docker启动优化、训练中的节点替换等改进GPU实用程序。

对于专注于一次数据传递的训练模型，以及计算可以轻松有效地并行化或转移到硬件计算单元的训练模型，移动数据将成为比计算本身更大的问题。猎豹移动资深工程师Hongjian Yu和百度资深软件开发Pengfei Zheng带来了一种新的解决方案——大型ML系统的高性能存储解决方案，该方案采用高速硬件，并在软件方面进行了改进，如线程模型、负载均衡sdk、读/写分割、读路径优化等，以实现更低的延迟和更高的吞吐量。

详细议程可参阅：https://cncf.lfasiallc.cn/schedule/cn，选择：KC+CNC-深度学习+数据

以上就是KubeCon 2020可观察性、性能和深度学习+数据分论坛主要分享议题，有关峰会更多信息，可详见大会官网「cncf.lfasiallc.cn」。诚邀广大开源技术爱好者报名参会，共同探讨云原生计算的未来和方向。

第三十八届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：lijj

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。