Research

xSailor

 

System research for high-performance artificial intelligence
The goal of xSailor is to investigates the system aspects of artificial intelligence such as deep learning. Based on the cloud research experience of our lab, such as server virtualization, network virtualization, and embedded virtualization, we aim to build systems that process deep learning computations and communications quickly and efficiently.

 

    • Deep learning multiplexing system

In recent years, deep learning models are getting larger in size and number of parameters. Running these big models bring challenges in the system perspective. However, deep learning system research remains in its infancy.
Therefore, we are conducting the following research.

Deep learning model characterization
Support of concurrent deep learning training
Resource-efficient deep learning training with multiplexing

 

    • Networking Acceleration for Distributed Deep Learning

Network communication accounts for a large portion of the training time in distributed deep learning (up to 92% depending on model and system environment). To reduce the network communication, we are using SDN and open networking technologies that our lab has accumulated for many years to improve networking bottlenecks of deep learning. Details research topics are:

P4-based deep learning congestion control
In-network packet scheduling for distributed deep learning

[Research highlights]

  • Minkoo Kang, Gyeongsik Yang, Yeonho Yoo, Chuck Yoo, “TensorExpress: In-Network Communication Scheduling for Distributed Deep Learning”, 2020 IEEE 13th International Conference on Cloud Computing (CLOUD 2020), SCIE-compatible top-tier conference, October 2020

xSailor

 

인공지능 고성능 처리를 위한 시스템 연구
xSailor는 컴퓨팅 연구에서 중심이 되어 가는 딥러닝 등의 인공지능 연산을 최적으로 수행하기 위한 시스템 연구입니다. 본 연구진은 서버 가상화, 네트워크 가상화, 임베디드 가상화 등의 축적된 시스템과 클라우드 연구 역량을 기반으로, 딥러닝 연산을 빠르고도 자원 효율적으로 처리하는 시스템을 연구합니다.

 

    • Deep learning multiplexing system

최근 딥러닝 연산은 그 규모와 파라미터 숫자가 점점 막대해지고 있습니다. 이를 처리하기 위해, 많은 학습 과정이 클라우드 또는 GPU 클러스터에서 분산 시스템을 활용하여 수행되고 있습니다.
그러나 아직, 복수의 딥러닝 연산을 어떻게 한정된 컴퓨팅 자원으로 효과적으로 수행할 지에 대한 연구는 초창기에 머무르고 있습니다.
이에 본 연구진은 아래의 연구를 수행하고 있습니다.

Deep learning model characterization
Support of concurrent deep learning training
Resource-efficient deep learning training with multiplexing

 

    • Networking Acceleration for Distributed Deep Learning

분산 딥러닝 학습에 소모되는 시간 중 많은 비중은 네트워크 통신이 차지하고 있습니다 (모델, 시스템 환경에 따라 최대 92%). 이에, 본 연구진은 다년 간 축적해 온 SDN 및 오픈 네트워킹 기술을 활용하여, 네트워킹 병목을 개선하거나 (acceleration), 감추는 (hiding) 기법을 연구하고 있습니다.

P4-based deep learning congestion control
In-network packet scheduling for distributed deep learning

[Research highlights]

  • Minkoo Kang, Gyeongsik Yang, Yeonho Yoo, Chuck Yoo, “TensorExpress: In-Network Communication Scheduling for Distributed Deep Learning”, 2020 IEEE 13th International Conference on Cloud Computing (CLOUD 2020), SCIE-인정 최우수학술대회, October 2020

Stella
http://stella.korea.ac.kr

 

Differentiation of network performance in container virtualization environment
In the cloud environment, network performance is an important factor in determining the quality of service. Many studies have been conducted to control network performance, but most of them are based on network-centric approach which controls the bandwidth of the network. Our research (called Stella) pursues CPU-centric performance control (differentiation) techniques that can improve the limitations of the existing network-centric approach. Furthermore, Stella also attempts to apply the CPU-centric approach for Hyperledger Fabric and Kubernetes that are representative SWs in the blockchain and container orchestration. Specifically, Stella works on the following sub-topics.

 

    • CPU-centric network performance management

The research idea of the CPU-centric network performance control technique is to use feedback control for CPU allocation in order to achieve the required network performance for containers. Our early results show that the performance variation is improved by 3 times and the overall performance is by 8% compared to the existing network-centric technique, where the performance variation is caused by CPU competition between multiple containers. Also more research is underway to expand it to the Kubernetes environment.

 

    • Blockchain performance to ensure security service level agreement (SLA)

Recently, blockchain-as-a-service (BaaS) has been spotlighted as a security technique for ensuring integrity in a large-scale distributed environment. However, while the development of services using these blockchains is actively being conducted, there is a lack of research to conㄴtrol the performance of the blockchain and ensure the security performance required by users, that is, SLA. Our research focuses on performance measurement and audit tool design and performance control of Hyperledger Fabric, a popular blockchain platform, to ensure the security SLA of blockchain services.

 
[Research highlights]

  • Kyungwoon Lee, Cheol-Ho Hong, Jaehyun Hwang, Chuck Yoo, “Dynamic network scheduling for virtual routers”, IEEE Systems Journal , accepted, Impact factor: 4.463, JCR ranking top 6.55%, Aug 2019

Stella
http://stella.korea.ac.kr

 

컨테이너 가상화 환경에서 CPU-centric 제어를 통한 네트워크 성능 차등화
클라우드 환경에서 네트워크 성능은 서비스 품질을 결정짓는 중요한 요소로 네트워크 성능 제어를 위한 많은 연구들이 수행되었지만 대부분 network-centric 방식을 취하고 있어 CPU 경쟁으로 인한 성능 저하가 발생하는 경우 이를 해결하지 못하는 문제가 있습니다. 본 연구그룹은 기존 network-centric 방식의 한계점을 개선할 수 있는 CPU-centric 성능 제어 기법을 연구하고 이를 블록체인 워크로드와 컨테이너 오케스트레이션 플랫폼에 적용하기 위해 해당 분야의 대표적인 공개SW인 Hyperledger Fabric와 Kubernetes를 기반으로 한 시스템 연구를 수행하고 있습니다.

 

    • CPU-centric network performance management

본 연구그룹에서 수행하는 CPU-centric 네트워크 성능 제어 기법 연구 개발은 컨테이너에 요구되는 네트워크 성능 달성을 위해 CPU 자원을 피드백 제어를 통해 할당합니다. 이를 통해 여러 컨테이너가 동작하는 환경에서 CPU 경쟁으로 인해 성능 편차가 발생하는 기존 network-centric 기법에 비해 성능 편차를 3배 개선하고 전체 성능 또한 8% 개선하였으며 이를 Kubernetes 환경으로 확장하는 연구를 진행 중입니다.

 

    • 보안 SLA (service level agreement) 보장을 위한 블록체인 성능 연구

최근 블록체인을 기반으로 한 blockchain-as-a-service (BaaS) 는 클라우드와 같은 대규모 분산 처리 환경에서 무결성 보장에 효과적인 보안 기법의 하나로 각광 받고 있습니다. 하지만, 이러한 블록체인을 이용한 서비스 개발은 활발하게 이루어지고 있는데 반해, 블록체인의 성능을 제어하고 사용자가 요구하는 성능, 즉 SLA를 보장하기 위한 연구는 부족한 상황입니다. 본 연구그룹에서는 블록체인 서비스의 보안 SLA 보장을 위해 공개SW 블록체인 플랫폼인 Hyperledger Fabric의 성능 측정 및 감사 도구 설계와 성능 제어 연구를 수행합니다.

 
[Research highlights]

  • Kyungwoon Lee, Cheol-Ho Hong, Jaehyun Hwang, Chuck Yoo, “Dynamic network scheduling for virtual routers”, IEEE Systems Journal , accepted, Impact factor: 4.463, JCR ranking top 6.55%, Aug 2019

Libera
https://openvirtex.com

 
Programmable network virtualization
Recently, the paradigm of the network system is shifting from a closed system to an open system. Network virtualization is an essential technology that drives this change. Our research Libera is to provide programmability to network virtualization so that Libera brings network virtualization to the next level. Specifically, we are conducting two studies: 1) SDN-based network virtualization and 2) high-performance kernel-based networking.

 

SDN-based network virtualization
Software-defined Networking (SDN) is a new network paradigm that separates the control and data planes. Based on the SDN concept, we develop a network hypervisor that manages multiple virtual networks from a single physical network. In particular, we attempt to provide complete isolation and programmability of individual virtual networks, so we hope that our technology brings benefit to artificial intelligence and IoT services. Detailed topics are as follows.

Design of network hypervisor with enhanced scalability with regard to resource consumption
New traffic modeling of individual virtual networks with machine learning techniques
Maintainer of a world-wide open-source platform called OVX
Collaboration with a global SDN standardization organization, Open-Networking Foundation (ONF)

 
[Research highlights]

  • Gyeongsik Yang, Bong-yeol Yu, Heesang Jin, Chuck Yoo, “Libera for Programmable Network Virtualization”, IEEE Communications Magazine, vol. 58, no. 4, pp. 38-44, Impact factor: 10.356, JCR ranking top 2.44%, April 2020
  • Gyeongsik Yang, Heesang Jin, Minkoo Kang, Gijun Moon, Chuck Yoo, “Network Monitoring for SDN Virtual Networks”, 2020 IEEE International Conference on Computer Communications (INFOCOM 2020), SCIE-compatible top-tier conference, July 2020

 
Ultra-high performance kernel networking
Operating systems such as Linux have been known for its inefficiency for high-speed packet processing. So there are Kernel bypass techniques such as DPDK and RDMA. But these techniques require new hardware or new implementations of user applications. Therefore, the goal of our research is to achieve ultra-high performance of the Linux kernel through a redesign of kernel network stack, which does not require the modifications of user applications. The research topics are:

Networking stack optimization for the TCP protocol
Kernel-level networking performance guarantee in clouds

 
[Research highlights]

  • Cheol-Ho Hong, Kyungwoon Lee, Jaehyun Hwang, Hyunchan Park, Chuck Yoo, “Kafe: Can OS Kernels Forward Packets Fast Enough for Software Routers?”, IEEE/ACM Transactions on Networking, October 2018

Libera
https://openvirtex.com

 
Programmable network virtualization
최근 네트워크 시스템의 패러다임이 폐쇄 시스템(closed system)에서 개방 시스템(open system)으로 전환되고 있습니다. 이때 필수적으로 요구되는 기술이 네트워크 가상화입니다. 본 연구그룹은 네트워크 가상화를 한 단계 발전시켜 programmability를 제공하기 위한 연구를 하고 있습니다. 구체적으로, 1) SDN 기반 네트워크 가상화 및 2) 고성능 커널 기반 네트워킹의 두 가지 연구를 수행하고 있습니다.

 

SDN 기반 네트워크 가상화
Software-defined Networking(SDN)은 네트워크 관리를 용이하게 하고, 레이어 독립적 연구와 발전을 가능하게 하는 새로운 네트워크 패러다임입니다. 본 연구진은 SDN 개념을 기반으로 단일 물리 네트워크에서 여러 가상 네트워크를 생성하는 네트워크 하이퍼바이저를 개발합니다. 특히 SDN 기반 네트워크 가상화는 개별 가상 네트워크의 완벽한 격리 및 programmability를 제공하므로 인공지능과 IoT 서비스를 실현하는 데 중요한 기술로 간주됩니다.

Network hypervisor with enhanced scalability with regard to resource consumption
Research traffic performance of individual virtual networks with machine learning techniques
Maintain a world-wide open-source platform in collaboration with a global SDN standardization organization, Open-Networking Foundation (ONF)

 
[Research highlights]

  • Gyeongsik Yang, Bong-yeol Yu, Heesang Jin, Chuck Yoo, “Libera for Programmable Network Virtualization”, IEEE Communications Magazine, vol. 58, no. 4, pp. 38-44, Impact factor: 10.356, JCR ranking top 2.44%, April 2020
  • Gyeongsik Yang, Heesang Jin, Minkoo Kang, Gijun Moon, Chuck Yoo, “Network Monitoring for SDN Virtual Networks”, 2020 IEEE International Conference on Computer Communications (INFOCOM 2020), SCIE-인정 최우수학술대회, July 2020

 
초고성능 커널 네트워킹
Linux와 같은 운영체제는 범용적인 네트워크 처리를 위해, 고속 패킷 처리에 필연적인 높은 부하를 가지고 있습니다. 이러한 부하를 피하기 위해 DPDK 및 RDMA와 같은 커널 우회 기술이 활용되고 있지만, 이러한 기술들은 새로운 하드웨어 또는 사용자 응용 프로그램의 새로운 구현을 필요로 합니다. 이에 본 연구의 목표는 커널 기반의 네트워킹 최적화를 통해 응용 프로그램의 수정이 없이도 초고성능을 달성하는 것입니다.

Networking stack optimization for the TCP protocol
Kernel-level networking performance guarantee in clouds

 
[Research highlights]

  • Cheol-Ho Hong, Kyungwoon Lee, Jaehyun Hwang, Hyunchan Park, Chuck Yoo, “Kafe: Can OS Kernels Forward Packets Fast Enough for Software Routers?”, IEEE/ACM Transactions on Networking, October 2018