Luo Mai — Publications

Yinsicheng Jiang, Yao Fu, Yeqi Huang, Ping Nie, Zhan Lu, Leyang Xue, Congjie He, Man-Kit Sit, Jilong Xue, Li Dong, Ziming Miao, Dayou Du, Tairan Xu, Kai Zou, Edoardo Ponti, Luo Mai

conference NeurIPS

PDF Code

WaferLLM: Large Language Model Inference at Wafer Scale

Congjie He, Yeqi Huang, Pei Mu, Ziming Miao, Jilong Xue, Lingxiao Ma, Fan Yang, Luo Mai

conference OSDI

PDF Link Code

2024

Tenplex: Dynamic Parallelism for Deep Learning using Parallelizable Tensor Collections

Marcel Wagenländer, Guo Li, Bo Zhao, Luo Mai, Peter Pietzuch

conference SOSP

PDF

Learning high-frequency functions made easy with sinusoidal positional encoding

Chuanhao Sun, Zhihang Yuan, Kai Xu, Luo Mai, N Siddharth, Shuo Chen, Mahesh K Marina

conference ICML

PDF Code

ServerlessLLM: Low-Latency Serverless Inference for Large Language Models

Yao Fu, Leyang Xue, Yeqi Huang, Andrei-Octavian Brabete, Dmitrii Ustiugov, Yuvraj Patel, Luo Mai

conference OSDI

PDF Link Code

MoE-Infinity: Activation-Aware Expert Offloading for Efficient MoE Serving

Leyang Xue, Yao Fu, Zhan Lu, Luo Mai, Mahesh Marina

preprint Arxiv

PDF Code

2023

TorchOpt: An Efficient Library for Differentiable Optimization

Jie Ren, Xidong Feng, Bo Liu, Xuehai Pan, Yao Fu, Luo Mai, Yaodong Yang

conference JMLR

PDF Code

GEAR: A GPU-Centric Experience Replay System for Large Reinforcement Learning Models

Hanjing Wang, Man-Kit Sit, Congjie He, Ying Wen, Weinan Zhang, Jun Wang, Yaodong Yang, Luo Mai

conference ICML

PDF Code

2022

Ekko: A Large-Scale Deep Learning Recommender System with Low-Latency Model Update

Chijun Sima, Yao Fu, Man-Kit Sit, Liyi Guo, Xuri Gong, Feng Lin, Junyu Wu, Yongsheng Li, Haidong Rong, Pierre-Louis Aublin, Luo Mai

conference USENIX OSDI

PDF Link

A Theoretical Understanding of Gradient Bias in Meta-Reinforcement Learning

Bo Liu, Xidong Feng, Jie Ren, Luo Mai, Rui Zhu, Haifeng Zhang, Jun Wang, Yaodong Yang

conference NeurIPS

PDF

MegBA: A GPU-Based Distributed Library for Large-Scale Bundle Adjustment

Jie Ren, Wenteng Liang, Ran Yan, Luo Mai, Shiwen Liu, Xiao Liu

conference ECCV

PDF Code

2021

Move Fast and Meet Deadlines: Fine-grained Real-time Stream Processing with Cameo

Le Xu, Shivaram Venkataraman, Indranil Gupta, Luo Mai, Rahul Potharaju

conference USENIX NSDI

PDF Link

Fast and Flexible Human Pose Estimation with HyperPose

Yixiao Guo, Jiawei Liu, Guo Li, Luo Mai, Hao Dong

conference ACM Multimedia (Open-source Software Competition)

PDF Code

Efficient Reinforcement Learning Development with RLzoo

Zihan Ding, Tianyang Yu, Yanhua Huang, Hongming Zhang, Guo Li, Quancheng Guo, Luo Mai, Hao Dong

conference ACM Multimedia (Open-source Software Competition)

PDF Code

2020

KungFu: Making Training in Distributed Machine Learning Adaptive

Luo Mai, Guo Li, Marcel Wagenlander, Konstantinos Fertakis, Andrei-Octavian Brabete, Peter Pietzuch

conference USENIX OSDI

PDF Link Code

Spotnik: Designing Distributed Machine Learning for Transient Cloud Resources

Marcel Wagenlander, Luo Mai, Guo Li, Peter Pietzuch

conference USENIX HotCloud

PDF Link

2019

Taming Hyper-parameters in Deep Learning Systems

Luo Mai, Alexandros Koliousis, Guo Li, Andrei-Octavian Brabete, Peter Pietzuch

journal ACM SIGOPS Operating Systems Review (Invited Paper)

DOI

CrossBow: Scaling Deep Learning with Small Batch Sizes on Multi-GPU Servers

Alexandros Koliousis, Pijika Watcharapichat, Matthias Weidlich, Luo Mai, Paolo Costa, Peter Pietzuch

conference VLDB

PDF Code

2018

Chi: A Scalable and Programmable Control Plane for Distributed Stream Processing Systems

Luo Mai, Kai Zeng, Rahul Potharaju, Le Xu, Shivaram Venkataraman, Paolo Costa, Terry Kim, Saravanan Muthukrishnan, Vamsi Kuppa, Sudheer Dhulipalla, Sriram Rao

conference VLDB

PDF

2017

Emu: Rapid Prototyping of Networking Services

Nik Sultana, Salvator Galea, David Greaves, Marcin Wojcik, Jonny Shipton, Richard Clegg, Luo Mai, Pietro Bressana, Robert Soule, Richard Mortier, Paolo Costa, Peter Pietzuch, Jon Crowcroft, Andrew W Moore, Noa Zilberman

conference USENIX ATC

PDF Link

TensorLayer: A Versatile Library for Efficient Deep Learning Development

Hao Dong, Akara Supratak, Luo Mai, Fangde Liu, Axel Oehmichen, Simiao Yu, Yike Guo

conference ACM Multimedia (Best Open-source Software Award)

PDF Code

2016

Flick: Developing and Running Application-specific Network Services

Abdul Alim, Richard G. Clegg, Luo Mai, Lukas Rupprecht, Eric Seckler, Paolo Costa, Peter Pietzuch, Alexander L. Wolf, Nik Sultana, Jon Crowcroft, Anil Madhavapeddy, Andrew Moore, Richard Mortier, Luis Oviedo, Masoud Koleni, Derek McAuley, Matteo Migliavacca

conference USENIX ATC

PDF Link