Ro, Yong Man

39 publications

ICML 2025 Long-Form Speech Generation with Spoken Language Models Se Jin Park, Julian Salazar, Aren Jansen, Keisuke Kinoshita, Yong Man Ro, Rj Skerry-Ryan

AAAI 2025 Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language Jeong Hun Yeo, Chae Won Kim, Hyunjun Kim, Hyeongseop Rha, Seunghee Han, Wen-Huang Cheng, Yong Man Ro

CVPR 2025 SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis Junho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

NeurIPS 2025 Unified Reinforcement and Imitation Learning for Vision-Language Models Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu

CVPR 2025 VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models Byung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu

ICCV 2025 Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations Jeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro

CVPR 2024 AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation Jeongsoo Choi, Se Jin Park, Minsu Kim, Yong Man Ro

NeurIPS 2024 CODE: Contrasting Self-Generated Description to Combat Hallucination in Large Multi-Modal Models Junho Kim, Hyun Jun Kim, Yeon Ju Kim, Yong Man Ro

CVPR 2024 Causal Mode Multiplexer: A Novel Framework for Unbiased Multispectral Pedestrian Detection Taeheon Kim, Sebin Shin, Youngjoon Yu, Hak Gu Kim, Yong Man Ro

AAAI 2024 Improving Open Set Recognition via Visual Prompts Distilled from Common-Sense Knowledge Seongyeop Kim, Hyung-Il Kim, Yong Man Ro

NeurIPS 2024 METEOR: Mamba-Based Traversal of Rationale for Large Language and Vision Models Byung-Kwan Lee, Chae Won Kim, Beomchan Park, Yong Man Ro

ECCV 2024 MoAI: Mixture of All Intelligence for Large Language and Vision Models Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro

AAAI 2023 Deep Visual Forced Alignment: Learning to Align Transcription with Talking Face Video Minsu Kim, Chae Won Kim, Yong Man Ro

CVPR 2023 Demystifying Causal Features on Adversarial Examples and Causal Inoculation for Robust Network by Adversarial Instrumental Variable Regression Junho Kim, Byung-Kwan Lee, Yong Man Ro

ICCV 2023 DiffV2S: Diffusion-Based Video-to-Speech Synthesis with Vision-Guided Speaker Embedding Jeongsoo Choi, Joanna Hong, Yong Man Ro

ICCV 2023 Lip Reading for Low-Resource Languages by Learning and Combining General Speech Knowledge and Language-Specific Knowledge Minsu Kim, Jeong Hun Yeo, Jeongsoo Choi, Yong Man Ro

ICCV 2023 Mitigating Adversarial Vulnerability Through Causal Parameter Estimation by Adversarial Double Machine Learning Byung-Kwan Lee, Junho Kim, Yong Man Ro

AAAI 2023 Multispectral Invisible Coating: Laminated Visible-Thermal Physical Attack Against Multispectral Object Detectors Using Transparent Low-E Films Taeheon Kim, Youngjoon Yu, Yong Man Ro

CVPR 2023 Watch or Listen: Robust Audio-Visual Speech Recognition with Visual Corruption Modeling and Reliability Scoring Joanna Hong, Minsu Kim, Jeongsoo Choi, Yong Man Ro

ECCV 2022 Audio-Visual Mismatch-Aware Video Retrieval via Association and Adjustment Sangmin Lee, Sungjune Park, Yong Man Ro

AAAI 2022 Distinguishing Homophenes Using Multi-Head Visual-Audio Memory for Lip Reading Minsu Kim, Jeong Hun Yeo, Yong Man Ro

CVPR 2022 Masking Adversarial Damage: Finding Adversarial Saliency for Robust and Sparse Network Byung-Kwan Lee, Junho Kim, Yong Man Ro

ECCV 2022 Speaker-Adaptive Lip Reading with User-Dependent Padding Minsu Kim, Hyunjun Kim, Yong Man Ro

AAAI 2022 SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via Audio-Lip Memory Se Jin Park, Minsu Kim, Joanna Hong, Jeongsoo Choi, Yong Man Ro

AAAI 2022 Towards Versatile Pedestrian Detector with Multisensory-Matching and Multispectral Recalling Memory Jung Uk Kim, Sungjune Park, Yong Man Ro

ECCV 2022 VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via Speech-Visage Feature Selection Joanna Hong, Minsu Kim, Yong Man Ro

CVPR 2022 Weakly Paired Associative Learning for Sound and Image Representations via Bimodal Associative Memory Sangmin Lee, Hyung-Il Kim, Yong Man Ro

NeurIPS 2021 Distilling Robust and Non-Robust Features in Adversarial Examples by Information Bottleneck Junho Kim, Byung-Kwan Lee, Yong Man Ro

NeurIPS 2021 Lip to Speech Synthesis with Visual Context Attentional GAN Minsu Kim, Joanna Hong, Yong Man Ro

ICCV 2021 Multi-Modality Associative Bridging Through Memory: Speech Sound Recollected from Face Video Minsu Kim, Joanna Hong, Se Jin Park, Yong Man Ro

ICCV 2021 Robust Small-Scale Pedestrian Detection with Cued Recall via Memory Learning Jung Uk Kim, Sungjune Park, Yong Man Ro

AAAI 2021 Towards a Better Understanding of VR Sickness: Physical Symptom Prediction for VR Contents Hak Gu Kim, Sangmin Lee, Seongyeop Kim, Heoun-taek Lim, Yong Man Ro

CVPR 2021 Video Prediction Recalling Long-Term Motion Context via Memory Alignment Learning Sangmin Lee, Hak Gu Kim, Dae Hwi Choi, Hyung-Il Kim, Yong Man Ro

AAAI 2021 Visual Comfort Aware-Reinforcement Learning for Depth Adjustment of Stereoscopic 3D Images Hak Gu Kim, Minho Park, Sangmin Lee, Seongyeop Kim, Yong Man Ro

ECCV 2020 SACA Net: Cybersickness Assessment of Individual Viewers for VR Content via Graph-Based Symptom Relation Embedding Sangmin Lee, Jung Uk Kim, Hak Gu Kim, Seongyeop Kim, Yong Man Ro

ICCVW 2019 Building a Breast-Sentence Dataset: Its Usefulness for Computer-Aided Diagnosis Hyebin Lee, Seong Tae Kim, Yong Man Ro

AAAI 2019 Mode Variational LSTM Robust to Unseen Modes of Variation: Application to Facial Expression Recognition Wissam J. Baddar, Yong Man Ro

ECCVW 2018 Feature2Mass: Visual Feature Processing in Latent Space for Realistic Labeled Mass Generation Jae-Hyeok Lee, Seong Tae Kim, Hakmin Lee, Yong Man Ro

AAAI 2018 Learning Spatio-Temporal Features with Partial Expression Sequences for On-the-Fly Prediction Wissam J. Baddar, Yong Man Ro