Multi-Task Learning Using Multi-Modal Encoder-Decoder Networks with Shared Skip Connections

Kuga, Ryohei; Kanezaki, Asako; Samejima, Masaki; Sugano, Yusuke; Matsushita, Yasuyuki

doi:10.1109/ICCVW.2017.54

Multi-Task Learning Using Multi-Modal Encoder-Decoder Networks with Shared Skip Connections

Ryohei Kuga, Asako Kanezaki, Masaki Samejima, Yusuke Sugano, Yasuyuki Matsushita

ICCVW 2017 pp. 403-411

doi:10.1109/ICCVW.2017.54 /iccvw/2017/kuga2017iccvw-multitask/

Abstract

Multi-task learning is a promising approach for efficiently and effectively addressing multiple mutually related recognition tasks. Many scene understanding tasks such as semantic segmentation and depth prediction can be framed as cross-modal encoding/decoding, and hence most of the prior work used multi-modal datasets for multi-task learning. However, the inter-modal commonalities, such as one across image, depth, and semantic labels, have not been fully exploited. We propose a multi-modal encoder-decoder networks to harness the multi-modal nature of multi-task scene recognition. In addition to the shared latent representation among encoder-decoder pairs, our model also has shared skip connections from different encoders. By combining these two representation sharing mechanisms, the proposed method efficiently learns a shared feature representation among all modalities in the training data. Experiments using two public datasets shows the advantage of our method over baseline methods that are based on encoder-decoder networks and multi-modal auto-encoders.

ICCVW Semantic Scholar

Cite

Text

Kuga et al. "Multi-Task Learning Using Multi-Modal Encoder-Decoder Networks with Shared Skip Connections." IEEE/CVF International Conference on Computer Vision Workshops, 2017. doi:10.1109/ICCVW.2017.54

Markdown

[Kuga et al. "Multi-Task Learning Using Multi-Modal Encoder-Decoder Networks with Shared Skip Connections." IEEE/CVF International Conference on Computer Vision Workshops, 2017.](https://mlanthology.org/iccvw/2017/kuga2017iccvw-multitask/) doi:10.1109/ICCVW.2017.54

BibTeX

@inproceedings{kuga2017iccvw-multitask,
  title     = {{Multi-Task Learning Using Multi-Modal Encoder-Decoder Networks with Shared Skip Connections}},
  author    = {Kuga, Ryohei and Kanezaki, Asako and Samejima, Masaki and Sugano, Yusuke and Matsushita, Yasuyuki},
  booktitle = {IEEE/CVF International Conference on Computer Vision Workshops},
  year      = {2017},
  pages     = {403-411},
  doi       = {10.1109/ICCVW.2017.54},
  url       = {https://mlanthology.org/iccvw/2017/kuga2017iccvw-multitask/}
}