Publications | Kaijing Ma

2025

AAAI

Trusted Unified Feature-Neighborhood Dynamics for Multi-View Classification

Haojian Huang, Chuanyu Qin, Zhe Liu, Kaijing Ma, Jin Chen, Han Fang, Chao Ban, Hao Sun, and Zhongjiang He^†

AAAI, 2025

@article{huang2024trusted,
  title = {Trusted Unified Feature-Neighborhood Dynamics for Multi-View Classification},
  author = {Huang, Haojian and Qin, Chuanyu and Liu, Zhe and Ma, Kaijing and Chen, Jin and Fang, Han and Ban, Chao and Sun, Hao and He, Zhongjiang},
  journal = {AAAI},
  booktitle = {Association for the Advancement of Artificial Intelligence Conference},
  year = {2025},
}

2024

arXiv

Beyond Uncertainty: Evidential Deep Learning for Robust Video Temporal Grounding

Kaijing Ma^*, Haojian Huang^*, Jin Chen^*, Haodong Chen, Pengliang Ji, Xianghao Zang, Han Fang, Chao Ban, Hao Sun, Mulin Chen, and others

arXiv preprint arXiv:2408.16272, 2024

Bib HTML PDF Code Website

@article{ma2024beyond,
  title = {Beyond Uncertainty: Evidential Deep Learning for Robust Video Temporal Grounding},
  author = {Ma, Kaijing and Huang, Haojian and Chen, Jin and Chen, Haodong and Ji, Pengliang and Zang, Xianghao and Fang, Han and Ban, Chao and Sun, Hao and Chen, Mulin and others},
  journal = {arXiv preprint arXiv:2408.16272},
  year = {2024},
  booktitle = {arXiv preprint},
}

ACM MM

GOAL: Grounded text-to-image Synthesis with Joint Layout Alignment Tuning

Yaqi Li, Han Fang, Zerun Feng, Kaijing Ma, Chao Ban, Xianghao Zang, LanXiang Zhou, Zhongjiang He, Jingyan Chen, Jiani Hu, and others

In ACM Multimedia 2024, 2024

Bib HTML

@inproceedings{li2024goal,
  title = {GOAL: Grounded text-to-image Synthesis with Joint Layout Alignment Tuning},
  author = {Li, Yaqi and Fang, Han and Feng, Zerun and Ma, Kaijing and Ban, Chao and Zang, Xianghao and Zhou, LanXiang and He, Zhongjiang and Chen, Jingyan and Hu, Jiani and others},
  booktitle = {ACM Multimedia 2024},
  year = {2024},
}

arXiv

BoViLA: Bootstrapping Video-Language Alignment via LLM-Based Self-Questioning and Answering

Jin Chen, Kaijing Ma, Haojian Huang, Jiayu Shen, Han Fang, Xianghao Zang, Chao Ban, Zhongjiang He, Hao Sun, and Yanmei Kang

arXiv preprint arXiv:2410.02768, 2024

Bib HTML Code

@article{chen2024bovila,
  title = {BoViLA: Bootstrapping Video-Language Alignment via LLM-Based Self-Questioning and Answering},
  author = {Chen, Jin and Ma, Kaijing and Huang, Haojian and Shen, Jiayu and Fang, Han and Zang, Xianghao and Ban, Chao and He, Zhongjiang and Sun, Hao and Kang, Yanmei},
  journal = {arXiv preprint arXiv:2410.02768},
  booktitle = {arXiv preprint},
  year = {2024}
}

2023

ICCVW

LLaViLo: Boosting Video Moment Retrieval via Adapter-Based Multimodal Modeling

Kaijing Ma^*, Xianghao Zang^*, Zerun Feng, Han Fang, Chao Ban, Yuhan Wei, Zhongjiang He, Yongxiang Li, and Hao Sun^†

In Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023

Bib HTML PDF

@inproceedings{ma2023llavilo,
  title = {LLaViLo: Boosting Video Moment Retrieval via Adapter-Based Multimodal Modeling},
  author = {Ma, Kaijing and Zang, Xianghao and Feng, Zerun and Fang, Han and Ban, Chao and Wei, Yuhan and He, Zhongjiang and Li, Yongxiang and Sun, Hao},
  booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision},
  pages = {2798--2803},
  year = {2023},
}