Publications | TACO Group @ Texas A&M University

L. Li, J. Li, ..., Z. Tu, ..., Y. Zhao, Y. Dong
"Political-llm: Large language models in political science"
Arxiv 2024. [Paper] [Project]
Q. Zheng, Y. Fan, L. Huang, T. Zhu, J. Liu, Z. Hao, X. Shuo, C.J. Chen, X. Min, A. Bovik, Z. Tu
"Video Quality Assessment: A Comprehensive Survey"
Arxiv 2024. [Paper] [Code]
T. Zhu, Q. Liu, F. Wang, Z. Tu, and M. Chen
"Unraveling Cross-Modality Knowledge Conflict in Large Vision-Language Models"
Arxiv 2024. [Paper] [Code]

S. Xing, H. Hua, X. Gao, S. Zhu, R. Li, K. Tian, X. Li, H. Huang, T. Yang, Z. Wang, Y. Zhou, H. Yao, Z. Tu
"AutoTrust: Benchmarking Trustworthiness in Large Vision Language Models for Autonomous Driving"
Transactions on Machine Learning Research, 2025. [Paper] [Code]
Q. Zheng, L.-H. Chen, C. He, N. Berkbeck, Y. Wang, B. Adsumilli, A. Bovik, Y. Fan, Z. Tu
"Subjective and Objective Quality Assessment of Banding Artifacts on Compressed Videos"
IEEE Transactions on Image Processing (TIP), 2025. [Paper] [Code]
Z. Tu, C.J. Chen, J. Lin, Y. Wang, N. Birkbeck, B. Adsumilli, A.C. Bovik
"Understanding, detecting, and removing perceptual banding artifacts in compressed videos"
Signal Processing: Image Communication, 2025. [Paper] [Code]
R. Zhu, Z. Tu, J. Liu, A.C. Bovik, Y. Fan
"MWFormer: Multi-Weather Image Restoration Using Degradation-Aware Transformers"
IEEE Transactions on Image Processing, 2024. [Paper] [Code]
K. Mei, Z. Tu, M. Delbracio, H. Talebi, V. M. Patel, P. Milanfar
"Bigger is not Always Better: Scaling Properties of Latent Diffusion Models"
Transactions on Machine Learning Research, 2024. [Paper] [Openreview]
R. Xu, C.J. Chen, Z. Tu, M.H. Yang
"V2X-ViTv2: Improved Vision Transformers for Vehicle-to-Everything Cooperative Perception"
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024. [Paper] [Code]
Q. Zheng*, Z. Tu*, PC Madhusudana, X. Zeng, A.C. Bovik, Y. Fan
"FAVER: Blind Quality Prediction of Variable Frame Rate Videos"
Signal Processing: Image Communication, 2024. [Paper] [Code]
Q. Zheng, Z. Tu, X. Zeng, AC Bovik, Y. Fan
"A completely blind video quality evaluator"
IEEE Signal Processing Letters, 2022. [Paper] [Code]
Z. Tu, X. Yu, Y. Wang, N. Birkbeck, B. Adsumilli, A.C. Bovik
"RAPIQUE: Rapid and accurate video quality prediction of user generated content"
IEEE Open Journal of Signal Processing, 2021. [Paper] [Code] [IEEE SPS Webinar]
Highlighted in OJSP 2022-2023 newsletter, featured talk at IEEE SPS Webinar
Z. Tu, Y. Wang, N. Birkbeck, B. Adsumilli, A.C. Bovik
"UGC-VQA: Benchmarking blind video quality assessment for user generated content"
IEEE Transactions on Image Processing, 2021. [Paper] [Code]
Z. Tu, J. Lin, Y. Wang, B. Adsumilli, A.C. Bovik
"Adaptive Debanding Filter"
IEEE Signal Processing Letters, 2020. [Paper] [Code]

S. Xing, J. Hong, Y. Wang, R. Chen, Z. Zhang, A. Grama, Z. Tu, Z. Wang
"LLMs Can Get 'Brain Rot': A Pilot Study on Twitter/X"
Conference on Language Modeling (COLM), 2026. [Paper] [Code] [Project]
C. Kuai, J. Jiang, Z. Zhu, H. Wang, K. Wu, Z. Li, Y. Zhang, C. Liu, Z. Tu, Z. Fan, Y. Zhou
"How Independent are Large Language Models? A Statistical Framework for Auditing Behavioral Entanglement and Reweighting Verifier Ensembles"
Conference on Language Modeling (COLM), 2026. [Paper]
N. Chen, L. Liu, Z. Li, Z. Zeng, Z. Zhu, W. Cong, J. Hong, Y. Yang, Z. Tu, Y. Wang, B. Ivanovic, M. Pavone, Z. Wang, Y. Zhou, Z. Fan
"CrashTwin: A Physics-Grounded Benchmark for Multi-Agent Dynamics in World Models"
European Conference on Computer Vision (ECCV), 2026. [Paper] [Code] [Project]
Y. Huang, Y. Chen, Y. Jiang, J. Han, Z. Tu, Y. Yang, C. Jiang
"Learn2Fold: Structured Origami Generation with World Model Planning"
European Conference on Computer Vision (ECCV), 2026. [Paper]
J. Yu, X. Gao, P. Verlani, A. Gadde, Y. Wang, B. Adsumilli, Z. Tu
"SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation"
European Conference on Computer Vision (ECCV), 2026. [Paper] [Code] [Project]
H. Jiang, Y. Chaudhary, Y. Wang, Z. Wang, R. Sharma, M. Mehta, Y. Zhou, L. Sun, Z. Fan, Z. Tu, J. Li
"NavTrust: Benchmarking Trustworthiness for Embodied Navigation"
IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2026. [Paper] [Project]
Z. Li, X. Chen, L. Jiang, D. Hou, F. Lin, K. Yamada, X. Gao, Z. Tu
"PVIR-Bench: A Physics-Aware Benchmark for Video Instance Removal"
PAVER Workshop, 2026. [Paper]
Cert-LAS: Toward Certified Model Ownership Verification for Text-to-Image Diffusion Models via Layer-Adaptive Smoothing
"Cert-LAS: Toward Certified Model Ownership Verification for Text-to-Image Diffusion Models via Layer-Adaptive Smoothing"
International Conference on Machine Learning (ICML), 2026.
J. Kim, W. Chen, D. Soleymanzadeh, Y. Ding, X. Gao, Z. Tu, R. Zhang, F. Fei, S. Veer, Y. Lyu, M. Zheng, Y. Gu
"Position: Modular Safety Guardrails Are Necessary for Foundation-Model-Enabled Robots in the Real World"
International Conference on Machine Learning (ICML) Position Track, 2026. [Paper]
Embodied4Arts: Robots as Creative Partners for Artistic, Expressive, and Craft Tasks
"Embodied4Arts: Robots as Creative Partners for Artistic, Expressive, and Craft Tasks"
Robotics: Science and Systems (RSS) Workshop, 2026.
C.-W. Hu, Z. Tu
"Region-R1: Reinforcing Query-Side Region Cropping for Multi-Modal Re-Ranking"
Annual Meeting of the Association for Computational Linguistics (ACL) Findings, 2026. [Paper]
M. Shen, Z. Zhi, C. Liu, S. Xing, Z. Tu, C. Liu
"Does RLVR Extend Reasoning Boundaries? Investigating Capability Expansion in Vision-Language Models"
Annual Meeting of the Association for Computational Linguistics (ACL), 2026. [Paper]
M. Wu, A. Mishra, S. Dey, S. Xing, N. Ravipati, H. Wu, B. Li, Z. Tu
"ConsID-Gen: View-Consistent and Identity-Preserving Image-to-Video Generation"
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2026. [Paper]
F. Lin, Y. Wang, Y. Guo, Z. Huang, X. Huang, H. Zhang, K. Yamada, Z. Tu, L. Ren, Z. Zhang
"NexusFlow: Unifying Disparate Tasks under Partial Supervision via Invertible Flow Networks"
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2026. [Paper]
Z. Fan, J. Zhang, R. Li, ..., T. Chen, J. Li, Z. Tu, Z. Wang, R. Ranjan
"VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction"
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2026. [Paper]
J. Wang, H. Tan, B. Liao, A. Jiang, T. Fei, Q. Huang, B. Zhou, Z. Tu, S. Ye, Y. Kang
"SounDiT: Geo-Contextual Soundscape-to-Landscape Generation"
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2026. [Paper]
M. Lu, R. Xu, Y. Fang, ..., Z. Tu, ..., X. Wang
"Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs"
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2026. [Paper]
T. Wickremasinghe, C. Qi, H. Weligampola, Z. Tu, S.H. Chan
"FlowSteer: Conditioning Flow Field for Consistent Image Restoration"
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2026. [Paper]
C. Qian, S. Xing, S. Li, Y. Zhao, Z. Tu
"DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning"
International Conference on Learning Representations (ICLR), 2026. [Paper]
H. Zhao, Z. Tu, Z. Zheng, W. Wang, J. Wang, R. Feagin, W. Jiao
"Noisy-Pair Robust Representation Alignment for Positive-Unlabeled Learning"
International Conference on Learning Representations (ICLR), 2026. [Paper]
Y. Wang, Y. Wang, Z. Yue, H. Zeng, Y. Wang, I. Lourentzou, Z. Tu, X. Chu, J. McAuley
"FASA: Frequency-Aware Sparse Attention"
International Conference on Learning Representations (ICLR), 2026. [Paper]
S. Li, R. Rossi, S. Kim, S. Choudhary, F. Dernoncourt, P. Mathur, Z. Tu, Y. Zhao
"Charts Are Not Images: On the Challenges of Scientific Chart Editing"
International Conference on Learning Representations (ICLR), 2026. [Paper]
TrustGen Team
"On the Trustworthiness of Generative Foundation Models – Guideline, Assessment, and Perspective"
International Conference on Learning Representations (ICLR), 2026. [Paper] [Project]
Y. Wu, X. Gao, Q. Tau, Z. Tu, D. Lee
"Background Fades, Foreground Leads: Curriculum-Guided Background Pruning for Efficient Foreground-Centric Collaborative Perception"
International Conference on Robotics and Automation (ICRA), 2026. [Paper]
Y. Huang, M. Wu, R. Li, Z. Tu
"VISTA: Generative Visual Imagination for Vision-and-Language Navigation"
International Conference on Robotics and Automation (ICRA), 2026. [Paper]
B. Ni, L. Wang, Y. Wang, ..., Z. Tu, ..., R.A. Rossi
"A Survey on LLM-based Conversational User Simulation"
European Chapter of the Association for Computational Linguistics (EACL) Findings, 2026. [Paper]
C. Kuai, C. Wu, Y. Zhou, B. Wang, T. Yang, Z. Tu, Z. Li, Y. Zhang
"CyPortQA: Benchmarking Multimodal Large Language Models for Cyclone Preparedness in Port Operation"
AAAI Conference on Artificial Intelligence (AAAI) Social Impact Track, 2026. Oral [Paper]
Y. He, Z. Yuan, Z. Tu, Y. Ye
"DreamLand: Real-Time Interactive 4D Scene Generation"
AAAI Conference on Artificial Intelligence (AAAI) Demo Track, 2026.

Y. Zuo, Q. Zheng, M. Wu, X. Jiang, ..., L. V. Wang, J. Zou, X. Wang, M.-H. Yang, Z. Tu
"4KAgent: agentic any image to 4K super-resolution"
Advances in Neural Information Processing Systems (NeurIPS), 2025. #1 Paper of the Day (HuggingFace); Press cover [Project]
G. Li, M. Lin, T. Galanti, Z. Tu, T. Yang
"DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization"
Advances in Neural Information Processing Systems (NeurIPS), 2025. [Paper]
S. Shuo, Y. Wang, R. Bai, Y. Wang, C.-W. Hu, C. Qian, H. Yao, Z. Tu
"Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization"
Conference on Empirical Methods in Natural Language Processing (EMNLP), 2025. [Project] [Paper]
K. Tian, J. Mao, Y. Zhang, J. Jiang, Y. Zhou, Z. Tu
"NuScenes-SpatialQA: A spatial understanding and reasoning benchmark for vision-language models in autonomous driving"
International Conference on Computer Vision (ICCV) WDFM Workshop, 2025. [Paper]
J Li, X Liu, B Li, R Xu, J Li, H Yu, Z Tu
"CoMamba: Real-time cooperative perception unlocked with state space models"
International Conference on Intelligent Robots and Systems (IROS), 2025. [Project] [Paper]
R Wang, X Gao, H Xiang, R Xu, Z Tu
"CoCMT: Communication-efficient cross-modal transformer for collaborative perception"
International Conference on Intelligent Robots and Systems (IROS), 2025. [Project] [Paper]
S Li, P Cai, Y Zhou, Z Ni, R Liang, Y Qin, Y Nian, Z Tu, X Hu, Y Zhao
"Secure on-device video ood detection without backpropagation"
International Conference on Computer Vision (ICCV), 2025. [Project] [Paper]
Y Wang, X Huang, X Sun, M Yan, S Xing, Z Tu, J Li
"Uniocc: A unified benchmark for occupancy forecasting and prediction in autonomous driving"
International Conference on Computer Vision (ICCV), 2025. [Project] [Paper]
X Gao, Y Wu, R Wang, C Liu, Y Zhou, Z Tu
"LangCoop: Collaborative driving with language"
Computer Vision and Pattern Recognition (CVPR) MEIS Workshop, 2025. Best Paper Award [Project] [Paper]
X. Sun et al. (TACO-SR Team)
"NTIRE 2025 Challenge on Short-form UGC Video Quality Assessment and Enhancement: Methods and Results"
Computer Vision and Pattern Recognition (CVPR) NTIRE Workshop, 2025. 1st Place (Track 2: KwaiSR) [Paper]
H Wang, Y Zhang, R Bai, Y Zhao, S Liu, Z Tu
"Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing"
Computer Vision and Pattern Recognition (CVPR), 2025. [Project] [Paper]
Z Wang, J Guo, J Zhu, Y Li, H Huang, M Chen, Z Tu
"SleeperMark: Towards Robust Watermark against Fine-Tuning Text-to-image Diffusion Models"
Computer Vision and Pattern Recognition (CVPR), 2025. [Project] [Paper]
S Li, H Gong, H Dong, T Yang, Z Tu, Y Zhao
"DPU: Dynamic prototype updating for multimodal out-of-distribution detection "
Computer Vision and Pattern Recognition (CVPR), 2025. Highlight [Project] [Paper]
B Li, J Li, X Liu, R Xu, Z Tu, J Guo, X Li, H Yu
"V2X-DGW: Domain Generalization for Multi-agent Perception under Adverse Weather Conditions"
International Conference on Robotics and Automation (ICRA), 2025. [Project] [Paper] [Code]
R. Li, P. Pan, B. Yang, D. Xu, S. Zhou, X. Zhang, Z. Li, A. Kadambi, Z. Wang, Z. Tu, Z. Fan
"4k4dgen: Panoramic 4d generation at 4k resolution"
International Conference on Learning Representations (ICLR), 2025. Spotlight [Project] [Paper] [Code]
X. Gao, R. Xu, J. Li, Z. Wang, Z. Fan, Z. Tu
"STAMP: Scalable Task- And Model-agnostic Collaborative Perception"
International Conference on Learning Representations (ICLR), 2025. [Project] [Code]
X. Xing, C. Qian, Y. Wang, H. Hua, K. Tian, Y. Zhou, Z. Tu
"OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving"
Winter Conference on Applications of Computer Vision (WACV) Workshop, 2025. [Paper] [Code]
A. Mehta, B. McArthur, N. Kolloju, Z. Tu
"HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection"
Winter Conference on Applications of Computer Vision (WACV) Workshop, 2025. [Paper]

C.-J. Chen, R. Xu, W. Shao, J. Zhang, Z. Tu
"OpenCDA-∞: A Closed-loop Benchmarking Platform for End-to-end Evaluation of Cooperative Perception"
NeurIPS Dataset and Benchmark Track (NeurIPS), 2024. [Paper] [Code]
C. Qi, Z. Tu, K. Ye, M. Delbracio, P. Milanfar, Q. Chen, H. Talebi
"SPIRE: Semantic Prompt-Driven Image Restoration "
European Conference on Computer Vision (ECCV), 2024. [Project] [Paper]
K. Mei, M. Delbracio, H. Talebi, Z. Tu, V.M. Patel, P. Milanfar
"CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster Image Generation"
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024. [Project] [Paper] [Code]
J. Li, B. Li, Z. Tu, X. Liu, Q. Guo, F. Juefei-Xu, R. Xu, H. Yu
"Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving"
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024. [Project] [Paper] [Code]
C. He, Q. Zheng, R. Zhu, X. Zeng, Y. Fan, Z. Tu,
"COVER: A comprehensive video quality evaluator"
IEEE/CVF Computer Vision and Pattern Recognition (CVPR) Workshops, 2024. [Paper] [Code]
🏆 1st place solution for AIS 2024 UGC Video Quality Assessment Challenge
3rd place solution for AIM 2024 Challenge on Compressed Video Quality Assessment

Z. Tu, P. Milanfar, H. Talebi
"MULLER: Multilayer Laplacian Resizer for Vision"
IEEE/CVF International Conference on Computer Vision (ICCV), 2023. [Paper] [Code]
R. Xu, X. Xia, J. Li, H. Li, S. Zhang, Z. Tu, Z. Meng, H. Xiang, X. Dong, R. Song, H. Yu, B. Zhou, J. Ma
"V2V4Real: A real-world large-scale dataset for vehicle-to-vehicle cooperative perception"
IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR), 2023. Highlight [Project] [Paper] [Code]
Q. Zheng, Z. Tu, Z. Hao, X. Zeng, A.C. Bovik, Y. Fan
"Blind Video Quality Assessment via Space-Time Slice Statistics"
IEEE International Conference on Image Processing (ICIP), 2022. [Paper] [Code]
R Xu*, Z Tu*, H Xiang, W Shao, B Zhou, J Ma
"CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse Transformers"
Conference on Robot Learning (CoRL), 2022. [Paper] [Code]
Q. Zheng, Z. Tu, Y. Fan, X. Zeng, A.C. Bovik
"No-Reference Quality Assessment of Variable Frame-Rate Videos Using Temporal Bandpass Statistics"
IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022. [Paper] [Code]
R Xu*, Z Tu*, Y Du*, X Dong, J Li, Z Meng, J Ma, A Bovik, H Yu
"Pik-Fix: Restoring and Colorizing Old Photos"
IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2022. [Paper] [Code]
Z. Tu, H. Talebi, H. Zhang, F. Yang, P. Milanfar, A. Bovik, Y. Li
"MaxViT: Multi-axis Vision Transformer"
European Conference on Computer Vision (ECCV), 2022. [Paper] [Code]
Highlighted on-top in Jeff Dean's 2022 Annual Google Research Blog; Selected as top-3 papers of the year in Ahead of AI #4: A Big Year for AI; Retweeted by the Yann Lecun: link; Most Influential ECCV Papers #8 (2024-09)
R. Xu*, H. Xiang*, Z. Tu*, X. Xia, M.H. Yang, J. Ma
"V2X-ViT: Vehicle-to-everything cooperative perception with vision transformer"
European Conference on Computer Vision (ECCV), 2022. [Paper] [Code]
Z. Tu, H. Talebi, H. Zhang, F. Yang, P. Milanfar, A. Bovik, Y. Li
"MAXIM: Multi-Axis MLP for Image Processing"
IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR), 2022. [Paper] [Code]
Best paper nomination award (0.4% of 8161 submissions)
X. Yu, Z. Tu, Z. Ying, A.C. Bovik, N. Birkbeck, Y. Wang, B. Adsumilli
"Subjective quality assessment of user-generated content gaming videos"
IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) Workshops, 2022. [Paper] [Dataset]
Z. Tu, C.J. Chen, Y. Wang, N. Birkbeck, B. Adsumilli, A.C. Bovik
"Video quality assessment of user generated content: A benchmark study and a new model"
IEEE International Conference on Image Processing (ICIP), 2021. [Paper] [Code]
Z. Tu, C.J. Chen, Y. Wang, N. Birkbeck, B. Adsumilli, A.C. Bovik
"A Temporal Statistics Model For UGC Video Quality Prediction"
IEEE International Conference on Image Processing (ICIP), 2021. [Paper]
Z. Tu, C.J. Chen, Y. Wang, N. Birkbeck, B. Adsumilli, A.C. Bovik
"Efficient user-generated video quality prediction"
Picture Coding Symposium (PCS), 2021. [Paper] [Code]
Z. Tu, C.J. Chen, L.H. Chen, Y. Wang, N. Birkbeck, B. Adsumilli, A.C. Bovik
"Regression or classification? new methods to evaluate no-reference picture and video quality models"
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021. [Paper]
Z. Tu, L.H. Chen, Y. Wang, N. Birkbeck, B. Adsumilli, A.C. Bovik
"A comparative evaluation of temporal pooling methods for blind video quality assessment"
IEEE International Conference on Image Processing (ICIP), 2020. [Paper]
Z. Tu, J. Lin, Y. Wang, N. Birkbeck, B. Adsumilli, A.C. Bovik
"BBAND Index: a No-Reference Banding Artifact Predictor"
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020. [Paper] [Code]

Preprint

Journal Articles

Conference Proceedings

2026

2025

2024

2020-2023