Search Results - "YOU, Haoxuan" :: K.UTB vyhledávací portál

Loading…

Rethinking Network Design and Local Geometry in Point Cloud: A Simple Residual MLP Framework

by Xu, Ma, Qin, Can, You, Haoxuan, Haoxi Ran, Fu, Yun
Published in arXiv.org (29.11.2022)

Get full text

Paper

Loading…

LLM-based Conversational AI Therapist for Daily Functioning Screening and Psychotherapeutic Intervention via Everyday Smart Devices

by Nie, Jingping, Shao, Hanya, Fan, Yuang, Shao, Qijia, You, Haoxuan, Preindl, Matthias, Jiang, Xiaofan
Published in arXiv.org (16.03.2024)

Get full text

Paper

Loading…

PointHop: An Explainable Machine Learning Method for Point Cloud Classification

by Zhang, Min, You, Haoxuan, Kadam, Pranav, Liu, Shan, C -C Jay Kuo
Published in arXiv.org (16.12.2019)

Get full text

Paper Journal Article

Loading…

Understanding ME? Multimodal Evaluation for Fine-grained Visual Commonsense

by Wang, Zhecan, You, Haoxuan, He, Yicheng, Li, Wenhao, Kai-Wei, Chang, Shih-Fu, Chang
Published in arXiv.org (23.10.2023)

Get full text

Paper

Loading…

Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions

by Liu, Junzhang, Wang, Zhecan, Hammad Ayyubi, You, Haoxuan, Thomas, Chris, Sun, Rui, Shih-Fu, Chang, Kai-Wei, Chang
Published in arXiv.org (23.05.2024)

Get full text

Paper

Loading…

UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding

by Sun, Rui, Wang, Zhecan, You, Haoxuan, Codella, Noel, Kai-Wei, Chang, Shih-Fu, Chang
Published in arXiv.org (03.07.2023)

Get full text

Paper

Loading…

CoBIT: A Contrastive Bi-directional Image-Text Generation Model

by You, Haoxuan, Guo, Mandy, Wang, Zhecan, Kai-Wei, Chang, Baldridge, Jason, Yu, Jiahui
Published in arXiv.org (23.03.2023)

Get full text

Paper

Loading…

MM-Ego: Towards Building Egocentric Multimodal LLMs

by Ye, Hanrong, Zhang, Haotian, Daxberger, Erik, Chen, Lin, Lin, Zongyu, Li, Yanghao, Bowen, Zhang, You, Haoxuan, Xu, Dan, Gan, Zhe, Lu, Jiasen, Yang, Yinfei
Published in arXiv.org (09.10.2024)

Get full text

Paper

Loading…

Find Someone Who: Visual Commonsense Understanding in Human-Centric Grounding

by You, Haoxuan, Sun, Rui, Wang, Zhecan, Kai-Wei, Chang, Shih-Fu, Chang
Published in arXiv.org (14.12.2022)

Get full text

Paper

Loading…

Dataset Bias Mitigation in Multiple-Choice Visual Question Answering and Beyond

by Wang, Zhecan, Long, Chen, You, Haoxuan, Xu, Keyang, He, Yicheng, Li, Wenhao, Codella, Noel, Kai-Wei, Chang, Shih-Fu, Chang
Published in arXiv.org (31.10.2023)

Get full text

Paper

Loading…

Ferret: Refer and Ground Anything Anywhere at Any Granularity

by You, Haoxuan, Zhang, Haotian, Gan, Zhe, Du, Xianzhi, Bowen, Zhang, Wang, Zirui, Cao, Liangliang, Shih-Fu, Chang, Yang, Yinfei
Published in arXiv.org (11.10.2023)

Get full text

Paper

Loading…

IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models

by You, Haoxuan, Sun, Rui, Wang, Zhecan, Long, Chen, Wang, Gengyu, Ayyubi, Hammad A, Kai-Wei, Chang, Shih-Fu, Chang
Published in arXiv.org (24.05.2023)

Get full text

Paper

Loading…

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

by Zhang, Haotian, You, Haoxuan, Dufter, Philipp, Bowen, Zhang, Chen, Chen, Hong-You, Chen, Fu, Tsu-Jui, William Yang Wang, Shih-Fu, Chang, Gan, Zhe, Yang, Yinfei
Published in arXiv.org (11.04.2024)

Get full text

Paper

Loading…

Learning Visual Commonsense for Robust Scene Graph Generation

by Zareian, Alireza, Wang, Zhecan, You, Haoxuan, Shih-Fu, Chang
Published in arXiv.org (18.07.2020)

Get full text

Paper

Loading…

JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images

by Wang, Zhecan, Liu, Junzhang, Chia-Wei, Tang, Alomari, Hani, Sivakumar, Anushka, Sun, Rui, Li, Wenhao, Atabuzzaman, Md, Hammad Ayyubi, You, Haoxuan, Alvi Ishmam, Kai-Wei, Chang, Shih-Fu, Chang, Thomas, Chris
Published in arXiv.org (25.09.2024)

Get full text

Paper

Loading…

Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training

by You, Haoxuan, Zhou, Luowei, Xiao, Bin, Codella, Noel, Cheng, Yu, Xu, Ruochen, Shih-Fu, Chang, Lu, Yuan
Published in arXiv.org (26.07.2022)

Get full text

Paper

Loading…

Graph-MLP: Node Classification without Message Passing in Graph

by Hu, Yang, You, Haoxuan, Wang, Zhecan, Wang, Zhicheng, Zhou, Erjin, Gao, Yue
Published in arXiv.org (08.06.2021)

Get full text

Paper

Loading…

Multi-modality Latent Interaction Network for Visual Question Answering

by Gao, Peng, You, Haoxuan, Zhang, Zhanpeng, Wang, Xiaogang, Li, Hongsheng
Published in arXiv.org (10.08.2019)

Get full text

Paper

Loading…

Unsupervised Vision-and-Language Pre-training Without Parallel Images and Captions

by Li, Liunian Harold, You, Haoxuan, Wang, Zhecan, Zareian, Alireza, Shih-Fu, Chang, Kai-Wei, Chang
Published in arXiv.org (11.04.2021)

Get full text

Paper

Loading…

CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks

by Wang, Zhecan, Codella, Noel, Yen-Chun, Chen, Zhou, Luowei, Yang, Jianwei, Dai, Xiyang, Xiao, Bin, You, Haoxuan, Shih-Fu, Chang, Lu, Yuan
Published in arXiv.org (28.12.2022)

Get full text

Paper

Refine Results

Format

Subject Area

Topic

Language

Year of Publication

Database