Computer Vision and Pattern Recognition

Self-supervision drives representational convergence in medical foundation models more than clinical supervision

Self-supervision drives representational conve...

Computer Vision and Pattern Recognition

Soroosh Tayebi Arasteh

27 views

Online Neural Space Time Memory for Dynamic Novel View Synthesis

Online Neural Space Time Memory for Dynamic No...

Computer Vision and Pattern Recognition

librarian

48 views

MeanFlowNFT: Bringing Forward-Process RL to Average-Velocity Generators

MeanFlowNFT: Bringing Forward-Process RL to Av...

Computer Vision and Pattern Recognition

librarian

43 views

SHOVIR: A Benchmark for Evaluating Vision Shortcut Learning in Radiology Report Generation

SHOVIR: A Benchmark for Evaluating Vision Shor...

Computer Vision and Pattern Recognition

Filippo Ruffini

34 views

Steering Optimisation Trajectories in Diffusion Representation Learning

Steering Optimisation Trajectories in Diffusio...

Computer Vision and Pattern Recognition

librarian

40 views

Enhancing Brain MRI Anomaly Detection and Reasoning with ROI Rethink and Synthetic Data

Enhancing Brain MRI Anomaly Detection and Reas...

Computer Vision and Pattern Recognition

librarian

68 views

PhyGround: Benchmarking Physical Reasoning in Generative World Models

PhyGround: Benchmarking Physical Reasoning in ...

Computer Vision and Pattern Recognition

librarian

112 views

Image Generators are Generalist Vision Learners

Image Generators are Generalist Vision Learners

Computer Vision and Pattern Recognition

Vision Banana

177 views

MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

MM-WebAgent: A Hierarchical Multimodal Web Age...

Computer Vision and Pattern Recognition

librarian

150 views

ActionParty: Multi-Subject Action Binding in Generative Video Games

ActionParty: Multi-Subject Action Binding in G...

Computer Vision and Pattern Recognition

Alexander Pondaven

187 views

No Hard Negatives Required: Concept Centric Learning Leads to Compositionality without Degrading Zero-shot Capabilities of Contrastive Models

No Hard Negatives Required: Concept Centric Le...

Computer Vision and Pattern Recognition

Hai Pham*

185 views

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Do VLMs Need Vision Transformers? Evaluating S...

Computer Vision and Pattern Recognition

librarian

187 views

SAVeS: Steering Safety Judgments in Vision-Language Models via Semantic Cues

SAVeS: Steering Safety Judgments in Vision-Lan...

Computer Vision and Pattern Recognition

librarian

179 views

DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

DreamPartGen: Semantically Grounded Part-Level...

Computer Vision and Pattern Recognition

librarian

198 views

Near-perfect photo-ID of the Hula painted frog with zero-shot deep local-feature matching

Near-perfect photo-ID of the Hula painted frog...

Computer Vision and Pattern Recognition

yoavram

285 views

Multilayer Graph Approach to Deep Subspace Clustering

Multilayer Graph Approach to Deep Subspace Clu...

Computer Vision and Pattern Recognition

lovro-sindicic

265 views

Label-independent hyperparameter-free self-supervised single-view deep subspace clustering

Label-independent hyperparameter-free self-sup...

Computer Vision and Pattern Recognition

lovro-sindicic

267 views

PersonaLive! Expressive Portrait Image Animation for Live Streaming

PersonaLive! Expressive Portrait Image Animati...

Computer Vision and Pattern Recognition

Grisha Samokhin

281 views

Mull-Tokens: Modality-Agnostic Latent Thinking

Mull-Tokens: Modality-Agnostic Latent Thinking

Computer Vision and Pattern Recognition

librarian

300 views

Linear Gaussian Bounding Box Representation and Ring-Shaped Rotated Convolution for Oriented Object Detection

Linear Gaussian Bounding Box Representation an...

Computer Vision and Pattern Recognition

rahulraj Kk

290 views

Point3R: Streaming 3D Reconstruction with Explicit Spatial Pointer
Memory

Point3R: Streaming 3D Reconstruction with Expl...

Computer Vision and Pattern Recognition

librarian

589 views

FADRM: Fast and Accurate Data Residual Matching for Dataset Distillation

FADRM: Fast and Accurate Data Residual Matchin...

Computer Vision and Pattern Recognition

librarian

539 views

HalluSegBench: Counterfactual Visual Reasoning for Segmentation
Hallucination Evaluation

HalluSegBench: Counterfactual Visual Reasoning...

Computer Vision and Pattern Recognition

librarian

623 views

Whole-Body Conditioned Egocentric Video Prediction

Whole-Body Conditioned Egocentric Video Prediction

Computer Vision and Pattern Recognition

librarian

625 views

Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven
Thinking and Visual Drawing

Reinforcing Spatial Reasoning in Vision-Langua...

Computer Vision and Pattern Recognition

librarian

684 views

Outside Knowledge Conversational Video (OKCV) Dataset -- Dialoguing over
Videos

Outside Knowledge Conversational Video (OKCV) ...

Computer Vision and Pattern Recognition

librarian

569 views

Decoupling the Image Perception and Multimodal Reasoning for Reasoning
Segmentation with Digital Twin Representations

Decoupling the Image Perception and Multimodal...

Computer Vision and Pattern Recognition

librarian

709 views

Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via
Spatial Reasoning

Direct Numerical Layout Generation for 3D Indo...

Computer Vision and Pattern Recognition

librarian

749 views

Refer to Anything with Vision-Language Prompts

Refer to Anything with Vision-Language Prompts

Computer Vision and Pattern Recognition

Shengcao Cao

733 views

Thinking with Generated Images

Thinking with Generated Images

Computer Vision and Pattern Recognition

librarian

694 views

Let Androids Dream of Electric Sheep: A Human-like Image Implication
Understanding and Reasoning Framework

Let Androids Dream of Electric Sheep: A Human-...

Computer Vision and Pattern Recognition

Anastasia Kokkanen

923 views

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

Delving into RL for Image Generation with CoT:...

Computer Vision and Pattern Recognition

librarian

691 views

Web analytics