GaliLeo 科学智算平台

每日论文

快照更新时间: 2026-04-16

2026-04-15

ARXIV

BLaDA: Bridging Language to Functional Dexterous Actions within 3DGS Fields

Fan Yang, Wenrui Chen +8

2026-04-15

提出BLaDA框架用于功能灵巧操作，通过多模块实现自然语言指令到操作约束的转换，实验显示其性能优于现有方法。

ARXIV

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Xianquan Yan, Hakan Akgün +3

2026-04-15

AI in scientific research is limited by lack of high - quality datasets. The paper introduces Poly2Graph to create HSG - 12M dataset, addresses gaps in graph benchmarks, and shows spectral graphs as universal topological fingerprints.

ARXIV

Turbo-DDCM: Fast and Flexible Zero-Shot Diffusion-Based Image Compression

Amit Vaisman, Guy Ohayon +3

2026-04-15

本文提出高效零样本扩散图像压缩方法Turbo - DDCM，比现有方法快且性能相当，还引入两种灵活变体，实验证明其实用灵活。

ARXIV

SceneCritic: A Symbolic Evaluator for 3D Indoor Scene Synthesis

Kathakoli Sengupta, Kai Ao +1

2026-04-15

现有大语言模型和视觉 - 语言模型生成室内场景评估存在问题，本文提出SceneCritic评估器，结合SceneOnto本体验证场景布局，通过实验表明其比基于VLM的评估器更符合人类判断，文本LLM在语义布局质量上可超越VLM，基于图像的VLM细化是最有效的评估方式。

ARXIV

Fine-Tuning LLMs for Report Summarization: Analysis on Supervised and Unsupervised Data

Swati Rallapalli, Shannon Gallagher +7

2026-04-15

研究在特定报告摘要任务中微调大语言模型（LLMs）的有效性，解决无真实摘要和计算资源有限的问题，通过实验得出微调在多方面有益的结论。

ARXIV

Variation in Verification: Understanding Verification Dynamics in Large Language Models

Yefan Zhou, Austin Xu +4

2026-04-15

本文研究生成式验证器，系统分析验证动态，得出验证有效性的三个关键发现，并揭示TTS应用中优化基本验证策略的机会。

ARXIV

Enhancing Agentic Textual Graph Retrieval with Synthetic Stepwise Supervision

Ge Chang, Jinbo Su +8

2026-04-15

提出基于LLM的文本图推理框架解决图问答子图检索问题，实验显示该方法在准确率和F1分数上有提升。

ARXIV

Retrieval as a Decision: Training-Free Adaptive Gating for Efficient RAG

Yufeng Wang, Lu wei +1

2026-04-15

提出无训练自适应检索门控（TARG）方法，通过草稿前缀对数计算不确定性分数决定是否检索，在多个问答基准测试中提升准确率与效率。

ARXIV

Understanding or Memorizing? A Case Study of German Definite Articles in Language Models

Jonathan Drechsel, Erisa Bytyqi +1

2026-04-15

研究语言模型处理德语定冠词时是基于规则泛化还是记忆，用GRADIEND方法研究发现模型至少部分依赖记忆而非规则。

ARXIV

Characterizing Human Semantic Navigation in Concept Production as Trajectories in Embedding Space

Felipe D. Toro-Hernández, Jesuino Vieira Filho +1

2026-04-15

提出将概念生成表示为嵌入空间导航的框架，用不同模型构建语义轨迹并提取指标，在多语言数据集上评估，该框架能区分临床组和概念类型，不同嵌入模型结果相似，可用于多领域。

ARXIV

Hear Both Sides: Efficient Multi-Agent Debate via Diversity-Aware Message Retention

Manh Nguyen, Anh Nguyen +3

2026-04-15

提出DAR框架解决多智能体辩论中广播消息的噪声和冗余问题，实验表明其能提升辩论性能。

ARXIV

Efficient Inference for Large Vision-Language Models: Bottlenecks, Techniques, and Prospects

Jun Zhang, Yicheng Ji +8

2026-04-15

本文针对大视觉语言模型推理效率受视觉令牌主导问题的影响，提出推理生命周期效率技术分类法，分析端到端流程，最后指出四个未来研究方向。

ARXIV

Large Language Models are Powerful Electronic Health Record Encoders

Stefan Hegselmann, Georg von Arnim +6

2026-04-15

将电子健康记录（EHR）数据转换为纯文本，使通用大语言模型（LLM）在不访问私人医疗训练数据的情况下为下游预测任务生成高维嵌入，其表现与专业EHR基础模型相当，且在外部验证中部分任务有显著改进，揭示了专业EHR模型计算效率与LLM嵌入可移植性和数据独立性的权衡。

ARXIV

Gradient boundaries through confidence intervals for forced alignment estimates using model ensembles

Matthew C. Kelley

2026-04-15

本文介绍了一种利用神经网络集成生成梯度边界的强制对齐方法，该方法能更真实地表示音段过渡，还体现模型不确定性，在语料上比单模型有轻微提升，且能输出多种格式文件。

ARXIV

SeedPrints: Fingerprints Can Even Tell Which Seed Your Large Language Model Was Trained From

Yao Tong, Haonan Wang +3

2026-04-15

现有大语言模型指纹识别方法在预训练阶段不可靠，本文提出SeedPrints方法，利用随机初始化偏差作为持久标识符，在各训练阶段有效，实验验证其鲁棒性。

ARXIV

Public Profile Matters: A Scalable Integrated Approach to Recommend Citations in the Wild

Karan Goyal, Dikshant Kukreja +2

2026-04-15

提出Profiler模块高效无偏捕捉人类引用模式，引入严格归纳评估设置，推出DAVINCI重排序模型，在多基准数据集达新SOTA。

ARXIV

A Workflow to Efficiently Generate Dense Tissue Ground Truth Masks for Digital Breast Tomosynthesis

Tamerlan Mustafaev, Oleg Kruglov +7

2026-04-15

提出节省时间和人力的框架为DBT图像生成致密组织分割掩码，减少标注时间和人力，评估显示有较高的一致性和准确性。

ARXIV

The Second Challenge on Cross-Domain Few-Shot Object Detection at NTIRE 2026: Methods and Results

Xingyu Qiu, Yuqian Fu +72

2026-04-15

NTIRE 2026举办第二届跨域少样本目标检测挑战赛，吸引众多参与者，报告介绍挑战赛情况、提交方法及最终结果。

ARXIV

OpenTME: An Open Dataset of AI-powered H&E Tumor Microenvironment Profiles from TCGA

Maaike Galama, Nina Kozar-Gillan +19

2026-04-15

介绍OpenTME开放数据集，其源于TCGA的五种癌症H&E染色全切片图像，用AI应用生成细胞级分辨率定量结果，可用于非商业学术研究并将持续扩展。

ARXIV

Beyond Perception Errors: Semantic Fixation in Large Vision-Language Models

Md Tanvirul Alam

2026-04-15

研究大视觉语言模型语义固着问题，引入VLM - Fix基准测试，测试多种模型发现语义固着差距，提示干预、训练方式有不同效果，在外部验证中呈现相似模式，后期激活引导可部分恢复性能。

ARXIV

AniGen: Unified $S^3$ Fields for Animatable 3D Asset Generation

Yi-Hua Huang, Zi-Xin Zou +7

2026-04-15

提出AniGen框架，可根据单张图像直接生成可动画的3D资产，在 rig 有效性和动画质量上优于现有方法。

ARXIV

IMU: Influence-guided Machine Unlearning

Xindi Fan, Jing Wu +4

2026-04-15

提出影响引导的机器遗忘方法IMU，仅用遗忘集进行机器遗忘，通过影响函数分配遗忘强度，实验显示其能有效克服效用 - 遗忘权衡。

ARXIV

SynthPix: A lightspeed PIV image generator

Antonio Terpin, Alan Bonomi +2

2026-04-15

介绍基于JAX实现的用于粒子图像测速（PIV）的合成图像生成器SynthPix，可实时生成图像，适用于多种场景，支持系统鲁棒性评估。

ARXIV

GigaCheck: Detecting LLM-generated Content via Object-Centric Span Localization

Irina Tolstykh, Aleksandra Tsybina +4

2026-04-15

随着大语言模型助手生成内容增多，检测方法发展慢，提出GigaCheck框架用于AI生成文本检测，实验验证其有效性并公开代码。

ARXIV

Joint Flashback Adaptation for Forgetting-Resistant Instruction Tuning

Yukun Zhao, Lingyong Yan +5

2026-04-15

针对大语言模型增量学习新任务时的灾难性遗忘问题，提出联合闪回适应方法，实验证明该方法能提升新任务泛化能力并减少旧任务遗忘。

ARXIV

DyBBT: Dynamic Balance via Bandit-inspired Targeting for Dialog Policy with Cognitive Dual-Systems

Shuyu Zhang, Yifan Wei +5

2026-04-15

提出DyBBT对话策略学习框架，通过结构化认知状态空间解决任务导向对话系统静态探索策略问题，实验显示其性能达最优，决策获人类评估认可。

ARXIV

Instructions are all you need: Self-supervised Reinforcement Learning for Instruction Following

Qingyu Ren, Qianyu He +6

2026-04-15

提出无标签自监督强化学习框架解决语言模型遵循多约束指令难题，实验显示在多个数据集上有显著提升。

ARXIV

Reasoning about Intent for Ambiguous Requests

Irina Saparina, Mirella Lapata

2026-04-15

提出生成结构化响应处理模糊请求，通过强化学习训练模型，实验表明该方法比基线方法有更高有效答案覆盖率，且通过人工评估。

ARXIV

CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs

Yuanxiang Liu, Songze Li +5

2026-04-15

针对大语言模型推理可靠性问题及知识图谱增强大语言模型的认知僵化问题，提出无训练框架CoG，实验显示其在准确性和效率上优于现有方法。

ARXIV

Using Learning Progressions to Guide AI Feedback for Science Learning

Xin Xia, Nejla Yuruk +2

2026-04-15

研究对比由专家编写的任务评分标准和由学习进展自动生成的评分标准所引导的AI反馈质量，发现两者无显著差异，LP驱动的评分标准管道可作为替代方案。

ARXIV

KG-Hopper: Empowering Compact Open LLMs with Knowledge Graph Reasoning via Reinforcement Learning

Shuai Wang, Yinan Yu

2026-04-15

现有大语言模型处理知识密集型推理任务有困难，本文提出KG - Hopper框架，让紧凑开放大模型在单轮推理中进行多跳知识图谱推理，实验显示其性能良好。

ARXIV

Graph-Based Chain-of-Thought Pruning for Reducing Redundant Reflections in Reasoning LLMs

Hongyuan Yuan, Xinran He +7

2026-04-15

本文指出通过强化学习扩展思维链（CoT）会导致冗余推理问题，提出基于图的CoT优化框架，经实验验证可减少推理标记且保持或提升准确率。

ARXIV

On the Mathematical Relationship Between Layer Normalization and Dynamic Activation Functions

Felix Stollenwerk

2026-04-15

本文研究层归一化（LN）与动态激活函数的数学关系，从RMSNorm推导DyT，提出精确对应RMSNorm的DyISRU，且DyISRU对异常值归一化效果更优。

ARXIV

ZipVoice-Dialog: Non-Autoregressive Spoken Dialogue Generation with Flow Matching

Han Zhu, Wei Kang +12

2026-04-15

提出非自回归零样本口语对话生成模型ZipVoice - Dialog，引入适配方法和策略，创建数据集OpenDialog及评估基准，实验证明其性能优越且相关资源公开。

ARXIV

Revisiting the Reliability of Language Models in Instruction-Following

Jianshuo Dong, Yutong Zhang +5

2026-04-15

研究大语言模型细微差别导向的可靠性，引入新指标，构建IFEval++评估，发现模型在此方面不足并探索改进方法。

ARXIV

WikiSeeker: Rethinking the Role of Vision-Language Models in Knowledge-Based Visual Question Answering

Yingjian Zhu, Xinming Wang +4

2026-04-15

本文提出多模态检索增强生成框架WikiSeeker，重新定义视觉语言模型作用，在多个数据集实验中取得了先进性能。

ARXIV

EigenCoin: sassanid coins classification based on Bhattacharyya distance

Rahele Allahverdi, Mohammad Mahdi Dehshibi +2

2026-04-15

本文探讨用不平衡数据库解决模式识别问题，以萨珊王朝硬币分类为例，提出EigenCoin流形结合Bhattacharyya距离进行分类，测试整体和基于特征的方法，实验显示EigenCoin表现优于其他算法，能处理过拟合问题。

ARXIV

Curvelet-Based Frequency-Aware Feature Enhancement for Deepfake Detection

Salar Adel Sabri, Ramadhan J. Mstafa

2026-04-15

针对深度伪造检测，提出基于Curvelet变换的检测方法，结合楔形注意力和尺度感知空间掩码提升特征质量，在FaceForensics++数据集上验证了有效性和可解释性。

ARXIV

INST-Align: Implicit Neural Alignment for Spatial Transcriptomics via Canonical Expression Fields

Bonian Han, Cong Qi +2

2026-04-15

提出INST - Align无监督成对框架，用于空间转录组多切片联合对齐和重建，在多个数据集上取得良好效果，还能产生有生物学意义的空间嵌入和连贯3D组织重建。

ARXIV

ViLL-E: Video LLM Embeddings for Retrieval

Rohit Gupta, Jayakrishnan Unnikrishnan +4

2026-04-15

提出ViLL - E架构，采用三阶段训练方法，提升视频定位、检索等任务表现，解锁零样本能力。

ARXIV

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

Sicheng Fan, Rui Wan +5

2026-04-15

介绍WebChain数据集，提出Dual Mid - Training方法，在相关基准测试中达SOTA，为构建和评估下一代可扩展网络代理提供数据和见解。

ARXIV

SecureWebArena: A Holistic Security Evaluation Benchmark for LVLM-based Web Agents

Zonghao Ying, Yangguang Shao +9

2026-04-15

提出首个评估基于大视觉语言模型（LVLM）的网络代理安全性的全面基准工具 ool{}，对9个代表性LVLMs进行实验，揭示模型漏洞及专业化与安全性的权衡。

ARXIV

RePAIR: Interactive Machine Unlearning through Prompt-Aware Model Repair

Jagadeesh Rachapudi, Pranav Singh +3

2026-04-15

提出交互式机器遗忘（IMU）范式，介绍RePAIR框架及STAMP方法，实验表明RePAIR在去除有害知识等方面表现出色，是有效的用户驱动模型编辑框架。

ARXIV

Speaker effects in language comprehension: An integrative model of language and speaker processing

Hanlin Wu, Zhenguang G. Cai

2026-04-15

本文探讨说话者效应，提出语言与说话者处理的整合模型，区分不同说话者效应，还指出其对评估语言发展和社会认知的作用，并鼓励将研究拓展到人工智能说话者领域。

ARXIV

Advancing Multi-Agent RAG Systems with Minimalist Reinforcement Learning

Yihong Wu, Liheng Ma +8

2026-04-15

针对大语言模型在多轮交互中长上下文处理难题，提出Mujica - MyGo框架，经实验验证性能优越。

ARXIV

Benchmarking Foundation Models with Retrieval-Augmented Generation in Olympic-Level Physics Problem Solving

Shunfeng Zheng, Yudi Zhang +5

2026-04-15

研究RAG在基础模型中提升物理推理能力，引入Olympiad级物理数据集PhoPile进行基准测试，发现结合检索可提升模型性能但仍有挑战。

ARXIV

CoRoVA: Compressed Representations for Vector-Augmented Code Completion

Daria Cherniuk, Nikita Sukhorukov +5

2026-04-15

提出CoRoVA框架压缩代码上下文，减少提示增强，提高代码大语言模型预测质量，降低TTFT。

ARXIV

Olmo 3

Team Olmo, Allyson Ettinger +66

2026-04-15

介绍了7B和32B参数规模的Olmo 3语言模型家族，涵盖模型全流程，旗舰模型Olmo 3 Think 32B是目前最强全开源思考模型。

ARXIV

Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models

Hengyuan Zhang, Zhihao Zhang +27

2026-04-15

本文针对现有机械可解释性（MI）综述缺乏可操作干预框架的问题，提出“定位、引导、改进”的实用框架，可用于模型优化。

ARXIV

KCLarity at SemEval-2026 Task 6: Encoder and Zero-Shot Approaches to Political Evasion Detection

Archie Sage, Salvatore Greco

2026-04-15

KCLarity团队参与CLARITY共享任务，研究两种建模方式，探索辅助训练变体，评估零样本设置下的模型，两种建模方式性能相当，不同模型在不同测试集表现不同。

ARXIV

Sparse Growing Transformer: Training-Time Sparse Depth Allocation via Progressive Attention Looping

Yao Chen, Yilong Chen +10

2026-04-15

现有Transformer增加有效深度方法有计算冗余问题，提出Sparse Growing Transformer（SGT）框架，可渐进分配深度，实验显示其性能优于基线且减少训练FLOPs开销。

ARXIV

AGSC: Adaptive Granularity and Semantic Clustering for Uncertainty Quantification in Long-text Generation

Guanran Luo, Wentao Qiu +5

2026-04-15

大语言模型在长文本生成中存在幻觉问题，现有不确定性量化方法有缺陷，本文提出AGSC框架，实验显示其与事实性相关性达最优且推理时间减少约60%。

ARXIV

AAPO: Enhancing the Reasoning Capabilities of LLMs with Advantage Margin

Jian Xiong, Jingbo Zhou +3

2026-04-15

现有基于强化学习的大语言模型推理能力增强方法存在训练效率问题，本文提出AAPO算法解决该问题，实验证明其性能优越。

ARXIV

League of LLMs: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models

Qianhong Guo, Wei Xie +8

2026-04-15

提出League of LLMs (LOL)评估范式，组织多LLM进行多轮互评，实验证明其能有效区分LLM能力，还揭示传统范式难捕捉的现象，框架和代码公开。

ARXIV

ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

Yandan Yang, Shuang Zeng +12

2026-04-15

提出ABot - M0框架，构建数据处理管道，创建UniACT数据集，提出动作流形假设和AML方法，支持模块化感知，实验有积极结果并将开源。

ARXIV

UniMark: Unified Adaptive Multi-bit Watermarking for Autoregressive Image Generators

Yigit Yilmaz, Elena Petrova +3

2026-04-15

提出一种无训练、统一的自回归图像生成水印框架，解决现有方法的局限，实验证明其性能达到先进水平。

ARXIV

Fall Risk and Gait Analysis in Community-Dwelling Older Adults using World-Spaced 3D Human Mesh Recovery

Chitra Banarjee, Patrick Kwon +4

2026-04-15

提出利用3D人体网格恢复模型从老年人定时起立行走测试视频中提取步态参数的流程，发现视频提取的步时与IMU鞋垫测量值显著相关，且步长、起坐时间与自我评估跌倒风险有关，该流程可用于社区步态分析。

ARXIV

Does Visual Token Pruning Improve Calibration? An Empirical Study on Confidence in MLLMs

Kaizhen Tan

2026-04-15

研究视觉标记剪枝对多模态大语言模型校准的影响，发现剪枝并非简单用可靠性换效率，应同时考虑置信度质量评估剪枝。

ARXIV

PC-MIL: Decoupling Feature Resolution from Supervision Scale in Whole-Slide Learning

Syed Fahim Ahmed, Gnanesh Rasineni +8

2026-04-15

传统全切片图像（WSI）分类的滑动级多实例学习（MIL）存在局限性，本文提出渐进上下文MIL（PC - MIL）框架，在多个公共数据集上验证其能提升跨上下文性能和稳定准确率。

ARXIV

Domain-Specific Latent Representations Improve the Fidelity of Diffusion-Based Medical Image Super-Resolution

Sebastian Cajas, Ashaba Judith +9

2026-04-15

研究表明医学图像超分辨率潜在扩散模型中，通用变分自编码器限制重建质量，用MedVAE替换可提升PSNR，且重建保真度和生成幻觉由独立组件控制，可通过自编码器重建质量预测下游超分辨率性能。

ARXIV

FAST-DIPS: Adjoint-Free Analytic Steps and Hard-Constrained Likelihood Correction for Diffusion-Prior Inverse Problems

Minwoo Kim, Seunghyeok Shin +1

2026-04-15

提出一种免训练求解器，用硬测量空间可行性约束和解析最优步长替代内循环，实现每噪声水平固定计算量，实验有速度提升和竞争力指标。

ARXIV

FaCT: Faithful Concept Traces for Explaining Neural Network Decisions

Amin Parchami-Araghi, Sukrut Rao +2

2026-04-15

本文强调基于概念解释的忠实性，提出具有模型内在机制概念解释的新模型，并提出概念一致性指标C² - Score，新模型概念更一致、更具可解释性，且在ImageNet上表现有竞争力。

ARXIV

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

Yaxuan Li, Yuxin Zuo +9

2026-04-15

本文系统研究大语言模型策略内蒸馏（OPD）的训练动态和机制，确定OPD成功或失败的条件，验证相关发现，探究标记级机制，提出恢复失败OPD的策略，并提出OPD在长程蒸馏中可扩展性的问题。

ARXIV

AdaMCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Multilingual Chain-of-Thought

Weihua Zheng, Xin Huang +8

2026-04-15

本文提出AdaMCOT框架，通过动态路由思维过程提升多语言事实推理能力，评估显示在多基准测试中表现良好，能缩小高低资源语言性能差距。

ARXIV

Towards EnergyGPT: A Large Language Model Specialized for the Energy Sector

Amal Chebbi, Babajide Kolade

2026-04-15

本文介绍针对能源领域的专业语言模型EnergyGPT，通过微调LLaMA 3.1 - 8B模型开发，采用两种适配策略，展示完整开发流程，评估显示其在能源相关任务上表现优于基础模型，LoRA变体训练成本低。

ARXIV

LLM as Attention-Informed NTM and Topic Modeling as long-input Generation: Interpretability and long-Context Capability

Xuan Xu, Zhongliang Yang +6

2026-04-15

研究从白盒和黑盒视角探讨基于大语言模型（LLM）的主题建模，白盒提出注意力框架，黑盒引入信号补偿方法，实验表明有良好效果，揭示LLM与神经主题模型（NTM）联系。

ARXIV

Why Did Apple Fall: Evaluating Curiosity in Large Language Models

Haoyu Wang, Sihang Jiang +5

2026-04-15

本文从人类好奇心评估问卷出发设计评估框架，评估大语言模型好奇心，发现其求知欲强但面对不确定环境较保守，好奇行为能提升推理和主动学习能力，为其学习能力发展和创新研究提供支持。

ARXIV

Double: Breaking the Acceleration Limit via Double Retrieval Speculative Parallelism

Yuhao Shen, Tianyu Liu +5

2026-04-15

提出Double框架解决Parallel Speculative Decoding的局限，实现无训练无损加速，实验显示在LLaMA3.3 - 70B和Qwen3 - 32B上有显著加速效果。

ARXIV

PILOT: Planning via Internalized Latent Optimization Trajectories for Large Language Models

Haoyu Zheng, Yun Zhu +5

2026-04-15

紧凑大语言模型缺乏制定全局策略能力，易导致长任务错误传播。提出PILOT框架，利用轻量级超网络合成潜在引导向量，实验表明其能稳定推理轨迹且优于基线模型。

ARXIV

How Psychological Learning Paradigms Shaped and Constrained Artificial Intelligence

Alex Anvi Eponon, Ildar Batyrshin +2

2026-04-15

当前人工智能系统在系统性组合推理方面存在问题，根源在于架构，本文分析其起源并提出ReSynth框架解决问题。

ARXIV

StoryScope: Investigating idiosyncrasies in AI fiction

Jenna Russell, Rishanth Rajendhran +3

2026-04-15

提出StoryScope管道分析AI与人类故事的叙事特征，发现叙事结构差异可区分两者，AI故事叙事集中，人类故事更多样。

ARXIV

OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning

Pan Lu, Bowen Chen +4

2026-04-15

本文提出无训练、易用且易扩展的多智能体框架OctoTools解决复杂推理任务，在16个任务上验证其通用性，相比GPT - 4o有9.3%的平均准确率提升，也优于其他工具。

ARXIV

SEW: Self-Evolving Agentic Workflows for Automated Code Generation

Siwei Liu, Jinyuan Fang +3

2026-04-15

提出Self - Evolving Workflow (SEW)框架以自动生成和优化多智能体工作流，在编码基准数据集上实验表明能自动设计工作流并优化，相比仅用骨干大语言模型有提升，还研究了工作流表示方案。

ARXIV

Safe-SAIL: Towards a Fine-grained Safety Landscape of Large Language Models via Sparse Autoencoder Interpretation Framework

Jiaqi Weng, Han Zheng +7

2026-04-15

本文提出Safe - SAIL框架用于解释安全关键领域的稀疏自编码器（SAEs）特征，降低解释成本，训练了含解释和评估的SAEs，公开相关资源。

ARXIV

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Kwanghee Choi, Eunjung Yeo +3

2026-04-15

对96种语言的自监督语音模型（S3Ms）表征的底层结构进行研究，发现模型表征空间存在对应语音特征的线性方向，语音向量规模与语音特征声学实现程度连续相关，证明S3Ms使用可语音解释和组合的向量编码语音。

ARXIV

MedConcept: Unsupervised Concept Discovery for Interpretability in Medical VLMs

Md Rakibul Haque, KM Arefeen Sultan +2

2026-04-15

现有医学视觉 - 语言模型（VLMs）潜在表征不透明，当前可解释性方法有局限，本文提出MedConcept框架挖掘潜在医学概念，并引入定量语义验证协议评估可解释性。

ARXIV

Ultra-low-light computer vision using trained photon correlations

Mandar M. Sohoni, Jérémie Laydevant +8

2026-04-15

本文展示了如何在混合光电子计算机视觉管道中利用相关光子照明进行目标识别，提出了相关感知训练（CAT）方法，在低光和噪声成像条件下提高了分类准确率。

ARXIV

Privacy-Preserving Structureless Visual Localization via Image Obfuscation

Vojtech Panek, Patrik Beliansky +2

2026-04-15

本文探讨隐私保护下的无结构视觉定位方法，采用简单图像混淆方法，实现易实施的定位流程，在多数据集上达到隐私保护方法的最优姿态精度。

ARXIV

HTDC: Hesitation-Triggered Differential Calibration for Mitigating Hallucination in Large Vision-Language Models

Xinyun Liu

2026-04-15

大视觉语言模型存在幻觉问题，现有免训练解码方法有缺陷，提出HTDC框架减少幻觉且保持任务准确率。

ARXIV

VidTAG: Temporally Aligned Video to GPS Geolocalization with Denoising Sequence Prediction at a Global Scale

Parth Parag Kulkarni, Rohit Gupta +2

2026-04-15

提出VidTAG双编码器框架进行视频地理定位，引入TempGeo和GeoRefiner模块，在多个数据集上表现优于基线模型，实现细粒度视频地理定位。