基于大小模型协同的文本数据自动标注

提出"大模型初标-小模型筛选-人工复核"协同机制，实现高效低成本的文本数据自动标注，显著降低人工标注成本约 80%-90%。

hub

核心创新

psychology

大模型初标

利用大语言模型（LLM）的强大生成能力进行冷启动，通过上下文学习实现零样本/少样本自动标注。

filter_alt

小模型筛选

引入高斯混合模型进行置信度评估，筛选高质量标注样本，实现知识蒸馏与迭代优化。

support_agent

人工复核

仅对低置信度样本进行人工修正，人力成本仅占约5%，大幅降低标注总成本。

系统界面

任务配置界面

首页

任务配置界面

支持标注任务参数设置、标签体系选择等功能

标注可视化界面

大模型标注过程实时可视化展示

质量筛选界面

小模型筛选结果与置信度展示

效果统计界面

标注质量评估与迭代效果分析

系统架构

用户界面层

任务配置、标注可视化、效果统计、人工修正等交互功能

自动标注模型层

大模型标注、小模型筛选、人工辅助、迭代控制

数据装配层

语料管理、提示模板库、大小模型接口管理

分布式部署

已部署至分布式集群，支持中大规模文本数据处理

项目成果

软件著作权

自动标注系统

系统已成功申请软件著作权（登记号：2025SR0655543），功能完整，具备实用能力。

学术论文

CORAL 论文发表

研究成果在 ACM 期刊发表，提出基于大语言模型的协作式自动标注系统 CORAL。

顶会论文

EMNLP 论文发表

《Multi-Agent Managed Multi-Source Annotation System》在 EMNLP 期刊发表。

顶会论文

AAAI 论文发表

《Dual Graph Disambiguation for Multi-Instance Partial-Label Learning》在 AAAI 发表。

发表论文

ACM Journal

CORAL: Collaborative Automatic Labeling System based on Large Language Models

LLM AutoLabel Collab

EMNLP

Multi-Agent Managed Multi-Source Annotation System

Multi-Agent Annotation

AAAI

Dual Graph Disambiguation for Multi-Instance Partial-Label Learning

Partial-Label Graph