千问怎么做关键词提取和文本标签自动打标？

如果您输入一段文本，希望快速获知其中最具代表性的核心词汇，或为整段内容自动生成可理解的业务标签，则可能是由于缺乏对语义重心的自动识别能力与上下文归纳能力。以下是实现关键词提取与文本标签自动打标的多种操作路径：

一、使用Qwen3-Base模型配合指令微调提取关键词

该方法利用Qwen3-Base大语言模型的上下文理解能力，在明确指令引导下聚焦输出高相关性词汇，无需额外训练即可适配短文本场景。

1、在支持API调用的环境（如百炼平台或本地Python脚本）中加载qwen3-base模型；

2、构造用户消息：content字段填入待处理文本，system字段设置为“你是一个专业的文本分析助手，请从以下文本中提取3个最能代表主旨的中文关键词，仅输出关键词，用顿号分隔，不加解释”；

3、发起请求并接收响应，结果形如：人工智能、大模型、关键词提取；

4、若需控制关键词数量或限定词性，可在指令中追加要求，例如“仅提取名词性词语”或“不超过5个”。

该服务基于海量电商标题与类目联合训练，专为短文本（通常少于25词）设计，通过计算每个词与整句的相关性分数，精准定位语义中心词。

1、访问阿里云百炼平台，进入“模型广场”，搜索“中心词提取”或“电商标题中心词”；

2、选择已部署的中心词提取模型服务，点击“API调用”；

3、在请求体中传入JSON格式数据，包含字段text（字符串类型，值为目标文本）；

4、发送请求后，返回结构中key_words字段即为排序后的中心词列表，首项为最高相关性得分的中心词。

当文本附带图像（如商品主图、报告截图），可利用Qwen-VL的跨模态对齐能力，将视觉内容语义融入关键词生成过程，提升领域适配度。

1、准备待处理文本与对应图像文件（JPG/PNG格式）；

2、调用Qwen-VL-Instruct模型接口，输入格式为{“image”: “base64编码字符串”, “text”: “原始文本内容”}；

3、system提示词设为：“请综合图像内容与文字描述，输出3个反映图文共同焦点的关键词，仅用顿号分隔”；

4、响应中提取关键词时，模型会隐式加权图像区域显著性与文本词频，最终输出如：新能源汽车、电池续航、实拍图。

该方案先用聚类算法对海量无标签文本自动分组，再由千问大模型为每一簇生成可理解的业务标签与语义解释，实现从“类1/类2”到“物流慢”“价格争议”等高价值洞察的跃迁。

1、对原始文本集合（如客服工单、用户评论）执行K-Means聚类或LDA主题建模，获得若干文本簇；

2、对每个簇内文本拼接为一段摘要，输入千问模型，并设置system提示词：“你是一名业务分析师，请为以下文本簇生成一个不超过8字的中文业务标签，并用一句话说明该簇核心语义特征”；

3、接收输出，例如：物流慢、用户集中反馈发货延迟超72小时；

4、将所有簇的标签汇总，构建初始标签体系，用于后续分类或检索。

该方法通过控制输入文本粒度与提示词精度，提升千问AI对关键语义单元的识别率与结构化输出稳定性，适用于长文档、会议纪要、学习笔记等非结构化文本。

1、将原文按自然段或逻辑小节拆分为≤500字的独立文本块；

2、向千问输入：“请为以下文本生成3个标签，要求：1. 覆盖主体对象；2. 包含行为动词；3. 体现场景或目的；用#符号分隔”；

3、粘贴第一段文本并发送；

4、接收输出，例如：#客户投诉#系统报错#售后响应；

5、对全部段落重复执行步骤2–4，合并去重后形成完整标签集。