央广网北京4月12日消息(总台中国之声记者任梦岩)据中央广播电视总台中国之声《新闻纵横》报道,近日,在某开源代码托管平台上,一款以某知名教育博主为原型的AI技能包引发关注。开发者利用人工智能技术,号称完整复刻了其说话风格、思考方式和咨询逻辑,推出所谓“某知名教育博主的认知操作系统”,可以专门回答高考志愿等问题。
这种将人的思想与风格提炼成程序的做法,被称为“人格蒸馏”。它究竟是完美还原了专家的智慧,还是仅仅披着一层风格相似的“皮”?打着“免费开源”旗号的技术实践是否涉嫌侵权?
在该开源平台上,作者“花叔”称,这条skill(技能包)是基于5本著作、15篇权威媒体深度采访、30多条一手语录、11个关键决策记录和完整人生时间线的深度调研。号称不是语录合集,是可运行的思维框架。此外,该作者还上传了郭德纲、马斯克、乔布斯等名人的模型。
记者在下载后,尝试使用该skill咨询几次高考志愿填报,发现其语言风格具有明显的“名师式表达特征”,但提供的信息并不准确,且会出现“幻觉”。比如记者以考生身份提问“理科600分想上985高校,推荐几个专业?”时,该AI在语言风格上确实模仿得惟妙惟肖,直白且带着标志性的口语化表达,但它给出的核心信息却出现了严重的“幻觉”——它竟然建议考生去报考211高校北京邮电大学的计算机专业。而该专业的分数线远超众多普通985高校专业。当记者指出这一常识性错误后,该模型立刻陷入了连连道歉的窘境。
这种所谓的“完整复刻”,仅仅停留在语言风格的浅层模仿,其提供的信息准确度与市面上的普通大模型并无二致。针对这种状况,记者试图联系该技能包的开发者“花叔”。但对方拒绝对此作出正面回应,仅表示自己只是用技术做了一个“免费开源的项目”,至于大家如何讨论和看待,他无法控制。
开发者口中这个“无法控制”的免费项目,在底层逻辑上到底是如何运作的?我们究竟该如何理解“.skill”这种技术形态?中关村信息消费技术产业联盟副理事长包冉告诉中国之声,随着AI编程技术的普及和RAG(检索增强生成架构)的成熟,极大简化了开发流程。开发者无须具备深厚的编程功底,只需用自然语言下达指令,它就能自动编写网络爬虫抓取目标人物的发言,本质上就是一个模仿脚本。
包冉表示:“这个skill,翻译过来就是技能,只不过现在是在Agent(人工智能体)的应用中,尤其是所谓的Open Claw‘龙虾’机制的普及下。其实这个词最早源于Anthropic的Claude。其推出了Claude Code这种自动编程模型,会将很多人类既有的编程技巧,先通过大语言模型的训练,形成语料库,然后再通过语料库中的API调用,复用了已经被学习训练过的人类编程能力,就称之为skill。只要某一个人有充足的数据资料留存,都可以把它送入到专业的模型进行训练,就形成了一个专家系统。”
包冉介绍,我们每个人在这个数字时代留下的痕迹,都可能成为“投喂”给大模型的语料。但值得注意的是,目前的AI并不具备真正的“理解”能力,它更像是一个极其庞大且精密的概率计算器——它通过海量语料计算上下文序列中下一个词出现的概率。但模型本身并没有对这个真实世界的理解,也缺乏人类专家那种举一反三、根据最新社会现实进行重构的能力。更重要的是,当面临训练数据不足、知识盲区时,AI不会轻易判定“我不知道”,而是会用极具逻辑性的语气,把概率上最相关的词语拼凑在一起,生成看似合理实则谬误的答案。
包冉说:“我依然对这种应用保持谨慎态度。每一个人的认知是在不断进步的,我们可以看到这位名人可能在2025年的授课内容和观点与他在2015年的时候,肯定是不一样的,他有自己的研究,同时他再将这些成果传导给他的受众。今天的生成式人工智能本质上是用超大规模的语料集来计算语义关联的概率,它是个撞概率的‘游戏’,不是真的懂了,而是从概率上分析,这两个意思挨在一起就合理,但是为什么这两个意思要挨在一起,它不知道。”
开发者称,该skill免费开源,能否在法律面前站得住脚?中国传媒大学文化产业管理学院法律系主任郑宁向记者拆解了其中的权利边界。首先,在著作权层面,法律的界定存在一定模糊地带。
郑宁说:“著作权法保护的是表达,不保护思想。像这种名人式的语言风格,除非他有一些独创性的具体表达,如果用到他的著作里的原话,或者构成实质性相似,有可能去主张著作权侵权。但是如果只是归结到思想层面,任何一个人都可以用。”
针对开发者以“免费开源”作为推托,郑宁明确表示,这并不能成为规避侵权的挡箭牌。如果模仿语言风格在著作权上尚有争议,那么在人格权益上,这种未经授权的“蒸馏”行为则触碰了清晰的红线。
侵权风险客观存在,为何各类名人的“AI分身”依然在网络上层出不穷?在技术开源的浪潮下,我们能否叫停这种“人格蒸馏”?北京大学政府管理学院教授马亮认为,随着AI工具的普及,低成本实现的复刻已成为现实,只要不越过法律红线,技术实践本身是很难被禁止的。
马亮指出,监管的真正核心在于厘清“生成”与“使用”的边界。个人在封闭环境下的技术尝试是一回事,一旦将其推向公共网络空间进行广泛传播,用于牟利甚至制造欺骗,就必须面临严厉的追责。