a.内容描述

  • 核心功能定位:该项目是一个专注于抽象推理能力的测试平台,旨在评估人工智能系统或人类在解决新颖任务时展现的通用推理能力。其设计理念源于将认知科学原理转化为可量化的计算任务,可作为衡量通用人工智能的基准测试工具。
    • 关键应用场景
    1. AI系统评估:作为衡量机器学习模型抽象推理能力的标准化测试,尤其关注对未知任务的零样本泛化能力。
    1. 人类认知测试:通过可视化交互界面,允许人类参与者挑战与AI相同的认知任务,形成跨物种的智力对比研究。

b.功能特性

  • 核心功能点
    1. 任务数据集:包含800个结构化JSON任务(400训练/400测试),每个任务由输入输出网格对构成,网格为0-9整数矩阵(1x1至30x30尺寸)。
    1. 交互式测试界面:提供网格编辑工具(调整尺寸、符号填充、选区操作)、答案验证和任务切换功能,支持浏览器端直接操作。
    1. 标准化评估协议:严格定义解决标准(3次尝试内输出完全匹配的网格),确保评估一致性。
  • 差异化特性
    • 双模态评估:同时面向人类和AI系统,支持跨维度能力对比。
    • 认知先验隔离:通过训练/测试集分离,强制测试"开发者未知任务"的解决能力。

d.使用说明

  1. 数据加载:通过浏览器打开本地HTML测试界面,加载JSON格式任务文件。
    1. 任务解决流程
    • 观察左侧的示例输入输出对,理解任务规律。
    • 在中间区域编辑测试输入的输出网格,使用右侧工具栏(调整尺寸、符号填充、选区复制粘贴)。
    • 通过"Submit!"按钮验证答案,允许最多3次尝试。
    1. 高级操作
    • 快捷键支持:C/V键实现选区复制粘贴。
    • 洪水填充工具:快速填充连通区域。

e.潜在新需求

  1. 需求1:用户希望增加网格单元格的数字显示功能,以辅助色觉障碍者识别颜色编码。
    1. 需求2:用户期望支持通过Docker容器化部署测试界面,简化运行环境配置流程。
    1. 需求3:用户建议扩展任务生成工具,允许自定义创建新推理任务并贡献到数据集。

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)