Roles/research_assistant/task5

task_summary.txtResearch Assistant · task5

Audit and release Li Ming's UniAlign codebase for NeurIPS, catching security, compliance, and reproduction gaps. Wed 3/18: scan code for API keys, licensing traps, and missing ablation configs. Thu 3/19: write README, apply Wang's patch, set Apache 2.0, skip the large weight. Fri 3/20: reconcile MSCOCO rerun and partial ablation.

Model Runs

5 models evaluated on this task, 3 independent runs each.

Model	Score (Avg@3)	Run 1	Run 2	Run 3
Qwen3.6 Plus Alibaba	73.5%	76.9%	66.7%	76.9%
Claude Sonnet 4.6 Anthropic	71.8%	92.3%	74.4%	48.7%
MiniMax M2.7 MiniMax	54.7%	74.4%	74.4%	15.4%
Gemini 3.1 Pro Preview Google	46.2%	46.2%	53.8%	38.5%
GPT-5.4 OpenAI	35.0%	25.6%	69.2%	10.3%

Input Files32

📝codebase/configs/table1_flickr.yaml

File	Description	Format	Stage
`code_audit_report.csv`	All issues found during codebase audit	CSV (see schema below)	Stage 0
`README.md`	Complete README for public GitHub repository	Markdown	Stage 1
`MODEL_CARD.md`	HuggingFace-style Model Card	Markdown	Stage 1
`RELEASE_NOTES.md`	Release notes with known issues	Markdown	Stage 2
`final_checklist.csv`	Final pre-release checklist with status	CSV (see schema below)	Stage 2

Column	Type	Allowed Values
`issue_id`	string	Sequential: `ISSUE-001`, `ISSUE-002`, ...
`file_path`	string	Relative path from codebase root (e.g., `train.py`)
`line_number`	integer	Line number where issue occurs (0 if N/A)
`severity`	enum	`critical`, `high`, `medium`, `low`
`category`	enum	`security`, `dead_code`, `hardcoded_path`, `missing_dependency`, `broken_link`, `config_gap`, `data_integrity`, `compliance`, `code_quality`, `import_error`
`description`	string	Brief description of the issue
`recommendation`	string	Recommended fix

Column	Type	Allowed Values
`item_id`	string	Sequential: `CHK-001`, `CHK-002`, ...
`category`	enum	`security`, `reproducibility`, `documentation`, `compliance`, `code_quality`, `dependencies`
`item`	string	Description of the check item
`status`	enum	`pass`, `fail`, `partial`, `blocked`
`notes`	string	Details, especially for non-pass items

Field	Type	Values
`task`	title	Task name
`category`	select	`code_cleanup`, `documentation`, `reproduction`, `weights`, `license`, `model_card`
`status`	select	`not_started`, `in_progress`, `completed`, `blocked`
`owner`	rich_text	Person responsible
`blocker`	rich_text	Blocker description (if any)
`notes`	rich_text	Additional notes

Column	Description
`paper_ref`	Paper Table/Figure number (e.g., `Table 1 MSCOCO`)
`script`	Script used to reproduce (e.g., `scripts/run_table1.sh`)
`config_file`	Config YAML path
`dataset`	Dataset name
`expected_metric`	Paper-reported value
`actual_output`	Actual log/run value
`consistency`	`consistent`, `inconsistent`, `pending`, `partial`
`notes`	Additional notes (e.g., tolerance, OOM issues)

Model Runs

Identity

Current Project

Your Responsibilities

Reporting

Agents

Output Specifications

Expected Outputs

code_audit_report.csv Schema

final_checklist.csv Schema

Notion release_db Fields

Google Sheet repro_sheet Columns

Output Format Guidelines

Soul

Core Traits

Working Principles

Communication Style

Tools

Available Tools

File System

Notion

Google Sheet

Email

Slack

User Profile

Supervisor: Li Ming

Communication Preferences

Authorization Boundaries