该职位来源于猎聘具体工作说明： 1. 实验数据标准化采集体系搭建 - 设计数字化实验记录系统：根据特定制剂流程，自定义模板，强制载体配方、工艺参数（温度、搅拌速度、交联时间）、环境条件（湿度、离子强度）按固定格式、固定单位录入。

仪器数据流的“管道化”集成：串接各种分析仪器的导出文件。 - 建立专属于聚合物-药物体系的元数据标准：定义必填项字段，确保AI训练时可被使用。 2. 多模态数据模型设计与私域数据库架构 - 结构化关系型存储（PostgreSQL）：建立存储配方、工艺参数、分析结果（包封率EE%、载药量LC%）、释放动力学时间点数值等表格数据，结构要充分体现批次、样本、重复之间的关联，并支持版本溯源。 - 非结构化/文件型数据存储：管理高光谱图像（.hdr, .dat）、释放曲线图、显微镜照片、分子模拟轨迹文件（.xtc, .trr）等大文件。 - 构建数据血缘关系图：从原始材料COA（质量合格证）、到最终产品、再到体内外评价，确保数据记录都能追溯其来源、处理流程和使用的模型版本。 3. 数据清洗、加工与特征工程支持 - 搭建自动化的数据清洗流水线（Apache Airflow/Prefect）：监控入库数据的完整性和合理性，自动处理异常缺失值、单位换算错误等。 - 生成“AI就绪”的衍生特征表：与计算材料研究员协作，将原始配方转化为可直接用于模型训练的宽表，包含已经计算好的聚合物特征、药物特征、以及二者的各种组合。确保过程版本化、可复现，每次模型训练所用的特征集完全一致。 - 管理数据标注流程：为“负载状态”分类等监督学习任务建立标注工具及接口，确保标注质量和效率。 4. 数据版本控制与AI实验可复现性 - 使用DVC（Data Version Control）等工具，对所有训练数据集进行版本快照，将数据版本号与MLflow中的模型实验自动关联。 -实现“一个命令复现模型”的数据能力：确保能够提供与特定模型训练完全相同的训练/验证/测试集分割，防止数据泄露和不公平比较。 5. 数据安全、权限与平台化交付 -设计细粒度的访问控制：建立不同角色对原始数据、脱敏数据、配方比例等有不同的读写权限，需遵守公司知识产权保护策略。 -构建数据服务层：构建标准化数据查询服务，对接 AI 模型与可视化分析平台，支持研发人员自助查询配方历史数据趋势，同时为模型推理提供实时数据支撑。任职要求学历 -硕士及以上学历，数据科学、生物信息学、化学信息学或计算机科学专业。如本科是化学/药学，硕士为数据工程优选。 -掌握数据库原理、数据仓库设计（如星型/雪花型模型）、数据治理方法论（DAMA框架或类似）。经验 - 精通Python（pandas, numPy, SQLAlchemy），熟练使用至少一种工作流调度工具（Airflow, Prefect或Dagster）。 - 熟练掌握SQL，有PostgreSQL或类似数据库的设计与优化经验；熟悉MinIO/S3对象存储、Apache Parquet等列式格式。 - 熟练使用Git及DVC，理解MLflow或Weights & Biases的数据关联机制 - 能将数据服务用Docker封装，并使用Kubernetes或Docker Compose进行内部部署（或能快速学习）。 - 具备用FastAPI/GraphQL封装数据接口，或用Streamlit搭建内部数据查询界面的能力。 - 了解ISA-Tab、Allotrope Data Format或类似生命科学数据标准化框架，能针对动脉栓塞递送系统定义合适的本地化数据模型。 - 有过处理色谱（HPLC/UPLC）、光谱（高光谱/拉曼）、图像（显微镜）等仪器原始数据格式的实战经验，知道如何从这些文件中自动提取所需数值和元数据。 - 熟悉药物制剂研发流程的数据节点：理解从材料表征、处方研究、工艺放大到体内外评价各环节会产生哪些数据及其相互关联。

私域数据库工程师

职位描述

相关

相关