Skip to main content

私域数据库工程师

Technology
科睿驰(北京)医疗科技发展有限公司
¥20,000 - ¥40,000 /月2天前截至 2026/7/24
全职

职位描述

该职位来源于猎聘 具体工作说明: 1. 实验数据标准化采集体系搭建 - 设计数字化实验记录系统:根据特定制剂流程,自定义模板,强制载体配方、工艺参数(温度、搅拌速度、交联时间)、环境条件(湿度、离子强度)按固定格式、固定单位录入。

  • 仪器数据流的“管道化”集成:串接各种分析仪器的导出文件。 - 建立专属于聚合物-药物体系的元数据标准:定义必填项字段,确保AI训练时可被使用。 2. 多模态数据模型设计与私域数据库架构 - 结构化关系型存储(PostgreSQL):建立存储配方、工艺参数、分析结果(包封率EE%、载药量LC%)、释放动力学时间点数值等表格数据,结构要充分体现批次、样本、重复之间的关联,并支持版本溯源。 - 非结构化/文件型数据存储:管理高光谱图像(.hdr, .dat)、释放曲线图、显微镜照片、分子模拟轨迹文件(.xtc, .trr)等大文件。 - 构建数据血缘关系图:从原始材料COA(质量合格证)、到最终产品、再到体内外评价,确保数据记录都能追溯其来源、处理流程和使用的模型版本。 3. 数据清洗、加工与特征工程支持 - 搭建自动化的数据清洗流水线(Apache Airflow/Prefect):监控入库数据的完整性和合理性,自动处理异常缺失值、单位换算错误等。 - 生成“AI就绪”的衍生特征表:与计算材料研究员协作,将原始配方转化为可直接用于模型训练的宽表,包含已经计算好的聚合物特征、药物特征、以及二者的各种组合。确保过程版本化、可复现,每次模型训练所用的特征集完全一致。 - 管理数据标注流程:为“负载状态”分类等监督学习任务建立标注工具及接口,确保标注质量和效率。 4. 数据版本控制与AI实验可复现性 - 使用DVC(Data Version Control)等工具,对所有训练数据集进行版本快照,将数据版本号与MLflow中的模型实验自动关联。 -实现“一个命令复现模型”的数据能力:确保能够提供与特定模型训练完全相同的训练/验证/测试集分割,防止数据泄露和不公平比较。 5. 数据安全、权限与平台化交付 -设计细粒度的访问控制:建立不同角色对原始数据、脱敏数据、配方比例等有不同的读写权限,需遵守公司知识产权保护策略。 -构建数据服务层:构建标准化数据查询服务,对接 AI 模型与可视化分析平台,支持研发人员自助查询配方历史数据趋势,同时为模型推理提供实时数据支撑。 任职要求 学历 -硕士及以上学历,数据科学、生物信息学、化学信息学或计算机科学专业。如本科是化学/药学,硕士为数据工程优选。 -掌握数据库原理、数据仓库设计(如星型/雪花型模型)、数据治理方法论(DAMA框架或类似)。 经验 - 精通Python(pandas, numPy, SQLAlchemy),熟练使用至少一种工作流调度工具(Airflow, Prefect或Dagster)。 - 熟练掌握SQL,有PostgreSQL或类似数据库的设计与优化经验;熟悉MinIO/S3对象存储、Apache Parquet等列式格式。 - 熟练使用Git及DVC,理解MLflow或Weights & Biases的数据关联机制 - 能将数据服务用Docker封装,并使用Kubernetes或Docker Compose进行内部部署(或能快速学习)。 - 具备用FastAPI/GraphQL封装数据接口,或用Streamlit搭建内部数据查询界面的能力。 - 了解ISA-Tab、Allotrope Data Format或类似生命科学数据标准化框架,能针对动脉栓塞递送系统定义合适的本地化数据模型。 - 有过处理色谱(HPLC/UPLC)、光谱(高光谱/拉曼)、图像(显微镜)等仪器原始数据格式的实战经验,知道如何从这些文件中自动提取所需数值和元数据。 - 熟悉药物制剂研发流程的数据节点:理解从材料表征、处方研究、工艺放大到体内外评价各环节会产生哪些数据及其相互关联。

Keywords
SQLAlchemyApache AirflowNumPyAirflowPostgresqlApache LicenseApache Http Server

对这个职位感兴趣吗?