resume.html
熊晔颖
AI Native 算法工程师
whuvinexio@gmail.com
(+86) 185-1823-6336
Github@VineINDalvik
个人总结

本人工作及在校期间认真负责、行动及自驱力强,信仰不设限的终身学习、热衷探索和解决有价值且有趣的问题、助人成长。寻找多模态大模型、机器学习等相关岗位。

教育背景
北京邮电大学,计算机技术,工程硕士
武汉大学,软件工程,工学学士
武汉大学,市场营销,辅修
工作经历
Urbanic,AI Native 算法工程师
负责跨境女装电商趋势分析多模态模型、AI 模特生成和换脸研发,2024.12 起远程兼职顾问接入
  • 图搜系统优化:构建自研图搜系统替代阿里云图搜,通过 GroundingDINOv2 + SegFormer 主体识别与类目路由优化,提升搜索转化率与 GMV。一期主体识别优化(已上线):非成衣 F1:0.608→0.780 (+28.3%),UCVR 环比 IN +14.68% (4.77%→5.47%),IQ +14.55% (8.04%→9.21%);二期系统优化(AB 实验):图搜 GMV +9.54%,UV 转化率 +7.6%;Find Similar GMV +18.57%,UV 转化率 +23.77%
  • 基于多模态商品理解模型的趋势分析:设计基于 BLIP-2 ITM 的 16 属性商品理解模型,将女装 Category 识别从 34 个类别扩展到 143 个类别(F1=93.57%),关键设计元素 Design Detail 多标签分类 F1=84.68%, 利用 GPT-4 进行数据重标(Neckline F1+25.5%,Length F1+12.6%);结合模型和 GPT4 通过对多个女装品牌和时尚秀场的多源分析洞察市场趋势,为季节性爆款设计提供参考
  • AI 模特生成和换脸:研发基于 ComfyUI 的文生图/图生图的模特生成和换脸工作流,确立用于 Prompt 的人脸标签体系;生图流程集成 FLUX+IP-Adapter 生成高级感多样性人脸,SD1.5 后处理增强照片真实感,IC-Light 用于肤色提亮,采用 FaceID 一致性约束将输出与参考图/提示对齐;素人模特换脸利用 PuLID 进行面部特征编码、集成 Canny ControlNet 模块来解决面部朝向,局部(头部)重绘提升人脸清晰度;适配如大码/甜美/运动/性感/冷酷等风格,大幅降低模拍成本,收获内部摄影/买手/品牌运营团队好评,对比真人模特 PV-CTR 稳定提升 10% 左右
字节跳动 | TikTok,机器学习算法工程师
负责广告内容的多模态大模型预训练和微调,内部标注平台的人力效率和精度提升,含英语沟通
  • 基于多模态预训练的广告违规类别推荐:1、设计标注平台的 Top-N 推荐模型(~ 200 标签),百万量级数据训练,基于图片、文本等预训练大模型特征和视频、音频 Embedding 等内容特征,聚合广告主基础信息/风险信息/行业、一阶段垂类模型命中情况、投放市场等分桶特征,KL Loss 进行多标签分类的 Transformer 模型;2、多模态预训练:基于广告/直播等多模态无监督数据构建千万级视觉-融合文本对,基于 CLIP+ 分类 +MLM 进行对比学习,并在业务数据进行微调后固定用于适应下游推荐/分类/检索任务;为解决冷启动及长尾类别性能不佳,在前者多模态分类粗召基础上加入对比学习进行精排;3、持续完善推荐系统。设计关键上线指标,构建实验看板,交互改进,埋点等辅助归因;离线线上特征对齐,模型自动迭代,动态标签更新等机制;将模型从视频拓展到落地页、广告创意全市场,人力提效 9%,标注精度提升 3.8%
  • 广告行业 GPT 分类模型:1、设计基于 LLaVA 的广告行业分类(800+ 标签)模型,百万级业务数据微调,Swin-T 提取图片/视频特征,将类别作为 special token 编码到 Prompt,基于 Video-LLaMA 和 Vicuna 生成 reason 进行 CoT 推理,利用层级类别关系设计多层类别预测和多轮对话,进行数据清洗和重标提升数据质量,overall F1 提升 6.7%;2、Prompt Engineering:为提升头部类别性能,设计结合多模态分类模型的两阶段 Top-N 精排实验 (改进 Prompt),相关类别 F1 提升 1.3%;通过 GPT4 二分类修正 label 和生成更准确的 CoT,微调 Yi-VL,相关类别 F1 提升 5%+
  • 广告/直播精排:为提高风险召回能力,在一阶段垂类粗召模型之后引入精排,利用特征重要性分析,基于 MMT 模型融合内容 Embedding 和分桶特征,改进特征 Pooling(LOUPE)、MoE 等结构,设计风险 Soft 标签减少数据噪音,完善模型自动迭代,降低大盘标注量 2.5%,提升召回 9%
  • 多模态风险粗召:基于 TextCNN、BERT 等模型构建举报评论和高危风险相关性的文本分类模型,根据线上精确/召回率情况迭代多个风险类别的多模态、基于 Shuffle-T 的图片多分类模型
阿里巴巴达摩院 | Alibaba Damo Academy,高级算法工程师
视觉算法研发与落地,担任部分项目 1 号位
  • 单目 3D 目标检测:1、基于 YOLO-v3 对监控视频中车辆进行三维包围框检测,融合角度、角点坐标回归、分类等多任务学习,借鉴 Anchor-free 检测方法中的 corner pooling 进行角点自由度约束,利用相邻帧 motion 增强、基于车辆的刚体特性使用全车辆位置-3D 检测框宽度及偏航角回归关系进行精细化修正;2、数据生成上使用 GTA 生成百万模拟数据,实现交通数据 3D 自动化标注,结合两者使用 CC-SSL 策略混合训练,结果相比 LiDAR 方法实现了更低成本的感知,达到与 2D 检测相当的召回;3、采用 3D 检测框底面与车辆物理信息结合,还原道路真实距离与像素对应关系,实现道路建模,结合道路已知标线支持车速计算,在全场景实现 15% 以上的提升
  • 车辆异常行为检测:设计两阶段的车辆异常行为检测算法。首先基于交通数据集训练的 RetinaNet 与背景建模结合,实现静态候选目标提取,在此基础上进一步通过异常轨迹刻画的车辆行为及关系、以及针对远处拥堵 ROI 进行精细化检测,结合道路建模实现车辆间距计算,聚类异常行为的车辆 cluster,降低了因为上游检测和跟踪导致的误差干扰,实现 F1 线上提升 20% 以上
  • 车流量统计:设计基于轨迹的过线算法,针对跟踪不稳定问题对车道进行自适应的 N-crossing 计算,结合半自动化轨迹相似度计算解决路口转向问题,落地高速、城市道路等场景,参加 NVIDIA AI City Challenge 2021 取得 score=91.57%
  • 特殊车型小样本识别:对特殊车型进行小样本识别,引入 PAM 和 CAM 等注意力模块关注头尾、后车厢等关键区分特征,采用 triplet/center loss 和 label smoothing 增大类间距离缩小类内差异,使用 Multi-Task 学习实现多层级类别标签
  • 路面分割:基于 HRNet-OCR 对摄像头画面进行语义分割,检测车辆可行驶区域,目前实现在 Cityscapes 数据集上 road 类别 IoU=97.39%
Amazon Lab126,算法实习生
Human Orientation Estimation,与海外 mentor 和实习生合作
  • 融合多个人体姿态、行为识别等公开数据集,利用相机内外参进行角度计算生成人体朝向 GT,设计并实验基于多种主流 Backbone 的人体朝向回归模型,对最初直接对图片进行人体朝向分类的方法进行改进,使用 hourglass 网络进行多尺度的人体关键点检测,基于关键点 +MLP 网络计算朝向
地平线 | Horizon Robotics,算法实习生
数据平台目标检测实现自标注,支持安防 + 自动驾驶业务
  • 复现 FasterRCNN COCO 指标并基于业务数据训练,基于模型生成的检测框人工微调实现精细标注,打通线上安防 + 自动驾驶数据模型辅助标注链路,实现并推广组内通用目标检测评测工具
项目经历
Ignite - AI 全链路电商助手
  • 淘宝中小商家 AI 新品全链路工具,集成选品/上架/定价/评价/推广/促销六大 Skill,通过自研聚类引擎与运筹学定价实现 GMV 最大化
ClarityX - 会议室AI决策硬件终端
  • 实时语音转写 + AI 决策分析的SaaS+会议室硬件终端,通过多轮对话、观点提取、共识生成算法帮助团队从争论走向决策,深度集成知识库与办公套件(飞书等)
赛博神算子 - AI 占卜应用
  • AI 塔罗/周易占卜应用,定位娱乐+心理科普,设计合规路由机制确保安全边界
毒舌品味官 - MBTI 互动平台
  • 用户品味测评与 MBTI 交叉分析的社交平台,通过 AI 生成个性化点评内容,驱动高频互动与分享
流场数据的生成、表示和特征提取,毕业论文
  • 阅读 Tecplot 相关流体力学资料,基于流场数据实现多种输入格式生成(2D 映射、点云、体素化),使用聚类、AutoEncoder、GAN 多种变体等无监督学习方法进行数据扩增,使用 FCN 微调回归像(体)素对应的压强及温度值,采用弱监督学习实现对流场特征结构(激波,涡)的检测
验证码字符识别
  • 整理开源及脚本生成的多种验证码图片(包括扭曲,噪点等),熟悉图形处理中的灰度、二值化等操作,使用 opencv 闭运算和黑帽运算等预处理操作进行前处理,完成基于 SSD+VGGNet 的字符识别模型,扩展使用 LSTM+CTC 解决不定长字符序列识别问题
技术能力
  • 编程语言: Python > C++ > Java
  • 算法及框架: 熟悉 Transformer、CNN 多种主流模型及量化加速
  • 开发工具: Claude Code, OpenClaw, Cursor, Google AI, GPT
证书情况
  • HackPKU, 第四名 (2018.5)
  • 微软创新杯, 最佳创新组全国特等奖 (2014.4)
  • "创青春 • 精彩在沃"湖北省大学生创业大赛, 移动互联网专项赛"金奖" (2014.4)
  • IBM University Program Academic Qualification (2013.10)