江西昌宇建设工程公司网站,福州网站制作官网,seo优化怎么做,创意产品设计网上周五使用阿里云开放搜索问答版时#xff0c;故障了一整天#xff0c;可能这个服务使用的人比较少#xff0c;没有什么消息爆出来#xff0c;特此记录下这几天的阿里云处理过程#xff0c;不免让人怀疑阿里云整体都外包出去了#xff0c;反应迟钝#xff0c;水平业余故障了一整天可能这个服务使用的人比较少没有什么消息爆出来特此记录下这几天的阿里云处理过程不免让人怀疑阿里云整体都外包出去了反应迟钝水平业余却又很在意KPI。 1. 什么是智能开放搜索OpenSearch
在抨击阿里云服务之前还是要肯定open search问答版挺好用的解决了公司想要根据内部知识内容搭建大模型进行内部AI的数据问答在这之前我也试用过模型服务灵积的定制模型但作为传统型公司训练模型所需要的语料库根本没有公司的诉求更多是给一堆内部文档然后对此进行提问回答省去过往人工查找还能将内部知识进行概括总结给出所属的知识来源文档所以要想生成基于问答形式的语料库不太现实。或者还有更好的方法我还没探索出来吧。 基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台目前为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。通过内置各行业的查询语义理解、机器学习排序算法等能力以及充分开放的文本向量检索引擎能力助力开发者快速搭建智能搜索服务。
OpenSearch LLM智能问答版 2. 故障过程
因为还属于开发阶段出于成本考虑我们的实例并不是一直运行的LLM模型的费用分为实例资源运行费调用处理费实例资源运行时按小时0.2元/小时每次问答调用差不多0.13元/次。
早上新建了实例后通过Python将结构化后的文档数据通过API传到实例中发现怎么都传不上去返回参数正常通过控制台也不行显示上传成功但不展示数据内容只有空Id列表以为是实例创建错误先自己进行尝试。
先销毁了几次实例创建了好几个不同App名称的实例进行试验都不行怀疑自己运行了十多次的Python代码有问题可能是官方sdk库更新重新下载了官方文档代码发现还不行切换了网络切换了数据集切换了控制台都不行 3. 提报工单
总结了下我这里应该是没问题有点怀疑是阿里云的问题索性提个工单吧看看工程师怎么说。 一直到下午五点多阿里云才开始正式处理不知道中间这两个小时在干什么可能他们觉得是用户的问题什么参数没有配置对等五点半开始看的时候发现真的崩了五点半开始给我打了四五个电话都是阿里云的工程师直接联系我让提供上传的文档截图代码API开发过程想要复现问题但我不理解直接工程师本地复现不就行吗。 经过一个多小时我都下班回家了工程师又打来电话让试下有没有恢复确实是好了从早上崩溃到工单提报处理也有五六个小时的时间真正问题定位处理用了一个多小时在我们过往线上问题处理中一个小时才能定位处理的事故已经很严重了。 4. 退钱退钱 在周五提报工单时一直没有销毁实例阿里云工程师打电话时也说先别销毁想通过这个实例来复现问题等晚上处理结束打电话通知我好了以后我问了下今天宕机一天的费用怎么办服务虽然不能用但费用一点也没少扣工程师说后续可以补偿但也就没了后续。。。
周一想起来这事发现还没人联系我就在之前的工单里继续询问虽然没有多少钱不过就这么点钱你们也不想处理我只能自己催了。
中途又让我自己导出账单自己进行核算就暴脾气突然上来了好好说就拖着不给好好解决6块钱的代金券也是要了一整天下午六点才确认回复六点多连着打了两个电话让我关闭工单可能是从周五一直拖到现在影响到平均处理时长的考核KPI吧。 5. 说实话
上个月阿里云的大故障也不知道后续怎么处理的反正没有我公司什么事公司在阿里云上有三万多的资源但用户量不大所以没有核算什么损失阿里云也没有一点点动静也是因为这些资源使得很多云服务都得继续用阿里云的可以说是深度绑定。这次故障之前也有很多小问题提个工单也不怎么处理后来索性点投诉才能继续推进。
这次问题让我感觉到阿里云处理能力挺差的
像AI这类新业务没有主动检测预警正常这些大的业务板块都会有服务检测监控接口或者日志等数据在用户感知之前就能同步响应到阿里云后台这次崩了这么久也没当回事应该就是没什么人用提了工单也没当回事第一反应是用户的使用问题后来发现真的报错了才慌了后来多次打电话时语气有点焦急线上事故处理能力差在工单里我已经很详细的描述了问题但他们还是啰嗦的要了各种截图文件代码来复现其实自己连上去就可以操作反复咨询用户只会让人觉得很不专业。用户补偿机制不完善或者说国内这些厂商也没想着补偿用户发现问题第一反应是就你事多我们已经给你处理了你还想怎么样呢如果我不去要补偿可能也不会再去联系我毕竟多一事不如少一事。