案例精彩導讀
合思·易快報
合思信息是中國 SaaS 行業報銷費控領軍企業,其品牌產品「易快報」是國內連接型費用管理平臺開創者。
案例亮點
1.SaaS 化可觀測平臺,免運維
2.全鏈路可觀測,可高基數采集數據
3.RUM + APM + 日志,實現多維度數據統一
4.按量計費,高速迭代,隨時體驗新功能
1.簡單介紹一下貴公司
北京合思信息技術有限公司(簡稱「合思信息」)創立于 2014 年 11 月,是中國 SaaS 行業報銷費控領軍企業。合思信息致力于企業 SaaS 領域云產品及服務的創新,運用前沿的互聯網應用技術和先進的企業管理理念,為企業提供差旅訂購、電子報銷、預算費控、發票管理等一站式服務,從而幫企業實 現顯著的降本增效,也為企業提供有力的業務決策支持數據。
2.請介紹下對本次監測工具升級的需求背景
我們總結過以下需求:
(1)我們向最終用戶提供 SaaS 化服務,業務一直在線,訪問并發高。我們想實時看清系統整體狀態,監測數據采集量很大,但不能影響我們業務性能;
(2)我們的服務會涉及大量用戶隱私數據,因此我們對平臺安全性有很高要求,最好能提供商業化 SLA;
(3)所有的基礎設施都放在云上,技術棧能托管就托管,所以希望主要的監控和日志工具也能被托管,我們直接使用服務就行;
(4)我們的應用服務迭代速度很快,經常需要調整監測對象和看板,甚至更換監控工具,所以我們不會一次性長期訂閱單個工具,以免之后用不上會浪費,并且要求這個工具有開放的可編程性,方便我們自己調整。
除此之外,也希望新的監測工具可以幫助我們提升運維效能:
(1)可以把各項監測數據全部聚合處理,串聯分析,幫助我們快速定位問題根因;
(2)可以主動暴露出系統潛在問題或性能卡點,運維能直接拿這些數據,交給研發做進一步分析,研發也能直觀看懂這些監測數據。
3.那能否說說使用之前的監測工具時,具體碰到了哪些難點?
我們使用過很多種工具,在做 Kubernetes 環境下的指標數據分析時,使用了云服務商提供的托管 Prometheus 和 Grafana 服務;日志和鏈路嘗試過一些比較常用的開源軟件,我們自己部署,但在使用 APM 時,有過造成軟件啟動崩潰的情況,采樣也不好,最后也沒精力去深度研究。還用過些商業軟件,用來監控分析前端業務,但都是一個軟件實現一個功能,需要拼裝 使用,我們得自己去打通幾個工具之間的數據通信,要管理好這些運維工具,還得花費額外的運維成本,有點得不償失。
之前使用過的各種工具:
4.您是怎樣關注到觀測云的?
我們一直在關注可觀測領域的內容,發現不少關于觀測云的介紹,就去研究了觀測云的官網,信息挺多的,通過官網,加入了觀測云社區群去提了些問題。之后就有觀測云的客戶經理聯絡我們,向我們詳細介紹了觀測云的產品功能和特色,我們就開始試用了。
5.剛接觸到觀測云時,您對觀測云的第一印象如何?
如前所述,由于之前也使用過不少監控產品,對指標、日志、鏈路等各方面有一定的認知,也了解可觀測的概念,知道我們下一步想要的監測平臺方向。與觀 測云進行了一次深入的技術交流后,充分了解觀測云在可觀測方面的想法和已經實現的功能,包括對 Kubernetes 生態的豐富支持,數據采集、聯合展現以及在分析問題時候的逐步鉆取,留下了深刻的印象,第一印象感覺這就是我們想要的產品,后續就立即開始進行測試。
6.使用觀測云后,哪些功能讓你滿意?
首推觀測云的SaaS服務模式。
我們不用再去運維監測平臺本身了,確實讓我們輕松很多。而且觀測云是按量計費,我們可以放心大膽地體驗各種功能,覺得好用立刻上量,之后還可以持續優化調整,所有成本都貼合我們的實際使用。
產品更新很快,我們提的一些改良建議,都能很快滿足。
我們的業務日志量大,每天都有幾 TB 的日志增量,下載和傳遞都消耗我們的業務帶寬和流量。和觀測云多次交流后,觀測云提供了一些新的數據過濾和黑白名單機制方案,幫助我們大大提升了日志采集效率;還開通了在公有云上用內網傳輸日志的方案,降低了我們傳輸成本。
另外,我們也不再需要自建和維護 ES 集群儲存日志,進一步降低基礎建設的資源成本。
RUM + APM + 日志可以統一標簽和聯合分析。
觀測云前端用戶訪問(RUM)提供自定義用戶屬性,與鏈路數據(APM)關聯打通,借助 Tag(數據標簽) 使得問題的分析定位更快速,靈活的關聯到 Service 、Log、主機甚至是 Pod、進程。這種關聯對微服務間的故障排查、接口調優至關重要。
支持服務網格。
觀測云采集器兼容 Prometheus ,可以直接串連上去,拿到 Exporter 上報的數據,簡單配置即可獲取 Istio 指標數據,同時提供內置 Istio 視圖模版,快速實現服務網格的全面觀測。
7.目前觀測云在公司內部的使用情況是怎么樣?
目前我們已經接入了商城的各種環境,包括開發、預發以及生產環境。觀測云已經成為我們日常使用的監控手段,我們已經做了很多監控儀表盤,還有 APM 以及 RUM 的各類視圖,來觀測業務的實時情況。能通過各項結構化的數據(包括日志分析、APM 和 RUM 數據生成的指標)設置和業務相關的監控器,進行告警提醒。同時,我們也把日常使用過程中的一些改進建議反饋給了觀測云,能夠發現觀測云在持續升級,迭代出 更多方便用戶的功能,我們非常滿意。
8.能具體分享一個,現在使用觀測云的場景嗎?
現在我們可以通過觀測云,去主動探索系統,并找到一些問題,然后把他定義出來,作為常規探知手段,不會再經常收到一些摸不著頭腦的告警。
(1)主動式定位問題:
RUM 查看器,通過篩選,查看錯誤的狀態碼的相關信息
通過詳情,可以一路鉆取到后端應用的情況
查看鏈路的詳細情況
(2)通過前端用戶訪問的概覽,查看用戶訪問整體情況,以及錯誤情況。
跳轉到 錯誤分析或者 Error 查看器
查看具體原因
(3)查看用戶訪問的詳細錯誤情況。
(4)詳細定義事件和通知規則。
9.您對觀測云還有什么建議?
(1)觀測云的功能很豐富,可以搭建出很多玩法,所以希望觀測云能提供更多的可觀測最佳實踐,能讓我們快速獲得參考,應用到實際業務場景里。
(2)觀測云更新非常快,有些細節光靠文檔也說不清,還是得經常請教觀測云專家,幸好還能去群里提問。希望觀測云的社群服務能力越來越強大,吸引更多的技術用戶一起參與,我們也非常樂意和其他社群用戶一起交流。
最后,感謝觀測云讓我們擁有了一個美好的全鏈路可觀測體驗。
關于觀測云
觀測云(www.guance.com)是?個具備可觀測性的統?實時監測平臺,可幫助客戶快速實現系統可觀測,是國內率先實現 SaaS 化的可觀測性產品,為客戶的業務長時間在線不中斷,提供數據化手段的全鏈路保障服務。
關注微信公眾號(kjxw001)及微博(中國科技新聞網)

