Category: InfoQ

CTO出了什么问题?

      No Comments on CTO出了什么问题?

For TGO鲲鹏会. CTO出了什么问题? 标签(空格分隔): note: 摘要: 为什么企业和CTO总是败兴而归,摩擦不断?Paul Robinson给出了他的真知灼见。 作者: Paul Robinson 正文: 有句话我不吐不快: 从前是缺好码农,现在是缺好CTO。这周有3家公司找我问怎么招CTO。是不是当承包商给的钱太多,以至于没人想循规蹈矩,搞的公司高层都招不到人了? 我对CTO这个问题有一套:我自己为CTO招聘这件事做了5年咨询(虽然最终也没成什么,项目死的挺快挺惨的),自己也全职做过几次CTO。 如果你想成为CTO,或者想招聘CTO,我有一言请静听。 CTO每天做什么? 工程师(特别是小型公司的工程师)会觉得CTO就是“超级技术领导”:他们觉得CTO是一个特别高年资的工程师,领导全司的技术方向。 我担任CTO时做了一点点事情: 和商业部门大佬沟通(CEO、董事会、投资人等),确定下面几个月的路线; 和产品和分析师研究出可行的产品路线图,和商业规划匹配; 按照产品和商业路线图规划技术路线图; 当某个路线技术上不可行时,劝说其他人放弃这个想法;(注意:不是简单的说“开发不了”——需要谈判技巧!) 设计开发团队,报告人和流程; 在功能、BAU和技术债/bug间找到平衡点,最大化商业利益;(一般来说没有公司会把修bug当成头等大事的) 关注技术开发涉及的合规性问题和法律变动; 准备并申请开发预算——工资和研发预算一般是两条线; 准备并申请运行预算,例如硬件、服务(数据中心、云服务等)、软件授权、专利授权等等; 把上面所有的东西和管理层和董事会讲明白,而且要说人话——用财务数字。这步需要做很多Excel表,并加以解释; 把上面所有的东西和投资人和未来的投资人讲清楚,而且留后手以免被开除;… Read more »

如何理解分布式系统的指标和警报

      No Comments on 如何理解分布式系统的指标和警报

本文为InfoQ China编译:由于文章过于追求细节,故只在在此处放出。 版权所有,禁止商业使用:如需转载,务必保留本文译文原文链接和英文原文链接。   # 如何理解分布式系统的指标和警报 标签(空格分隔):DevOps — note:*** — **摘要**: 分布式系统的指标和警报允许运维人员检测分布式系统的故障,并帮助他们快速诊断出错位置。John Corrigan在他的文章中对分布式系统的指标和警报进行了提纲挈领的分析。 **作者**: [John Corrigan](https://plus.google.com/+JohnCorrigan) **正文**: John Corrigan在他的文章中对分布式系统的指标和警报进行了提纲挈领的分析。 分布式系统的指标和警报允许运维人员检测分布式系统的故障,并帮助他们快速诊断出错位置。 ## 指标 指标是按特定时间间隔收集的系统信息;指标存储后可以进一步处理,例如进行可视化或触发警报等。 作者认为,指标可以分为3类:输入指标、输出指标和过程指标。 – **输入指标**对系统的入口进行度量,例如,用户请求数、请求的某个特征(资源/项目/产品)的数量,以及请求的来源、数据包大小等。 – **输出指标**对系统的输出进行度量,例如,成功订单数、不成功订单数、大家关心的用户请求响应时间等。**好的输出指标可以近似为每分钟系统赚取的利润。** – **过程指标**对系统内部操作进行度量,例如平均负载、可用内存、可用磁盘空间、可用inode数等,也可以对某个程序进行度量,例如某个API的重试次数等。… Read more »