量化巨子幻方开创人梁文锋加入总理座谈会并谈
国产年夜模子公司深度求索(DeepSeek)开创人梁文锋加入了总理座谈会。
据新华社报道,中共中心政治局常委、国务院总理李强1月20日下战书掌管召开专家、企业家跟教科文卫体等范畴代表座谈会,听取对《当局任务讲演(收罗看法稿)》的看法倡议。座谈会上,张辉、任少波、刘珺、梁文锋、魏洪兴、陈学东、陈红彦、杜斌、邹敬园等先后谈话。
此中,梁文锋恰是头部量化私募幻方量化开创人、DeepSeek的开创人。
低调的“量化天王”
梁文锋“起家”于量化投资。
作为一名“80后”,梁文锋本科、研讨生都就读于浙江年夜学,领有信息与电子工程学系本科跟硕士学位。
2008年起,梁文锋就开端率领团队应用呆板进修等技巧摸索全主动量化买卖。2015年,幻方量化正式建立,2019年,其资金治理范围就冲破百亿元。
2019年,梁文锋在昔时的金牛奖颁奖典礼上,宣布主题报告《一名顺序员眼里中国量化投资的将来》,这是他罕见的公然谈话。
在报告中,梁文锋指出,量化与非量化的断定尺度就是在投资决议的进程中,是用数目化方式停止决议的,仍是用人停止决议的。量化公司是不基金司理的,基金司理就一堆效劳器。
“作为私募,投资人对咱们的冀望是很高的,假如一年跑赢指数低于25%,投资人是不满足的。”梁文锋指出,量化投资曾经赚了技巧面派别本来赚的钱,将来也要掠夺基础面派别本来赚的钱。
报告最后,梁文锋说,幻方量化的任务就是进步中国二级市场的无效性。
2021年,幻方量化成为海内首家冲破千亿范围的的量化私募年夜厂,被称为海内量化私募“四年夜天王”之一。不外,就在这一年,因为事迹稳定,幻方量化封闭了全体召募通道,并在12月尾宣布致投资者公然信,道歉称“幻方事迹的回撤到达汗青最年夜值,咱们对此深感愧疚”,究其起因,重要是AI的投资决议在交易时点上不做好,市场作风激烈切换的时间,AI会偏向于冒更年夜的危险来博取更多收益,进一步加年夜了回撤。
尔后,幻方量化逐步下降其资金治理范围。2024年10月,幻方量化还向投资者宣布布告称,打算逐渐对冲产物投资仓位下降至零。
“短期内不融资打算”
梁文锋对AI的兴致早就有迹可循。
2016年10月21日,幻方量化推出第一个AI模子,第一份由深度进修天生的买卖仓位上线履行,应用GPU停止盘算。2017年,幻方量化声称实现投资战略片面AI化。
幻方量化官网表现,其在2018年就建立以AI为公司的重要开展偏向。
2020年开端,幻方累计投资超亿元、占空中积相称于一个篮球场的AI超等盘算机“萤火一号”正式投入运作,号称能够对抗4万台团体电脑的超等算力。2021年,幻方投入十亿建立“萤火二号”,以“义务级分时共享”为中心理念,调理体系秒级呼应,平台装备强盛的软件层支撑:高机能算子库(hfai.nn)、散布式练习通信框架(hfreduce)、专为AI开辟而生的年夜容量高带宽文件体系(3FS),让AI模子能自若拓展到多节点之上,停止年夜范围并行练习,算力扩容翻倍,集群持续满载运转,均匀占用率到达96%以上。
2021年,在梁文锋参加的论文中提到,他们正在安排的萤火二号体系,“装备了1万张A100GPU芯片”,在机能上濒临DGX-A100(英伟达推出的人工智能公用超等盘算机),但本钱下降了一半,同时能耗增加了40%。
事先海内超越1万枚GPU的企业不超越5家,并且除了幻方量化之外,其余4家公司都是互联网年夜厂。
这背地须要极端雄厚的财力支撑。
2023年终,幻方量化表现,从前的多少年,幻方量化及员工每年拿出收入的一局部投入公益,回馈社会,累计捐献超越5.8亿元。此中,2022年,员工“一只平常的小猪”团体就向慈悲机构捐献1.38亿元,事先的新闻指出,这团体就是梁文锋。这从一个正面反应出了幻方量化跟梁文锋自己的“不差钱”。
幻方量化曾表现,多年以来,该公司保持把营收的年夜局部投入人工智能范畴,建立当先的AI硬件基本设备,停止年夜范围的研讨,摸索人类未知的神秘,“咱们信任多少乎全部的翻新都是从勇敢实验跟点滴积聚中孕育而来。”
梁文锋在为数未几的对外发声中同样也提到“短期内不融资打算”,并以为当上面临的成绩“素来不是钱,而是高端芯片(缺乏)”。
“AI界拼多多”
2023年7月,幻方量化发布建立年夜模子公司DeepSeek,正式进军通用人工智能范畴。据报道,DeepSeek包含开创人梁文锋在内,仅有139名工程师跟研讨职员。与之对照,OpenAI有1200名研讨职员,Anthropic则有500多名研讨职员。
仅仅不到一年的2024年5月,DeepSeek就宣布了DeepSeekV2,由于翻新的模子架构跟前所未有的性价比,火爆出圈。DeepSeek-V2的API订价为每百万tokens输入1元、输出2元,价钱仅为GPT-4 Turbo的百分之一。
对为何能做到如斯高的性价比,DeepSeek官方说明称,DeepSeek-V2采取了翻新的架构,比方留神力机制方面的MLA(多头潜伏留神力)跟前馈收集方面的DeepSeekMoE架构等,以实现存在更高经济性的练习后果跟更高效的推理。
因而, DeepSeek被称为“AI界的拼多多”,激发了字节、阿里、百度等年夜厂的年夜模子价钱战,纷纭发布年夜模子产物贬价。彼时,梁文锋在接收媒体采访时称,DeepSeek有意成为行业鲇鱼,廉价背地是盼望算力普惠。
2024年12月27日,DeepSeek-V3更是横空降生,火爆寰球。据DeepSeek官网表现,其评测成就不只超出了Qwen2.5-72B(阿里自研年夜模子)跟Llama 3.1-405B(Meta自研年夜模子)等顶级开源模子,乃至能跟GPT-4o、Claude 3.5-Sonnet(Anthropic自研年夜模子)等顶级闭源模子一较高低。
DeepSeek发布上线并同步开源DeepSeek-V3模子之外,还颁布了长达53页的练习跟技巧细节。失掉年夜幅进级的V3模子是在一个“不可思议”的估算下练习实现的:全部练习仅破费了557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版 GPU)集群上运转55天实现,仅是OpenAI GPT-4o模子练习本钱的不到非常之一。
“中国也要逐渐成为奉献者,而不是始终搭便车。”梁文峰在接收媒体采访时说,“咱们曾经习气摩尔定律突如其来,躺在家里18个月就会出来更好的硬件跟软件,Scaling Law(范围定律)也在被如斯看待。但实在,这是东方主导的技巧社区一代代不知疲倦发明出来的,只由于之前咱们不参加这个进程,甚至于疏忽了它的存在。良多国产芯片开展不起来,也是由于缺少配套的技巧社区,只有第二手新闻,中国必定须要有人站到技巧的前沿。”
梁文锋跟他的DeepSeek还在持续求索。
就在1月20日, DeepSeek正式宣布DeepSeek-R1模子。该模子在数学、代码、天然言语推理等义务上,机能比肩OpenAI o1正式版。DeepSeek称,R1在后练习阶段年夜范围应用了强化进修技巧,在仅有少少标注数据的情形下,极年夜晋升了模子推理才能。DeepSeek不只将R1练习技巧全体公然,还蒸馏了6个小模子开源给社区,容许用户借此练习其余模子。
“投身于摸索AGI的实质,不做中庸的事,带着猎奇心,用最临时的目光去答复最年夜的成绩。”DeepSeek的大众号如许写道。
新浪财经大众号
24小时转动播报最新的财经资讯跟视频,更多粉丝福利扫描二维码存眷(sinafinance)