“大数据”有哪些具体的成功应用？

发布时间：2022-07-24 12:00来源：www.51edu.com作者:畅畅

这是一个很多人都比较关心的问题，作为一名计算机领域的科研、教育工作者，我来回答一下。

首先，当前大数据技术正处在落地应用的初期，目前除了互联网领域之外，传统行业领域还没有开始大面积应用大数据技术，但是在工业互联网的推动下，目前大量的企业已经开始了上云计划，企业上云之后，大数据技术将逐渐开始落地应用，大数据与普通人的关联也会越来越多。

从当前大数据的落地应用情况来看，目前与互联网相关的业务或多或少都在应用大数据技术，比如电子商务领域应用大数据技术就比较普遍，推荐系统就是一个非常普遍的应用，基于推荐系统也会给用户带来更好的购物体验。从大的发展趋势来看，未来大数据的应用空间是非常大的，而且大数据的价值空间同样非常大。

除了电子商务领域之外，大数据在出行、医药健康、教育、金融等领域的应用也在不断增加，而这些领域当前与互联网的结合也走在了诸多传统行业的前面，相信在工业互联网时代，更多的行业领域都会逐渐网络化、智能化，这个过程也会推动大数据的落地应用。

相对于大数据技术来说，云计算的落地应用目前要多一些，而且企业要想借助于工业互联网来实现创新发展，往往都需要借助于云计算的支撑，所以也把云计算称为打开工业互联网大门的钥匙。目前云计算已经成为了大量互联网计算服务的支撑，尤其是与用户相关的互联网应用，所以普通用户只要在使用网络服务，包括各种App，几乎都离不开云计算。

我从事互联网行业多年，目前也在带计算机专业的研究生，主要的研究方向集中在大数据和人工智能领域，我会陆续写一些关于互联网技术方面的文章，感兴趣的朋友可以关注我，相信一定会有所收获。

如果有互联网、大数据、人工智能等方面的问题，或者是考研方面的问题，都可以私信我！

随着技术和产品的更新迭代，行业对人才的要求越来越高。作为一名技术从业者，到底要如何做才能让我们在这个领域里发展得更好？

我们常说经验是靠积累的，但更新换代的技术需要持续不断地学习。一篇技术干货文章，一场技术大佬的直播，甚至是一则行业资讯，都是我们拓展知识面，构建知识体系，延伸个人视野的途径。

1.阿里巴巴精选案例①《如何基于Flink+Iceberg构建云原生数据湖服务》

作者：胡争阿里云导读：Apache Iceberg作为一种开放的标准化数据湖表格式，被国内外众多大厂选择和应用。近期Apache Iceberg创始团队收获了A轮融资，计划在AWS之上推出商业版的数据湖存储服务，以满足数据分析师自助的数据分析需求。经过过去快两年的发展，Flink已经成为Iceberg数据湖最重要入湖引擎之一。这篇文章主要介绍了阿里云Flink团队在构建Flink+Iceberg云原生数据湖服务收获的一些最佳实践。首先，hive上云主要面临迁移到对象存储困难、不支持变更以及近实时等核心痛点， Apache Iceberg通过巧妙的table format设计很好地解决了这些问题。其次，iceberg作为一个表格式，支持解决表数据格式的问题，而数据湖产品是需要很多上下游组件配合才能达到比较好的使用体验，文中分享了一些阿里云的产品化最佳实践。希望对广大读者有所帮助。②《阿里小蜜数字人互动决策的探索与落地》

作者：祖新星阿里巴巴导读：目前看来元宇宙有很大可能是继短视频、直播时代后，互联网的下一个演进方向。元宇宙中的土著居民数字人也已经站在了风口浪尖上，而如何让数字人更像真人是我们面临的首要难题。数字人建模已经可以合成真假难辨的数字人，但是数字人互动方面的研究还处于刚起步阶段。本文主要结合我们在阿里数字人的研发过程中，如何建模数字人的情感、如何对情感进行形象化表达、如何让数字人与真人进行交流互动等几方面进行了数字人互动决策能力的介绍。相关技术已经落地到淘宝虚拟人直播、数字人助理、数字人手语翻译官等业务中，但离真人还有很大差距，希望本文作为抛砖引玉，能够引起大家的研究兴趣。2.腾讯精选案例①《音乐文本的命名实体识别技术》

作者：Kevin 腾讯音乐导读：命名实体识别（Named Entity Recognition，简称NER）是自然语言处理中的热点研究方向之一，目的是识别文本中的命名实体，并将其归纳到相应的实体类型中。命名实体识别也是NLP最重要的底层任务之一，在学术界和工业界一直都是重点研究的问题。今天主要和大家分享音乐领域的命名实体识别技术。②《QQ音乐推荐系统算法架构实践》

作者：Kalen QQ音乐导读：QQ音乐在过去一年多的时间里有大量新的推荐功能上线，包括有声书推荐、AI歌单、快听播客、社区推荐等数十个新推荐功能。与此同时，QQ音乐中推荐的播放次数和DAU上涨迅速，从2020年至今推荐核心指标已经接近翻倍，导致请求量和数据量增大，给推荐和相关服务带来较大压力。在这样的背景下，QQ音乐在过去一段时间对推荐算法架构进行了一系列探索和实践，在这里和大家分享。③《腾讯数据湖元数据治理实践》

作者：吴怡雯腾讯导读：数据湖统一元数据是构建数据湖的基石，一方面：为计算引擎提供数据目录管理能力；另一方面，为数据湖提供数据治理能力，避免陷入数据沼泽。建构公有云统一元数据面临的问题主要有：多租户、海量数据、异构数据源、异构计算引擎。腾讯数据湖团队通过完全自研的方式，实现了一套完全兼容Hive Metastore接口、具备丰富数据资产管理能力的元数据系统。④《数据湖技术iceberg查询优化实践》

作者：陈梁腾讯导读：iceberg作为腾讯内部首选的存储表格式解决方案，已经在内部多个业务场景落地，为了构建完善的上下游生态，我们也打造了数据湖平台，通过智能运维能力和内核优化手段来加速湖上数据分析，引入了自动化运维服务来解决小文件问题和孤儿文件清理问题，增强Data Skipping技术来加速多条件查询，针对于不同数据需求可以SQL快速适配不同Data Clustering方案，能极大改善数据Scan的效率，减少不必要的文件io，也避免了资源的浪费。3.快手精选案例①《如何提升数据化管理效率》

作者：谷维快手导读：随着数据时代的到来，众多企业领导者开始思考，面对数以亿计的数据，如何才能通过数据化管理提升工作效率？这成为了困扰企业管理者的一大难题。本次分享主要想通过案例方式和大家一起探讨，为什么管理需要数据；数据分析与数据产品的关系；面向不同业务场景，如何提供一套内容数据产品解决方案及服务矩阵，用以帮助业务降低数据使用成本，提升业务决策效率。②《图神经网络在推荐召回中的应用和挑战》

作者：王晓伟快手导读：在短视频的推荐业务场景中，存在着用户、创作者、视频、直播、观看、点赞等不同的人、物和行为，带来了噪声大，目标多，以及冷启动等问题。我们可以用图结构建模这些复杂的节点和边，进而更好的描述他们之间的高阶关系。通过引入基于图表示学习的召回，我们在快手推荐场景中，推的更准的同时，也进一步激发了用户的潜在兴趣，提高了推荐的多样性。4.京东精选案例①《深度学习下的京东搜索召回技术》

作者：张菡京东导读：搜索召回作为搜索链路的上游环节，负责从海量的商品池中检索出高相关的商品，提供给下游的排序模型，做进一步的优化。随着深度学习的快速发展，语义召回模型已经深度应用于京东的搜索系统，弥补了传统倒排检索不能召回语义相关但字面不匹配商品的缺陷。针对召回所面临的相关性、准确性、丰富性等问题，我们研发了双塔语义模型、图模型、同义词模型等多路召回模型，并通过索引联合训练优化了基于PQ的大规模向量检索技术，提高了京东搜索系统的效率和体验。②《京东推荐算法精排技术实践》

作者：王冬月京东导读：本文介绍了在京东推荐场景下精排模型的优化实践，通过多目标、多兴趣和多模态等技术的应用，显著提升了推荐结果的精准性和丰富性。③《FlinkSQL在实时维度建模中的应用》

作者：杨尚昂京东导读：在实际生产环境中，尤其是像京东这样的大数据体量下，存在很多需要使用历史存量数据的场景，如何使用flink SQL快速便捷的解决呢？直接使用Flink SQL状态会越来越大，不能够满足，实际生产使用，且没有完备的初始化方案。通过自定义组件构建新的数据源，这种数据源增加了，经过关联关系或者分组关系，将需要用到的数据从外部存储置换到内存的部分。开发人员只需要做简单的参数配置，写简单的Flink SQL关联计算逻辑就可以完成，不用考虑如何管理状态。5.网易精选案例①《网易云原生日志平台的架构演进与实践》

作者：傅轶网易数帆导读：网易从2015年就开始了各部门的大规模云原生化改造，日志作为可观测性的重要一环，我们经历了从使用开源日志采集Agent Filebeat到对其增强改造的一系列演进，但在生产环境大规模应用后，稳定性、可排障性、性能等各类棘手问题接踵而至。于是我们决定自研并开源了新一代的基于Golang的轻量级、高性能、云原生日志采集Agent/Aggregator Loggie，提供了原生Kubernetes的日志使用形态和一栈式日志解决方案，形成了全方位的可观测性、快速排障、异常预警、自动化运维能力。②《网易大数据平台之HDFS性能优化实践》

作者：祝江华网易导读：本篇以实践出发，结合网易多年来对HDFS的理解，以系统性的方式对分布式存储在性能优化方面所做的总结。在大型集群构建的路途中，会遇到多种挑战，例如集群规模增长带来的性能要求，数据增长与数据管理问题；要解决这些问题既要考虑宏观架构，又要注重细节的处理；本着从实际出发的原则，网易在集群分层架构，服务快速响应，集群水平拓展，智能监控，业务拓展等方面有着充分的经验；目前在网易内部，已经可以支撑起较大规模的集群和业务，并能够充分对外部赋能。③《网易云音乐广告算法实践》

作者：蒋能学网易云音乐导读：本篇以实践出发，结合网易多年来对HDFS的理解，以系统性的方式对分布式存储在性能优化方面所做的总结。在大型集群构建的路途中，会遇到多种挑战，例如集群规模增长带来的性能要求，数据增长与数据管理问题；要解决这些问题既要考虑宏观架构，又要注重细节的处理；本着从实际出发的原则，网易在集群分层架构，服务快速响应，集群水平拓展，智能监控，业务拓展等方面有着充分的经验；目前在网易内部，已经可以支撑起较大规模的集群和业务，并能够充分对外部赋能。6.谷歌精选案例①《面向云计算的分布式机器学习优化实践》

作者：蓝昶（博士） Google导读：深度学习使得对海量数据的利用成为可能，但是分布式性能也是大规模深度学习的核心难点。本次分享以AI训练平台为案例，探讨如何从底层通信库和集合通信算法的层面，通过框架无关的全局优化，提升整体的训练性能和收益。②《TensorFlow技术概览——从建模到部署》

作者：金海峰 Google导读：本文全面介绍了TensorFlow生态系统。在机器学习落地过程中很多问题需要相应的工具来解决，如：模型压缩、持续部署。而TensorFlow除了大家所熟知的建模功能之外，还有很多工具可以帮助用户完成生产过程中的各个环节。本文将帮助用户梳理TensorFlow生态系统中的各个成员，让读者能针对遇到的场景选择适用的工具。7.虎牙精选案例①《虎牙直播推荐系统分享》

作者：李茶虎牙导读：深度学习在推荐系统上的应用遍地开花：在算法侧，各种推荐模型和Embedding技术在每家企业都有前沿的探索和创新；在工程侧，结合实际的业务场景也会有不同的架构实践。本文将介绍虎牙直播基于深度学习的工程应用。8.有赞精选案例①《一站式数据开发平台在有赞的最佳实践》

作者：宋哲琦有赞导读：随着信息时代的到来，数据已逐渐成为如石油一般重要的战略资源。而面对海量的业务数据，如何构建出一个可持续演进的大数据平台，让数据的价值更清晰的体现出来？今天主要想和大家分享一下有赞是如何通过数据产品矩阵来赋能业务，如何在基于数据平台进行数据需求的开发，以及如何从0到1搭建出可持续演进的一站式数据开发平台。9.贝壳精选案例①《大数据任务调度DAG体系设计实践》

作者：林家宝贝壳导读：在大数据时代，数据因为连接而产生更大的价值！我们如何跨越时间的周期去寻找底层数据的关联？通过构建一套标准的数学模型，我们完成了依赖关系的数学化。最终实现了极为灵活的动态跨周期数据依赖体系，满足了企业越发复杂的依赖需求。10.哔哩哔哩精选案例①《Apache SeaTunnel在哔哩哔哩的实践》

作者：张宗耀哔哩哔哩导读：在B站离线大数据场景下，每天需要上百TB的数据同步和转储，每条任务都涉及不同的业务场景需求，一方面如何让开发人员简单易用地使用同步工具，另外如何更有力地保障任务的健康运行，B站做了大量的实践和迭代优化，针对出仓技术的不断迭代，使得核心链路出仓缩短2小时之多，针对监控的不断深耕，监控项覆盖到任务的事中事后以及失败归因，目前整体都取得了不错的效果和反馈。11.达摩院精选案例①《基于稀疏的超大规模预训练语言模型落地实践》

作者：谭传奇（博士）达摩院导读：达摩院NLP团队分享其在大规模语言模型落地方向的工作，针对超大规模预训练语言模型落地的难题，达摩院NLP团队提出基于稀疏算法的微调方案，通过构造低秩分解和结构化特征相结合的重要性衡量算法，使其可以在尽可能保持模型效果的前提下，快速、高效的训练稀疏模型，使超大模型的稀疏化训练落地成为可能，相关论文已被IJCAI 2022接收。12.上海科技大学精选案例①《另类数据挖掘在风控中的应用研究》

作者：张海鹏（博士）上海科技大学导读：另类数据，有别于常规数据，是相对小众还没有被大规模使用的新数据；近年来，另类数据在金融领域也得到了越来越多的关注。本文梳理另类数据挖掘的缘起，介绍它在当前工程与金融经济研究领域的前沿进展，以及它在市场风险建模中的一些应用研究。13.小米精案例①《智能语音交互中的无效query识别》

作者：崔世起小米科技导读：小米的各种智能设备，包括手机、音箱、电视和手环等，都接入了小爱同学，以语音交互的形式提供知识查询、音视频播放、IoT设备控制和信息工具等服务，给用户带来了生活的便利。但由于使用环境或者误唤醒的原因，会录入一些非人机交互的无关语音，比如周围人的闲聊声、电子人声等，导致小爱同学乱搭话；或者由于用户口音及说话习惯的原因，录入不清晰、不完整的语义不明的指令，导致小爱同学答非所问。据统计，这类请求占比在10%-15%左右。为了解决这类请求上的用户体验不佳问题，小爱同学研发了无效Query识别功能，采用融合声学特征和语义特征的多模态模型，识别出非人机交互的请求；采用基于预训练语言模型和文本分类模型的方案，识别出语义不明的请求。该功能上线后，识别准确率达到95%以上，大大减轻了无效请求给用户带来的打扰。14. Zilliz精选案例①《Milvus Towhee：向量数据库及Embedding流水线》

作者：郭人通（博士）Zilliz导读：所谓的数字化、智能化，很大程度上以数据的分析和检索能力为支撑。新兴的热点数据应用如内容推荐、药物发现、跨模态数据搜索、智能问答等，都依赖向量化的数据语义表达与检索。像上世纪关系数据与关系数据库的崛起一般，随着非结构化数据高速增长，向量与向量数据库成为了现今系统领域的焦点。Github 万星姊妹项目 Milvus/Towhee 给出了开源的向量数据解决方案：1）基于神经网络的数据分析与向量化流水线，2）分布式大规模向量数据库。这两个开源项目系统性地解决了非结构化数据分析、语义向量化编码、海量向量存储/分析/检索等问题。15.哈啰出行精选案例①《广告主视角下的信息流广告算法探索》

作者：周冰倩哈啰出行导读：近年来效果广告备受青睐，各大广告平台层出不穷，比如巨量引擎、广点通、百度等，且都集成一套完备的智能投放体系以帮助广告主实现效果转化。本文从广告主角度来探讨如何降低转化成本和提升效果，针对拉新场景下广告主侧的数据不足现象，结合平台可提供的部分数据，提供了一些算法建模思路和可行性方案，最终经在哈啰实际业务中验证降本在10-20%左右。16.美团精选案例①《美团到店综合业务场景下的知识图谱构建与应用实践》

作者：李翔美团导读：美团到店综合业务涵盖了本地生活中的休闲玩乐、丽人、亲子、结婚、宠物等众多行业。面对用户需求多样化、行业差异大等挑战，如何快速构建高质量的知识图谱，不断提升供需匹配效率是摆在我们面前的问题。本次分享将围绕上述问题展开，和大家探讨如何通过层次化和结构化的图谱体系以及高效可复用的挖掘流程和模型，挖掘用户在本地生活不同行业中的多样化需求，实现以用户需求节点为中心并链接商户、商品和内容的到店综合知识图谱的构建，并同时介绍具体的应用形式和应用成果。17.中国移动精选案例①《FlinkX在数据入湖中的应用》

作者：冯江涛中国移动导读：随着本地数据迁移上云、云上数据交换等多源异构数据源数据同步需求日益增多，传统通过编写脚本进行数据同步的方式投入高、效率低、运维管理困难。针对上述问题，基于FlinkX多源异构数据同步框架，实现了用户自建和移动云上消息中间件、数据库、对象存储等多种异构数据源双向读写，云原生On k8s改造，只需简单配置即可满足用户数据快速上云及云上数据高效交换需求，降低开发运维投入，该成果已在移动云多款产品中应用。18.其他精选案例①《用户画像场景与技术实现方案》

作者：赵宏田某科技公司导读：当前用户画像在各行业各公司都有广泛的应用，以至在2021年火出一个新的概念“CDP客户数据平台”。大多数朋友对画像的认知主要是互联网、大数据、打标签等关键词，但是在各行业的实践中却不仅仅是这些。包括互联网app大数据的画像，微信生态的企微、公众号、小程序的客户画像，淘宝、京东、有赞等商家后台接入的客户数据等等都是画像的范畴，我们日常收到的短信、app弹窗、消息推送、接收的企业微信消息等方方面面都接受着画像的影响。提及画像的功能不仅仅承载着打标签，同时包含了用户行为分析、报表数据分析、实时管控预警、营销自动化等方面的应用场景。以上文章收录于DataFun202204期电子月刊中，点击「链接」

，可免费下载电子月刊，保存学习。

DataFun电子月刊为月度干货合集，每月月初发布，免费提供给所有技术人员学习。

除了精选技术文章、内推岗位，每个案例的文末还配有相应PPT和视频学习资料。

上一篇：大便出血肛门疼严重吗

下一篇：北京科技大学，北京化工大学，北京工业大学这几个学校哪个好？