2017年11月9日星期四

除了AI赋能,讯飞年度发布会还上演了一场「意念控制家居」秀

撰文 | 王艺


目前,使用科大讯飞的人次超过 40 亿次,其中 20% 是用于教育学习,其余与社交、生活等相关。科大讯飞董事长刘庆峰在作主旨演讲时表示。


11 月 9 日,2017 年科大讯飞年度发布会在国家会议中心举行。在这场主题为「顶天立地、AI 赋能」的发布会上,我们看到了以语音技术起家的讯飞,正进一步加强 AI 在教育、医疗、车载、家居等领域的落地。在人工智能技术基础上,讯飞针对产品做了大量设计和工程化处理,直击用户痛点,努力实现普惠和赋能。


2016 年成立的消费者 BG,被视作集团最高权重的业务单元,当前该业务尚无营收权重,但它承载了讯飞所有的美誉度和「愿景」。从今年前三季度的表现看,C 端业务占讯飞总业务量的 20%,毛利占 30%,刘庆峰表示,预计在未来,C 端业务将和 B 端与 G 端(比如司法)各占半壁江山。


本次发布会上,我们看到 C 端产品的迭代与创新。


去年发布的晓译翻译机 1.0 已经开售便被抢购一空。通过对已经售出的 20 万台翻译机的超 1 亿次请求进行分析,讯飞发现了晓译翻译机存在的以下三个痛点。


在外出游时,经常会遇到网络不佳的问题,讯飞为此新增离线翻译功能;除英语外,日语、法语、西班牙语的需求非常高,总和大于 80%,为此在新版本中,讯飞进丰富了语种覆盖;在国际局势不稳定的情况下,在外出游或许会需要紧急求救,讯飞在新一代的晓译翻译机背部新增 SOS 按钮,用户按下按钮便可与讯飞本部的救援中心进行连线,中心将根据具体情形帮助用户联络当地大使馆或紧急联络人。


车载语音系统「飞鱼」在常规功能之外,与汽车总线联通,可以控制车辆相关部件,例如车窗、空调。这与阿里巴巴和上汽的合资公司「斑马」语音系统相近,该系统搭载到汽荣威的车辆系统,可直接语音控制车体。不过,区别在于,讯飞还设计了一个「小飞鱼」系统,用户不用换车也能使用讯飞的车载语音技术,「斑马」目前还处在与车辆绑定的阶段。


除此之外,「飞鱼」还与家居智能系统联通,借助声纹识别功能,该助手能够对不同的家庭成员提供定制化的一贯制服务。


智能家居场景下,除了常规的开关窗帘等,讯飞巧妙地将远讲功能运用到了电视视频通话功能中。用户能够在客厅的任何地方通过电视与家人朋友视频,不用对手机麦克讲话。


另外,智能家居还加入了手势控制功能。比如,在电视场景下,选择想要看的电影时,可用手势进行翻页;将食指放在嘴前摆出安静的手势,即可让电视静音。


发布会现场,还出现了「魔幻」的一幕。负责讲解的产品经理身着特定的服装与头盔,演示用脑电波控制家电的开关,展示代表未来的家居场景技术。


不过,目前该技术还不成熟,不能进行广泛的商业化。据刘庆峰介绍,主要有三个方面的原因。施令者必须全神贯注才能完成脑电波指令的发送;仅限于家居场景如「打开空调」、「关闭窗帘」等几十条指令;指令并非实时传送,延迟超过 3 秒。


就在发布会召开的 3 天前,也就是 11 月 6 日,讯飞的「智医助理」在「2017 年国家执业医师考试临床综合笔试」取得了 456 分的成绩,超临床执业医师合格线(360 分)96 分,在安徽省两万多名考生中位列前 100 名。


这在董事长刘庆峰眼中,是「可以载入人工智能史册的事件」。发布会一开始,刘庆峰就兴高采烈地宣布这件事。「有些人认为这个考试全是选择题,简单得不得了。但其实不是这样的,事实上非常难。」刘庆峰会后答记者问说道。「IBM 的 Watson 在医学领域是很有名气的,他们在 2012 年就开始参加美国的医考,到现在也没及格。」


据悉,让「智医助理」参加考试,主要需过两大关。


海量的医学知识在计算机中如何表示,是一大挑战。传统上基于搜索的方案,和构建结构化知识库的方案,面对纷繁复杂的医学知识都明显能力不足。近几年来发展迅速的知识图谱技术,也不足以满足描述医学知识的需要; 以三元组为基础的半结构化知识图谱优点是比较符合人的直观、容易理解,但是知识图谱在描述能力上存在不足,其构建需要专家耗费大量的时间,扩展更新维护都非常困难,所以并不适合执业医师考试这样的大规模复杂任务。


为此,研究团队提出了一整套「语义张量」方法,针对医考需求,利用「多语义深度学习」方法通过学习人民卫生出版社五年制医学本科的全部教材、临床指南和经典病例等资料,获得医学领域张量化的的概念表示和关系表示,让机器拥有了庞大的医学知识库。


运用医学知识去分析和解决问题是第二个挑战,这也是系统能否做对考题的关键。团队提出了包「关键点语义推理」,「上下文语义推理」,「证据链语义推理」在内的多尺度融合推理算法,让机器具备了词汇、句子、段落间的多层次推理能力。


答题时,「智医助理」通过自主思考首先对题干和选项进行全面分析,在拥有的医学知识库中为每个选项寻找成为正确答案的可能证据,衡量评估题干、选项和证据三者之间的相关性和可信度,最终对各个选项证据得分进行综合决策,得出考题的答案。


发布会上,讯飞展示了其三款医疗相关工具,包括大家最熟知的「语音电子病历系统」,解放了医生的双手;能够帮助医生排查肿瘤与结节的「医学影像辅助诊断系统」;以及基于医学知识图谱技术与大数据,能够针对患者病情答疑解惑的医疗对话机器人「智医助理」。三款产品将分别于 11 月、12 月、以及明年 3 月面世。


今年,发布会上亮相的十款产品,五款与教育行业相关。这也再次表明教育 B 端在讯飞业务所占权重。


如何让孩子减少无效的学习时间,进而有时间发展体育特长和业余爱好,事关下一代人。对此,讯飞的「AI+教育」解决方案能够实现「精准教学、因材施教」。


基于人工智能技术,讯飞升级了一系列教育产品。包括帮助任课教师实现自助式课程录制的「智慧微课」;让学生在保留纸笔学习习惯的同时,又能利用人工智能技术进行作业批改的「智慧纸笔课堂」;只要通过拍照,就能实现纸笔作业实时修改反馈的「智慧作业平台」;帮助老师设计考卷的「智慧组卷工具」;以及基于知识图谱技术,为考生指明当下需要解决的知识点并能对知识点掌握情况进行动态跟踪的「智学 2.0」。


目前,这些教育产品已覆盖全国一万所学校、1500 多万师生,在使用过程中产生了 350 万份课件和 800 多万道试题,以及多达 350 亿条全过程数据。


更重要的是,数字化的课程与教学资源能够从一定程度上解决教育分配不公的问题,让山区的孩子也能听到省重点教师的课程。


这一年,讯飞继续进行语音技术上的探索。


2017 年,公司语音技术屡获国际比赛的认可。例如,在感知技术最重要的、国际最权威的语音合成比赛「暴风雪竞赛中」,讯飞已 12 年蝉联冠军。与往年不同的是,随着人工智能技术的进步,今年的比赛中加入了使用无监督学习的规则,也就是在无标记的情况下,让机器自己学习。结果表明,讯飞在蝉联第一的同时,与第二名也拉开了较大的差距。


目前,讯飞语音识别技术已经覆盖 2012 种方言,且准确率超过 90% 方言已接近 10 种。为了让老人、偏远地区人民、以及更多社会人群使用人工智能技术,自成立以来,讯飞不断地投入大量金钱、人力、时间成本录制方言音频。


教育、司法领域大量需要手写识别及机器阅卷技术,目前讯飞的技术也已经超过一般教师评卷水平。今年 8 月,科大讯飞刷新了全球肺结节测试的世界纪录,准确率达到 94.1%。在安徽省立医院等三甲医院的测试结果表明,其对肺结节的判断已经达到了三甲医院平均医生水平。


]]> 原文: http://ift.tt/2je7u5W
RSS Feed

机器知心

IFTTT

Uber与NASA携手发布出租车「上天」计划,带你远离交通拥堵

来源 | The Verge

编译 | 张震、高静宜


11 月 9 日,Uber 的飞行汽车 Elevate 项目再次回归大众视野。


Uber 宣布,公司计划在 2020 年之前在洛杉矶运营空中出租车服务运营。这也是继沃斯堡和迪拜之后,Uber 将展开飞行汽车试验的第三个城市。此外,Uber 产品负责人 Jeff Holden 还表示,公司已与美国国家航空航天局 (以下简称 NASA)就飞行汽车项目 UberAIR 展开合作,并签署了一份《空间行动协议》,旨在构建一个全新的空中交通控制系统,并对低空飞行以及可能的自动驾驶飞行器展开管理。


Uber 通过一段视频展现了对未来空中出租车服务的愿景,视频详细地描绘了一位职场妈妈乘坐飞行出租车回家的全过程。


                


对人们来说,飞行出租车好似一个乌托邦一样的存在。乘客可以通过 Uber 的应用软件预定飞行服务,然后前往附近建筑楼顶的空中「登机口」,并凭借手机作为身份标识通过闸门。虽然这种场景中并不存在安保,不过还是会迅速的称一下乘客包裹的重量,以免超出 Uber 飞行出租车所能承载的范围。


服务人员面带微笑,穿戴耳机、护目镜和 Uber 背心,引领乘客穿过屋顶登上飞行出租车。飞行出租车不仅具备客机的固定翼设计,还装配了直升飞机的倾转桨。在视频中,即便叶片快速转动,人们的头发也纹丝不动。飞行期间,职场妈妈看见地面上拥堵的交通状况,脸上露出了无奈的神情。而她自己则在空中畅通无阻的快速飞行,与此同时,她的家人也正在翘首期盼着她的归来。在视频快要结束的时候,屏幕上出现了一行字:「比你想象的还要更近。」


那么,到底有多近呢?


Uber 在去年发布的一份白皮书中就介绍了空中汽车共享技术。不过,该项目一直面临着巨大的制约因素。在 Uber 的设想中,空中飞行器采用电动无人驾驶模式,能够把乘客从一个屋顶送往另一个屋顶,而且还可以实现垂直升降(一般称为 VTOL)。可是这种设想目前仍只存在于人们的想象中,还没有出现在人们的实际生活中,也缺少支持这一交通工具的基础设施。有关专家表示,工程和规则方面的制约使得这种飞行汽车很难真正实现。


但这并不是说,飞行汽车永远无法实现。目前,至少 19 家公司正在开展飞行汽车项目,不只有波音、Airbus 这样的巨头企业,也有一些小型初创公司加入这一领域的研发,包括谷歌创始人投资的 Kitty Hawk 以及刚刚完成 9 亿美元 B 轮融资的德国「飞行出租车」初创公司 Lilium 等等。


与此同时,Uber 在这方面也取得了长足的进步。为了更好地补全飞行汽车的功能从而提供随叫随到的飞行出租车服务,Uber 相继与飞机制造商、地产公司以及监管部门展开合作。今年 4 月,Uber 就针对该项目在达拉斯举办了相关会议。Holden 表示,之后会陆续公开 Uber 的合作伙伴,尤其是该领域的制造商。


Holden 在一次采访中谈到,虽然目前还没有一个可展示的 Demo,不过,Uber 的 Elevate 项目的进程已超出了许多人的想象。「外人很难看到这种巨大进步的,因为这种东西目前还只是在研发阶段。」他说,「我们感到非常开心。能够让我们的汽车制造合作伙伴有机会补齐在空中运行的性能,是一件很有趣的事情。这样一来,他们建造的车辆也可以满足我们的需要,从而让 Elevate 项目成功落地。总而言之,我们已取得了很大的进展。」


事实上, Elevate 项目也颇具现实意义,让传统的交通方式由二维延伸至三维。目前,全球范围内私人飞机的出售量增势明显,飞行出租车的落地也给那些拥有私人飞机的用户提供了一种新思路,这也是 Uber 选择极力发展该项目的重要因素之一。




对于 Uber 来说,与 NASA 展开合作绝对是一件大事。首先,由于获得了最权威的空中机构的认可,Uber 可以有力地反驳人们所发出的质疑。其次,NASA 在 2015 年出台了一个无人机交通管理项目(UTM),用于管理无人机的飞行情况,如今 Uber 也参与进了这个项目。正如一位媒体人在文章中所写的那样:「在过去 5 年里,无人机系统(UAS)相当于是在西部荒野中运行的,如今这一境况面临终结,下一代空中交通控制系统将取而代之。」


Holden 表示,Uber 不会等到 2020 开始才开始检验这项技术。公司的计划是着手在达拉斯-沃斯堡国际机场周围运行一架低空飞行的直升机,直升机将与空中交通管制员合作,不会侵占他们的飞行路线,并以此测试 NASA 的 UTM 系统。


「NASA 非常关注 UTM 系统的应用情况并对框架展开压力测试,致力于确保它们可以正常运行,」Holden 说,「实际上,Uber 也希望这个新型空中交通系统能够投入到实际中去。」


专家表示,Uber 之所以选择与 NASA 展开合作,除了出于合规性、安全性等方面的考量,也希望借此机会借鉴 NASA 的技术成果。虽然这次合作不涉及任何资金的转移,不过允许 Uber 和 NASA 分享该领域的技术与专业知识。公司已经挖走了 NASA 在垂直升降机方面相当资深的专家 Mark Morre,帮助公司实现 Elevate 项目的推进。


在谈到 Uber 为什么把飞行汽车计划延伸至洛杉矶这样一个经常发生交通大拥堵的城市时,Holden 表示,这是一个自然而然的决定。「洛杉矶是当今世界上交通最拥堵的城市之一,」他说,「那里基本上这种没有公共交通基础设施。在那里,我们能够非常廉价地部署一种不会让交通情况恶化的公共交通方式。洛杉矶的官员已经签署了这项协议,Uber 也表示,他们将举行社区会议以便听取居民对噪音、污染等方面的担忧。与在达拉斯和迪拜的合作相似,Uber 也和当地屋主签定了一个协议,为其垂直起降飞机发展一个屋顶「登机口」。Uber 预测,利用飞行汽车和普通汽车的组合方式,从洛杉矶国际机场 LAX 到城市中心的斯台普斯球馆只需花费不到 30 分钟的时间。




「洛杉矶是新技术的完美测试场地,我非常期待能看到它在未来几年之中的成长。」洛杉矶市长 Eric Garcetti 在 Uber 提供的一份声明中如是说道。


不过,陪审团对于某些问题还未达成定论,例如城市中的垂直起降系统是将为下一代交通运输系统带来作出客观贡献,还是会沦为超级富豪为了避免交通拥堵的出路。Holden 认为,如果是为了后者,那么 Uber 根本没有必要进行这个项目。


「这不是 Uber 该干的事儿,」他说,「如果我们真的开发了飞行出租车,那么你必须要相信我们会给它一个非常低廉的价格。」


Holden 预言,飞行出租车的票价并不昂贵,乘坐 Uber 甚至会比自己开车还要便宜。如果这听起来很耳熟,那是因为这是公司一直以来的一个使命,也就是终结个人拥有汽车的时代。空中出租车服务只不过是实现达成这个目标的众多方法的一种手段罢了。


有许多怀疑论者认为,飞行汽车,尤其是电动飞行汽车项目根本没有继续下去的价值。他们怀疑这件事是否会带来经济效益,以及乘客是否会不惜搭上性命来乘坐这种飞行汽车。「显而易见,我喜欢能飞的东西。」Elon Musk 曾这样告诉彭博社,「但是很难想象飞行汽车会成为一种可扩展的解决方案。」他还表示,他担心汽车的部件会从天上掉下来,从而造成人员伤亡。不过,Holden 认为 Musk 的评价只是一种「即兴的、随意的言论」。


「我们仔细研究过,也相信飞行汽车是可以扩展的。」Holden 说道,「我们在这方面做了很多工作,所以能够建立空中港口,也可以掌握空中汽车运行的吞吐量,进而开动每天每个城市中数以万计的飞行汽车。」


当你后退一步,再看看 Uber 提出的方案时,会发现这个计划是非常令人难以置信的。未来,空中每天将会有数以万计的飞行汽车,电动无人飞行器嗡嗡作响,从一个屋顶飞跃至另一个屋顶,而人们体验这样的旅程却只需花费 20 美元。


这是确实是一个非常天马行空的想法。尽管前方的道路尚未清晰,不过 Uber 坚信,这条路上将不会有荆棘。


]]> 原文: http://ift.tt/2yo4XZD
RSS Feed

机器知心

IFTTT

Just as the relaxing individual the sort person is also simple to discover from the cosmetic search.

You're guaranteed your completely free plagiarism statement for the whole medicine article you allow it to be from us. Creating analytical documents isn't an easy task and thus students have to get assistance from on-line essay writing businesses. MLA citation style guide is utilized by authors of academic papers to be able to provide tips on the method the essay is needed to be completed. Contrary to other article writing firms, we've got writers which are educated on how best to publish academic papers with various essay writing styles. It really is frequently good to pick the proper story essay theme on your own work. If you're really considering focusing on the way to write an excellent essay, you need to proceed through these hints. Before starting out, you can find a couple issues you need to know about about writing an essay. Once, you have your name on you, you can begin attempting to find useful information on your own essay. Our write my paper providers have certified essay writers who'll help you to compose study papers.

Designate a split that is clear.

Here are a couple of suggestions which will assist compose an outstanding article. It really is on this unique website that you are capable to find all the help you'll get in medicine article writing. You can find many objects that could type the discipline of any analytic article. There are assorted types of essays dependant up on how they approach and deal with the issue under their discourse. Narrative essay matters aren't easy and it's a very detail directed and incredibly special genre of writing. Authors of analytical essays should get enough info regarding the content they might be currently talking about. One ought to understand the 3 main areas of the essay. When you've shortened your Issue, you may need to set a purpose for your own essay.

You can do this by doing an internet search such as "wire supplier + [your zip/postal code]".

Every person needed to write essays once he is provided with homework for the exact same inside their informative daily existence. Article writing is just a endeavor a large number of the persons don't like doing the very same. An excellent communication composition must additionally have the function of offering advice whenever needed. The thesis statement is the only phrase that expresses the primary idea of the complete article. Moreover, It offers the future guidance of whatever is contained within the essay. Article creating is frequently a daunting employment to many folks Before the authorship of the type of analytical article, the author would split the person's existence into distinct sections which will be emphasized in a sequential way. Independent writing is fast turning out to be a typical means for people to procure a dwelling from house. Fellow freelance writers may function as the ideal way to obtain work.

Take the almond from the refrigerator if you are prepared to prepare it.

There's a fantastic requirement for talented authors, those who find how much do thesis papers cost to buy themselves not frightened to perform the employment. This isn't the first choice for writers that are seeking to get more money by using their writing, but it may end up being good for new writers that do not are interested in being troubled with beginning their very own web site.



via MSRA http://ift.tt/2yMjXVe
RSS Feed

msracn

IFTTT

2017年11月8日星期三

从标题到反馈:写好一篇论文的十条基本原则

良好的学术写作习惯对于职业发展和学术进步非常重要。一篇结构清晰的文章可以让读者和审阅者被文中叙述的内容打动,进而试图理解和确认研究主张的观点,并将这些贡献传递到更广范围。然而,很多科学研究者难以写出高质量的文本——他们通常没有论文写作训练的经历。关于如何让读者被你的论文吸引,PLOS Computational Biology 的这篇文章向我们提出了十大原则,试图点出论文写作最需要注意的问题。遵循这些写作原则可以让你的论文更具吸引力,同时提高写作效率。


介绍


写作和阅读论文是科学家必备的核心技能。成功发表的论文通常作为科学家及其未来成就的衡量标准。一篇论文从写作到发表,涉及多方因素,且有各自的动机和优先权。编辑要确定论文是有意义的;评论要审查论文结果是否证明了结论;读者需要快速抓取论文的核心理念以决定是否详细了解;作者想要传达其核心观点,并向专家证明其发现是可行的。你可以从语句、段落、章节、全文等多方面做好论文的结构,从而更好地满足以上各方需求。


清晰的交流同样关键,因为「概念迁移」在科学的交叉授粉过程中是受限的一步,在生物科学及其他领域更是如此。由于科学分工越发细化,加强概念连接也就变得越发重要(和困难)。跨学科领域的交流只有在论文质量有保证的前提下才奏效。


要证明论文价值性和可靠性,需要数据和逻辑的支持。如果不认真规划论文逻辑,作者经常会缺失数据,或者在获取结论的过程中出现逻辑错误。尽管这些论文超出了我们的范围,其中逻辑必须极其清晰,才能有力地证明论文结论。


以下是优化论文结构的十条简单规则。前四条规则适用于论文的所有部分,以及其他沟通形式,比如许可和海报。中间四条规则有关论文主要部分各自的主要目标。最后两条规则为有效构建论文原稿提供了过程启发式的指导。


原则(规则 1–4)


写作即交流。因此,读者体验是首等重要的,所有的写作服务于这一目标。当你写作时,心中要时时有读者。以下四条规则是关于如何赢取读者。


规则 1:论文有一个中心主旨,并体现在标题中


如果读者一年之后还在向其同僚讲起你的论文主旨,这篇论文就是成功的。尽管论文在抵达最后的主旨之前通常要经过一些创新步骤,但要有所侧重。论文要聚焦在一个主旨上,同时关注多个方面会降低论文的说服力和传播性。


一篇论文的最重要元素是标题,你所读的标题的数量要远大于论文。标题首先映入读者眼帘,其质量好坏决定了读者是否会进一步阅读论文摘要。


标题不仅传达论文的中心主旨,也提醒你聚焦在传达这一主旨的文本上。科学毕竟是复杂数据中简单原则的抽象,而标题是对一篇论文的最后抽象。提前并定期地思考标题不仅有助于论文的写作,也有利于推进实验设计或者理论拓展。


第一条规则最难执行,因为它直面科学的核心挑战,即在有数据和逻辑支持的前提下使主旨和/或模型最为简单。最后,寻求平衡的斗争可能会导致一个多方面的贡献。比如,一篇技术论文也许同时描述了新技术及其生物结果,统一这两方面的桥梁是清晰地描述新技术如何用于新的生物学。


规则 2:假设写作对象对论文内容一无所知


由于你是某领域的世界一流专家,你需要通过论文发表的形式来接受小白读者的验证。绝大多数写作错误来自这一困境。论文作者需要设计安排所有的元素,决定对读者产生何种影响,进而努力达成这一目标。因此要从小白读者的角度去思考和写作论文。


由于读者在面对不理解的字词时会变的灰心丧气,清晰界定技术术语很有必要。不要使用缩写和首字母缩略,以免读者返回之前章节查看其含义。


懂得人类心理学的广泛知识有助于论文写作。比如,人类的记忆机制只能记住少量的术语,相比中间更容易记住开头和结尾。因此任何时候都要减少读者需要牢记的论文次要部分的数量。


规则 3:坚持原因、内容和结论(Context-Content-Conclusion/C-C-C)结构


绝大多数流行的(即令人难忘的)故事都具有起承转合的结构。从起头设置故事背景,在中间发展故事,导向结局——发现的问题找到了结论。这种结构减少了读者问「为什么你要这样说?」(缺少原因)或「所以呢?」(缺少结论)的机会。


讲故事有很多种方法,大多数时候,其中的差异在于读者的耐心与否。缺乏耐心的读者需要快速浏览核心内容,所以你可以把最重要的内容放在前面(就像新闻报道那样)。而 C-C-C 结构则是为那些有耐心,愿意花上时间理解深层次意义的读者准备的。这种结构的缺点在于无法吸引没有耐心的读者。不过,这个问题已经由目前论文的标题和摘要所缓解了。因此,看完介绍的读者很可能受到吸引从而开始阅读后面的正文。此外,「内容第一」的文章结构在科学范畴中可能会让读者催生出「作者主张的东西缺乏原因」,从而让文章变得缺乏可信度,所以我们主张将 C-C-C 结构作为科学文献的默认写作方式。


C-C-C 结构在多个尺度上定义了论文的结构。对于整篇论文来说,介绍段落设定了背景,实验结果是内容,而讨论章节带来了结论。在段落尺度上,C-C-C 结构则意味着首句定义主题或原因,中间几句话提出新的观点以供读者思考,最后的几句话得出结论。


偏离 C-C-C 结构的论文往往难以阅读,但是作者经常会因为自传性质的倾向而这么做。在科研生涯里,我们总是把最多的时间花费在生产内容上,而忽略了其他工作。我们进行实验,发展现有成果,并使用人类认知的能力来整合不同思想。想要将这一切按照时间顺序写进论文里是很自然的倾向。但对于读者来说,我们活动的大部分细节都是无关紧要的——读者不会关心达成结果之前的时间线,他们只关心论文最终的主张和支持它的逻辑。所以,我们所有的工作都必须重新格式化,这样才能让内容变得有意义,结论能被人理解和记住。


规则 4:避免委婉,使用并行优化的逻辑流


避免委婉:只有论文的中心思想才需要被多次提及。此外,每个主题只需要覆盖它自己的章节,从而减少主题变化的次数。相关的语句或段落应该围绕主题,而不是被无关的内容所侵占。思想也是这样,比如基于两个原因我们认为 xxx,两段叙述之间不要出现其他内容。


使用并行方法:与之相同的是,对于段落和句子,并行的信息需要用并行的方式来表达。并行主义可以让人们阅读文章更加轻松。例如,如果我们对于某种解释优于其他解释有三个独立的理由,我们应该用相同的语法来传递这些信息,这样可以让读者更加专注于理论。在句子或段落中多次使用相同的单词是没有问题的。请抑制自己使用不同单词阐述相同概念的欲望——这只会让读者思考其中的意义是否有所不同。


论文组成(规则 5-8)


论文的摘要、介绍、结果与讨论都适用于 C-C-C 结构,但各有些许不同。在下图中,我们将讨论这些专门结构的问题:




图 1. 论文三个重要部分的结构总结。Note:摘要是其中最特别的,它包含所有三个要素(原因、内容和结论),所以包含了所有三种颜色。


规则 5:在摘要中总结所有要点


摘要是大多数读者唯一会读的部分,这意味着摘要必须有效地表达论文的完整信息。因此,摘要的结构是高度保守的。以下详细介绍了每一个 C-C-C 要素的细节。


必须在背景介绍中让读者明白这篇论文要解决什么问题。第一句先介绍具体研究所属的更宽泛的领域为读者做一个思维定位,然后将背景逐渐缩小,直到研究者提出的开放性问题为止。成功的背景介绍能通过讨论文献中的缺失部分(即具体的问题)以及问题的重要性(即具体的问题和论文相关的宽泛领域之间的关系),为区分论文贡献和当前最佳打好基础。


最后,结论中将解释论文的结果,以回答背景介绍部分结尾提出的问题。通常在结论部分中还会有第二部分用于强调该结论如何推动宽泛领域的发展(即「重大意义」),尤其是在拥有广泛读者群体的更流行的杂志中。


这样的结构能使你避免摘要中最常出现的错误,即在读者开始理解之前就讨论结果。好的摘要通常需要多次精炼以确保结果能精准对应解决的问题,犹如钥匙能精准匹配其锁头。宽泛—狭窄—宽泛的结构能使你的读者群体更加广泛,同时保证你的观点的可信度(通常基于结果中有限的一部分)。


规则 6:在介绍中讨论这篇论文的重要性


介绍中需要强调在目前的知识或方法中出现的问题,以及这个问题的重要性。通常会使用多个逐渐具体化描述的段落并在最后清晰地指出文献中的缺失,然后再用一个段落总结这篇论文会如何解决这个问题。


第一段可以解释为什么细胞分化是一个很重要的议题,而且在该领域中,其本质原因尚未被了解(领域问题)。第二段可以解释一个具体的细胞类型中对分化的未知部分,比如星形细胞(子领域问题)。第三段可以提供一些线索,即一种特定基因可能用于驱动星形细胞的分化,然后说明这个假设尚未被测试过(你将要解决的子领域问题)。对问题的描述会使读者期待论文将给出的结果。


介绍中的每一个段落(除了最后一段)的结构都服务于加大差距这一 目标。每一段首先将读者定位到论文的主题(一到两个语境句),然后,在介绍论文中所针对的相关领域的关键的「未知」(结论)问题之前,先解释相关文献中的「已知」内容。在过程中需要不断给出问题背后的疑问的线索,这些线索将逐渐带领读者到达论文中未证实的假设或未被开发过的方法,并说服读者这个问题是可以解决的。在介绍中不该有超出论文目标的宽泛文献综述。这种集中于问题的结构能使有经验的读者更好的评估论文的潜在重要性,因为他们只需要关注所讨论的问题的重要性。


介绍的最后一段比较特别:概括地总结解决你刚提出问题的结果。它和摘要的不同点在于:不需要描述背景(已经在前面给出),对结果的描述更加具体,简单地预观论文的结果(如果需要的话)。


规则 7:用多个逻辑相关的陈述句(可辅以图表)给出支持论文中心思想的结果


结果部分需要使读者相信你的数据和逻辑能够支持核心观点。每一个科学论证都有其独特的逻辑结构,决定了论据的呈现方式。例如,一篇论文提出一个假设,检验某种度量方法在研究的系统中有效,然后使用这种度量方法证明假设是错误的。或者,一篇论文中可以提出多个假设(互相排斥),然后通过证据逐渐证伪,直到有一个假设被证实。论述需要包括服务于整体逻辑的约束和方法。


在论文准备的大纲阶段(详见规则 9),概述论文结果支持观点的逻辑结构,并将其转换为一系列陈述句,这些句子可以作为「results」部分的子标题(或图的标题)。大多数期刊都允许这种格式,不过即使你选择的期刊不允许,这些标题在写论文的时候也很有帮助,可以作为段落的开头介绍,或者在提交之前删除。这种清晰的逻辑结构使读者更加容易跟上论文的思路。


图、图的标题和图注非常重要,因为它们展示了对论文论点最客观的支持数据。此外,为节省时间直接略过摘要的读者往往会选择看图。因此,图的标题应该传达分析结论,图注应该解释结论如何得出。制图本身也是一门艺术。Edward Tufte 的书介绍了学习这门技艺的黄金法则。


「results」部分的第一段比较特殊,因为它通常概括解决引言所述问题的所有方法,以及论文提出的重要创新方法。大部分读者不读「methods」部分,因此这一段可以使读者大致了解论文使用的方法。


「results」章节后续的每一段都先以一两句介绍这一段要解答的问题,比如-「为了验证没有任何假象……」(To verify that there are no artifacts)、-「我们的度量的再测信度怎样?」(What is the test-retest reliability of our measure?),或者「我们接下来将测试……」。段落的中间部分展示问题涉及的数据和逻辑,然后以问题答案结尾。-例如,结论是没有检测到假象。-这样的段落结构可以让有经验的读者对论文进行事实核查。每一段的最后一句是总结句,这样很方便就可以找出哪一个结论值得质疑,以及检查每一段的逻辑。每段的结果都是一个逻辑陈述,后续的段落依赖于前面段落的逻辑结论,就像数学文献中的定理一样。

 

规则 8:讨论如何填补差距、论文的局限性和论文与该领域的相关性


讨论部分解释研究结果如何填补引言所述的差距,介绍研究的局限性和该研究对该领域的作用。这通常需要简单地重述研究结果,讨论局限性,然后介绍该研究对领域未来发展的核心贡献。讨论部分的第一段比较特殊,因为它通常概括了「results」章节的重要成果。一些读者会跳过结果部分,那么这一段至少可以让他们大概了解研究结果。


讨论部分后面的段落首先描述该论文的优缺点,然后通过与相关文献对比来评估该论文的优缺点。讨论部分通常会用一种聪明、非正式的方式谈论该论文的贡献,或者该贡献未来可以扩展的方向。

例如,第一段总结研究结果。二到四段介绍缺点,以及未来研究如何处理这些缺点。第五段介绍该论文如何推动领域发展。这样一步步地让读者在恰当的语境中理解论文结论。


写作流程(规则 9 和 10)


为了写出一篇好论文,作者可以妥善安排写作流程,养成好的写作习惯。论文不同内容的影响力各有不同,因此你应该根据其重要程度合理安排投入的时间。此外,接受来自同事、同学的反馈也可以帮助作者修改论文。选择正确的写作流程可以让写论文变得事半功倍。


规则 9:把时间花费到关键的地方:题目、摘要、图和大纲


科技文章的核心逻辑非常重要。它也是论文研究实验阶段和论文写作阶段的连接桥梁。因此,将正在进行的实验(比如在实验室会议上)转化为比较正式的文档,这在一定程度上可以帮助构建论文大纲。


你还应该按照各章节的重要程度分配时间。看题目、摘要、图的读者远远多于查看论文其他内容的读者,「methods」部分是阅读者最少的章节。所以,根据重要程度合理分配时间。


我们可以在写作之前先进行规划,从而高效利用各章节所花费的时间。写一个大纲。我们喜欢为每一个计划要写的段落写一句不太正式的句子。这通常有利于开始进行该段落的写作,而这些句子有可能成为节标题(section header)。文章有一个整体架构,因此每一段都应该担任推进文章的特定角色。这个角色最好在大纲阶段就进行详细检查和确认,减少在不适合文章的段落上浪费的时间。


规则 10:获取反馈,然后简化、重新使用、再次构造这个故事


我们可以把写作看作一个优化问题,你需要同时优化故事、大纲和所有句子。因此,不过分依赖自己原本的写作内容非常重要。在很多情况下,删去整段文字和重写是比在原有的内容上进行编辑更快速的输出优质内容的方式。


有很多信号提醒大家必须修改论文手稿(见表 1)。例如,如果你无法在几分钟内向同事描述论文的大纲,那么很明显读者也无法理清大纲。你必须进一步精炼论文内容。找到这些与优秀写作违背之处并进行改正可以帮助你全面提高文章质量。



表 1. 十条规则以及如何辨别文章违反了这些规则。


写好一篇论文通常需要来自多人的贡献。测试读者是必须的,可以确保整个论文是流畅的。他们还可以给出宝贵的建议,关于文章节奏哪里过快或过慢。他们可以辨别出什么时候需要回到绘图板,重新讲述整体内容。评审也非常有用。非科技反馈和冷漠的评审结果通常说明评审没有「get」整个文章脉络。非常具体的反馈通常能够指出某一段逻辑性不足。用积极的方式接受反馈非常关键。来自他人的反馈非常必要,因此找几个可以在这方面提供帮助的同事是提高论文质量的基本方法。为了维持好关系,不要忘了也阅读他们的文章作为回报哦~


讨论


本文的重心在于论文的结构,为此不得不省去了很多写作的细节问题,包括选词、语法、创造过程和合作。关于如何写作的文章可能永远都不完备,还有很多文章介绍如何进行科学论文写作 [见参考文献 9-17]。


个人风格通常使写作者偏离死板、保守的文章结构,阅读创造性地改变规则的论文也是一种乐趣。但是,和生活中的很多事情一样,完全掌握标准规则是成功改变规则的前提 [18]。遵循上述原则,科学家才能够将知识传递给更多的读者,连接不同的学科领域,更高效地实现整合科学。


参考文献

1.Hirsch JE (2005) An index to quantify an individual's scientific research output. Proc Natl Acad Sci U S A. 102: 16569–16572. pmid:16275915

2.Acuna DE, Allesina S, Kording KP (2012) Future impact: Predicting scientific success. Nature. 489: 201–202. pmid:22972278

3.Paiva CE, Lima JPSN, Paiva BSR (2012) Articles with short titles describing the results are cited more often. Clinics. 67: 509–513. pmid:22666797

4.Carter M (2012) Designing Science Presentations: A Visual Guide to Figures, Papers, Slides, Posters, and More: Academic Press.

5.Murdock BB Jr (1968) Serial order effects in short-term memory. J Exp Psychol. 76: Suppl:1–15.

6.Schimel J (2012) Writing science: how to write papers that get cited and proposals that get funded. USA: OUP.

7.Tufte ER (1990) Envisioning information. Graphics Press.

8.Tufte ER The Visual Display of Quantitative Information. Graphics Press.

9.Lisberger SG (2011) From Science to Citation: How to Publish a Successful Scientific Paper. Stephen Lisberger.

10.Simons D (2012) Dan's writing and revising guide. http://ift.tt/2zvFIHU [cited 2017 Sep 9].

11.Sørensen C (1994) This is Not an Article—Just Some Thoughts on How to Write One. Syöte, Finland: Oulu University, 46–59.

12.Day R (1988) How to write and publish a scientific paper. Phoenix: Oryx.

13.Lester JD, Lester J (1967) Writing research papers. Scott, Foresman.

14.Dumont J-L (2009) Trees, Maps, and Theorems. Principiae. http://ift.tt/Qy6M7u [cited 2017 Sep 9].

15.Pinker S (2014) The Sense of Style: The Thinking Person's Guide to Writing in the 21st Century. Viking Adult.

16.Bern D (1987) Writing the empirical journal. The compleat academic: A practical guide for the beginning social scientist. 171.

17.George GD, Swan JA (1990) The science of scientific writing. Am Sci. 78: 550–558.

18.Strunk W (2007) The elements of style. Penguin.


]]> 原文: http://ift.tt/2hhymhd
RSS Feed

机器知心

IFTTT

浙江大学CSPS最佳论文:使用卷积神经网络的多普勒雷达手势识别

浙江大学 Jiajun Zhang、Jinkun Tao、史治国提交的论文提出了使用多普勒雷达采集数据,使用多层卷积神经网络进行处理的手势识别新方式,获得了 International Conference on Communications, Signal Processing, and Systems 2017 大会的最佳论文。


手势识别作为一种人机交互方式,一直是计算机科学领域的主要研究课题之一。这一技术使得计算机无需借助传统的交互硬件(比如鼠标和键盘)即可理解人类指示。传统手势识别系统主要基于摄像头和图像处理算法 [1]。尽管基于摄像头的手势识别系统提供了可靠的识别率,但它们存在局限性,最明显的一个是易受光的亮度的影响 [2]。此外,当处理器和电池资源有限时,对计算和能耗的高需求将限制其应用。而且,基于摄像头的识别系统本质上可能在公共使用中引起隐私问题。


近期,基于雷达的手势识别引起了公众的兴趣。与传统方法相比,基于雷达的手势识别具备独有的优势。首先,摄像头在昏暗的光下很难捕捉到清晰图像,而雷达信号不受影响,可以在黑暗的环境中广泛使用。第二,连续波多普勒雷达传感器检测时频信号散播的移动物体多普勒效应,这可以通过成本低廉的架构来实现。即人类手势引起的多普勒相位频率改变仅限于几赫兹,模数转换器(ADC)的价格和基带设备的成本较低。因此,基于雷达的手势系统在实际应用中具备显著优势。


然而,目前手势识别方向上的大多数研究都是基于摄像头的,使用雷达的研究非常少。一些研究使用频率为 Band E 或 WLAN 的雷达进行识别。一些研究人员使用单站雷达在 E-band 频率上测量人的手势,其频率范围在 60GHz 到 90GHz 之间。但是对于日常使用而言,这一频段过于昂贵。在另一些论文中,研究人员使用 Wi-Fi 信号在居家环境中识别人的手势,因为 Wi-Fi 信号可以穿墙,所以这样的系统可以使用很少的发射源覆盖整个屋子。但是,目前人们的日常生活中使用 Wi-Fi 技术的路由器非常多,2.4GHz 的 Wi-Fi 频段已经非常拥挤了。


另一方面,近年来出现几项使用微波雷达检测人类跌倒(一种身体姿势)的研究。[9]–[11 展示了一些有代表性的研究。对一般动作中的高精度跌倒检测由计算机中的 ZigBee(无线传感器网络)模块完成。此外,[10] 设计和测试了一种相干调频连续波(FMCW)雷达传感器,用于在家中和医院里的长期无线跌倒检测。通过分析对象运动过程中的逆合成孔径雷达(ISAR)图像中的雷达散射截面(RCS)、范围和多普勒频移,可以从一般动作(比如坐)中分辨出跌倒。此外,有些研究者同时使用了视频和超宽谱雷达进行研究 [11]。他们使用隐马尔科夫模型从接收的信号中提取特征以识别动作类型。然而,手势识别和跌倒检测的区别在于,手势识别需要更细粒度的信号处理。


在这篇论文中,研究者提出了一种基于多普勒雷达、使用卷积神经网络(CNN)的手势识别系统。和其它专注于对不同手势的接收雷达信号建模的研究不同,他们的方法专注于基于样本数据集构建雷达信号和手势的关系。具体来说,他们选用的多普勒雷达有频率为 5.8GHz 的双信道,用于获取四种标准常用手势的大量数据样本;然后使用短时傅里叶变换和连续小波变换作为两种主要的时频分析方法,对接收到的信号进行分析;最后,使用卷积神经网络对时频分析结果进行分类。此外,他们还讨论了以下两个因素对手势识别准确率的影响:手势和传感器之间的距离,手势的尺度(scale of gesture)。结果显示,手势和传感器之间的距离变大时,准确率略有下降但仍保持高水平。而手势的尺度几乎不会对准确率产生影响。然而,卷积神经网络的本质属性表明,要想对不同人的手势识别达到更高的准确率,则需要更多样本。结果表明,这篇论文提出的基于多普勒雷达和卷积神经网络的手势识别系统可以对特定手势达到非常高的识别准确率。


图 1. 硬件原型


图 2. 硬件结构


图 5. 四个标准手势:(a)圆;(b)方;(c)对号;(d)叉号


图 7. 使用 STFT 的时频分析。(a)圆;(b)方;(c)对号;(d)叉号


图 9. 卷积神经网络架构示意图(共 10 层)


图 13. 不同手势尺度情况下,训练集与测试集上的分类准确度和损失:(a)r = 0.2;(b)r = 0.5(单位为米);实验中使用的是如图 9 所示的卷积神经网络架构,使用 50 个随机选择的训练集和测试集。


论文:Doppler-Radar Based Hand Gesture Recognition System Using Convolutional Neural Networks



论文链接:http://ift.tt/2hUEbSk


手势识别一直是人机交互方面的热门方向之一。传统基于摄像头的手势识别系统很难在黑暗环境中使用。在这篇论文中,我们提出了基于多普勒雷达,使用卷积神经网络的手势识别系统。我们使用相对经济的双信道 5.8GHz 多普勒雷达传感器获取四个标准手势的大型数据集。然后对接收到的手势信号进行时频分析,我们使用卷积神经网络来对手势进行分类。实验结果证明了该系统的有效性,准确率为 98%。此外,我们还研究了识别距离和手势尺度等相关因素。


]]> 原文: http://ift.tt/2hUQa2k
RSS Feed

机器知心

IFTTT

腾讯「AI In All」的背后,是开放AI技术能力,探索腾讯内外的应用场景

「过去一年中,我们听到不少公司在谈到未来的时候都会谈到一个词,叫做「All In AI」,腾讯在 AI 方面的战略也用一个词概括,那就是「AI In All」,希望我们研发的 AI 技术并不是关起门来服务自己的产品,而是开放出来,分享给全行业,真正和各行各业的实际应用结合,从而让 AI 得到实际价值的发挥。」11 月 8 日,腾讯 2017 年全球合作伙伴大会在成都举办,腾讯 COO 任宇昕在演讲中提到。

 

那么,腾讯如何 AI In All?


答案是:以「基础研究、场景共建、AI 开放」为战略层层递进。在基础研究方面,据腾讯 AI Lab 主任、杰出科学家张潼介绍,腾讯将着重于语音识别、自然语言处理、计算机视觉、机器学习这四大领域。而 AI Lab 自成立以来,至今为止共发表论文 81 篇,目前在 CVPR、ACL、ICML 共入选论文量 21 篇,NIPS 发表 1 篇。


场景共建


在场景共建层面上,游戏、社交和内容作为腾讯的三大核心优势,自然会首先使用到 AI 技术。

 

1. 游戏场景

 

在此前的演讲中,张潼曾经提到游戏与 AI 的结合,他认为,游戏场景能够积累决策系统、增强学习等一系列基础技术,而这些基础技术的积累,除了能在游戏场景中发挥作用之外,也可以在无人车等领域得以使用。


在腾讯合作伙伴大会 11 月 8 日的「创想·人工智能」论坛中,腾讯 AI Lab 机器学习中心负责人刘晗发表《游戏 AI:虚拟世界对物理世界的赋能》演讲时表示,游戏 AI 是人工智能与博弈论的一个交叉领域。从小的方面来说,游戏 AI 研究如何用人工智能技术来提升人类玩游戏的体验。从大的方面来说,游戏 AI 研究人,智能体,以及环境之间的复杂交互关系,而这远不止于游戏本身。


对于腾讯来说,则对游戏研究的三个核心能力感兴趣。第一是感知的能力,第二是对话的能力,第三是决策的能力。刘晗认为,这相当于人类大脑的三个不同区域。比如说,决策相当于左脑,对话能力相当于右脑,而感知相当于人类大脑的后脑那一部分。


具体来说,涉及对外界环境的感知,根据状态做出的决策,人与智能体之间的对话。比如,围棋中的游戏场景,可以通过感知棋盘的全局表达状态决定在哪里落子。现实中的无人车,同样可以通过视觉,激光雷达的感知对方向盘,刹车等动作做出决策。



「这是一个富有挑战而令人振奋的研究课题,研究当中累积的经验、方法与结论,能在更广大深远的范围被利用。」刘晗认为,首先能够打通虚拟与现实世界的藩篱,从而赋能物理世界,比如无人车和机器人的发展;其次,游戏中对话智能的研究,或能成为通向强人工智能的重要路径;第三,研究游戏中人、智能体和环境的交互,能让智慧城市这样复杂而意义深远的项目受益。


但是,刘晗认为,研究游戏 AI 挑战很大。


一,游戏的状态空间过大。比如很多战略型游戏的状态空间是无穷维,远大于围棋空间。因此,腾讯研发了机器人大脑,这是整合了模型、算法与计算体系结构的解决方案,整个系统的核心是使用深度神经网络来建模超大规模的状态空间。


二,大量复杂的多玩家游戏需要多个智能体协调操作。然而,刘晗指出,目前还缺乏这方面的理论支持。而要设计出一个完善的多智能体 AI,将强化学习的价值网络与描述宏观战略的行为树进行互操作,并使其融合是核心问题所在。


三,绝大部分游戏 AI 是用模拟器在一个理想化的虚拟世界中开发。如何打通虚拟与现实,同样是一个核心挑战。腾讯的解决方案结合反向强化学习及动态探索机制,对游戏 AI 中的参数进行贝叶斯升级。以此保证在现实世界花最小的成本来成功部署。



「这一套感知、对话与决策模块,形成了一套通用系统,未来有望在现实中被应用到更多场景中,这就是我们说的虚拟对现实的赋能。」刘晗在演讲中总结道。

 

2. 社交场景

 

社交方面,张潼在此前曾表示,他们主要关注对自然语言的理解、语音识别、智能家居的交互,例如语音识别和机器翻译,还有智能助手、聊天机器人、人机对话的开发。


同样是在「创想·人工智能」论坛中,腾讯 AI Lab 机器翻译平台侧负责人杨月奎则带来了他们在机器翻译中的最新进展,而在现场,他的演讲内容同样进行了实时翻译。


然而,杨月奎认为实时翻译,并不容易。尽管因为神经网络机器翻译(NMT)的出现,错误率大幅下降,但杨月奎认为,依然面临众多挑战。比如,会面临译文忠实度的问题,很有可能译文丢失或跑飞。对此,他们则使用交互式的 Attention 模型来增强 Attention 机制,利用重构模型加强翻译完整性的学习,利用 Rerank 模型选取更优的译文。


而有一些低频词,训练难度也更大,有些实体词很可能翻译不出来。为了加强对低频词的训练,引入子词模型。


此外,对训练数据的规模,也有着更高的要求。因此,为了提升训练效率,他们采取并行训练框架,支持多机多卡并行训练。除此之外,还加入了深层网络、残差网络和模型融合等技术。



据介绍,目前他们已支持中文、英语、粤语、日语、韩语、法语、德语、西班牙、越南语等多种语言。


对于社交 AI 的研究,张潼则表示,下一个社交是基于人机对话的涉及,语音识别,会持续下去。会跟业务部分合作,也会有一些新的产品推出。


3. 内容场景


「分析内容、理解内容、理解用户,更好的匹配,更好的搜索推荐是我们在研究的重点。」张潼说。

多媒体则是其中重要的部分。「我们正在进入一个「多媒体内容消费」的时代,每个中国人每天都在消费大量的多媒体内容,也在提供大量的多媒体数据。在 AI 领域,多媒体 AI 将赋予计算机处理、识别、理解内容的综合能力。从图像到多媒体,数据维度大大提升,我们希望走出一条自主的创新之路,因此发展了三个基础 AI 能力:处理、识别、理解。」腾讯 AI Lab 计算机视觉中心负责人刘威在「创想·人工智能」论坛中发表以《多媒体 AI:睁开机器之眼》为主题的演讲时说。


刘威介绍,在这些方面,他们取得了一些科研成果。比如在 OCR(Optical Character Recognition,译为光学字符识别)任务中取得六个第一,其中三项是针对网络图片文本,另外三项是针对聚焦场景文本。



另外,由于视频人脸检测和识别需要克服视频中人脸的低分辨率、姿态、遮挡、表情、妆容、光照等挑战。在这方面,他们也取得了比较好的结果。


此外,还有图像描述生成技术。「图像识别,是计算机识别目前最有挑战的课题之一。因为要进行图像到文本之间的有机过度。要全局和局部表示,图像和文本之间用原创的机制连接它们,整个架构进行端对端的训练,最后才能得到一个很好的模型。」刘威说。


「我们对整个深度学习架构(包括卷积神经网、长短时记忆网、多阶段注意力)进行端对端的训练,实现图像到文本的有机过渡,得到一个很好的模型。这项技术目前在最权威的 MS COCO 数据集上排名第一。」刘威表示。


基于这项技术,他们开发出了一个中文图标生成的系统,「每个人上传一张图片到 QQ 空间,我们都知道这些图片在说什么。同时可以对图像文本进行一个对话,对于可视的内容进行交互。如果残障人士看不到这个图像,这个系统可以告诉他图像里面是什么。」刘威介绍道。


而在 7 月,腾讯 QQ 上线了视频滤镜的功能。据刘威介绍,这个需要深度网络保持时空的一致性,高效实现渲染后的视频。


「这里面有很多层技术,我们有一系列 3D 图象算法,这个定位都是实时运行,当你的手机动的时候,我的算法仍然在跑,能够永远的知道你这个 3D 的东西在什么地方?我们的视觉算法是实时的运行。有很多运营的场景。包括我们的游戏娱乐,包括场景呈现与机器人识别都有。」刘威表示,他们的目标是打造最高级的技术,最好的技术,希望建立一个非常好的技术矩阵,涵盖多种处理视频分发,最后能够覆盖整个 AI,并将这些技术持续开发输出给合作伙伴。


作为一个 AI 实验室,张潼表示,在跟腾讯内部的应用场景合作时,AI Lab 会把自己的成果展示给业务部门,比如在人脸识别技术上,腾讯在评测的数据上拿到了两项第一,而人脸识别的多处研究就是如何把模型做得更强以便提升人脸识别效果,而有了这个模型之后,业务部门就会找上门来,比如视频部门,会来咨询如何识别观众关心的明星,以提高用户体验。


探索AI与传统行业

 

除了将 AI 技术应用于内部的产品之外,腾讯还积极探索 AI 与传统行业的结合,「腾讯觅影」就在这样的背景下推出。它由腾讯互联网+合作事业部牵头,聚合了 AI Lab、优图实验室、架构平台部,融合了图像识别、深度学习等技术的医疗应用。


据介绍,「腾讯觅影」每个月能够处理上百万张医学影像,而食管癌、肺癌、糖尿病三个病种的筛查,已经进入临床预试验。「腾讯觅影」对食管癌早筛的准确率超过 90%,肺结节早筛系统准确率超过 95%,可检测 3 毫米及以上的微小结节,糖网病变识别准确率更高达 97%。


除了食管癌、肺结节和糖网病变外,「腾讯觅影」还将进军乳腺癌、宫颈癌等病种的筛查。


除了医疗之外,据介绍,腾讯 AI 在金融、零售、其他商业方面还将有大量应用案例,接下来腾讯将借助腾讯云和 AI 开放平台,为「AI in all」战略服务。

 

开放AI能力


「过去一年多公司在全世界请了很多科学家,提高 AI 研发能力,腾讯有很多游戏音乐等场景可以 AI 化,外界的很多传统行业需要 AI 改造,要打造生态平台。」腾讯开放平台副总经理王兰在演讲中表示。


在平台层上,则将以腾讯开放平台为载体,从扶持合作伙伴、AI 人才引进、项目打造,降低 AI 创新创业门槛,使腾讯 AI 与行业协同发展,「下一年要开放腾讯的 AI 能力,比如腾讯开放平台,但是明年希望给大家更多的服务。这里面会做一系列平台型的工作,对于开发者中小企业自己做不了的事情,可以利用开放平台增加自己的能力。」张潼说。


腾讯AI Lab除了研究AI基础能力和探索应用场景之外,跟高校合作培养AI人才,也是他们的一个计划


目前,在腾讯 AI 能力对外开放上,腾讯开放平台已推出了人工智能站点 AI.QQ.COM 和腾讯 AI 加速器。前者会接入腾讯的情感分析、智能闲聊、机器翻译、自然语言处理、语音识别、语音合成、声纹识别等 AI 能力。而后者自 2017 年腾讯发布 AI 加速器计划之后,从全球 1000 个项目中挑选了 25 家进行合作,入驻腾讯 AI 加速器的公司不仅可以获得资源等方面的支持,AI.QQ.COM 的 AI 能力也正在向他们开放。


]]> 原文: http://ift.tt/2AnwI50
RSS Feed

机器知心

IFTTT

GitHub上的五大开源机器学习项目

想提高机器学习技能?何不看看 GitHub 上最流行的开源机器学习项目呢?本文介绍了 GitHub 上最流行的 5 个开源机器学习项目。


机器学习是当前最热的技能。今年早些时候,Stack Overflow 发布了一项涉及大量开发者的调查结果,机器学习专家的收入仅次于 DevOps 专家。


机器学习正处于鼎盛时期,但对新手来说,开源通常有点让人疑惑。因此,今天,我们就来了解一下 GitHub 上最顶尖的五个开源项目,看看该领域的发展情况以及你能够帮助做些什么。毕竟,开源项目的成功取决于全世界开发者和程序员的协作!


说明:该列表指特定项目,而非库或框架的集合。因此,几个排序结果是比较随意的,全凭个人爱好。


让我们开始吧!


1. TensorFlow – ★ 76.2K


TensorFlow 排在首位丝毫不会让人惊讶。它是目前 GitHub 上最流行和杰出的机器学习项目。

TensorFlow 最初是谷歌机器智能研究组织中的谷歌大脑团队的一部分,它是一个开源的软件库,可使用数据流图进行数值计算。它具备易用的 Python 接口和简单直接的其他语言接口,来构建和执行计算图。


「我们开源 TensorFlow 是希望为世界上每个人构建一个机器学习平台。」Jeff Dean 今年早些时候说道。TensorFlow 1.0 快速、灵活,且在初始的设计中TensorFlow就是面向产品应用部署的。它还包括适合 Java 和 Go 的实验性 API、用于目标检测和定位的新型安卓 demo,以及基于相机的图像风格化。


近日,谷歌发布了 TensorFlow 1.4.0 版本。GitHub 地址:http://ift.tt/2hlkTs6


2. scikit-learn –★ 22.7K


第二个是 scikit-learn,机器学习 Python 模块。scikit 包括大量简单高效的数据挖掘和数据分析工具。scikit 的基本动机是「为了科学」(For Science)!它对不同的环境(context)都有高度的可使用性和可复用性。此外,它内建了著名的数据科学工具,如 NumPy、SciPy 和 matplotlib。

今年早些时候,我们和 Groupon 公司软件工程主管 Adam Geitgey 进行了交谈,话题关于开发者如何涉足机器学习领域。


Geitgey 说:「肯定要先学 Python。Python 是目前最流行的机器学习编程语言,适合解决大部分机器学习问题(不包含深度学习)。你只需要安装几个 Python 库:scikit-learn、NumPy 和 pandas。这些工具都是免费的,且可以很好地协同运行。」


3. PredictionIO –★ 10.6K


PredictionIO 是这个列表中的新来者,这就使得其高排名更加令人印象深刻。上个月,阿帕奇软件基金会发布了 PredictionIO。PredictionIO 建立在一个当前最佳的开源堆栈上。这个机器学习服务器的设计目的是让开发者和数据科学家可以在任何机器学习任务中创建有预测能力的引擎。


开发者可以通过全栈和可用模板创建可部署的应用,而不需要将各种底层技术拼凑起来。


PredictionIO 是直接建立在 Spark 和 Hadoop 上的,因此它允许开发者使用自定义模板快速建立和部署一个引擎作为生产就绪网页服务。它是用 Scala 编写的。


PredictionIO 专注于简化数据基础架构管理。你可以无缝地将你实现的机器学习模型纳入自己的引擎。PredictionIO 还能通过系统式处理和预制评估方法对机器学习建模进行加速。


4. SWIFT AI – ★5K


Swift AI 在 GitHub 长期备受好评。Swift AI 是一个完全用 Swift 编写的高性能深度学习库,支持所有苹果平台。这对 MacBook 用户来说是个好消息!


无可否认,Swift 的 repo 有点少,特别是跟 TensorFlow 相比。然而,Swift AI 确实为喜欢使用 Swift 编写神经网络的用户提供了引以为豪的工具。其中,NeuralNet 类包含一个全连接前馈神经网络。NeuralNet 支持深度学习,具备灵活性,并可用于性能关键应用程序。


5. GoLearn – ★4.7K


进入前 5 名的还有 GoLearn,这是一个 Go 语言的相当齐全的机器学习库。这个项目仍然处于活跃的开发状态,正在寻求对用户反馈感兴趣的开发者。如果你用过 SciPy、WEPA 或 R,GoLearn 的机器学习模型对你来说不会陌生。它的数据使用平面表表示(和电子表格类似),用于训练和预测。在开始一个新项目的时候,想要的工具总是比实际拥有的多得多。如果你希望拥有一个更好的项目,GoLearn 是一个不错的选择。


结论


不管你想要加入知名项目或还只是个新手,GitHub 上总有一个适合你的开源机器学习项目。这不仅能够丰富你的简历,对整个社区来说也是好事。所以,赶快行动吧!


原文链接:http://ift.tt/2hlkTZ8


]]> 原文: http://ift.tt/2jcKVyc
RSS Feed

机器知心

IFTTT

M2 模型杀回 Coding 和 Agent 领域,MiniMax 想要「普惠智能」-InfoQ每周精要No.900

「每周精要」 NO. 900 2025/11/01 头条 HEADLINE M2 模型杀回 Coding 和 Agent 领域,MiniMax 想要「普惠智能」 精选 SELECTED a16z 将 3000 万开发者标价 3 万亿 网友:几个初创公司 + 大模型就...