<div dir="ltr">Hi Tony,<div><br></div><div>Nice to hear from you. CC'ing two relevant mailing lists.</div><div><br></div><div>The ML project might be a bit of a stretch for you, unless you know you can handle a lot of learning on the fly along with the coding. This particular project is going to be research-y since we don't really know what will work (if anything). We expect the student to suggest and explore possible approaches that are worth trying in this area. So, I would say it's doable, just depends on how much effort you're willing to put in. The application needs to convince us there are enough options to try during the summer that something useful could come out of it.</div><div><br></div><div>For the crawler project, the idea is to discover as many compchem logfiles online as possible, and parse the data out of them. The proposal should at a minimum cover data discovery, classifying documents as potential compchem logfiles, and, well, parsing them finally. I think this project needs a solid design of the process, since there will be challenges with scale. It would be natural to connect this also with a system that provides access to the search results, maybe some existing repository/database of compchem results that already exists.</div><div><br></div><div>HTH</div><div>- Karol</div><div><br></div><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Mar 8, 2018 at 9:47 AM, Yang, Tony <span dir="ltr"><<a href="mailto:zeyu.yang14@imperial.ac.uk" target="_blank">zeyu.yang14@imperial.ac.uk</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">





<div lang="EN-GB" link="blue" vlink="#954F72">
<div class="m_3123984362829640321WordSection1">
<p class="MsoNormal">Dear Karol,</p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Greetings!<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">I am a final year chemistry student at Imperial College London, UK. After learning some Python in my first two years of undergraduate study, I became interested in programming, and self-taught some deeper programming knowledge.<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Last summer, I did a computational organic chemistry research project in Prof. Kendall Houk’s lab in UCLA. During this project, I used Gaussian for geometry optimisations and energy calculations. And I remember the need for additional Python
 scripts to extract thermodynamic data from Gaussian’s output file. This was a tedious task to do and I really appreciate cclib’s effort in interpreting a range of computational chemistry softwares’ output.<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">I am interested in the ‘Machine learning applied to parsing computational chemistry output’ project you proposed. But I only have minimum machine learning experience (I have tried Tensorflow’s MNIST tutorial). Would you say this project
 is still suitable for me to do?<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">I am also interested in the ‘Discovering computational chemistry content online’ project. I think it’s very important that computational resources are not wasted to repeat already done calculations. Would you kindly give me a bit more details
 on the crawler in aid of my proposal?<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Hope to hear back from you soon!<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Best wishes,<u></u><u></u></p>
<p class="MsoNormal">Tony<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal" style="margin-bottom:1.2pt;margin-left:19.2pt;line-height:18.0pt;background:white">
<u></u><span style="font-size:10.0pt;font-family:Symbol;color:#252525"><span>·<span style="font:7.0pt "Times New Roman"">       
</span></span></span><u></u><b><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:#252525">Name:</span></b><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:#252525"> Zeyu Tony Yang<u></u><u></u></span></p>
<p class="MsoNormal" style="margin-bottom:1.2pt;margin-left:19.2pt;line-height:18.0pt;background:white">
<u></u><span style="font-size:10.0pt;font-family:Symbol;color:#252525"><span>·<span style="font:7.0pt "Times New Roman"">       
</span></span></span><u></u><b><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:#252525">Email:</span></b><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:#252525"> <a href="mailto:zy2414@ic.ac.uk" target="_blank">zy2414@ic.ac.uk</a><u></u><u></u></span></p>
<p class="MsoNormal" style="margin-bottom:1.2pt;margin-left:19.2pt;line-height:18.0pt;background:white">
<u></u><span style="font-size:10.0pt;font-family:Symbol;color:#252525"><span>·<span style="font:7.0pt "Times New Roman"">       
</span></span></span><u></u><b><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:#252525">Country & timezone:</span></b><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:#252525"> UK, GMT +0<u></u><u></u></span></p>
<p class="MsoNormal" style="margin-bottom:1.2pt;margin-left:19.2pt;line-height:18.0pt;background:white">
<u></u><span style="font-size:10.0pt;font-family:Symbol;color:#252525"><span>·<span style="font:7.0pt "Times New Roman"">       
</span></span></span><u></u><b><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:#252525">School Name & Study:</span></b><span style="font-size:10.5pt;font-family:"Arial",sans-serif;color:#252525"> Imperial College London, Chemistry, Year
 4 (Final year)<u></u><u></u></span></p>
<p class="MsoNormal"><u></u> <u></u></p>
</div>
</div>

</blockquote></div><br></div></div>